[누구나 알고있는]N-Gram 방식의 색인기법
N-Gram 방식 1) 문서의 모든 어절들을 추출한다. 빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 하여 모든 어절들을 추출한다. 2)불용어를 삭제한다. 불용어 리스트를 이용하여 색인어로서 무의미한 어절들을 삭제한다. 3) 나머지 어절에서 비색인분절들을 삭제한다. 비색인 분절은 단일 조사( -가, -이, -를, -으로, -부터), 복합조사(-으로부터, -에서부터), 어미, 접미사 등이 결합된 다양한 형태의 음절 들을 포함한다. 4) 나머지 색인 분절을 N-gram들로 분할하여 색인어로 설정한다. N-Gram방법이란 인접한 N개의 음절을 말한다. 예를 들면 '잡학사전'에 대한 2-gram은 '잡학', '학사', '사전'이다. 5) 가중치를 설정한다. 의미 없는 N-gram의 생성으로 인해 질의에 부적합한 ..
2007. 7. 18.