본문 바로가기
Technology

[누구나 알고있는]N-Gram 방식의 색인기법

by 마루날 2007. 7. 18.
반응형
N-Gram 방식

1) 문서의 모든 어절들을 추출한다.

빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 하여 모든 어절들을 추출한다.


2)불용어를 삭제한다.

불용어 리스트를 이용하여 색인어로서 무의미한 어절들을 삭제한다.


3) 나머지 어절에서 비색인분절들을 삭제한다.

비색인 분절은 단일 조사( -가, -이, -를, -으로, -부터), 복합조사(-으로부터, -에서부터), 어미, 접미사 등이 결합된 다양한 형태의 음절 들을 포함한다.


4) 나머지 색인 분절을 N-gram들로 분할하여 색인어로 설정한다.

N-Gram방법이란 인접한 N개의 음절을 말한다. 예를 들면 '잡학사전'에 대한 2-gram은 '잡학', '학사', '사전'이다.

5) 가중치를 설정한다.

의미 없는 N-gram의 생성으로 인해 질의에 부적합한 문서들이 검색될 가능성이 있으므로, 각각의 단어에 가중치를 부여한다.


덧붙여

색인이라는 것은 검색엔진에서 검색 대상이 되는 문서 SET에서 유의미한 키워드를 뽑아서 색인어로 정한 뒤에 출현빈도나 출현위치, 출현문서 정보등을 색인어에 담고 색인어별로 소팅하여 데이터 SET을 만드는 작업이다.

문서에서 어떤 것이 색인어이고 아니고를 구분하기 위해서 사용하는 대표적인 방법이 N-Gram방식이다.



 마루날의 雜學辭典(잡학사전)을 RSS리더로 편하게 구독해서 보세요~

반응형