본문 바로가기

정보검색41

Page Relevancy에서 People Relevancy로 Page Relevancy 검색엔진에서 질의어는 사용자가 검색엔진을 사용하기 위한 명시적인 행동이다. 명시적이라고 말하는 것은 사용자가 입력하는 질의어를 통해서 사용자가 원하는 정보가 무엇인지? 사용자의 검색의도는 어떠한지를 나타내주는 것이 '질의어'이기 때문이다. 하지만, '질의어'만으로는 사용자의 검색요구나 검색의도 등을 알 수가 없다. 대부분의 '질의어'들이 한, 두단어로 이루어져있는데다가 중의성을 포함하고 있기때문이다. 이러한 한계에도 불구하고 검색대상 문서내에 사용자의 질의어의 분포 등을 수학적 모델을 통해서 계산하여 사용자의 질의어에 가장 적합한(relevant) 검색결과를 제공하는 Page Relevant가 기본적이면서도 가장 많이 사용하는 모델이다. Hakia의 People Relevanc.. 2007. 11. 7.
무선검색과 웹 검색의 목표 모바일 컴퓨팅이 대세다 오늘 신문에 보도된 기사를 보니, 얼마전 어떤 모임에서 들었던 이야기가 생각난다. 디지털 기기의 발전은 단순한 새로운 기술이 접목된 기기의 출현이 아니라, 기기와 연관된 산업의 발전뿐만 아니라, 기기에서 사용할 다양한 컨텐츠들의 발전까지 촉발시킨다는 이야기였다. 언제 어디서나 집이나 사무실에서 이용하고 있는 컴퓨팅환경을 이동중이나 집이나 사무실 밖에서도 이용하고 싶어하는 사용자들의 요구를 기반으로 모바일 컴퓨팅은 무서운 속도로 발전할 것으로 보인다. 그렇다면, 검색에서도 무선환경에서 검색에 대한 요구가 분명히 존재하고 있고, 이를 위해서 이동통신사업자나 검색사업자, 기기 제조업자들은 나름대로의 서비스를 제공하려고 노력하고 있다. 유/무선 인터넷 환경에서의 검색 일반적인 유선 인터넷.. 2007. 10. 8.
[검색엔진]Rollyo 개인화 검색(Personalized Search) 개인화 검색은 검색엔진 업계에서 거의 매년 나오는 이슈 중 하나이다. 일반적인 개인화 검색은 사용자의 선호도나 인구통계학적인 정보 등을 기반으로 하여 검색결과를 사용자에 최적화하여 제공하는 것을 의미한다. 사용자 개인의 프로필을 가지고 색인, 콜렉션, 랭킹 등에 반영하려고 하는 시도가 주로 이루어진다. 하지만, 많은 개인화를 위한 사용자의 프로필을 만들어주는 개인화 엔진 및 개인화 검색의 수준이 아직 매우 낮아서, 대부분 사용자들이 개인화 검색의 결과에 대하여 만족하지 못한다. Rollyo 개인적으로 개인화 검색에 대한 아이디어를 만들면서 이미 똑같은 서비스가 있다는 것을 알게되어(2006년 1월)나를 좌절하게 만든 roolyo.com은 검색결과에 대한 .. 2007. 8. 18.
무선검색의 주요 Player에 대하여 무선검색이 뭔가? 무선검색이라는 것이 mobile search인지 wireless(lan) search 인지 정의하기가 어렵다. 개인적으로 정의를 내려보면, '휴대용 정보기기에서 이루어지는 정보검색'이라고 말하고 싶다. 정의를 보면 무선검색의 가장 큰 특성 2가지를 알 수가 있다. 하나는 '휴대가 가능하다'와 또 다른 하나는 '휴대용 정보기기'라는 것이다. 우선 '휴대가 가능하다'는 것은 결국 'CDMA/Wibro/Wi Fi'중 하나를 통해서 네트워크(인터넷 포함)에 접속이 가능하다는 것이고, '휴대용 정보기기'라는 특성을 보면 일반적으로 손바닥 반만한 크기의 액정 사이즈를 갖고 있는(일부 PMP 또는 게임기는 좀 크지만) 정보기기를 가지고 정보검색을 이용하게 된다는 의미가 될 것이다. 무선검색의 주요 .. 2007. 8. 7.
Google CSBE Custom Search Business Edition 작년 10월에 웹 사이트 운영자들에게 구글 수준의 검색서비스를 제공한다는 목표로 만들어진 구글 Custom Search Engine을 토대로 하여 XML을 통해 자신의 검색결과를 정의할 수 있도록 한 CSBE가 출시하였는데, 가격은 5,000 페이지 검색 1년에 100$로 가격이 정해져있다. 평소에 자신이 운영하는 웹 사이트나 블로그에 구글 수준의 검색서비스를 제공하면서, 검색결과를 자신의 웹 사이트나 블로그에 맞추기를 원하는 사용자들을 대상으로 하는 서비스이다. 구글 검색의 ASP? SaaS? 검색엔진 업체들의 오래된 비즈니스 모델 중 하나가, 검색서비스를 ASP형태로 제공하는 것이다. 검증된 기술력을 바탕으로 검색 UI의 커스터마이징을 지원하면서.. 2007. 7. 18.
[누구나 알고있는]N-Gram 방식의 색인기법 N-Gram 방식 1) 문서의 모든 어절들을 추출한다. 빈칸, 마침표, 쉼표, 따옴표 등을 구분자로 하여 모든 어절들을 추출한다. 2)불용어를 삭제한다. 불용어 리스트를 이용하여 색인어로서 무의미한 어절들을 삭제한다. 3) 나머지 어절에서 비색인분절들을 삭제한다. 비색인 분절은 단일 조사( -가, -이, -를, -으로, -부터), 복합조사(-으로부터, -에서부터), 어미, 접미사 등이 결합된 다양한 형태의 음절 들을 포함한다. 4) 나머지 색인 분절을 N-gram들로 분할하여 색인어로 설정한다. N-Gram방법이란 인접한 N개의 음절을 말한다. 예를 들면 '잡학사전'에 대한 2-gram은 '잡학', '학사', '사전'이다. 5) 가중치를 설정한다. 의미 없는 N-gram의 생성으로 인해 질의에 부적합한 .. 2007. 7. 18.