본문 바로가기

차세대 검색엔진6

실시간 검색은 대화 검색의 특성 중 하나이다. 다이나믹 색인 검색엔진 기술 중에서 지금은 보편화된(?) 기술 중 하나가 다이내믹 색인입니다. 동적 색인이라고도 하는데요. 간단하게 설명을 드리면 다음과 같습니다. 색인이라고 하는 것은 검색 대상이 되는 정보를 가져와서 색인어(주로 명사)별로 출현빈도 등의 기준에 따라서 해당 색인어를 가지고 있는 문서의 정보를 나열해서 미리 정의해 놓은 데이터구조로 쌓는 것을 색인이라고 합니다. 색인을 만들어 놓아야 사용자들이 검색엔진에 검색을 하면 입력된 검색 질의어에 해당하는 색인의 정보를 가져와서 검색결과로 화면에 뿌려지게 됩니다. bookshelf spectrum, revisited by chotda 그래서 보통 색인은 정적(static)으로 이루어지는데, 검색대상 정보를 모아서 한번에 색인을 하게 됩니다. 검색.. 2009. 11. 24.
한국의 대안 검색엔진들 시장은 변화를 원한다. 마켓의 크기가 달라서일까? 미국과 비교했을 때 우리나라에는 새로운 검색서비스가 출현하는 것이 거의 연례행사 수준이라고 할 수 있다. 그래도 작년에는 꽤나 유명한 플레이어들이 등장했었는데, 올해는 내가 잘 몰라서 그런지 몰라도 찾아볼래야 찾아볼 수가 없다. 소프트뱅크 미디어랩의 류한석 소장님 말씀대로 지금의 불경기를 헤쳐나갈 방법 중 하나는 아니, 두개인가? 아무튼.. 벤처의 활성화와 인터넷 생태계의 발전을 가능하게 하는 새로운 서비스들의 등장이다. Alternative Search Engine이란 국내는 너무나 비정상적이게도 신뢰할 만한 웹 컨텐츠가 없다는 핑계를 대면서자신의 사이트에 열심히 컨텐츠를 쌓아서 자신의 컨텐츠를 검색하는 기형적인 모습이다 보니 모든 종류의 컨텐츠를 포털.. 2008. 10. 17.
Semantic Searchengine의 시대가 오는가? 국내 semantic 전문업체인 시맨틱스에 의해 개발된 Qrobo가 CeBIT 2008에서 공개되었다. 그리고 시맨틱스의 글로벌 경쟁업체라고 하는 Hakia에서는 처음으로 자신의 솔루션 중 일부를 라이센스를 통해서 RiverGlass라는 웹 정보 분석솔루션 업체에 공급하였다. 새로운 서비스를 론칭하는 것도 의미 있는 일이지만, 비즈니스가 일어났다는 것이 훨씬 더 중요한 것 같다. 아무튼 이제 본격적으로 Semantic Search의 시대로 접어든 것인가? 하는 의문이 드는데, 이번 비즈니스에 대해서 미국에서도 이슈가 되었던 것 같다.. 구글의 경쟁상대인지? 아니면 완전히 새로운 패러다임의 검색엔진인지? 등등의 많은 얘기들이 오가고 있다고 한다. 구글의 독주가 몇 년째 계속되다 보니 경쟁자의 출현에 다들 .. 2008. 3. 20.
Page Relevancy에서 People Relevancy로 Page Relevancy 검색엔진에서 질의어는 사용자가 검색엔진을 사용하기 위한 명시적인 행동이다. 명시적이라고 말하는 것은 사용자가 입력하는 질의어를 통해서 사용자가 원하는 정보가 무엇인지? 사용자의 검색의도는 어떠한지를 나타내주는 것이 '질의어'이기 때문이다. 하지만, '질의어'만으로는 사용자의 검색요구나 검색의도 등을 알 수가 없다. 대부분의 '질의어'들이 한, 두단어로 이루어져있는데다가 중의성을 포함하고 있기때문이다. 이러한 한계에도 불구하고 검색대상 문서내에 사용자의 질의어의 분포 등을 수학적 모델을 통해서 계산하여 사용자의 질의어에 가장 적합한(relevant) 검색결과를 제공하는 Page Relevant가 기본적이면서도 가장 많이 사용하는 모델이다. Hakia의 People Relevanc.. 2007. 11. 7.
[검색엔진]Hakia hakia URL : http://www.hakia.com/ search for meaning자연어처리 기반의 검색 startup 현재 베타 버전을 시범적으로 운영 중이며 올해 상용 서비스를 선보일 계획온톨로지, 대화 기능 등의 이야기를 하고 있는 것을 보면, 자연어처리 기술의 원천기술을 가지고 있으며, 형태소/구문/의미분석 기술을 가지고 있는 것으로 보여짐[초기화면] [검색결과] 질의어에서 '이순신이 누구인가'에 대한 의미를 가지고, 검색 결과에서 '이순신과 술부'로 이루어진 결과를 하이라이트 해서 보여주고 있음 사용자의 질의에 대한 '키워드'기반 검색에서 더 나아가 사용자의 질의의 '주술적 의미관계'를 추출하고, 검색 대상 데이터에서 '주술적 의미관계'를 추출하여 의미간 연관도 순으로 검색결과를 제공.. 2007. 6. 18.
차세대 검색엔진의 특징 한겨례신문에 재미있는 기사가 올라왔다. 차세대 검색엔진 '인공지능'달아라 차세대 검색엔진은 1) 언어나 문맥의 이해, 2) 인공지능 탑재, 3)사진검색, 4)전문분야 검색 등으로 이루어질 것이라는 기사이다. 1) 언어나 문맥의 이해 지금의 검색엔진은 검색 대상 문서내에 포함된 언어학적 정보나 이를 기반으로 하는 의미까지 분석해 내지 못한다. 정확하게 말하면, 문장내에 포함된 의미를 식별하고 분석하기 위해서는 언어학적으로 잘 구축된 온톨로지나 시소러스 등을 이용한 구문분석 및 의미분석이 이루어져야 하는데, 실생활을 전부 포함할 수 있는 온톨로지의 구축은 실제로 거의 불가능하다.(돈이 많이 들지..) 그럼에도 불구하고 '잠실 근처의 안경점은?' 등과 같은 질의어를 처리할 수 있는 검색엔진이 나온다면, 검색엔.. 2007. 3. 12.