반응형
다이나믹 색인
검색엔진 기술 중에서 지금은 보편화된(?) 기술 중 하나가 다이내믹 색인입니다. 동적 색인이라고도 하는데요. 간단하게 설명을 드리면 다음과 같습니다.
색인이라고 하는 것은 검색 대상이 되는 정보를 가져와서 색인어(주로 명사)별로 출현빈도 등의 기준에 따라서 해당 색인어를 가지고 있는 문서의 정보를 나열해서 미리 정의해 놓은 데이터구조로 쌓는 것을 색인이라고 합니다. 색인을 만들어 놓아야 사용자들이 검색엔진에 검색을 하면 입력된 검색 질의어에 해당하는 색인의 정보를 가져와서 검색결과로 화면에 뿌려지게 됩니다.
그래서 보통 색인은 정적(static)으로 이루어지는데, 검색대상 정보를 모아서 한번에 색인을 하게 됩니다. 검색대상 정보가 많지 않거나 자주 업데이트가 되지 않는 경우라면 괜찮지만, 검색대상 정보가 많아지거나 자주 업데이트가 되는 경우에는 동적으로 색인을 하게 됩니다.
검색하러 왔는데, 최근 데이터가 없으면 사용자의 외면을 받기에 대부분의 검색엔진들은 바로 바로 수집된 데이터에 대해서 색인을 해서 검색결과에 반영하는 과정 – 이를 다이내믹 색인이라고 – 을 하게 됩니다.
실시간 검색? 근실시간 검색!
요즘 많이 들리는 실시간 검색은 또 다이내믹 색인과 좀 다릅니다. 실시간 검색의 뉘앙스는 마치 새로운 정보가 올라오면 바로 검색결과에서 확인할 수 있는 것처럼 느껴지지만, 위에서 설명한 것처럼 색인이라는 시간이 소요되기에 실시간에 가까운 검색입니다.(뭐 거의 실시간에 가깝다는 의미로 근실시간 검색이라는 말을 사용하는 경우도 있더군요)
실시간 검색이 존재하지 않느냐 그런 것은 아닙니다. 일반적인 검색엔진이 아니라 DBMS에서는 실시간 검색이 가능합니다. DB에 데이터가 추가되면 바로 검색에 반영이 되어 나오게 되는데, 일반적인 검색엔진에서는 사전적인 의미 그대로의 실시간 검색은 절대로 불가능합니다. 아무리 작은 데이터여도 데이터가 생성된 시점으로부터 검색엔진이 색인 하기까지는 동시에 이루어질 수 없고 시간차가 당연히 발생하게 됩니다.
그래서 실시간에 가까운 검색은 존재하여도 실시간 검색은 존재하지 않는다고 보시면 됩니다. 다만, 트위터와 같이 속보성이 중요한 컨텐츠의 경우에 있어서는 트위터에 새로운 트윗이나 리트윗이 올라온 시점과 검색엔진의 색인에 반영되는 시간차를 최소화할 수 있어야 합니다. 한마디로 근실시간 검색이 가능하도록 해야 합니다.
위에서 많이 보편화되었다고 말씀 드렸지만, 실제로 다이나믹 색인은 기술적으로나 운영을 위한 인프라 측면에서 고급 검색기술에 속하고 인프라도 많이 소요됩니다. 트위터와 같이 속보성이 중요한 데이터를 근실시간 검색을 하자면 검색엔진이 빠른 다이나믹 색인속도를 낼 수 있어야 하고 그에 따른 인프라가 필수적으로 지원되어야 합니다.
그래서 트위터 검색결과가 별로라고 많이들 이야기하는 이유도 서비스 운영주체로서 모든 정보를 가지고 있음에도 트위터 특성을 살린 검색이 안되기에 구글이나 MS와의 제휴에 나서는 것인지도 모릅니다.
대화검색
트위터 검색이 주목을 받으면서 트위터 검색 = 실시간 검색이라는 이야기를 하는 분들이 계신데요. 제가 보기에는 실시간 검색이라는 특징(정확하게는 근실시간 검색)을 가지고 있는 대화 검색이라고 부를 수 있을 것 같습니다.
트위터를 검색한다고 하면 특정 트윗 하나만 근실시간으로 검색하면 되는 것이 아니라 트윗과 해당 트윗에 대한 리플라이와 리트윗 등을 함께 검색할 수 있어야 하는데, 이를 위해서는 대화를 추적해야 하고 이는 결국 대화뭉치를 검색할 수 있는 검색이 되어야 합니다.
즉, 검색대상 데이터가 트위터의 트윗과 같은 속보성을 띠는 대화뭉치를 대상으로 하는 검색을 실시간 검색으로 부르기 보다는 대화 검색이라고 부르는 것이 맞아 보입니다. (소셜검색이라고 하는 분도 있는데, 소셜네트워크의 컨텐츠를 검색하는 것이 소셜검색이 아닙니다. 관련해서는 별도로 포스팅을 하겠습니다.)
아무튼 최근 검색엔진과 관련해서는 의미를 이야기하거나 실시간을 이야기 하는데, 결국 소셜미디어와 소셜네트워크의 발전으로 인해서 새로운 형태의 컨텐츠들이 생산되고 있기에 대화검색과 같이 이를 제대로 검색할 수 있는 새로운 시도가 계속되어야 할 듯 합니다.
마루날의 雜學辭典|잡학사전을 RSS리더로 편하게 구독하세요~
검색엔진 기술 중에서 지금은 보편화된(?) 기술 중 하나가 다이내믹 색인입니다. 동적 색인이라고도 하는데요. 간단하게 설명을 드리면 다음과 같습니다.
색인이라고 하는 것은 검색 대상이 되는 정보를 가져와서 색인어(주로 명사)별로 출현빈도 등의 기준에 따라서 해당 색인어를 가지고 있는 문서의 정보를 나열해서 미리 정의해 놓은 데이터구조로 쌓는 것을 색인이라고 합니다. 색인을 만들어 놓아야 사용자들이 검색엔진에 검색을 하면 입력된 검색 질의어에 해당하는 색인의 정보를 가져와서 검색결과로 화면에 뿌려지게 됩니다.
bookshelf spectrum, revisited by chotda |
그래서 보통 색인은 정적(static)으로 이루어지는데, 검색대상 정보를 모아서 한번에 색인을 하게 됩니다. 검색대상 정보가 많지 않거나 자주 업데이트가 되지 않는 경우라면 괜찮지만, 검색대상 정보가 많아지거나 자주 업데이트가 되는 경우에는 동적으로 색인을 하게 됩니다.
검색하러 왔는데, 최근 데이터가 없으면 사용자의 외면을 받기에 대부분의 검색엔진들은 바로 바로 수집된 데이터에 대해서 색인을 해서 검색결과에 반영하는 과정 – 이를 다이내믹 색인이라고 – 을 하게 됩니다.
실시간 검색? 근실시간 검색!
요즘 많이 들리는 실시간 검색은 또 다이내믹 색인과 좀 다릅니다. 실시간 검색의 뉘앙스는 마치 새로운 정보가 올라오면 바로 검색결과에서 확인할 수 있는 것처럼 느껴지지만, 위에서 설명한 것처럼 색인이라는 시간이 소요되기에 실시간에 가까운 검색입니다.(뭐 거의 실시간에 가깝다는 의미로 근실시간 검색이라는 말을 사용하는 경우도 있더군요)
실시간 검색이 존재하지 않느냐 그런 것은 아닙니다. 일반적인 검색엔진이 아니라 DBMS에서는 실시간 검색이 가능합니다. DB에 데이터가 추가되면 바로 검색에 반영이 되어 나오게 되는데, 일반적인 검색엔진에서는 사전적인 의미 그대로의 실시간 검색은 절대로 불가능합니다. 아무리 작은 데이터여도 데이터가 생성된 시점으로부터 검색엔진이 색인 하기까지는 동시에 이루어질 수 없고 시간차가 당연히 발생하게 됩니다.
그래서 실시간에 가까운 검색은 존재하여도 실시간 검색은 존재하지 않는다고 보시면 됩니다. 다만, 트위터와 같이 속보성이 중요한 컨텐츠의 경우에 있어서는 트위터에 새로운 트윗이나 리트윗이 올라온 시점과 검색엔진의 색인에 반영되는 시간차를 최소화할 수 있어야 합니다. 한마디로 근실시간 검색이 가능하도록 해야 합니다.
위에서 많이 보편화되었다고 말씀 드렸지만, 실제로 다이나믹 색인은 기술적으로나 운영을 위한 인프라 측면에서 고급 검색기술에 속하고 인프라도 많이 소요됩니다. 트위터와 같이 속보성이 중요한 데이터를 근실시간 검색을 하자면 검색엔진이 빠른 다이나믹 색인속도를 낼 수 있어야 하고 그에 따른 인프라가 필수적으로 지원되어야 합니다.
그래서 트위터 검색결과가 별로라고 많이들 이야기하는 이유도 서비스 운영주체로서 모든 정보를 가지고 있음에도 트위터 특성을 살린 검색이 안되기에 구글이나 MS와의 제휴에 나서는 것인지도 모릅니다.
대화검색
트위터 검색이 주목을 받으면서 트위터 검색 = 실시간 검색이라는 이야기를 하는 분들이 계신데요. 제가 보기에는 실시간 검색이라는 특징(정확하게는 근실시간 검색)을 가지고 있는 대화 검색이라고 부를 수 있을 것 같습니다.
트위터를 검색한다고 하면 특정 트윗 하나만 근실시간으로 검색하면 되는 것이 아니라 트윗과 해당 트윗에 대한 리플라이와 리트윗 등을 함께 검색할 수 있어야 하는데, 이를 위해서는 대화를 추적해야 하고 이는 결국 대화뭉치를 검색할 수 있는 검색이 되어야 합니다.
Not getting Involved by TarikB |
즉, 검색대상 데이터가 트위터의 트윗과 같은 속보성을 띠는 대화뭉치를 대상으로 하는 검색을 실시간 검색으로 부르기 보다는 대화 검색이라고 부르는 것이 맞아 보입니다. (소셜검색이라고 하는 분도 있는데, 소셜네트워크의 컨텐츠를 검색하는 것이 소셜검색이 아닙니다. 관련해서는 별도로 포스팅을 하겠습니다.)
아무튼 최근 검색엔진과 관련해서는 의미를 이야기하거나 실시간을 이야기 하는데, 결국 소셜미디어와 소셜네트워크의 발전으로 인해서 새로운 형태의 컨텐츠들이 생산되고 있기에 대화검색과 같이 이를 제대로 검색할 수 있는 새로운 시도가 계속되어야 할 듯 합니다.
(아래 손가락을 눌러주셔도 PC에 아무런 이상이 없습니다.)
반응형
'Technology' 카테고리의 다른 글
Social CRM이란 무엇인가? (4) | 2010.01.14 |
---|---|
클레이 셔키: 어떻게 소셜미디어는 역사를 만들어내는가 (2) | 2010.01.12 |
Social Media Monitoring Tools Evaluation (2) | 2010.01.05 |
원더걸스 기사에서 배우는 구글 트랜드 (0) | 2009.12.11 |
구글과 빙은 왜 트위터에 들이대나 (0) | 2009.11.10 |
소셜웹의 홍수 : 네트워킹 과잉 시대 (2) | 2009.11.05 |
yammer 사용 해 보니... 좋다 (0) | 2009.10.27 |
트위터를 사용하면서 느끼는 것들 (4) | 2009.10.19 |