반응형
메타데이터
메타데이터는 데이터의 데이터라고 정의할 수 있다. 말장난 같지만 데이터를 구조화하기 위하여 필요한 정보를 메타데이터라고 부른다.
메타데이터의 정의나 포맷은 사용하는 분야에 따라서 천차만별이라고 할 수 있다. 가장 대표적인 메타데이터라고 한다면 서지정보라고 할 수 있다.
보통 서지정보는 도서명, 저자, 출판사 등의 책에 대한 기본적인 정보를 제공해 주어서 사용자들이 책의 내용을 보지 않고 우선 책의 도서명이나 저자 등의 정보를 통해서 원하는 책을 찾을 수 있도록 하는데 주로 활용된다.
동영상 검색과 메타데이터
동영상 자체를 보는 것과 메타데이터는 크게 상관이 없지만, 무수히 많은 동영상 중에서 내가 원하는 동영상을 찾으려면, 현재의 기술수준으로는 영상의 내용을 사람이 직접 보지 않으면 어떤 내용인지 알 수 없기 때문에 동영상의 메타데이터가 매우 중요한 정보가 된다.
그러나 이 메타데이터라는 것이 주로 제목, 만든 사람, 날짜 등의 정보가 대부분이어서 검색엔진 입장에서는 단지 키워드 몇 개에 불과한 정보이기 때문에 동영상의 메타데이터를 대상으로 검색을 하게 되면 검색결과의 품질이(특히, 정확도) 매우 떨어지게 된다.
왜냐하면 검색방식 중에서 가장 정확도가 떨어지는 것이 질의어로 입력된 키워드와 색인어 키워드의 매칭의 의한 검색이기 때문이다.
제대로 메타데이터를 검색하려면
결론부터 말하자면 키워드로부터 가능한 많은 정보를 뽑아내야 한다. 그러자면 질의어의 경우 질의어 확장을 해야 하고, 색인어의 경우 동의어 관리를 통해서 좀 더 많은 정보를 검색에 반영되도록 해야 한다.
질의어든 색인어든 간에 키워드가 속한 도메인 정보, 키워드의 의미, 타 키워드와의 관계 등을 통해서 키워드를 확장한 개념(?)을 질의어 처리와 색인에 반영을 해야 할 것이다.
질의어 처리와 색인 관리를 위해서는 언어자원(e.g. 사전)을 늘려야 하는데 대표적으로 시소러스나 토픽맵, 온톨로지 등을 구축해야 한다. 뭐 거창한 사전이 안되면 최소한 동의어와 관련 용어 등의 정보를 담은 사전이라도 구축해야 한다.
문제는 대규모의 언어 자원을 구축하는 이런 방법은 결국 비용이 많이 들기 때문에 현실적으로 상용화 서비스에서 구축하기 쉽지 않다는 것에 있다.
Enswer.net
동영상 검색을 위해서 몇 개 안 되는 키워드로 구성된 메타데이터를 활용하는 것은 검색 정확도 측면에서는 근본적인 한계를 갖게 된다.
그래도 Enswer.net처럼 검색결과를 비슷한 동영상끼리 클러스터링해서 제공한다면 키워드 매칭 검색결과에 의해서 만들어지는 중복 검색결과를 제거하는 효과가 있기 때문에 다소 정확해 보인다.
하지만, 이마저도 방법이 되지 못하는 것은 클러스터링을 통해서 중복데이터만을 걸러냈을 뿐 키워드 매칭이라는 근본적인 방식의 변화는 아니기 때문이다.
예를 들어서 질의어로 n개의 키워드(e.g. 이승엽 한신전 히어로 인터뷰)로 된 질의어에 대해서는 중복을 배제한다면 제대로 된 검색결과를 제공하기 쉽지 않기 때문이다.
갑자기 해답도 내기 어려운 메타데이터 검색을 이야기한 것은 지난 제7회 Demo Day 즈음부터 Enswer.net을 사용해 보면서 들었던 생각은 누구나 잘 알듯이 결국 검색성능이 향후 Enswer.net의 성공여부를 좌우할 것이기 때문이다.
한때 국가지식통합검색시스템 이나 특허정보와 같은 대규모의 메타데이터가 쌓여있는 데이터에 대한 검색에 대한 고민이 있었으나 현재는 거의 시도조차 되지 않고 있는데, 앞으로 Enswer.net에서 메타데이터 검색에 대한 획기적인 기술이 개발되기를 바란다.
마루날의 雜學辭典(잡학사전)을 RSS리더로 편하게 구독해서 보세요~
[출처 : flickr.com]
메타데이터의 정의나 포맷은 사용하는 분야에 따라서 천차만별이라고 할 수 있다. 가장 대표적인 메타데이터라고 한다면 서지정보라고 할 수 있다.
보통 서지정보는 도서명, 저자, 출판사 등의 책에 대한 기본적인 정보를 제공해 주어서 사용자들이 책의 내용을 보지 않고 우선 책의 도서명이나 저자 등의 정보를 통해서 원하는 책을 찾을 수 있도록 하는데 주로 활용된다.
동영상 검색과 메타데이터
그러나 이 메타데이터라는 것이 주로 제목, 만든 사람, 날짜 등의 정보가 대부분이어서 검색엔진 입장에서는 단지 키워드 몇 개에 불과한 정보이기 때문에 동영상의 메타데이터를 대상으로 검색을 하게 되면 검색결과의 품질이(특히, 정확도) 매우 떨어지게 된다.
왜냐하면 검색방식 중에서 가장 정확도가 떨어지는 것이 질의어로 입력된 키워드와 색인어 키워드의 매칭의 의한 검색이기 때문이다.
제대로 메타데이터를 검색하려면
결론부터 말하자면 키워드로부터 가능한 많은 정보를 뽑아내야 한다. 그러자면 질의어의 경우 질의어 확장을 해야 하고, 색인어의 경우 동의어 관리를 통해서 좀 더 많은 정보를 검색에 반영되도록 해야 한다.
질의어든 색인어든 간에 키워드가 속한 도메인 정보, 키워드의 의미, 타 키워드와의 관계 등을 통해서 키워드를 확장한 개념(?)을 질의어 처리와 색인에 반영을 해야 할 것이다.
질의어 처리와 색인 관리를 위해서는 언어자원(e.g. 사전)을 늘려야 하는데 대표적으로 시소러스나 토픽맵, 온톨로지 등을 구축해야 한다. 뭐 거창한 사전이 안되면 최소한 동의어와 관련 용어 등의 정보를 담은 사전이라도 구축해야 한다.
문제는 대규모의 언어 자원을 구축하는 이런 방법은 결국 비용이 많이 들기 때문에 현실적으로 상용화 서비스에서 구축하기 쉽지 않다는 것에 있다.
Enswer.net
동영상 검색을 위해서 몇 개 안 되는 키워드로 구성된 메타데이터를 활용하는 것은 검색 정확도 측면에서는 근본적인 한계를 갖게 된다.
그래도 Enswer.net처럼 검색결과를 비슷한 동영상끼리 클러스터링해서 제공한다면 키워드 매칭 검색결과에 의해서 만들어지는 중복 검색결과를 제거하는 효과가 있기 때문에 다소 정확해 보인다.
하지만, 이마저도 방법이 되지 못하는 것은 클러스터링을 통해서 중복데이터만을 걸러냈을 뿐 키워드 매칭이라는 근본적인 방식의 변화는 아니기 때문이다.
예를 들어서 질의어로 n개의 키워드(e.g. 이승엽 한신전 히어로 인터뷰)로 된 질의어에 대해서는 중복을 배제한다면 제대로 된 검색결과를 제공하기 쉽지 않기 때문이다.
갑자기 해답도 내기 어려운 메타데이터 검색을 이야기한 것은 지난 제7회 Demo Day 즈음부터 Enswer.net을 사용해 보면서 들었던 생각은 누구나 잘 알듯이 결국 검색성능이 향후 Enswer.net의 성공여부를 좌우할 것이기 때문이다.
한때 국가지식통합검색시스템 이나 특허정보와 같은 대규모의 메타데이터가 쌓여있는 데이터에 대한 검색에 대한 고민이 있었으나 현재는 거의 시도조차 되지 않고 있는데, 앞으로 Enswer.net에서 메타데이터 검색에 대한 획기적인 기술이 개발되기를 바란다.
마루날의 雜學辭典(잡학사전)을 RSS리더로 편하게 구독해서 보세요~
반응형
'Technology' 카테고리의 다른 글
패션전문 쇼핑검색, 고르다~ (2) | 2008.10.29 |
---|---|
국내 검색서비스의 Niche는 포털? (2) | 2008.10.28 |
한국의 대안 검색엔진들 (6) | 2008.10.17 |
Enswer.net 초대장 초대 종료~~ (26) | 2008.10.09 |
동영상검색서비스, Enswer.net (0) | 2008.09.29 |
큐로보 아이폰 버전 사용해보니.. (0) | 2008.09.09 |
이동통신사업자의 모바일 검색 (0) | 2008.09.01 |
구글의 모바일 검색 도전, 성공할 수 있을까? (4) | 2008.08.26 |