본문 바로가기
Technology

드디어 시작되는 음성으로 검색하기

by 마루날 2010. 6. 17.
반응형
음성 인식은 공상과학 영화에 단골로 나오는 대표적인 기술입니다. 개인적으로는 스타트랙의 순간이동기술과 함께 실용화되면 정말 좋겠다고 생각하는 기술입니다.

음성 인식 (Speech Recognition)은 사람의 음성을 텍스트로 변환시키는 기술입니다. 쉽게 말해서 기계가 사람의 목소리를 들어서 단어나 문장으로 변환시켜 주는 기술입니다. 이 기술은 기본적으로 다양한 단어(명사, 형용사, 조사 등)들에 대한 음향학적 신호를 DB로 미리 쌓아놓았다가 들어오는 신호와 비교하여 가장 유사한 텍스트를 매칭해서 알려주는 기술입니다.

음성 인식이라는 것이 몇 가지 기술적인 난제들이 있는데요.

화자 종속적인(특정한 사람의 음성신호에 최적화된) 경우 정확도가 매우 높지만, 화자 독립적인 경우는 정확도가 그리 높지 않았습니다. 하지만, 최근 기술의 발전으로 단어 수준의 경우 화자 독립적인 상황에서는 실용화가 가능한 수준의 정확도를 보입니다.

그리고 또 하나의 난제는 입력되는 음성 신호와 함께 입력되는 주변 소음 등에서 노이즈를 제거하는 기술인데요. 이 부분은 아직까지는 더 보완이 필요하다고 합니다.

사실 음성 인식 기술은 그 파급력과 경제적인 효과에 비해서 기술적인 난이도가 높은 기술이다보니 실용화된 서비스가 거의 없었습니다만, 최근 다음과 구글의 음성 검색이 시작되면서 본격적인 경쟁이 시작된 것 같습니다.

음성 인식의 경우 차를 운전하면서 네비게이션을 이용하거나 할 때 활용도가 높고 기업의 콜센터에서 전화로 들어오는 고객의 소리를 좀 더 정교하게 파악하고 대응할 수 있는데요. 이를 위해서는 단어 수준이 아니라 문장 수준의 음성 인식이 가능해야 하는데, 아직은 여기까지 가려면 시간이 좀 더 필요한 상황입니다.

하지만, 스마트폰이 보급되면서 스마트폰의 입력을 위한 보조 도구로서 단어 수준의 음성 인식 기술은 꽤 훌륭한 결과를 보여줄 수 있고 특히나 검색에서는 대부분의 검색어가 한, 두 단어로 이루어져 있는 현실에서 적절한 선택으로 보여집니다.


다음의 경우 모바일 관련된 서비스를 매우 공격적으로 전개하면서 네이버와의 격차를 줄이기 위해서 노력하고 있습니다. 관련 뉴스를 찾아보니 약 30만개의 음성 DB를 구축하고 95%의 정확도라고 하던데, 실제로 사용해보니 꽤 훌륭한 결과를 보여주고 있습니다.

다음은 향후 인식 가능한 단어를 지속적으로 확장하고 한국전자통신연구원(ETRI)과 함께 공동개발 중인 소음처리기술을 적용해 소음환경에서도 더욱 정확한 음성인식이 가능하도록 할 예정이다. 자연어 음성 처리 기술을 적용, 문장형 음성에 대한 분석과 검색도 가능하도록 업그레이드시켜 나갈 계획이다
[출처 : 미디어 다음]



구글의 경우 삼성전자가 '갤럭시S'에 구글의 음성검색을 기본 탑재하기로 했다고 하는데요. 현재 한국어의 경우 20만개의 DB를 가지고 있으며, 65% 이상의 인식률을 가지고 있다고 합니다.

구글 음석 검색 관련 수석 연구원과의 인터뷰 기사를 참고해 보면,

-초기에 한국어 데이터를 수집할 때 여러 도시를 방문해 다양한 사투리와 방언 자료를 수집했고 방언 악센
트도 반영
-20만개 단어를 지원하며 어떤 조합도 가능
-2년 전 영어 서비스를 처음 런칭했을 때 50% 이상의 정확도를 목표로 했는데 지금은 70% 이상 수준
-보통 65% 정도의 인식률이면 쓸만한데 한국어 서비스는 이보다 높은 수준

다음과 구글의 음성 검색을 비교한 동영상이 있는데, 한번씩 보시면 좋을 것 같습니다. ^^


아이폰과 안드로이드폰이 계기가 되어 패러다임이 모바일로 바뀌어 간다는 생각이 드는데요. 음성 검색을 보면서 한 발자국 더 나아간 것 같습니다.



 마루날의 雜學辭典|잡학사전을 RSS리더로 편하게 구독하세요~
(이 포스트를 잘 읽으셨다면, 아래 손가락 버튼을 눌러주세요.^^)


반응형