음성인식기 분석중인 김상훈 박사(왼쪽)와 이민규 연구원
[대전=일요신문] 육심무 기자 = 바빌로니아의 설화는 인간이 신의 권위에 도전해 하늘에 닿은 바벨탑을 쌓기 전에는 세계의 모든 종족이 동일한 언어를 사용했다고 한다.
그러나 힘을 모아 바벨팁을 쌓는 인류를 방해하기 위해 신이 말이 통하지 않도록 무수히 많은 언어를 만들었고, 그로 인해 인류의 힘은 분산되고 하늘에 닿은 탑을 쌓는 일은 중단되었단다.
이를 극복하기 위해 에스페란토어 등 다양한 세계 공용어 만들기를 시도했으나 혼란스런 언어 수단만 추가했다.
영어 점수가 학교 생활의 행복을 좌우하는 현실에서 판타지 소설에서나 일반화된 자동번역기의 탄생도 멀지 않은 것 같다.
한국전자통신연구원은 국내 연구진에 의해 한국어, 영어 뿐만 아니라 일본어, 중국어 등 9개 언어 음성인식기 개발에 성공해 말을 하게 되면 해당 언어로 바로 문자 변환이 가능케 되었다고 공식 발표했다.
사람들의 일상대화에서 언어별로 최대 95% 수준의 성능을 보여 상용화가 가능한 수준인 이 기술에 대해 한국전자통신연구원(ETRI) 음성지능연구그룹 프로젝트 리더 김상훈 박사의 설명을 들어본다.
지난 2008년부터 지속적으로 다국어 확장을 위한 외국어 음성인식 기술 개발을 추진해 2012년에 한국어와 영어, 2014년 일본어, 중국어에 이어 2016년 프랑스어, 스페인어, 그리고 금년에 독일어, 러시아어, 아랍어 등 세계시장에서 경제적으로 영향력 있는 언어에 해당하는 총 9개 언어 음성인식 기술을 국내 최초로 확보했다.
2011년도 5만 단어급에서 95% 목표였고 현재는 100만 단어급 표현이 가능한 수준에서 95%를 달성해 기술적으로 세계적 수준에 도달했다.
그동안 다국어 음성인식 기술 미확보로 국내 대기업 등이 해외기술에 의존하게 됨은 심각한 문제라고 판단해 이번에 다국어 인식기술 확보 내용을 국내에 알리게 되었다.
향후 2020년 동경올림픽 개최 시점까지는 대상 언어를 14개 언어로 확대하고, 추가적으로 20개 언어 이상으로 늘려 나갈 예정이다. 이 기술은 이미 바둑대결로 잘 알려진 알파고에 사용된 인공지능 기술인 딥러닝(Deep Learning)기술과 대용량의 음성언어 데이터, 그리고 20여년 동안 축적된 ETRI만의 음성언어처리 노하우를 이용해 개발되었다.
빅데이터와 관련된 대용량 데이터 자동 정제기술, 다국어 발음 생성기술 등 다국어 음성언어처리 핵심기술도 확보해 추후 동남아, 힌디어 등 타 언어로 확대가 쉽다.
이 기술은 구글(Google) 등 세계 업체와 비교시 한국어에서는 성능 우위를 점하고 다른 언어에서는 대등한 수준이며, 일상 대화체의 연속 발화가 가능해 향후 통역은 물론, 인공지능 비서, 방송의 자막화, 콜센터 서비스 등에 활용이 가능할 것으로 보인다..
서비스 방식은 기존과 비슷한 클라이언트 서버형과 단말 탑재형 등으로 이뤄진다. 이 음성인식기가 응용 분야에 따라 한 번에 수명에서 수십명까지 동시 접속해 인식이 가능한 수준이다.
현재 국내에는 ETRI와 같이 다국어 음성 데이터(DB)와 말뭉치로 불리는 음성 텍스트의 다국어 데이터(DB)를 보유한 곳이 없어 이를 기반으로 개발된 다국어 음성인식기를 필요로 하는 기업에 큰 도움이 될 것으로 기대된다.
글로벌 시장을 동시에 공략해야 하는 최근의 음성인식 산업계 흐름을 감안할 때, 본 음성인식 기술을 이용해 인공지능 비서, 자동통역 서비스, 커넥티드 카 등의 주요 다국어 음성인식 관련 세계 시장에 동시 진출할 수 있을 것으로 전망된다.
음성인식 기술을 바탕으로 만든 통역기 시연
ETRI는 향후 음성인식 기술을 필요로 하는 국내 이동통신업체를 비롯하여 주요 포털, 음성인식엔진 기술을 상용화하고 있는 기업체에 기술 이전할 예정이다.
또한, 본 기술은 일반 콜센터나 보험회사와 같이 상담자의 음성 데이터를 축적하고 분석해야 하는 업체에도 큰 도움이 될 것으로 보고 있다.
이 기술이 스마트폰을 비롯, 스마트 스피커, 스마트 홈 허브 기능을 가지는 셋톱박스, 냉장고, TV 등의 스마트 가전으로 음성인식 기술이 급격히 확산되고 있는 점을 고려할 때, 글로벌 시장 진출을 계획하는 국내 업체들에게 큰 도움이 될 것으로 전망된다.
이번에 확보한 다국어 음성인식 기술은, 외국어 음성인식 연구기반이 취약한 국내 현실에서 ETRI가 9개 언어 음성인식 기술 개발 및 국내 업체들의 다국어 수요에 대응하여 수입대체 및 세계시장 진출에 기회를 마련함은 의의가 크다.
또 대학 내 외국어 전문가와 협업하여 외국어 특성 모델링, 인식오류 분석 등 고난이도 다국어 처리 기술을 엔지니어와 공동으로 개발할 수 있는 협력체계도 마련했다는 점에 또 다른 의미가 있다.
그 동안 ETRI는 지속적인 성능개선 노력으로 국내최대 대용량 음성언어DB 학습 확대, 독창적 외국어 발음정교화 기술, 장인의 정신으로 완성도 높은 문법정교화 기술, 잡음환경 분석을 통한 잡음모델링 기술 개발 등을 통해 개별 언어에 대한 성능개선이 되었다.
또한 2018년 평창동계올림픽을 대비하여 독일어, 러시아어, 아랍어까지 추가 개발되어 세계시장에서 요구하는 필수 9개 언어에 대한 음성인식 기술을 확보함에 따라 국내업체가 글로벌로 진출할 수 있는 계기가 될 것으로 보인다.
중국어 음성인식 통역 시연
현재 이 기술은 시스트란인터내셔널, 한컴인터프리 등 국내 중소기업에 기술이전 되어 사업화하여 활용되고 있다.
이번에 개발된 9개 언어 음성인식 기술은 기존보다 음성인식 기술 측면에서 완성도가 개선되어 자동통역에 한정되지 않고 응용 가능한 분야가 확대됨에 따라 ETRI는 향후 음성인식 기술을 필요로 하는 국내 이동통신업체를 비롯하여 주요 포털, 음성인식엔진 기술을 상용화하고 있는 기업체에 기술 이전할 예정이다.
또한, 본 기술은 일반 콜센터나 보험회사와 같이 상담자의 음성 데이터를 축적하고 분석해야 하는 업체에도 큰 도움이 될 것으로 보고 있다. 이번 보도를 통해 외국어 음성인식에 대한 국내업체의 수요는 점점 더 늘어날 것으로 기대된다.
에피소드로 음성인식 기술과 관련 외국어 전문가가 전무한 국내실정에서 순수한 엔지니어가 개발하다보니 글자의 의미를 모르고 개발하는 경우가 생기며, 개발된 기술을 직접 사용해보기 위해 스피커로 외국어를 틀어놓고 테스트하는 웃지못할 상황까지 발생하기도 했다.
smyouk@ilyodsc.com