구글 딥마인드, 새로운 음성생성 기술 웨이브넷(WaveNet) 개발

구글 딥마인드가 인공신경망을 이용해 인간의 음성을 생성하는 시스템, 웨이브넷(WaveNet)을 개발했다. 기존 음성생성 기술은 사람이 직접 녹음한 음성을 잘게 쪼개 정해긴 규칙에 따라 재구성하는 방식이었다. 녹음된 음성 없이 컴퓨터가 직접 소리를 만들어내는 방식도 개발됐으나, 부자연스럽다는 단점이 있다. 웨이브넷은 여전히 사람의 음성이 필요하지만, 이를 학습해서 새로운 목소리로 음성 생성이 가능하다. 또한 기존 방식에 비해 훨씬 실제 인간의 음성에 가까워졌다. 상용화까지는 아직 시간이 더 걸릴 전망이다.

[insight] 복잡한 도심을 자동차가 운전자 없이 돌아다니는 시대에, 컴퓨터가 어린아이 수준의 한마디 말조차 자연스럽게 하지 못한다는 것은 아이러니다. 인간의 뇌가 진화한 방식과 컴퓨터의 발전 방식의 차이 때문인데, 잘 알려져 있다시피 최근 인공지능은 인간 뇌의 학습을 모방한 알고리즘을 통해 이러한 한계를 극복해 나가고 있다. 시리가 (지능은 둘째 치더라도) 사람처럼 자연스럽게 말할 날이 머지않아 보인다. 개인적으로 미국과 달리 한국의 오디오북 시장이 활성화되지 않은 점이 불만이었는데, 곧 오디오북 시장 자체가 사라질 듯 보인다. 전자책을 사면 시리가 사람처럼 읽어줄 테니까. [/insight]

관련 기사 및 이미지 출처: The Verge & TechCrunch

<기존 컴퓨터 생성 방식>

<웨이브넷>

Written by Hyokang Lee