딥마인드는 1년 전 논문으로 발표했던 딥러닝 기반의 TTS(text-to-speech synthesis) 시스템, 웨이브넷(WaveNet)을 영어와 일본어를 사용하는 모든 플랫폼에서 구글 어시스턴트의 음성으로 공식 사용하게 되었다고 블로그를 통해 발표했다.
WaveNet은 텍스트로부터 음성을 생성해내는 딥러닝 네트워크로서 기존의 방법들보다 좀 더 사람의 목소리나 억양등이 자연스럽게 들리도록 음성을 생성해낸다. 기존의 TTS 시스템들은 사람이 녹음한 짧은 발음이나 단어 단위의 오디오 파일을 이어붙이는 방식으로 음성을 생성해내는데에 반해 WaveNet과 같은 Deep Generative Model은 거대한 텍스트와 음성 데이타셋을 기반으로 학습해서 문맥에 따른 억양이나 발음과 같은 점을 반영해 문장 전체에 대해 하나의 오디오 파일을 만들어낸다는 점이 다르다. 1년 전, 논문으로 발표된 WaveNet은 연구 목적의 프로토타입이었고 실제 사용자가 쓸 수 잇는 제품으로 출시되기에는 필요한 연산량이 너무 많았다. 딥마인드는 그 후, 1년간의 개발 과정을 거쳐 WaveNet이 일반 사용자의 스마트폰 기기 등에서 작동될 수 있도록 개선되었다고 블로그를 통해 말한다. 블로그에 따르면 실제 사용자의 기기에서 빠르게 오디오파일이 생성될 수 잇도록 하기 위해 많은 노력을 했고(1초의 음성 파일을 생성해내는데 50ms가 걸린다고 한다.) 특히 구글의 클라우드 TPU를 이용해 많은 사용자들이 사용할 때도 잘 작동할 수 있었으며 첫 번째로 구글 클라우드 TPU를 통해 런칭되는 제품이라고 한다.
WaveNet과 같은 딥러닝 기반의 TTS시스템은 기존의 방법보다 훨씬 듣기에 자연스러운 음성을 생성해줄 뿐만 아니라 특정 인물의 목소리로 음성을 생성한다던지, 특정 억양(예를 들어 사투리!)을 반영한다던지와 같은 새로운 제품이 만들어질 수 있는 기술적 기반을 제공한다. (예를 들어, 자기가 좋아하는 연예인의 목소리로 책을 읽어주거나 굿나잇 인사를 해주는 오디오파일을 제공하는 서비스가 나올 수 있다.)
구글 뿐만 아니라 바이두 등과 같은 회사도 TTS 분야에 대해 많은 연구성과를 보여주고 있어서 향후 TTS 시장에 기존에 우리가 상상할 수 없었던 새로운 많은 시장이 생길 것 같다는 기대감이 든다.
아래 딥마인드 블로그 링크를 통해 WaveNet을 통해 생성된 음성을 들어 볼 수 있다. 기존 기술에 비해 놀랍도록 개선된 결과를 보여준다.