한국어 음성 ‘서연’ 공개…월 500만 자까지 무료

▲ AWS가 ‘아마존 폴리’ 서울 리전 출시와 함께 한국어 음성 ‘서연’을 공개했다.

[아이티데일리] 아마존웹서비스(AWS)가 20일 텍스트-음성 변환서비스 ‘아마존 폴리(Amazon Polly)’의 서울 리전 출시와 함께 한국어 음성 ‘서연’을 공개했다.

‘아마존 폴리’는 고급 딥러닝 기술을 사용해 실제 사람 목소리처럼 음성을 합성하는 텍스트 음성 변환 서비스다. 텍스트를 다양한 언어로 변환하면서 수십 종류의 생생한 음성을 제공, 여러 국가에서 적합한 음성을 선택해 음성 지원 애플리케이션을 개발할 수 있다.

‘아마존 폴리’는 종량 요금제, 저렴한 변환 문자 당 비용, 무제한 재생 등의 특징을 바탕으로 거의 모든 애플리케이션에서 음성 합성을 구현하는 비용 효과적인 방법을 제공한다. 월 5백만 자까지 무료로 제공되며, 그 이상의 경우 한 자당 0.000004달러 또는 제작된 오디오 분당 0.004달러로 과금된다. 예를 들어 일반적인 한국어 뉴스 기사(2,500자)의 경우, 0.01달러(11원) 정도로 매우 저렴하다.

개발자들은 이제 ‘아마존 폴리’를 통해 뉴스 및 전자책 리더, 게임, 전자 학습 플랫폼, 시각 장애가 있는 사람을 위한 접근성 애플리케이션, 빠르게 성장하는 사물 인터넷(IoT) 세그먼트 등과 같은 모바일 애플리케이션 등 다양한 한국어 지원에 활용할 수 있다.

재생된 오디오를 재생할 때마다 로열티를 요구하거나 요금을 부과하는 다른 솔루션과 달리, ‘아마존 폴리’는 추가 요금 없이 무제한 재생을 허용한다. 이러한 무료 재생은 오프라인 사용까지 확대되며, 사용자는 MP3 및 OGG와 같은 다양한 표준 형식으로 음성 파일을 생성해 오프라인 재생 전용으로 휴대폰 또는 사물 인터넷(IoT) 디바이스와 같은 디바이스에 저장할 수 있다.

실제 같은 음성과 대화 사용자 경험을 제공하기 위해서는 일관되게 빠른 응답 시간이 요구된다. ‘아마존 폴리’ API로 긴 텍스트를 전송하더라도 API가 오디오를 스트림해 애플리케이션으로 반환하므로 즉시 음성을 재생할 수 있다.

특히, 음성 합성 애플리케이션을 위한 SSML(Speech Synthesis Markup Language), W3C 표준, XML 기반 마크업 언어를 지원하며 표현, 강조 및 억양을 위한 일반 SSML 태그를 지원한다. 이러한 유연성은 청중의 관심을 끌 수 있는 생생한 음성을 생성할 수 있도록 돕는다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지