AI 알고리즘으로 목소리 구현에 제약 없어 수천 가지 목소리 재현 가능

CJ올리브네트웍스가 tvN 화면 해설 방송에 AI 보이스 클리닝 기술을 제공했다.
CJ올리브네트웍스가 tvN 화면 해설 방송에 ‘AI 보이스 클로닝’ 기술을 제공했다.

[아이티데일리] CJ올리브네트웍스(대표 차인혁)는 tvN과 시각 장애인을 위한 화면 해설 방송에 ‘AI 보이스 클로닝(AI Voice Cloning)’을 도입했다고 5일 밝혔다.

CJ올리브네트웍스는 화면 소리에만 의존해 시청을 해야 하는 시각 장애인에게 친숙한 유명인의 목소리를 통해 콘텐츠를 즐길 수 있도록 ‘AI 보이스 클로닝’ 기술을 지원했다고 설명했다. 

‘AI 보이스 클로닝’은 AI 알고리즘에 의한 개인별 음성 분석 및 자동 생성이 가능한 음성 합성 기술이다. 음성을 학습한 뒤 텍스트를 입력하면 원하는 목소리를 자동으로 생성할 수 있다. 이 기술로 매 콘텐츠마다 전체 지문을 녹음하지 않아도 AI가 여러 프로그램의 화면 해설 음성을 자동으로 생성할 수 있어, 시각 장애인들에게 다양한 콘텐츠를 빠르게 전달할 수 있다.

화면 해설 방송은 시각 장애인을 위해 해설자가 등장인물의 표정이나 몸짓, 장면전환 등 화면의 전체적인 내용을 음성으로 설명해 주는 방송이다. 일반적으로 화면 해설 방송은 화면을 음성으로 해설해주는 음원을 녹음해 주음성과 믹싱한 후 부음성에 실어 음성다중으로 송출한다. 최종 편집 후에 다시 사운드 믹싱을 해야 하기 때문에 긴 제작 시간이 소요된다.

CJ올리브네트웍스 이현기 버추얼 휴먼 랩 팀장은 “상대적으로 콘텐츠 시청에 제약이 있는 시각 장애인들이 ‘AI 보이스 클로닝’을 통해 색다른 화면 해설 방송을 경험할 수 있게 됐다”며, “시청 소외 계층을 포함한 모든 시청자들이 보이스 클로닝, 버추얼 휴먼 등을 활용해 차별화된 콘텐츠 경험과 높은 몰입으로 감동을 느낄 수 있도록 미디어 AI 기술 개발에 박차를 가하겠다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지