딥러닝 기반의 음성인식 기술

[컴퓨터월드] 최근 빅 데이터를 대상으로 한 딥 러닝 기술의 급속한 발전에 따라 전 세계적으로 인공지능 관련 기술에 대한 폭발적인 관심과 경쟁적인 개발이 추진되고 있다. 인공지능은 지능적인 기계를 만들기 위한 SW와 HW를 포괄하는 과학 및 공학을 지칭하며, 인공지능이 인간의 지능을 뛰어넘는 시점을 특이점(Singularity)이라고 부른다.

영국의 BBC(Tomorrow’s world: A guide to the next 150 years)와 유엔 미래포럼(유엔 미래보고서 2045) 등은 2045년에 인간의 지능보다 뛰어난 슈퍼지능머신이 출현해 특이점이 도래할 수 있다고 예측했다. 또한, 인공지능이 인류의 일자리를 빼앗고, 나아가 인류의 멸망을 초래할 수도 있다는 부정적인 전망도 했다.

본지는 ICT 역사상 가장 혁신적인 기술로 주목받고 있는 인공지능과 관련, “인공지능 기술 개발 어디까지 왔나?”라는 주제로 국내 최고의 인공지능 전문가들을 필진으로 구성해 기획연재를 한다. 인공지능 필진과 게재할 주요 내용은 다음과 같다.

■ 엑소브레인(언어지능): ETRI 김현기 실장
■ 딥뷰(시각지능): ETRI 박종열 실장
■ 머신러닝 및 딥러닝: 포항공대 최승진 교수
■ 뇌공학: 고려대 이성환 교수
■ 음성처리: ETRI 박전규 실장


딥러닝 기반의 음성인식 기술

▲ 박전규 한국전자통신연구원 음성처리연구실장

박전규 실장은 1991년~1999년 한국전자통신연구원 선임연구원, 2000년 Lernout & Hauspie Korea 책임연구원, 2001년~2002년 Carnegie Mellon University 객원연구원, 2002년~2004년 동아시테크㈜ 이사/기술연구소장을 거쳐 현재 한국전자통신연구원 음성처리연구실장으로 근무 중이다. 음성인식, 기계학습, 자연어처리, 외국어학습 기술에 관심을 갖고 연구 중이다.


음성인식 기술의 개요

음성은 사람 간의 가장 자연스러운 의사소통 방식이다. 음성인식 기술은 이미 스마트폰, 자동차, 콜센터 등 현재 우리 생활의 많은 부분에 녹아들어서 서비스화되고 있다.

음성인식 기술은 사람이 일상생활에서 발성한 모든 내용을 그대로 받아 적으며(dictation), 외국인이 자기 나라 언어로 발성한 것을 그대로 우리말로 통역해 주거나 그 반대로 해 주는 자동통역(automatic interpretation), 원어민과 대화하듯이 영어 회화를 가르쳐 주는 컴퓨터 언어교사(language tutor), 말만하면 알아서 일정관리 및 대화상대 등을 해주는 지능형 비서 등의 개발을 궁극의 목표로 한다.

과거 음성인식의 역할은 소리를 문자로 바꾸어주는 것에 한정되어 있었으나 현재는 사람과 기계간의 대화를 가능하게 하는 자연어처리(natural language processing) 기술까지도 그 기술적 영역 안에 포함하기도 한다. 따라서 인공지능의 한 세부 영역으로써 음성인식 기술을 포괄적으로 언어지능으로 분류하기도 한다.

▲ 인공지능기술의 역사

인공지능 기술이 1950년대에 태동(Birth)해 1990년대에 암흑기(Winter)를 맞았던 것과 유사하게, 음성인식도 약 50여년 동안 발전을 거듭해 오면서 암흑기를 겪기도 했다. 음성인식 기술이 몇 차례 그 기술적 부침을 겪어가면서 오늘날 비교적 똑똑한 모습으로 우리 생활 가까이에 다가오고 있는 배경에는 하드웨어의 비약적 발전이 자리하고 있다.

예를 들어 1950년대 RCA에서 개발된 음소타자기나 1960년대에 개발된 숫자 음성 인식기는 규모나 계산 능력 면에서 수백 배나 작은 스마트폰의 그것보다 훨씬 못 미치는 성능으로 훨씬 낮은 수준의 인식 대상만을 고려할 수 밖에 없었다.

최근 몇 년 동안 딥러닝으로 말미암아 혁신적인 성능을 보이고 있는 음성인식 기술도 보편화되고 있는 클라우드 서버 및 고성능 GPU와 같은 하드웨어의 눈부신 발전에 그 배경을 두고 있다.

▲ 음성인식 기술의 역사

아직 완전하다고는 할 수 없지만 음성인식 성공의 또 다른 측면에서 포기하지 않는 연구자들의 끊임없는 노력이 있었다고 하겠다.

예를 들어 최근 음성인식에 사용되는 주요한 딥러닝 기술 패러다임들인 DNN(Deep Neural Networks), CNN(Convolutional Neural Network), LSTM-RNN(Long Short-Term Memory - Recurrent Neural Network)[1] 등은 이미 1990년대에 이론적, 개념적 토대가 완성됐지만 사장될 위기에 있었다. 하지만 이를 실용적 성능으로 개선하기 위한 연구자들의 끊임없는 노력덕분에 2000년 후반부터 빛을 보기 시작했는데, 여기에 고성능 GPU와 같은 하드웨어의 지원에 편승하여 비로소 꽃을 피우게 됐다.

음성인식 및 인공지능 기술 발전의 또 한가지 중요한 배경에는 오픈소스에 기반하는 생태계의 활성화를 들 수 있다.

예를 들어 딥러닝과 관련된 오픈소스 기반의 도구들을 들 수 있다. Kaldi(미국의 존스홉킨스대학), Caffe(미국 버클리대학), Tensorflow(구글), Theano(캐나다 몬트리올대학), Torch(페이스북), CNTK/DMTK(마이크로소프트), cuDNN(엔비디아) 등이 여기에 해당한다. 여기서 중요한 사실은 구글이나 페이스북 등 글로벌 주요 IT 기업들이 자체적인 오픈소스 도구를 개발할 뿐만 아니라 주요 대학에도 개발비를 지원하고 있다는 사실이다.

결국 주요 IT 기업의 투자가 대학이나 연구소의 연구자금으로 투입되고, 연구자들은 안정적인 환경에서 연구개발을 함으로써 중장기적으로 우수한 연구 인력 및 산출물을 기업에서 수혜받게 되는 선순환 구조가 만들어지고 있다.

한편, 음성인식 기술의 비약적 발전에도 불구하고 여전히 음성인식은 사람들이 웅성거리는 식당, 회의실, 버스나 지하철 등과 같은 환경에서는 매우 낮은 정확도를 보이는 등 개선할 점이 많다. 다양한 잡음 요인을 고려하지 않더라도 이렇게 음성인식이 어려운 이유는 먼저 동일한 사람인 경우에도 나이가 들어가거나 병적인 요인에 따라 목소리에 다양한 변이 요인이 발생하며, 동일한 단어라도 감정 및 사투리 등의 영향에 따라 사람마다 발성이 다르고, 문맥에 따라 발성이 달라진다는 점 때문이다.

<표 1> 음성인식 기술 분류

이러한 음성인식 기술은 기술적으로 <표 1> 같이 분류할 수 있다. 화자 종속에서 독립으로, 고립어에서 연속어로, 소용량 어휘에서 대용량 어휘로 갈수록 높은 난이도를 나타낸다. 이외에도 음성인식 기술의 단점은 등록이 되지 않은 단어 또는 어휘는 인식이 불가능하며 우리나라처럼 지역에 따라 다양한 사투리가 섞여있는 경우에도 인식이 어렵다. 특히 제주 방언 같은 경우에는 아예 다른 언어로 취급될 정도로 어휘나 억양이 달라서 인식이 거의 불가능할 수도 있다.
 

딥러닝 기반의 음성인식 기술

오늘날 일반적으로 사용되는 음성인식기의 기본 구조는 다음과 같이 나타낼 수 있다.

▲ 음성인식기 기본구조

음성인식기는 크게 언어모델과 음향모델이라는 2가지의 중요한 지식원(knowledge source)을 사용해 음성 신호로부터 문자 정보를 출력하게 되는데, 이때 개념적으로 음성 신호를 문자 심볼로 해석한다는 차원에서 음성인식 알고리즘을 디코더(decoder)라고 부르기도 한다.

현재 일반적으로 사용되는 음향모델(acoustic model)은 우리말의 ‘ㄱ’, ‘ㄴ’, ‘ㄷ’, …, ‘ㅏ’, ‘ㅑ’, ‘ㅓ’, … 등의 소리 단위를 딥러닝 기술로 학습해서 지식화해 놓고 디코더에서 사용한다. 언어 모델은 단어나 어휘적 쓰임새를 학습해 지식으로 가지고 있는데 예를 들어 ‘아버지’라는 어휘 다음에 ‘는’, ‘이’, ‘를’ 등과 같은 어휘가 어느 정도의 확률로 나타날 수 있는 가를 나타내는 통계적 모델이 일반적으로 적용된다.

이 외에 자음접변, 구개음화 등의 일반적인 음운 현상을 반영하기 위해 발음규칙이 사용되며, 인식 어휘 자체를 등록하기 위해 어휘 사전이 사용된다. 현재 시점까지는 음향모델 측면에서 딥러닝 기술이 매우 효과적이며 언어모델 측면에서는 그 효과가 상대적으로 약하게 나타나고 있다.

▲ 음성인식 기술 개발전략

한편 종래의 음성인식 기술은 아나운서가 국어책을 읽듯이 발성하는 음성을 대상으로 하는 낭독체 음성인식 기술이 주로 연구대상이었으나, 딥러닝 및 잡음처리 기술의 발전으로 인해 현재는 사람간의 자연스런 대화 음성을 대상으로 기술 고도화가 이루어지고 있다.

대화체 음성인식이 어려운 이유는 ‘그러니까’, ‘음’, ‘아참’ 등등 헤아릴 수 없이 많은 간투사가 수시로 사용되며, 더듬거림, 어휘의 도치 현상, 동일 어휘의 반복이나 어휘적 단락(끊어짐), 재발성 등등으로 인한 비문법적인 비정형 발성이 빈발함에 기인하는데, 이를 통칭해서 비정형 자연어(unstructured spontaneous speech)라고로 정의하고 있다.

직관적으로 봐도 기존의 어휘적 쓰임새를 통계적 지식에 의존해서 처리해야 하는 메커니즘으로는 해결이 어렵기 때문에 새로운 방식의 언어 모델이 필연적으로 개발되어야 한다. 이러한 통계적 방식의 단점을 극복하고 비정형 자연어를 효과적으로 인식하기 위해 현재 다양한 딥러닝 기술이 개발 중에 있다.

한편 구글과 같이 수십만대의 서버를 동원해서 클라우드 기반의 음성인식을 하는 경우에는 문제될 것이 없지만, 특정 기업의 콜센터 또는 고객센터처럼 제한된 공간에서 제한된 수의 서버를 운용하는 경우 서버당 처리 가능한 고객의 수에 한계가 있을 수 밖에 없기 때문에 단일 컴퓨터 서버에서 몇 개까지의 음성인식 디코더가 실행될 수 있는지를 연구하는 것도 매우 중요하다고 할 수 있다. 이를 위해 동시접속(concurrency) 성능을 최대화하는 음성인식 디코더의 집적 및 최적화 기술도 중요한 연구 요소 중의 하나이다.

현재 다양한 수준의 빅데이터가 존재하고 활용이 가능하지만 실질적으로는 여전히 데이터에 대한 갈증이 크다. 예를 들어 특정 카드회사에서 누적된 사용자 경험(user experience)은 유사한 업종인 보험회사에서조차 효과적으로 쓰이지 못할 수 있고, 의료 분야에서 일반적으로 사용되는 사용자 경험이 법률 분야에서는 사용 불가능할 수도 있는 것이다.

이를 위해 기술적으로 언어 모델이나 음향 모델을 정규화하거나 적응하도록 하는 학습 메커니즘을 동원하기도 한다. 이러한 적응 및 정규화 방식은 여전히 전문가가 개입해야만 하는 한계가 있기 때문에, 다양한 영역의 데이터가 누적됨에 따라 스스로 학습해서 지식을 구축해 나가는 방향으로 딥러닝 기술을 응용하기도 한다.

즉, 향후에는 인간의 뇌처럼 스스로 학습하고 지식을 축적해 나가는 형태로 인공지능이 발전하게 된다는 것이다.

 

위 그림은 전통적인 은닉마르코프 모델 기반의 음성인식 기술(HMM; Hidden Markov Model)과 딥러닝 기반의 음성인식 기술(DNN; Deep Neural Network)[2]을 방송대담 프로그램, 학술 발표 및 학술 토론 데이터를 대상으로 성능 평가한 결과이다.

HMM’14는 기본 성능, HMM’15는 잡음처리 및 고성능 음향 모델을 적용한 성능, DNN’15는 딥러닝 기반의 음성인식 기술의 성능을 보이고 있는데, 고도의 잡음처리 기술을 적용한 것보다 딥러닝 기술을 적용하는 쪽이 보다 우수한 성능을 보임을 상징적으로 보여주고 있다.


딥러닝과 음성인식의 미래

딥러닝과 음성인식을 포함하는 인공지능 기술의 미래를 현재와 비교해 보면 다음과 같이 예상해 볼 수 있을 것이다.

▲ 음성인식 기술의 현재와 미래

현재 시점에서 딥러닝을 포함하는 대표적인 인공지능 기술로 IBM의 TrueNorth[3], 구글의 딥마인드[4][5], IBM의 Watson[6] 등을 들 수 있다.

학습의 기본 알고리즘 측면에서는 영상, 문자, 음성, 제스처 등 단일한 모달리티(modality)를 독립적으로 학습 및 인식하는 방식에서 나아가 영상이나 음성 등의 여러 가지 모달리티를 동시에 학습 및 인식하는 방식으로 변화할 것이다. 예를 들어, 음성 신호와 입술의 움직임을 동시에 사용해서 고성능 음성인식이 가능하게 되는 것이다.

다음으로 시간적으로나 공간적으로 분리된 대상(object)을 인식하는 이산형(discrete), 분절형(segmented) 방법론으로부터 이들을 시간적, 공간적으로 연동해 학습함으로써 인식 성능을 높이는 방향으로 발전하게 될 것이다. 예를 들어 단순한 정지 영상 또는 그 결합을 인식 대상으로 하지 않고 연속된 영상 자체를 인식하는 동적/증강형(dynamic/incremental) 학습으로 발전하게 될 것이다.

또한 단순 데이터나 패턴을 분류하는 데서 나아가 대상이 내포하는 의미까지 인지하게 되는 방향으로 발전하게 될 것이다. 예를 들어 음성 신호에서 특정 어휘를 인식한 다음 단어가 문맥적으로 어떤 의미를 내포하고 있는지, 어떠한 감정이 포함되어 있는지까지 파악하여 대화를 진행할 수 있게 될 것이다.

IBM 왓슨(Watson)과 같은 지식학습 인공지능은 전통적인 규칙 및 통계 기반의 인공지능 시스템으로 정의된다. 최근 IBM에서도 인지컴퓨팅(cognitive computing)과 같은 기술 패러다임을 집중적으로 연구하고 있기는 하지만 여전히 방대한 지식은 전문가의 정교한 손끝에서 생성된다.

향후 이러한 수동 또는 반자동으로 생성되는 지식은 데이터만 주어지면 인공지능이 스스로 학습해서 지식을 쌓아가는 형태인 자율 학습 방법론에 따라 사람의 개입이 최소화되는 방향으로 발전할 전망이다. 또한, 하나의 지식이 생성되면 유사한 지식을 자가적으로 확장해 나가는 다중도메인 확장 지식, 다양한 지식을 검색하고 분석하는 방식에서 나아가 기존 지식에 기반해서 새로운 사실을 예측해 나가는 예측형 지능으로 발전할 전망이다.

현재 사람 두뇌를 모방한 물리적인 프로세서 중 가장 앞선 기술로는 IBM의 TrueNorth[1]를 들 수 있다. 하지만 여전히 100만 개의 뉴런을 동원해서 5개 정도의 패턴을 80%를 상회하는 인식 정확도로 인지가 가능하다. 아직은 기능적 한계와 낮은 효율성을 보이고 있지만 조만간 연구자들에 의해 실용적 성능의 프로세서가 개발될 것으로 전망된다.


맺음말

음성인식 기술이 최근 비약적인 성능 향상을 이루면서 우리 실생활에 스며들고는 있지만 여전히 영화 ‘스타워즈(Star Wars)’나 ‘그녀(Her)’에서 나오는 이상적인 기술과는 많은 차이가 있다.

하지만 음성인식을 포함하는 언어지능 기술은 타 산업의 제품과 서비스에 공통적으로 적용되는 기반 기술이며, IT와 전통산업의 효과적인 융합을 위한 핵심 원천 기술로서 지속적으로 연구되어야 하는 중요한 인간-컴퓨터 상호작용(Human-Computer Interaction) 기술의 하나인 것은 분명하다. 이러한 측면에서 딥러닝과 같은 알고리즘적 혁신, GPU와 같은 물리적 하드웨어적 혁신은 지속되어야 하며 이를 통해 인류는 보다 나은 미래를 맞이할 수 있을 것이다.

▲ 음성 언어기술의 융합성, 확장성

[1] Li Deng 외 (2014), “Deep learning: methods and applications,” Foundations and Trends in Signal Processing, Vol. 7, No. 3-4, pp 197-387
[2] 한국전자통신연구원 (2016), “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발”, 연차보고서
[3] Robert F. Service (2014), “The brain chip,” Science, Vol. 345, Issue 6197, pp. 614-616
[4] Volodymyr Mnih 외 (2015), “Human-level control through deep reinforcement learning,” Nature, Vol. 518, pp. 529-533
[5] David Silver 외 (2016), “Mastering the game of Go with deep neural networks and tree search,” Nature, 2016, Vol. 529, pp. 484-489
[6] IBM, http://www.ibm.com/smarterplanet/us/en/ibmwatson/ 

저작권자 © 아이티데일리 무단전재 및 재배포 금지