톰 오스틴(Tom Austin) 가트너 부사장 겸 펠로우

▲ 톰 오스틴 가트너 부사장 겸 펠로우

[컴퓨터월드] 스마트 기술(Smart technologies)은 경험을 통해 스스로 학습하고 초기 기술 개발자들이 기대하지 못했던 제품이나 솔루션을 개발할 수 있다. 이에 반해 일반(un-smart) 기술들은 개발자의 지시에 따라 개발된다.

1955년에 연구원들은 자신들이 사람의 지능을 구성하는 프로세스를 설명하고 이를 자동화해 인공 지능(Artificial Intelligence, AI)을 개발하는 것이 가능하다고 생각했다. 하지만 이 생각은 곧 잘못된 것으로 밝혀졌다. 그리고 2012년에 이르러 3가지 주요 발전이 결합되면서 ‘빅뱅’이 발생했고 스마트 머신의 새로운 시대를 맞이하게 됐다.

■ 급진적인 신(新) 하드웨어의 탄생: 고속 병렬 그래픽 처리 장치(Graphic Processing Unit, GPU)
■ 훨씬 더 강력한 알고리즘: 심층 신경망(Deep Neural Networks, DNN)
■ 방대한 양의 데이터: 인터넷에서 생성돼 GPU상에서 작동하는 DNN으로 전달

DNN은 이미지나 음성, 비디오, 텍스트 등 다양한 종류의 데이터로 패턴을 파악하는데 뛰어난 역량을 가지고 있다. 프로그래머가 특정 탐지기를 지정하지 않아도 올바른 설정과 트레이닝을 위한 대용량 입력 스트림(input stream)을 DNN에 전달하면 DNN은 해당 정보의 다양한 기능을 식별할 수 있도록 스스로 학습한다. 고급 분석을 통해 DNN이 이러한 기능을 실행할 수 있게 된 것이다. 또한 여러 가지 기능에서 일반화 오류(generalization)를 찾아낸다.

지난 2012년, 구글은 1천만 건의 유튜브 동영상을 DNN에 공급했고 2만 2천 개의 셀 중 하나가 자가 학습을 통해 고양이 얼굴을 식별했다. 고양이 얼굴을 식별할 수 있도록 코드를 작성한 것이 아니라 DNN이 이를 스스로 식별한 것이다.

DNN은 지능형 스마트 머신으로 전달받은 데이터에 대해 인지한 바를 보여준다. DNN은 일반적으로 예측하기 어려운 패턴을 학습할 수 있기 때문에 이에 대한 테스트를 진행하는 것은 매우 중요하다. DNN의 설정과 학습, 테스트로 이루어진 과정을 완료하면 학습된 내용을 기반으로 운영되는 저렴한 비용의 런타임(Runtime) 시스템 환경으로 전환이 가능하다.

DNN은 사람보다 더 나은 이미지 및 얼굴 인식 능력을 가지고 있다. 반면 DNN을 통한 음성 인식과 자연어 해석은 기존의 비슷한 기술들보다 성능은 뛰어나지만 사람과 비교해서는 떨어진다. 또한 DNN은 문장의 내용이나 개념을 이해하는데 매우 유용하고 많은 자연어 처리 애플리케이션을 위한 핵심 역할을 수행한다.

DNN에는 커다란 한계도 존재한다. 특정 조건에서는 실행이 잘 되지만 그 외의 경우에는 기대한 만큼 성능을 발휘하지 못한다. 향후에는 하드웨어 성능 개선으로 훨씬 더 많은 데이터를 처리하고, 더 큰 규모의 DNN 모델을 통해 지속적으로 종합적인 성과를 발전시킬 수 있지만 그 한계점이 어디까지 인지는 모른다.

한 고급 스마트 머신(Executive Smart Machine)은 과거의 내용을 학습해 앞으로 어떻게 대응해야 하는지를 터득한다. 그러나 이런 확장 가능한 범용 고급 스마트 머신은 존재하지 않고 심지어 개발할 수 있는 단계도 아니다. 하지만 과거에 몇 가지 주목을 끄는 연구 결과가 발표됐다. 딥마인드(DeepMind)의 게임용 스마트 머신은 고전 게임인 아타리 2600(Atari 2600)을 이기는 방법을 스스로 학습했다. 하지만 이는 강화 학습(Reinforcement Learning)을 위한 용도로 활용되기에는 상당히 초기 단계의 연구 결과였다.

고급 스마트 머신이 없는 가운데 우리는 사전에 프로그래밍한 일반 규칙 기반 시스템을 통해 DNN 데이터와 현(現) 시스템 상태를 기반으로 한 조치를 취해야 한다. 예를 들어 자율주행 자동차에는 동영상, 레이더, 적외선, 마이크로폰이나 기타 센서로부터 많은 DNN 프로세싱 입력 스트림이 생성되고, DNN이 인지한 내용을 규칙 기반 제어 장치로 전달하게 될 것이다. 이 제어 장치는 프로그래밍된 규칙에 따라 대응하게 될 것이다. 하지만 DNN이 자가 실험을 실행할 수 있는 능력은 없다.

범용 기술(GPT: General-Purpose Technology)은 경영학에서 널리 사용되는 개념이다. GPT는 광범위한 성장을 하기 위한 혁신적이고 장기적인 성장을 위한 밑거름이다. 대표적인 예로 철기 시대, 증기 기관 시대, 그리고 오늘날 인터넷 시대를 들 수 있다. GPT는 포괄적인 단일 원천 기술을 기반으로 하며 시간이 지나면서 지속적으로 개선되고 다양한 용도를 발견하기도 하지만 이와 동시에 많은 부작용도 발생한다.

스마트 머신은 최신식 GPT라고 생각하면 된다. 카롤타 페레즈(Carlota Perez)가 지난 3세기 동안의 GPT에 대해 연구한 바로는 스마트 머신 시대는 최소한 75년 간 지속될 전망이다. 하지만 아무런 준비 없이 기다리기만 해서는 안 되고 지금 바로 혁신에 착수해야 한다.

빅뱅 이전

위키피디아에서는 고대와 세계 2차 대전 이후에 이르기까지 AI의 근원에 대해 잘 요약했다. 존 매카시(John McCarthy)가 AI를 ‘지능형 기계를 만드는 과학과 엔지니어링’이라고 정의한 것처럼 “사람의 지능은 매우 정밀하게 묘사될 수 있으며 기계는 이를 모방할 수 있는 정도로 만들어질 수 있다”는 20세기 중반의 낙관적인 과학적 가정을 반영하고 있다. 이 목표는 당시에나 지금도 여전히 이뤄질 수 없는 것으로, 저자들은 ‘AI Winter’라는 기사에서 이와 같이 지나치게 낙관적인 가정은 20세기에 최소한 9차례는 이뤄지지 않았다고 밝혔다.

1997년에 IBM이 개발한 딥 블루(Deep Blue)라는 슈퍼 컴퓨터가 체스 세계 챔피언인 개리 카스파로프(Garry Kasparov)를 이기자, 뉴스위크(Newsweek)지는 ‘창조자를 능가한 기술의 발전’에 대한 예측이 입증됐다고 밝혔다. 하지만 딥 블루의 승리가 기계가 사람보다 더 똑똑하게 됐다는 것을 의미하는 것은 아니다.

가트너는 딥 블루를 스마트 머신으로 분류하지 않는다. 딥 블루는 아주 강력한 지능을 지녔지만 그 지능은 딥 블루의 알고리즘을 개발한 시스템 설계자들과 프로그래머들로부터 나온 것이다. 딥 블루는 코드에 정의돼 있지 않은 이동에 대해서는 생각해낼 수가 없었다.

강력하고 지능화된 DNN

오늘날의 DNN은 입력 스트림 안에서 새로운 패턴을 파악할 수 있다는 점에서 더 지능적으로 발전될 것으로 전망된다. 프로그래머들도 이러한 새로운 패턴은 예측하지 못했다. DNN은 다음과 같은 역할을 수행하는데 탁월한 모습을 보이게 될 것이다.

■ 사람이 객체(단어나 구, 구어체 문장 또는 얼굴)를 분류하기 위해 특정한 규칙을 작성하지 않고 입력 스트림의 규칙 발견
■ 사람이 입력 스트림을 개별 범주로 분류하는 것보다 우수한 수준으로 규칙 세트 개발
■ 잡음이나 이미지 요소 위치 변경, 음성 주파수나 동의어 대체 허용
■ 눈동자와 같은 서브피처(Subfeature)에서 ‘춤을 추는 사람들의 그룹’과 같은 집합에 이르기까지 다양한 일반화
■ 입력 스트림 내에서 기술 개발자들이 기대하지 못한 새로운 패턴 발견

DNN은 입력 스트림이 풍부하고 다양할 때 단순한 중립 네트워크 구조보다 훨씬 뛰어난 성능을 발휘한다. 단순한 입력 스트림은 단순한 네트워크 모델을 통해 처리할 수 있다.

DNN은 처음부터 갖고 있는 기능과 경험의 조화로 이뤄진 산물

DNN은 데이터 과학자들로부터 DNN 코드나 DNN 모델의 특정 부분과 같이 처음부터 갖고 있던 기능과 이들의 경험을 통해 만들어진 결과물이다. DNN은 오랜 시간 동안 축적해 온 모든 데이터를 동등하게 활용하기 때문에 여러 알고리즘 중 하나만을 가지고 ‘테스트’를 진행할 수는 없다.

과거에 컴퓨터가 시각 정보를 확보하기 위해서는 엔지니어가 시스템에서 탐지하고자 하는 모든 기능을 기능 탐지기에 정의 및 코딩을 해야 했다. 실제로 이 작업은 거의 불가능할 정도로 복잡하다. 어느 누구도 예측하지 못한 기능을 탐지하도록 어떻게 기능 탐지기를 조작할 수 있겠는가? 올바른 설정과 대용량의 입력 스트림을 통해 학습된 DNN은 특수한 기능 탐지기를 코딩하지 않고도 고유의 객체와 객체 종류를 식별할 수 있다.

이는 음성을 텍스트로 전환하는 방식에도 동일하게 적용된다. 1950년 후반부터 사람들은 자동 음성 인식을 위해 정교한 언어 모델을 개발하기 시작했다. 이제는 언어 모델이 없이도 DNN을 통해 더욱 훌륭한 작업을 할 수 있게 됐다.

빅뱅

이 같은 완전히 새로운 결과는 가트너에서 ‘스마트 머신 빅뱅’이라고 불리는 3가지 주요 요인에 의해 발생한 것이다. 3가지 주요 요인으로는 새로운 컴퓨팅 하드웨어의 발전(웹 스케일 시스템, GPU 기반 슈퍼컴퓨터 등)과 DNN 알고리즘, 대량의 데이터 공급이다.

빅뱅이 일어나면서 대형 DNN 모델을 트레이닝하고 2~3일, 또는 몇 시간 내에 결과를 확인할 수 있게 됐다. 현실적으로 가능한 시간 내에서 모델과 교육 데이터, 테스트 데이터의 개선이 가능해졌다. 이는 최첨단의 기술 발전에 박차를 가하게 된다.

3가지 주요 요인은 지난 몇 년간 폭발적인 상호 작용을 이뤘다. 2012년에는 이러한 조합이 ‘한계점(Critical Mass)’에 도달했다.

■ 하드웨어: 새로운 GPU 칩은 필수적인 컴퓨터 성능이다. 요즘 출시된 신규 칩은 2008년에 나온 GPU보다 1만 배에 달하는 DNN 뉴런을 모델링할 수 있고, 2008년의 GPU는 2007년의 하이엔드 x86 프로세서보다 10배의 뉴런을 모델링할 수 있었다. 2020년까지 DNN을 위해 설계된 하드웨어는 현재보다 100~1,000배 이상의 강력한 성능을 발휘하게 될 것이다.
■ 알고리즘: DNN 알고리즘은 1980년대 후반부터 지속적으로 발전했다. 알고리즘은 입력 스트림 내 콘텐츠를 분류하고 일반화 또는 추상화하도록 프로그래밍 되는 것이 아니라 학습을 통해 데이터를 ‘인지’하는 방법을 배운다.
■ 데이터: 인터넷에는 수억 개의 동영상, 녹음 파일, 문서 및 기타 콘텐츠가 있고, 이러한 데이터들이 새로운 하드웨어에서 운영되는 DNN을 트레이닝 할 수 있다.

DNN 트레이닝

트레이닝을 하기 위해서는 DNN 모델이 필요하다. 트레이닝을 통해 대량의 데이터를 모델로 공급하고 막대한 연산 능력을 소모하게 된다. 연구원과 엔지니어들은 그 모델에서 DNN의 구조와 특성에 대한 정의를 내린다.

이들은 DNN 노드 또는 뉴런의 수, 계층의 수, 계층 간의 관계, 그리고 여러 다른 매개변수를 설정한다. 이들은 한 번에 몇 시간이나 며칠 동안 작동하게 될 시스템에 수백만에서 수십억 건에 이르는 이미지와 수십만 시간에 해당하는 디지털 오디오 기록물, 방대한 양의 문서와 추가적인 변동 사항을 입력한다.

DNN 트레이닝을 위한 하드웨어는 고도의 병렬형 슈퍼컴퓨터이다. 지난 2014년, 바이두에서 개발한 민와(Minwa) 슈퍼컴퓨터는 72개의 엔비디아(NVIDIA) 타이탄 GPU를 탑재했다. 이는 3,072개의 그래픽 처리 코어(총 221,184개 코어)와 864기가바이트(GB)의 고속 공유 메모리를 집적하고 있다.

DNN 테스트

DNN이 트레이닝에서 학습한 내용에 대해서는 테스트를 진행하지 않는다. 이 때문에 DNN의 모든 코드 경로에 대한 테스트를 진행했다고 DNN의 모든 것에 대해 파악했다고 할 수 없다.

DNN 테스트는 테스트 장치로 인한 피해를 방지하기 위해 DNN에 다른 데이터 세트를 입력하는 과정과 각 입력 사항에 대한 응답 방법을 관측하는 과정으로 구성돼 있다. 만일 피해가 발생한다면 개발자들은 모델과 트레이닝 과정의 수정 여부에 대해 고려해야 한다. 수정하기로 결정한 후에는 트레이닝과 테스트 주기를 반복적으로 한다.

런타임 DNN - 프로덕션 인지 엔진

DNN 모델에 대한 트레이닝과 테스트가 성공적으로 완료되면 각 노드의 매개 변수는 앞서 언급한 모델을 실행하는 약한 성능의 ‘런타임’ DNN으로 전환할 수 있다. GPU 기반 슈퍼컴퓨터에서 DNN 모델은 학습한 내용을 기반으로 입력 스트림을 실시간으로 분류한다.

런타임 슬레이브(Runtime Slave)는 학습 범위 밖에 있는 새로운 패턴을 식별하고 향후 통합에 대비하기 위해 식별된 정보를 슈퍼컴퓨터를 통해 최신 런타임 모델에 다시 입력한다.
모든 DNN에 마스터/슬레이브(Master/Slave) 모델이 필수적인 것은 아니다. 업무를 처리하는 동시에 학습이 가능한 실시간 학습 시스템 사례들이 있다.

우리에게 익숙한 사례로는 DNN이 스스로 실시간 학습을 하는 경우나 DNN에 의해 분류된 객체들이 입력된 자연어 처리 그래프 데이터베이스에서 실시간 학습을 실행하는 경우가 있다. 일반적으로 대부분의 DNN 활용은 완벽한 실시간 학습 모델로서 실행하는데 더 많은 비용이 소요되며, 보다 완벽하게 테스트된 마스터/슬레이브 모델보다 정확성이 떨어진다.

빅뱅 DNN에 따른 결과

1980년대 이후, 토론토대학교와 뉴욕대학교 등 여러 대학교 소속의 연구원들은 DNN 알고리즘 개선을 위한 연구에 돌입했다. GPU와 빅데이터의 등장으로 DNN 기반 알고리즘은 이미지, 동영상, 얼굴, 시각적 화면, 언어, 번역과 문서 등을 실시간으로 이해할 수 있는 능력을 통해 기존 기록들을 깨며 관찰자들을 놀라게 했다. 고성능 스마트 머신을 대상으로 실시한 연구 결과는 다음과 같다.

■ 이미지 인식 테스트에서 DNN은 사람보다 낮은 오류율을 기록했다.
■ 두 사람의 얼굴이 동일한지 여부를 테스트했을 때, 이미 구글의 얼굴 인식 기능은 사람의 능력을 넘어섰다.
■ 지난 2014년 말에 바이두에서 ‘딥 스피치(Deep Speech)’를 발표하면서 음성 인식 성능이 크게 개선됐지만 아직은 사람보다 크게 뒤쳐져 있다.
■ 자연어 처리(Natural-language Processing)는 확인된 사실을 포함한 지식 그래프 작성을 지원하는 DNN을 활용하는 것을 말하며 이는 많은 발전을 이뤘다. 부분적 자율 DNN 기술을 통해 인터넷에서 가장 많이 활용되는 콘텐츠를 ‘이해’하기 위한 많은 노력이 기울여지고 있다.

스마트 머신의 한계

오늘날의 스마트 머신은 몇 가지 큰 한계점을 가지고 있다. 대부분의 스마트 머신 혁신은 인지 부문에서 이뤄졌다. 예를 들어 스마트 머신은 다양한 일반화 수준에서 센서와 웹 크롤러(Web Crawler)같은 입력 스트림을 분류할 때 탁월한 성능을 발휘한다. 위에서 언급한 여러 가지 모범 사례들은 DNN 테스트 조건을 매우 구체적으로 지정하고 있다. 실제 환경에서의 성능은 현실 세계의 불규칙성 때문에 방해를 받는다.

하드웨어의 개선으로 DNN이 향상될 것이며, 이들 기술들의 적용 폭이 크게 넓어질 것으로 보인다. 아직까지 확장성 한계에 도달한 것으로 보이지는 않지만 DNN 모델이 얼마나 큰 규모로 확장될 것인가에 대해서는 예측할 수 없다.

2020년에 지금보다 100배나 1,000배 이상의 연산 성능을 제공한다면 지금까지 불가능했던 무수히 많은 업무를 처리할 수 있게 된다. 노드 또는 뉴런 수의 급격한 증가로 인하여 연산 주기 요구 사항도 늘어나는 추세이기 때문에 방대한 양의 데이터를 네트워크에 입력할 수 있지만 향후엔 네트워크 규모를 제한할 가능성이 있다. 그럼에도 불구하고 네트워크 규모는 지금도 빠르게 확장되고 있는 상황이다.

실행 기능 측면에서는 크게 성공을 거두지 못했다. 그 예로 자율 주행 자동차가 있다. 자동차에 설치된 많은 카메라로부터 전송되는 시각 정보를 자동차 제어 장치에 알려주는 스마트 비전 시스템 부문에서는 비약적인 기술 발전을 이뤘다. 스마트 비전 시스템은 카메라나 레이더와 같은 센서에 저장된 데이터를 가져와 DNN에서 처리하고 이를 시각 정보로 식별하도록 교육받은 모든 정보를 파악한다. 그런 다음 가능성이나 속도, 객체 범주, 구성 요소 정보와 연계한 후, 제어 장치에 정보를 전송해 어떤 조치를 취할 것인지 알려준다.

<그림>은 자동차 스마트 비전 시스템이 단일 카메라의 프레임에서 제어 장치에 전달하는 정보를 형상화한 이미지이다. 이 이미지에서 DNN은 도로 표지판, 자전거를 탄 사람, 여러 종류의 자동차, 속도, 잠재적 위험 수준, DNN의 범주화 신뢰도를 파악했다.

▲ <그림> 스마트 비전 시스템의 실시간 가상 정보 (출처: NVIDIA)

자동차는 이렇게 전송 받은 정보를 통해 어떻게 다음에 취할 행동을 결정하는 것일까? 자동차에 탑재된 제어 장치는 DNN이 아니다. 이는 개발자나 분야별 전문가들이 자체적으로 프로그래밍한 지시 사항을 실행하는 규칙 엔진이다.

제어 장치는 어느 정도의 적응력을 가지지만 개발자들이 생각하는 수준으로 제한된다. 예를 들어 자동차 운전자가 속도보다 편안한 승차감을 중요하게 생각한다면 이러한 운전자의 성향을 학습하고 다양한 작동 매개 변수를 조정해 이를 반영한다. 하지만 개발자들은 이러한 점을 미리 결정해야 한다. 제어 장치는 시행착오를 통해 학습하지 않는다.

강화 학습

강화 학습이나 컴퓨터 신경망 과학이라 불리는 기계 학습(Machine Learning)은 ‘실행 기능(Executive Functions)’을 수행할 수 있는 범용 학습 로직에서 실행된다. 구식 비디오 게임인 아타리 2600 화면을 관찰하거나 조이스틱과 발사 버튼을 조작하고 최고 점수를 얻는 방법을 스스로 찾을 수 있도록 프로그래밍 된 DNN을 대상으로 일련의 실험을 진행했고, 현재는 구글의 딥마인드가 주목할 만한 결과를 보여줬다.

스마트 머신의 실행 기능이 다음 단계로 도약하기 위해서 다양한 목표 지향적인 학습 용도의 실시간 모델이 어느 정도로 준비 됐는지는 알 수 없다. 실시간 강화 학습 모델의 위험 관리와 테스트, 확장성에 대해 해결하지 못한 문제가 있기 때문에 기계 학습은 연구 주제로 남아 있다.

스마트 머신의 미래 - 지금부터 대비하라

스마트 머신은 새롭게 개발된 범용 기술이다. 75년으로 예상되는 수명 주기 가운데, 오늘날의 스마트 머신은 우리가 이해하기 어려운 방식으로 많은 부문에 있어 혁신적인 변화를 가져올 것이다. 스마트 머신은 이미 존재하며 이를 현실화하기 위해서는 아직도 많은 노력이 필요하다. 아직도 많은 기회가 남아있고 기업 차원에서 중요한 프로젝트들이 진행되고 있다.

스마트 머신을 통해 새로운 디지털 비즈니스를 개발할 수 있도록 도와주는 여러 가지 방법이 있다. 빅뱅의 폭발적인 힘이 확장되는 동시에 하드웨어, 대용량 정보, 대규모 DNN 분야에서의 비약적인 발전에 따라 스마트 머신의 활용이 점차 보편화 될 것으로 예상된다. 그리고 경쟁 업체나 기업 내부에서 사업을 진행하는 방식도 달라질 것이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지