조성배 연세대학교 인공지능대학원 / 컴퓨터과학과 교수

[아이티데일리] 본지 컴퓨터월드/아이티데일리가 지난달 29일 ‘2021 AI&빅데이터 웨비나’를 온라인으로 개최했다. 이번 웨비나는 ‘구축사례를 통해 본 AI&빅데이터의 현주소’라는 주제로, 구체적인 사례를 통해 산업계의 디지털 혁신(Digital Transformation)을 이끌고 있는 AI와 빅데이터 기술의 트렌드를 살펴보는 자리로 마련됐다.

이미 많은 기업들이 AI‧빅데이터 활용의 필요성을 인지하고 있지만, 구체적으로 어떤 투자를 수행해야 하는지 몰라 어려움을 겪는 경우가 많다. 이번 웨비나에서는 학계‧산업계 전문가들의 발표를 통해 기업들이 고민하고 있는 AI‧빅데이터 활용 전략을 제시하고, 최선의 방법론을 마련하기 위해 어떤 요소들을 고려해야 하는지 확인할 수 있도록 했다.

‘2021 AI&빅데이터 웨비나’는 연세대학교 조성배 교수의 키노트를 시작으로 데이터솔루션, 메타빌드, 비투엔 등 국내 AI‧빅데이터 전문기업들이 참가해 관련 업계의 최신 트렌드와 기술 동향을 공유했다. 각 세션의 주요 내용을 정리했다.

① AI&빅데이터의 산업체 활용 : 최신 트렌드와 전략
② 빅데이터와 인공지능의 융합을 통한 가치창출
③ 건강 데이터 기반의 AI 서비스
④ 빅데이터 분석/활용을 위한 데이터 거버넌스 프레임워크


AI&빅데이터의 산업체 활용 : 최신 트렌드와 전략

첫 번째 세션을 맡은 조성배 교수는 ‘AI&빅데이터의 산업체 활용 : 최신 트렌드와 전략’이라는 주제로 발표를 시작했다.

최근 AI 기술은 많은 데이터를 학습하며 고도화될 수 있는 ‘성장하는 AI’, 사람들과 소통하고 공감하며 신뢰할 수 있는 형태로 진화하는 ‘사회친화적 AI’ 등으로 발전하고 있다. 이를 통해 새롭게 개발되는 기술들이 빅데이터 분야의 새로운 도구로 자리잡았다. 한편 빅데이터 분야에서는 수집‧저장‧관리‧분석‧활용 등 모든 분야의 기술이 고도화되면서 새로운 데이터가 축적되고, 이들이 AI 개발을 위한 학습 데이터가 되면서 상호 보완적인 관계를 갖고 있다.

사실 모든 사람들이 AI에 대해 긍정적으로 생각하지는 않는다. 디지털 혁신을 위한 필수 기술이라고 떠받들어지면서 맹목적으로 신봉하고 있을 뿐이라는 지적이다. 일각에서는 “예전에 내가 한 번 써봤는데, 알맹이는 없고 마케팅 용어로나 쓰이는 것”이라며 불편한 시각을 내비치기도 한다. 최근 몇 년 사이 기업들의 AI 도입이 빠르게 늘어나고 있지만, 실제로 적지 않은 기업들이 AI 도입 과정에서 실패를 겪기도 했다.

이에 대해 조성배 교수는 AI라는 기술이 태생적으로 가질 수밖에 없는 한계라고 설명했다. AI는 특정한 체계를 바탕으로 꾸준히 발전해온 단일한 기술이 아니라 굉장히 다양한 분야에서 독자적으로 개발된 기술들의 결합체이기 때문이다. 따라서 AI 기술의 일부만을 접하고 실망하는 일이 일어날 수 있다. 또한 AI를 정의하는 기준이 명확하지 않다보니 AI라는 명칭을 오남용하기도 하고, 마케팅적으로 도움이 된다고 생각하면 가볍게 가져다 쓰는 현상이 비일비재하게 발생하고 있다.

조성배 교수는 사용자 입장에서 AI를 구성하는 모든 기술을 다 알아야 할 필요는 없다고 조언했다. 중요한 것은 AI 관련 기술에 대해 아는 게 아니라, 내가 풀어야 하는 문제에 어떤 기술을 적용해야 하는지 파악하는 것이다.

이를 위해서는 무엇보다 먼저 자신이 직면해있는 문제가 무엇인지를 알아야 한다. 조성배 교수는 “산업체 사람들과 얘기하다보면 의외로 본인의 문제를 이해하지 못하고 있다는 생각이 든다. 본인의 문제가 무엇인지 알면 이미 50% 정도는 해결된 셈”이라고 설명했다. 문제를 정확히 파악하고 나면 다음은 필요한 데이터를 준비해야 한다. 최근에는 정부에서 AI 학습용 데이터를 구축하거나 데이터 바우처 등을 통해 구매 비용을 지원하기도 한다. 본인이 해결하고자 하는 문제 상황에 따라 그에 관련된 데이터를 마련하면 된다.

문제 상황과 데이터를 확보했다면 이제 본격적으로 AI 관련 기술을 활용할 차례다. 최근 대부분의 AI 관련 기술들은 오픈소스로 제공되고 있기 때문에 최초 접근 자체는 어렵지 않다. 문제는 수많은 AI 기술들 중 목적에 맞는 기술들을 찾고 적용하는 것이다. 이에 대해 조성배 교수는 세 가지 핵심 요소를 고려해야 한다고 조언했다.

첫 번째는 딥러닝 모델을 복합적으로 활용하는 하이브리드 딥러닝 방식을 사용해야 한다는 것이다. 딥러닝 모델 중 가장 일반적이고 근간이 되는 것은 인코더(Encoder)와 디코더(Decoder)를 통해 특정한 입력값에 대한 출력값을 내놓는 방식이다. 이를 기반으로 충분한 데이터와 컴퓨팅 자원을 갖추고 있다면 많은 문제들을 해결할 수 있지만, 완벽하지는 않다.

사전에 많은 데이터들을 학습한 모델을 가져다가 유사한 다른 문제에 적용하는 전이학습(Transfer Learning)은 모델 학습에 필요한 시간과 비용을 크게 줄이면서 정확성을 높일 수 있는 방법이다. 입력값을 예측해 이와 유사한 출력값을 내놓도록 세팅하는 오토 인코더(Auto-Encoder), 이와 유사하지만 주어진 문제에서 중요한 특징들을 자동으로 뽑아낼 수 있는 딥 오토 인코더(Deep Auto-Encoder), 생성자(generator)와 판별자(diciminator)라는 두 개의 적대적 모델을 활용해 적은 데이터로도 뛰어난 학습 효과를 낼 수 있는 GAN(Generative Adversarial Network) 등 다양한 AI 기술들을 복합적으로 활용해야만 최선의 결과를 얻을 수 있다.

두 번째는 알고리즘에 대해 이해하고 복합적으로 활용해야 한다는 것이다. 알고리즘을 단순하게 풀어보면 입력값에 대해 출력값을 내어주는 일련의 명령어 뭉치다. 이 명령어 뭉치가 어떻게 작동하는지에 따라 심볼릭 AI(Symbolic AI)와 뉴럴(Neural AI)로 구분할 수 있다.

알고리즘은 입력된 데이터에 정확한 출력값을 내주는 명령어 뭉치다.
알고리즘은 입력된 데이터에 정확한 출력값을 내주는 명령어 뭉치다.

전통적인 방식인 심볼릭 AI는 사전에 입력한 규칙(rule)을 판단 기준으로 삼는 방법이다. 입력값의 특징에 대해 잘 알고 정확한 규칙을 설정할 수 있다면, 학습 데이터가 적거나 아예 없어도 정확한 출력값을 제공할 수 있다. 알고리즘이 작동하는 과정도 비교적 정확하게 파악할 수 있다. 반면 뉴럴 AI는 신경망(neural network) 형태로 구축된 딥러닝 알고리즘을 활용한다. 심볼릭 AI와 달리 학습을 통해 사전에 정의되지 않은 패턴도 구분할 수 있고, 입력값에 다소 노이즈가 있어도 높은 확률로 정확한 출력값을 낼 수 있다. 하지만 입력값이 복잡해질수록 모델의 구조 또한 복잡해져, 내부 구조가 블랙박스화 되면서 해석이 불가능해질 위험도 안고 있다.

심볼릭 AI와 뉴럴 AI 중 어느 한 쪽이 더 뛰어나다고 말하기는 어렵다. 이에 최근에는 두 가지의 우열을 가리기보다는 각각의 장점을 활용하는 뉴로-심볼릭 AI(Neuro-Symbolic AI)에 대한 연구가 각광받고 있다. 논리적인 규칙을 신경망 내부에서 활용할 수 있도록 임베딩한다거나, 신경망에서 얻은 결과값에서 규칙성을 찾아 심볼릭 AI로 활용하는 식이다. 두 가지 방법을 적절히 활용한다면 AI 시스템의 정확도와 효율성을 더욱 높일 수 있다.

마지막 세 번째는 AI의 편향성을 주의해야 한다는 점이다. 최근 전 세계적으로 AI 시스템이 특정 단체나 인종을 차별하고 비하하는 발언을 하면서 물의를 빚고 있다. AI는 데이터를 학습해 모델을 만드는 과정이므로, 데이터 자체에 편향성이 존재한다면 만들어진 AI가 공정하지 않게 작동할 수 있다. 이를 해결하기 위해 ▲학습 데이터를 수정하거나(전처리) ▲알고리즘을 수정하거나(내처리) ▲출력값을 보정하는 방법(후처리)을 활용하고 있다.

학습 데이터를 수정하는 방법은 데이터 생성 과정에서 편향성이 제거되기에 다양한 알고리즘에 적용 가능하지만, 데이터 자체가 왜곡되거나 특성이 손실돼 결과값의 신뢰도가 떨어질 수 있다. 반면 알고리즘을 수정하는 방법은 모델 학습 과정에서 편향성이 최소한으로 표출되도록 제어하는데, 모델 학습 과정이 복잡해지는데다 데이터 왜곡을 최소화하려다보니 잠재적으로 편향성이 완전히 사라지지는 않는다는 문제를 안고 있다. 마지막으로 출력값을 보정하는 방법은 모든 모델에 적용 가능하며 결과값의 신뢰도에도 문제가 없으나, 편향성을 줄이기 위해 사용자가 수동으로 사후 처리를 해야 한다.

조성배 교수는 “AI 분야에는 가장 성능이 뛰어난 하나의 기술이 존재하지 않는다. 그러니 AI를 도입하려는 기업은 자사의 문제점을 잘 분석한 다음 거기에 알맞은 최선의 기술들을 모아서 문제를 해결해야 한다”며, “최근에는 오픈소스를 통해 대부분의 AI 기술들이 공개되고 있으므로, 오픈소스의 바다에서 옥석을 가리고 내게 필요한 것을 적절하게 취할 수 있는 능력이 SW엔지니어들의 경쟁력이 될 것”이라고 조언했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지