[AI 신뢰성①] 믿을 수 없는 AI는 시한폭탄이다

신뢰할 수 있는 AI를 위한 여정
AI 영역 확대될수록 신뢰성 의문 증가…민간 주도의 신뢰성 인증 선제 출범

[아이티데일리] AI는 산업 분야를 막론하고 혁신을 가속화시키기 위한 필수요소로 자리잡았다. 그러나 한편으로 AI의 역할이 커질수록 오작동을 일으켰을 때 발생할 수 있는 사고 규모도 커지고 있다. 마치 불이 인류 문명의 발전에 크게 공헌했지만 때로는 화재를 일으켜 심각한 피해를 입히기도 하는 것처럼 말이다. 특히 딥러닝을 통해 개발된 AI는 여전히 블랙박스 문제를 안고 있어 언제 터질지 모르는 시한폭탄처럼 느껴지기도 한다.

이에 따라 최근 전 세계 정부와 IT 기업들은 신뢰할 수 있는 AI를 만들고 이를 검증할 수 있는 기술과 제도 개발에 많은 관심을 쏟고 있다.

AI가 확산될수록 위험도 높아진다

지난 2016년 3월, 알파고(AlphaGo)가 이세돌 9단을 꺾으면서 AI의 가능성을 전 세계에 알렸다. 이미 6년 전의 일이다. 이제 우리에게 AI라는 단어는 더이상 낯설지 않다. 현대인의 생활 필수품인 스마트폰부터 시작해 자동차나 병원, 쇼핑 등 AI가 적용되지 않은 영역을 찾기 힘들 정도다. 산업계에서도 금융‧제조‧유통 등 분야를 가리지 않고 모든 곳에 AI가 적용되고 있다. 앞으로도 한동안 AI는 인류 발전의 모든 곳에 중요한 역할을 할 것으로 보인다.

그러나 AI가 가져다주는 빛이 밝아질수록 그만큼 그림자도 깊어지고 있다. AI가 더 많은 곳에서 더 중요한 역할을 수행할수록 AI가 오작동했을 때 일어나는 문제 역시 커지기 때문이다. 뉴스나 포털 사이트 등을 통해 오작동한 AI가 일으키는 문제를 심심찮게 만나볼 수 있다.

국내에서 AI가 일으킨 사건 중 가장 큰 주목을 받은 것은 단연 ‘이루다’일 것이다. 이루다는 스캐터랩이 개발한 대화형 AI 챗봇 서비스다. 2020년 6월 페이스북 메신저를 통해 베타 버전을 공개하고, 같은 해 12월 정식 출시됐다. 방대한 일상회화 데이터를 학습해 어떤 주제에 대해서도 자연스럽게 대화를 나눌 수 있는 것은 물론, 사용자에게 먼저 말을 걸거나 이루다 자신의 일상을 공유하면서 진짜 사람처럼 느껴지는 AI를 구현해 주목을 받았다.

그러나 이루다는 정식 출시 이후 성소수자와 장애인에 대한 혐오 발언, 남녀 차별적인 표현, 20대 여성으로 설정된 이루다에 대한 성희롱 등 수많은 물의를 일으켰다. 여기에 학습에 사용한 데이터를 제대로 정제하지 않아 개인정보 유출 문제까지 발생하면서 비난의 목소리는 더욱 높아졌다. 이에 스캐터랩은 아직 이루다의 수준이 부족하다는 것을 인정하고 서비스를 잠정 중단했다.

이루다는 우리 사회가 AI에 대해 경각심을 가지게 하는 계기가 됐다. 알파고가 이세돌 9단을 이겼다지만 AI는 여전히 완전한 기술이 아니며, 언제든 실수를 저지를 수 있다는 것. 특히 이루다는 그저 대화형 AI 챗봇이었기에 개발자가 예기치 못한 문제가 발생해도 서비스 종료 수준에서 마무리될 수 있었지만, 만약 더 중요한 역할을 하도록 만들어진 AI였다면 심각한 사회적 문제를 일으킬 수도 있었을 것이다. 예를 들어 자율주행차를 운전하는 AI가 오작동을 일으켜 횡단보도를 건너는 사람을 인식하지 못하게 된다면?

과기정통부 ‘신뢰할 수 있는 AI 실현전략’ 제시

AI가 사회적 문제를 일으키지 않도록 하려면 어떻게 해야 할까? 가장 간단한 방법은 AI를 완전히 배제하고 그 이전으로 돌아가는 것이다. 하지만 당연하게도 이는 현실적이지 않다. 화재가 무섭다고 불을 쓰지 않을 수는 없듯, AI는 이미 사회 전반에 깊숙이 침투했으며 우리는 AI가 가져다주는 혜택을 너무 경험해버렸다. 이제 와서 AI를 완전히 배제할 수는 없다. 그렇다면 남은 방법은 믿을 수 있는 AI를 만드는 것, AI 신뢰성에 대한 문제를 고민하는 것이다. 이에 전 세계 주요국에서는 AI의 신뢰성 확보를 위한 정책을 앞다투어 내놓고 있다.

우리나라에서도 AI 신뢰성 확보를 위한 제도 마련에 박차를 가하고 있다. 과학기술정보통신부(이하 과기정통부)는 지난해 5월 ‘신뢰할 수 있는 AI 실현전략’을 발표했다. 과기정통부 측은 “사람이 중심이 되는 AI 강국으로 도약하기 위해 ‘신뢰할 수 있는 AI’ 실현을 위한 지원 정책이 조속히 필요하다”며, “(이번 전략에는) 민간 자율적으로 신뢰성을 확보할 수 있도록 지원체계를 구축하며, 재정과 기술이 부족한 스타트업 등에 대한 지원책을 담았다”고 설명했다.

과기정통부는 이번 실현전략을 통해 △신뢰 가능한 AI 구현 환경 조성 △안전한 AI 활용 기반 마련 △사회 전반의 건전한 AI 의식 확산 등의 3대 전략과 구체적인 10대 실행과제를 제시했다. 즉 민간에서 성능과 안정성이 뛰어난 AI 서비스가 나올 수 있도록 지원하는 한편, 이용자들이 AI를 믿고 안전하게 사용할 수 있도록 제도적으로 보완한다. 한편으로는 사회적‧인문학적으로 AI 활용과 윤리에 대한 교육을 강화해 전 국민이 AI에 대한 건전한 의식을 함양할 수 있도록 한다.

과기정통부는 ‘신뢰할 수 있는 AI 실현전략’이 지난 2020년 발표한 ‘AI 윤리기준’의 실천방안을 구체화한 것이라고 설명했다. 구체적인 내용을 살펴보면 정부가 AI 기술을 대하는 방향성이 다소 달라졌음을 느낄 수 있다. ‘AI 윤리기준’은 ‘인간성을 위한 AI’라는 키워드를 내세우며 △인간의 존엄성 △사회의 공공선 △기술의 합목적성 등 AI의 긍정적으로 사용하자는 방향성을 제시했지만, ‘신뢰할 수 있는 AI 실현전략’은 상대적으로 AI의 오작동과 위험성을 경계하며 믿을 수 있도록 만들어야 한다는 수비적인 면모가 돋보인다.

AI는 문제를 일으키지 않는다

그렇다면 AI는 왜 오작동을, 문제를 일으키는가? 사실 AI는 문제를 일으키지 않는다. AI가 문제를 일으켰다고 하는 경우의 대부분은 ‘사람이 의도하지 않은 결과’가 나온 것 뿐이지, AI가 오작동한 게 아니다. AI는 도구에 불과하며 사람과 같은 실수를 하지 않는다. 의도하지 않은 결과가 나오도록 만든 것은 AI가 그렇게 작동하도록 만든 사람이고, 따라서 실수는 문제를 일으킨 것은 사람이다. 이루다가 성소수자 혐오나 남녀 차별적인 발언을 한 것은 이루다가 나쁜 아이이기 때문이 아니라, 사람이 나쁜 데이터를 학습시켰기 때문이다.

AI가 문제를 일으키지 않도록 만들기 위해서는, 사람이 의도한 결과만을 도출하도록 만들기 위해서는 결국 사람이 좋은 데이터를 학습시켜야 한다. 즉 AI의 신뢰성을 확보한다는 것은 학습용 데이터의 신뢰성을 확보해야 한다는 것을 의미한다. 학습용 데이터의 신뢰성이란 데이터에 누락되거나 잘못된 값이 없고 충분한 양을 갖추고 있어야만 성립된다. 정확하고 많은 데이터로 학습한 AI는 신뢰성을 기대할 수 있다.

AI 학습용 데이터가 갖춰야 할 또 하나의 미덕은 편향성이다. 데이터를 수집하고 정제하는 과정에서는 언제든지 편향성이 발생할 수 있다. 정확하고 많은 데이터도 한 쪽으로 치우쳐 있다면 결과물인 AI가 만족스럽지 않을 수 있다. 가령 개의 종류를 분류하는 AI를 만들기 위해 100장의 사진을 학습시켰는데, 진돗개 사진 99장과 치와와 사진 1장으로 학습시킨다면 제대로 된 결과가 나오지 않을 것이다. 따라서 좋은 AI를 만들기 위해서는 학습용 데이터의 편향성을 점검하고, 다양한 데이터를 학습할 수 있도록 해야 한다.

다만 편향성이 무조건 제거돼야 하는 것은 아니다. 경우에 따라서는 편향성이 필요할 수도 있다. 이루다의 사례로 돌아가보자. 이루다는 진짜 사람같은 AI를 목표로 하고 있지만, 진짜 사람들이 하는 말들을 그대로 학습했다가는 욕지거리 같은 나쁜 말을 배울 수도 있다. 따라서 이루다가 물의를 일으키지 않도록 하기 위해서는 착한 말만 하도록 편향되게 학습시킬 필요가 있다. 굳이 다양성을 고려해 나쁜 말까지 배울 필요는 없는 것이다. 혹은 나쁜 표현을 배우더라도 착한 말만 하도록 변수값을 조정해 알고리즘에 편향성을 부여하는 것도 가능하다.

“크기만 한 데이터에는 가치가 없다”
박지환 씽크포비엘 대표

예전에 한 기관에 찾아가보니 약 5만 장의 사진 데이터를 보유하고 있었다. 이렇게 모으는 데에 억 단위의 돈이 들었다고 했다. 5만 장이라고 하면 상당한 양처럼 보인다. 그런데 막상 뚜껑을 열어보니 5만 장처럼 보이는 260장에 불과했다. 비슷하거나 중복된 사진들이 많았기 때문이다. 이런 데이터 5만 장을 학습한 AI는 다양성이 갖춰진 260장만 학습한 AI와 다를 바가 없다.

그동안 우리는 데이터의 양에만 집중했다. 빅데이터라기보다는 빅(big)하기만 한 데이터다. 이런 데이터는 용량은 크지만 가치는 작다. 대부분 데이터를 많이 모으면 어떻게든 되지 않겠느냐고 생각한다. 기업들은 자신들이 보유한 데이터가 얼마나 많은지, 얼마나 오랫동안 모은 것인지 자랑한다. 데이터를 1억 건 모았다, 10년 치를 모았다, 용량으로 따지면 몇 페타바이트나 된다, 이런 식이다. 그런데 데이터가 얼마나 다양하게 있냐고 물어보면 제대로 대답하지 못한다. 데이터의 다양성을 표현할 기준 자체가 없다.

많은 기관들이 일단 양이 많으면 기관의 평가가 높아지고 본인의 치적에도 도움이 되니까 그저 많기만 한 빅데이터를 보유하고 있다. 하지만 이것은 너무나 비효율적이고 구시대적인 방법이다. 시간과 예산의 낭비다. 과거에 AI와 데이터에 대해 잘 모르던 시절에 축적한 데이터들은 그렇다고 쳐도, 이제는 보다 성숙한 시점이니 과거의 잘못된 부분을 바로잡고 보다 효과적인 방법을 시도해야 한다.

데이터를 모을 때는 데이터의 양과 정확성만큼이나 다양성과 밸런스를 갖추는 것도 중요하다. 데이터를 모으는 것은 결국 똑똑한 AI를 만들고 지능정보사회를 만들기 위한 것이다. 그러므로 조금 더 번거롭더라도 모으는 단계부터 제대로 쓰이기 위한 조건을 생각해야 한다.

상단영역

본문영역