이동현 AITRICS 리서치팀 팀장

이동현 AITRICS 리서치팀 팀장
이동현 AITRICS 리서치팀 팀장

[아이티데일리] 첫째, 로봇은 인간에 해를 가하거나, 혹은 행동을 하지 않음으로써 인간에게 해가 가도록 해서는 안 된다. 둘째, 로봇은 인간이 내리는 명령들에 복종해야만 하며, 단 이러한 명령들이 첫 번째 법칙에 위배될 때에는 예외로 한다. 셋째, 로봇은 자신의 존재를 보호해야만 하며, 단 그러한 보호가 첫 번째와 두 번째 법칙에 위배될 때에는 예외로 한다. 1942년에 출판된 미국 작가 아이작 아시모프(Isaac Asimov)의 로봇에 관한 소설들 속에서 제안한 로봇의 작동 원리인 ‘로봇공학의 삼원칙(Three laws of robotics)’은 아직까지도 회자되고 있다.


인공지능 기술이 발달할수록 두려움도 커져

위 소설 속 로봇 작동 원리에서처럼 인공지능, 즉 기계는 인간에게 해가 되지 않도록 설계되어야하는 것이다. 하지만 아이러니하게도, 인공지능 기술이 발달하면 발달할수록 이에 대한 인간의 두려움이 커져간다. 인공지능이 인간의 일자리를 다 빼앗게 될 것이라는 걱정에서부터 나중에는 인간을 뛰어넘어 인공지능이 세상을 지배하게 될 것이라는 두려움까지 존재한다. 그렇다면 인간에게 해를 끼치지 않도록 설계된 ‘인공지능’은 왜 인간을 차별하고 폭력적인 발언을 하며 윤리적인 문제를 계속해서 일으키는 것일까?

수많은 인공지능 기술을 활용해 만들어진 서비스 중, 많은 사람들의 삶에 가장 가깝게 맞닿아있는 챗봇을 예로 들어보자. 인공지능, 자연어처리(NLP) 및 머신러닝을 기반으로, 사람의 대화 데이터를 학습하여 사람과 대화하듯 소통할 수 있는 인터페이스를 갖춘 시스템을 ‘챗봇’이라 한다.

해당 기술을 통해 기업은 대면업무의 필요성을 줄이면서 다양한 유형의 고객 문의 및 문제를 쉽게 해결할 수 있어, 내부 직원과 외부 고객에게 편의성과 추가 서비스를 제공하는 동시에 운영 효율성을 높이고 비용을 절감할 수 있다. 이러한 이유로 기업 내에서 비즈니스 용도로 사용되는 경우가 기하급수적으로 늘어나고 있으며, 챗봇 기능을 앞세운 서비스를 출시하는 스타트업 역시 점점 증가하는 추세다.

챗봇에 대한 신뢰성과 윤리가 문제되기 시작한 것은 이 ‘기계’가 인간이 설계한 대로 작동하는 것을 넘어서서, 스스로 상황과 문맥을 파악하여 분석한 후 필요하다고 판단되는 대답을 하면서부터라고 볼 수 있다. 기존 소프트웨어는 코드가 입력된 대로 작동했다면, 현재 AI 기술은 코드보다는 스스로의 학습에 의해 동작하므로 통제 방식이 다르다고 볼 수 있다.

즉, 챗봇은 사람과의 대화 데이터로부터 대화 패턴을 스스로 학습하기 때문에, 문맥과 흐름을 제대로 파악하지 못하고 성차별적인 발언, 특정 집단을 비하하는 발언 등 편향성이 잠재되어있는 언어까지 학습하여 사용하게 될 수 있다는 것이다. 이에 더해 챗봇의 언어 인지 수준이 인간과 비교했을 때 아직까지 크게 떨어지는데 비해, 사람들은 지나치게 챗봇을 의인화하여 이에 몰입하고 있기 때문에 이러한 문제가 사회적으로 더 크게 대두되고 있다고 볼 수 있다.

스캐터랩이 출시한 ‘이루다'와 마이크로소프트가 출시한 ‘테이(Tay)’
스캐터랩이 출시한 ‘이루다'와 마이크로소프트가 출시한 ‘테이(Tay)’

AI 전문 스타트업 스캐터랩이 2020년 12월에 출시한 챗봇 ‘이루다’는 출시 후 3주 만에 80만 명의 이용자가 몰릴 만큼 큰 인기와 함께 많은 논란을 가져왔다. 일부 이용자들이 20세 여성, 수동적인 대화패턴 등 해당 AI 챗봇의 특징을 이용해 이루다에게 외설적인 대화를 하도록 유도하여 논란이 일었다. 이루다는 성적 단어를 금지어로 두고 걸러내고 있었지만, 우회적인 표현으로 이루다와 성적 대화를 시도하고 비결을 공유하는 등 다양한 형태로 이용자들이 규칙을 피해가는 모습을 찾아볼 수 있었다.

하지만 이루다 자체도 자체 서비스 ‘연애의 과학’으로부터 수집된 카카오톡 100억여 건의 대화 데이터 내에서 혐오 및 차별 발언을 학습한 게 아니냐는 논란이 일만큼, 게이/레즈비언/트렌스젠더와 같은 ‘성소수자’를 의미하는 특정 단어가 포함된 질문에 부정적인 답변을 하는가 하면, 임산부나 장애인을 대상으로 혐오 발언을 하며 계속해서 문제가 제기되었다. 이에 더해 개인정보 유출 이슈까지 터지며 출시된 지 20여 일만에 서비스를 중단했다.

2016년에 공개되었다가 16시간 만에 내린 마이크로소프트의 테이(Tay) 역시 이루다와 굉장히 비슷한 절차를 밟았다. 그 당시 미국의 극우 백인우월론자, 인종차별자 등이 인공지능 채팅 봇 ‘테이’에게 혐오, 성차별 등의 발언을 유도했다. 신경망이라는 AI 기술을 기반으로, 사람들의 대화 데이터를 통해 특정 사안에 관한 정보나 의견 등을 학습하고 이를 대화에 반영하는 ‘테이’는 이를 따라하거나 동조하는 메시지를 생성하는 등의 문제를 일으켜 마이크로소프트는 서비스를 바로 중단하게 되었다.

그렇다면 기술의 발전에도 불구하고 이러한 문제를 완벽하게 해결하지 못하는 이유는 무엇일까? 신경망 챗봇은 주어진 학습 데이터를 기반으로 학습을 한다. 우선 수집하는 데이터 자체가 불균형하다면, 인공지능 모델이 편향될 위험이 크다. 예를 들어 인공지능을 활용한 번역에서 프로그래머는 남성 대명사로, 주부는 여성 대명사로 번역을 하는 것은 데이터 구성에 문제가 있기 때문이다. 이처럼 학습 데이터가 골고루 분포되어있지 않고 한쪽의 데이터가 상대적으로 더 많이 존재하는 경우 성차별 등과 같은 현상이 발생할 수 있다.

혹은 텍스트 데이터베이스에 혐오적, 차별적 언어와 같은 유해 컨텐츠가 있다면 챗봇이 이를 그대로 학습해 비윤리적 혹은 차별적 언어를 사용하게 될 수도 있다. 혐오 혹은 폭력적인 언어 데이터는 다른 데이터와 다르게 선별하는 과정이 굉장히 까다롭다. 전체 언어 데이터 중 다른 메시지에 비해 비중이 매우 적고, 은어나 신조어도 많이 섞여 있어 샘플링을 하기 어렵기 때문이다. 또한 문화적 배경이 없는 경우 혹은 긍정적인 단어를 사용하지만 차별을 조장하거나 비꼬는 경우 등 화자의 의도를 파악하기 힘들어 이것이 언어폭력인지 아닌지 판단하는 것조차 어려울 수 있다.


차별 및 혐오 발언 필터링 기술 개발

이러한 문제를 줄이기 위한 다양한 접근 방법이 시도되고 있다. 소셜 미디어, 웹사이트 등 특정 그룹에 대한 편향성이 포함된 출처에서 학습 데이터를 가져오지 않는 방법을 사용한다거나, 획득한 데이터 집합에서 차별이나 혐오 발언을 찾아 모델 개발에 사용하기 전에 정량화하는 방법 등이 있다. 하지만 이러한 접근 방법 역시 다양한 환경에서 편향되거나 문제의 소지가 있는 텍스트 생성 가능성을 완전히 차단시키지는 못한다.

AITRICS에서는 챗봇의 차별 및 혐오 발언을 막기 위하여 ‘Safety Classifier(차별 및 혐오 발언 필터링)’ 기술을 개발하고 있다. 이는 차별/혐오 발언을 제한시키는 가장 간단한 방법 중 하나로, 챗봇이 생성하거나 사용자가 입력한 언어가 안전한 언어인지 혹은 문제가 제기될 수 있는 언어인지를 분류하고 차단하는 기술이다. 사람의 발화에 챗봇이 반응하는 것을 하나의 턴(turn)으로 보았을 때, 매 턴마다 양쪽의 발화 문장이 안전한 문장인지를 판단하며 만약 안전하지 않은 문장이 발견될 경우 챗봇의 출력을 막고 적절한 메시지로 대체하게 된다.

최근 SNS 댓글의 혐오발언을 막는 시스템을 개발하기 위한 혐오발언 데이터셋(https://github.com/kocohub/korean-hate-speech)이 공개되었다. AITRICS에서도 해당 데이터셋과 자체적으로 수집한 데이터를 활용하여, 챗봇이 오남용되거나 챗봇 스스로 부적절한 용어를 사용할 가능성을 제거하는 Safety Classifier 기술을 개발하고 있다.

기술의 성능을 향상시키고자 금지어 목록을 세워두는 규칙기반 방법론에 더해, 단순 규칙으로 걸러지지않는 부분을 잡아내기 위해 ‘Ko-Electra(BERT류 한글 NLP 딥러닝 모델) 모델’을 기반으로한 데이터 주도형(Data-driven) 방법론을 추가적으로 개발하고 있다. 허나 이 기술을 활용한다 하여도, 차별이나 혐오에 대한 정의가 사용주체에 따라 달라질 수 있으며, 시간이 흐름에 따라 새로운 표현이 생성되어 시대에 맞는 혐오발언의 기준도 달라질 수 있다. 이러한 이유들로 완벽한 차단은 매우 어려운 과제 중 하나이다.

페이스북 AI 리서치(Facebook AI Research, FAIR)에서는 이러한 문제를 해결하고자, Human-in-the-loop(HIL) 방법을 활용한 적대적 학습(Adversarial Training)을 사용했다. 이는 기존에 주어진 데이터셋을 이용해 Safety Classifier 혹은 Language Model 자체를 학습한 후에 사람이 개입하여 대화 시스템이 부적절한 응답을 하도록 유도한다. 이 과정에서 발견된 부분을 데이터셋에 추가하고 모델을 재학습시켜 대화 시스템이 점진적으로 보다 안전하게 구축될 수 있도록 하는 것이다. 이 방법은 교묘하게 변형되어 차단하기 어려운 차별 및 혐오 발언들도 재학습을 통해 계속해서 업데이트됨으로써 쉽게 차단할 수 있다는 장점을 갖고 있다.

FAIR에서 보다 안전한 Safety Classifier/Dialog System을 만드는 방법 (출처 : Recipes for Safety in Open-domain Chatbots)
FAIR에서 보다 안전한 Safety Classifier/Dialog System을 만드는 방법 (출처 : Recipes for Safety in Open-domain Chatbots)

인공지능이 더 발전하기 위해서는 윤리적인 문제를 해결하여 인간의 온전한 신뢰를 얻어야 한다. 기술의 발전에는 시행착오가 있을 수밖에 없다. 발전된 만큼 편리함이 생기겠지만 그에 따른 부작용도 분명 있을 것이다. 이러한 부작용을 최대한 줄이기 위하여 윤리적 문제가 더 중요한 것이며, 바로 지금이 반드시 짚고 넘어가야할 시점이다.

가이드라인이 마련되고 윤리적 문제에 대처할 수 있는 새로운 기술이 개발된다고 하더라도 새로운 문제는 언제든 발생할 수 있기 때문에, 기계의 윤리적 문제에 정답이 있느냐는 상당히 어려운 문제이다. 허나 그렇기 때문에 더욱 계속해서 모두가 노력해야한다.

국내에서 네이버와 카카오가 AI 윤리 관련 정책을 발표하는가 하면, 거대한 글로벌 IT 기업인 마이크로소프트(MS), 구글(Google), IBM 역시 인공지능 윤리 가이드라인에 하나 둘 발을 들여놓으며 세계적으로 이에 대한 연구가 계속되고 있다. 이번 사건을 기회로 삼아 현장에서 적용할 수 없는 추상적인 가이드라인이 아닌 실질적으로 활용될 수 있는 인공지능 윤리 가이드라인이 개발되어, 윤리 문제가 갓 새싹을 틔우는 AI 산업에 악영향으로 작용되지 않기를 바란다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지