박지환 씽크포비엘 대표

박지환 씽크포비엘 대표
박지환 씽크포비엘 대표

[아이티데일리] 지난해에 ‘성차별하는 인공지능과 함께 일할 것인가 – 밸런스 없는 빅데이터는 빅 일베가 될 뿐’이라는 제목의 글을 투고했는데, 자극적 제목 때문인지 여기저기서 문의가 많았다. 어떤 사람들은 데이터 밸런스의 중요성을 너무 과장하는 것 아니냐, 결국 빅데이터 시대인데 물량 이기는 장사 없다고, 데이터 양이 축적되면 결국 해결되는 문제 아니겠냐는 질의도 있었다. 나는 그냥 쓴웃음을 지었고, 시간은 1년 가깝게 지났다.

지난 4월 26일, 유럽연합에서는 AI 기술에 대해 유례없던 고강도의 규제안을 발표했다. 인간의 존엄과 가치를 훼손하거나 안전성이 염려되는 인공지능 기술에 대해 적합성 평가와 인증 절차를 통해 엄중히 규제하겠다는 내용이었다. 미국의 씽크탱크 조직인 데이터 혁신센터(CDI)에서는 이 조치로 인해 유럽 기업들이 추가 지불해야 하는 비용이 5년간 360억 달러(41조 원)에 이를 것으로 추산했다. 문제는 이러한 규제가 결국에는 전 세계적 표준으로 반영될 것이라는 점이다.

올해 개최된 도쿄 패럴림픽에서는 토요타의 자율주행셔틀버스가 장애인 선수를 추돌하는 사고가 있었다. 또 우버의 자율주행차도 미국 애리조나에서 보행자를 치어 숨지게 하고, 캘리포니아의 쇼핑몰 경비로봇은 16개월 된 어린아이를 공격하기도 했다. 국내 기업이 개발한 대화형 챗봇이 극도로 차별적이면서 비윤리적인 대화 패턴을 보여 사회적 물의를 일으킨 일도 있었다.

사실 인공지능과 무관하게 누군가의 실수로 인한 사고는 늘 일어난다. 하지만 우리는 인간의 실수에 대해 상대적으로 관대한 반면, 기계의 실수에 대해서는 한층 더 민감하고 불안해한다. 유럽연합을 필두로 한 인공지능 기술 규제 움직임은 그래서 필연적이다. 인공지능의 역할이 커지는 것에 비례해 사고와 오작동에 대한 불안감도 가중될 수밖에 없다. 그 불안감을 해결해주지 못 하는 기술은 시장에서 살아남지 못할 것이다.


데이터 밸런스 없이 인공지능은 바나나와 토스터기도 구분하지 못한다

문제는 데이터를 더 많이 투입한다고 인공지능이 믿을만해지는 게 아니라는 점이다. 지난번 글에서도 이야기했듯이, 토요타나 우버에 데이터 보유량이 부족해서 회사 전체의 신뢰성을 저하시킬 오작동 문제를 일으켰을 리가 없다. 데이터의 총량이 몇 페타바이트이든 인공지능 학습용으로 유용하지 않다면 거대한 쓰레기장이 될 뿐이다.

아래 <이미지 1>을 보자. 위의 이미지는 바나나이고, 구글 비전 또한 바나나로 인식했다. 그러나 아래의 이미지를 구글 비전은 토스터기로 인식한다. 구글 비전의 지능(성능)이 떨어지거나 보유 데이터의 양이 부족해서 생기는 문제가 아니다.

이미지 1 (출처: Adversarial Patch, 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA)
이미지 1 (출처: Adversarial Patch, 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA)

아래 <이미지 2>에서 우리는 각각을 고양이, 치타, 흑표, 호랑이, 표범 등으로 범주화해 인식하지만, 인공지능의 관점에서는 날씬한 고양이, 검은 고양이, 큰 고양이 등일 뿐이다. 왜냐하면 그 구분은 물리적인 게 아니라 우리의 특정 문화권에 속한 인간의 관점이기 때문이다.

한국 사람이 보기에 낙지, 문어, 쭈꾸미로 분류하는 것들을 영어권 사람들에게는 동일한 옥토퍼스(Octopus)인 것과 마찬가지다. 인공지능의 관점에서는 우리도 그냥 털 없는 원숭이일지 모른다.

이미지 2 (출처 : Pikist)
이미지 2 (출처 : Pikist)

우리가 특정 목적을 위해서 인공지능으로 하여금 고양이와 호랑이를, 낙지와 문어를 구분하게 만드는 일은 고양이나 낙지의 화상 데이터를 수백만 장 확보하는 일로 해결되지 않는다. 인간이 고양이와 호랑이를 구분하는 것은 거기 필요한 문화적 관점을 어려서부터, 적절한 데이터들을 통해 교육받았기 때문이다.

인공지능도 마찬가지다. 결국 우리가 인공지능에게 수행시키려고 하는 일의 목적을 위해, 적합한 데이터를 적절한 만큼 수집해서 제공하는 것이 관건이다. 그런데 여기서 어떤 것이 적합한지, 얼마만큼이 적절한지를 판단하는데 인간의 주관적인 상식 내지 ‘감’은 도움이 되지 않는다. 그것은 인공 지능의 관점에서, 다시 말해 공학적으로 표준화된 기준에서 객관적으로 판단되어야 한다. 그것이 바로 데이터 밸런스이다.


데이터 선진국을 위한 노력이 공회전하고 있다

인공지능이 충분한 밸런스의 데이터를 제공받지 못해서 자기 업무에 필요한 ‘인간적인’ 관점을 습득하지 못 하였다면? 다시 말해 바나나와 토스터기를 구분하지 못하듯이, 우리를 털 없는 원숭이 정도로 인지하고 있다면? 우리는 그 인공지능을 신뢰할 수 없을 것이고, 사회는 어떻게든 해당 기술을 규제하려 할 것이다.

그러나 산업 현장, 특히 인공지능 관련 공공기관에서 이 부분을 충분히 인식하고 있는 것 같지 않다. 그 사이 디지털 전환 관련 책임 있는 자리를 맡고, 중요 데이터 밸런스 평가를 담당하는 등 실무 경험이 쌓이면서, 업계의 상황에 대해 기대만큼이나 큰 우려를 하게 되었다. 산업계와 공공기관이 이전에 비해서 데이터의 양뿐 아니라 질적 다양성까지 고려하게 됐다는 점은 긍정적이다. 그러나 그 ‘다양성’의 기준이 기술적이지 못하고 주관적이어서, 신뢰 가능한 데이터 대신에 모호한 품질 기준으로 들쑥날쑥하고 중구난방 정리되지 않은 데이터가 수집되고 있다.

다양성 개념에 대한 이해도가 떨어져서 데이터 품질검사는 오타 체크에 해당하는 구문정확성, 의미정확성 검증에 그치는가 하면, ‘데이터의 다양성을 체크’하는 대신 ‘검증자들 각자의 다양한(주관적인) 기준으로 데이터를 체크’하기도 했다.

모 기관에서 인공지능의 시각적 판단을 위해 모아 놓은 5만 장의 화상 데이터를 데이터 밸런스 기술로 분석한 결과, 7천 장의 다양성(CAD = Coverage of Evaluation Applied Dataset)이 필요했음에도 유의미한 데이터는 231장(3.08%)일 뿐 나머지는 모두 중복 데이터의 나열이었다. 다시 말하면 7천장이면 충분한 데이터를 굳이 5만장이나 모았음에도, 231장의 역할 밖에 하지 못했다는 뜻이다. 이런 상황인데 데이터 수집을 책임지는 주체들은, 수집되고 있는 데이터가 얼마나 심각한 상태인지 전혀 인식하지 못하는 경우가 많았다.

구축 데이터 범위의 밸런스 데이터세트 대비 커버리지
구축 데이터 범위의 밸런스 데이터세트 대비 커버리지
데이터밸런스 해당항목 분포도
데이터밸런스 해당항목 분포도
데이터밸런스 설계 예시
데이터밸런스 설계 예시

문제를 기술적으로 적용한다면, 같은 기술을 적용했을 때 적용 주체가 10명이든 100명이든 같은 결과가 나와야 한다. 그런데 기술적 방법론이 없다 보니 데이터 검증 작업은 10명에게서 10가지 다른 결과가 나온다. 이래서는 인공지능의 편향을 예방하기 위한 데이터의 다양성 관리가 제대로 될 수가 없다.

기업이든 공공기관이든 엄청난 노력을 기울여서 다양한 데이터를 확보하려 하지만, 데이터에 대한 품질 관리도 공학적 구분도 안 되다 보니 오타만 없는 중복 데이터들이 수없이 반복 나열되면서 양적으로만 감당하기 어려울 정도로 쌓여갈 뿐이다. 구성원들의 피눈물나는 노력은 결국 막대한 예산을 낭비할 뿐 한없이 공회전하게 된다. 심지어 이렇게 축적된 데이터를 기술적 검토조차 거치지 않은 채 해외에 판매하려 하기도 한다.

국내 광산에서 캔 원석을 자원으로 가공할 생각은 없이, 돌덩이 가격으로 무게 달아 팔아 넘기는 것과 다름없다. 인공지능 현지화를 위해 현지(문화, 생활, 관념, 기후 등) 데이터가 중요해 지는 시점에, 자국의 기술 경쟁력을 해외에 넘기는 것은 자칫 디지털 주권의 매국 행위가 될 수도 있다. 만약, 공학적 품질관리가 이루어졌다면 그 안에서 어떤 다이아몬드가 가공될 수 있었을지 알 수 없는 일이다.

이러한 문제가 발생하는 것은 데이터의 중요성에 대한 국내 인식이 부족하다는 점과 아울러, 데이터의 다양성과 적합성에 대해 모두가 신뢰할 수 있는 공적 기준이 부재하기 때문이다. 그리고 사실 이 부분에서 국내 기업이나 공공기관을 과도하게 비판하는 것도 공정한 판단은 아니다. 데이터 적합성의 기술적 기준에 대해서는 전세계 어디에서도 아직까지 확실한 틀을 제시하지 못한 채 모두가 암중모색(暗中摸索)하는 상황이기 때문이다.

그렇다면 역으로, 누군가 그 기준을 먼저 제시할 수 있다면 눈앞에 다가온 인공지능 신뢰성 기술경쟁에서 압도적으로 유리한 고지를 선점할 수 있다는 의미이기도 하다. 당장 인공지능 신뢰성에 관련된 기술 규제 하나만으로 유럽에서는 41조 원이 왔다갔다하는 상황이다.


해결책은 데이터 다양성에 대한 공적 기준 수립에 있다

주요 산업의 인공지능 기술 전환이 돌이킬 수 없는 현실이 된 상황에서, 우리의 정부 정책도 해당 산업의 경쟁력 제고를 위해 발빠르게 움직이고 있다. 스타트업이나 중소기업을 위한 공공의 데이터 구축 사업이 활발히 진행되어 2025년까지 총 1,300종의 데이터가 확보될 예정이다. 거기에 500여 개 공공기관에서 수집해 놓은 공공 데이터까지 포함하면, 이미 축적되어 있는 데이터만 해도 양적으로는 어마어마하다.

문제는 그렇게 축적된 데이터들이 다양성 관점에서 충분히, 그리고 기술적으로 관리되어 있지 않다는 점이다. 데이터가 특정 관점에 편향되었을 경우 인공지능으로 하여금 황당한 사고를 일으키게 하거나 잘못된 판단을 내리게 만들 수 있는데, 지금 상황에서는 그로 인한 책임을 고스란히 일선 기업이 떠안게 된다. 만에 하나 정부 제공 데이터의 편향성 때문에 토요타나 우버의 자율주행 오작동과 같은 문제가 발생한다면, 기업의 입장에서는 생각만 해도 아찔한 일이다. 그렇다고 개별 기업이 필요한 모든 데이터를 자체 조달한다는 것도 쉽지 않을뿐더러, 기업들 역시 수집된 데이터가 다양성 관점에서 믿을 만한지 정확히 판단할 방법이 마땅치 않다.

데이터의 다양성을 판단할 수 있는 기술적 기준이 확보된다면 획기적인 진보가 이루어질 수 있다. 인공지능에게 필요한 데이터 다양성의 수준은 목표로 하는 과업에 따라 다르다. 어떤 기업의 인공지능은 극도로 다양한 데이터의 엄밀성이 필요한 반면, 다른 기업은 우선 다량의 데이터를 확보하는 일이 시급할 수도 있다.

정부 기관이 객관적인 기준에 따라 데이터의 다양성 수준을 평가할 수 있다면, 그래서 일선 기업에 다양성 수준이 명시된 데이터를 제공할 수 있다면, 기업은 안심하고 각자의 목적에 맞게 정부 제공 데이터를 활용할 수 있다. 부족한 부분을 충족시키거나, 편중된 정도에 따라 편향제거 (De-biasing)를 적용함으로써 인공지능을 통제할 기회와 전략을 갖출 수 있다는 의미이다. 마치 공공기관에서 제공하는 수돗물에 공신력 있는 수질검사를 행하는 것과 같다. 정부가 보유한 막대한 데이터에 정확한 수질검사가 이루어진다면, 개별 기업은 그것을 식수용이든 세정용이든, 정 안되면 변기용으로라도 목적에 맞게끔 사용할 수 있게 되어, 데이터 자체의 가치가 비약적으로 상승하게 된다.

아울러 한정된 예산으로 데이터를 축적했던 공공기관이, ‘완벽한 데이터’ 라는 민간기업의 부담스러운 기대를, 이제는 현실적 수준으로 맞출 수 있어, 데이터 공개 시 더욱 자유롭고 당당해질 기회이기도 하다.


기술적 기준을 도입한다면, 데이터 시장에서 노가다가 터질 수 있다

주요 산업에 대한 인공지능 기술 도입은 사회적으로 너무나 중요하며 절대로 개별 기업의 기술적 노력만으로 이루어질 수가 없다. 자칫하면 어처구니없는 사고를 일으키는 자율주행차, 도저히 신뢰할 수 없는 의료기기, 사회적 혐오를 조장하는 챗봇 등으로 구성된 사회를 만들 수 있기 때문이다.

공공 기관이 필요한 기준을 마련하고 최소한의 인프라를 제공해야만 신기술과 관련된 사회적 안정성은 물론 개별 기업들의 경쟁력도 확보될 수 있다. 유럽 연합의 인공지능 기술 규제 역시 사회적 가치를 지키려는 취지와 함께, 유럽 연합 내 기업들이 규제를 계기로 더 나은 기술을 개발하게끔 유도함으로써 기술 경쟁력을 배양하게끔 하려는 목적이 개입됐을 것이다.

따라서 인공지능의 스펙보다 안정성이, 단순 성능보다 균형 잡힌 신뢰성이 더 중요해지는 상황에서, 국내 AI 산업이 경쟁력을 선점하기 위한 과제는 분명하다. 무엇보다 데이터의 다양성을 평가할 수 있는 객관적인 기준과 그것을 측정할 수 있는 기술을 개발하여 보급해야 한다. 아울러 이러한 기준이 산업계에 자발적으로 정착되는 데에는 시간이 걸리므로 공공기관 등을 시작으로 선진 사례를 도출하여 민간 정착을 위한 제도화를 진행하면 좋을 것이다.

데이터 다양성을 측정하는 신기술의 보급은 공공성 측면에서도 긍정적인 효과를 가져올 수 있다. 이를테면 정부 주도 사업에서 양질의 일자리를 창출할 수 있다. 현재 데이터 수집 사업을 포함한 공공사업들은 대부분 단순 노동 위주라서 참여 인력들의 노동의욕 충족도 의도만큼 만족스럽게 이루어지지 못하는 게 현실이다.

신기술을 통한 데이터 측정 사업이 있다면 새로운 방식의 전문인력 양성과 활용의 창구가 될 수 있다. 특히 우리 사회에는 ‘경단녀’ – 나의 용어로는 ‘새로운 경력에 도전하는 여성’ - 라고 불리는, 엄청난 잠재력과 노동 의욕을 지니면서도 기존의 기술 분야에서 철저히 소외된 인력이 다수 존재한다. 이들이 같은 출발선에서 시작하는 신기술을 습득함으로써, 사회적 자존감의 충족과 기술 경쟁력을 갖추는 데이터 다양성 사업에 투입된다면, 사업 자체에도 활력이 더해질 뿐 아니라 전체 사회가 새로운 고급 인력을 다수 확보할 수 있는 기회가 될 수 있다.

사회적 공공성의 진보는 많은 경우, 도덕적 구호나 낭만적 정신이 아니라 신기술의 도입, 그리고 그것을 가능케하는 공학적 합리성을 통해서 실현될 수 있다.


공공의 기준이 확립된다면, 데이터 밸런스는 버려도 된다

데이터 밸런스 개념을 최초로 주창하면서, 나는 데이터 밸런스가 데이터 다양성의 기준으로서는 기존의 어떠한 기술보다도 선도적인 위치에 있다고 감히 생각한다. 그러나 그것이 데이터 밸런스가 절대 기준이라든가, 공공의 기준으로 반드시 도입되어야 한다는 의미는 아니다. 인공지능 분야에서 국내 기업들이 세계 기준을 선도해야 하며 그럴 수 있다고 생각하는 입장에서, 세계 기준을 선점할 국내 표준이 만들어지는 과정에 먼저 한 발짝 내디뎌 보았을 뿐이다. 그 결과 작년에 한국정보통신기술협회(TTA)에 평가 절차와 지표를 표준으로 제정한 뒤, 올해에는 화상 데이터와 시계열 데이터 평가 기술 2건을 추가로 제안했다.

데이터 밸런스든 다른 무엇이든, 데이터 다양성에 대한 공적 기준은 반드시 필요하다. 그래야 정부 제공 데이터의 활용도를 높일 수 있고, 각 기업이 신뢰도 높은 인공지능을 개발하는 토대가 될 수 있으며, 나아가 신기술 도입을 통해 고급 인력 확보 등 공공사업의 공익성 또한 높일 수 있다. 데이터 밸런스는 그 목적을 위한 일개 기업의 한 몸부림일 뿐이다.

하지만 아직까지의 현실은 한 기업이 만들어낸 기준 이외에 뚜렷한 대안이 보이지 않는 상황이다. 그래서 데이터 밸런스를 개발한 회사는 데이터 평가 의뢰가 쇄도하여, 평가 인력 부족에 시달리며 본연의 신규 기술 개발을 잠시 중단한 실정이다. 우리 회사가 특출나서라기보다 공공의 기준이 부재하고 평가 인력이 부족해서 생기는 이러한 상황이 빨리 바뀌기를 바란다. 데이터 밸런스 개념을 과거의 작은 업적으로 남기고, 그 이상의 발전된 또 다른 기술로 데이터 다양성을 평가하여 더 나은 결과를 가져오면 좋겠다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지