AI 산업 육성 밑거름 ‘데이터 라벨링’이 떠오른다

[아이티데일리] 인공지능(AI)의 발전과 함께 ‘데이터 라벨링’ 산업이 떠오르고 있다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 사람이 일일이 데이터에 라벨을 붙여야 해 ‘AI 눈알 붙이기’라고 불리기도 했다. IT업계의 막노동으로 인식되는 데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 최근 들어 업체들이 반자동화 툴을 만들어 인력과 비용 절감을 꾀하고 있다.

이 같은 데이터 라벨링이 정부의 ‘디지털 뉴딜’ 정책으로 또 한 번 관심이 모아지고 있다. 디지털 뉴딜 정책의 핵심이라 할 수 있는 AI 산업 육성을 위해 데이터 라벨링은 반드시 필요한 작업이기 때문이다. 실제 올 하반기에만 2,925억 원이라는 예산이 투입될 ‘AI 학습용 데이터 구축’에도 이 데이터 라벨링의 수요가 상당할 것으로 보인다. 인공지능에 없어서는 안 될 데이터 라벨링 시장에 대해 알아봤다.

[데이터 라벨링①] 데이터 라벨링은 ‘AI 눈알 붙이기’
[데이터 라벨링②] 겉보기엔 쉬워도 실상은 어려워
[데이터 라벨링③] 반자동화 툴 활용한 기업 전략(1)
[데이터 라벨링④] 반자동화 툴 활용한 기업 전략(2)


겉보기엔 쉬워도 실상은 어려워

데이터 라벨링은 툴을 사용하기 때문에 겉보기엔 쉬워 보일 수 있다. 하지만 실상은 그렇지 않다. 데이터 라벨링이 어려운 이유는 ▲데이터 수집의 어려움 ▲데이터 품질 확보 ▲작업 인력 관리 및 양성 등 3가지다.

먼저, 대량의 데이터를 수집하기 어렵다는 점이다. 원천데이터를 어떠한 경로로 수집할 지에 대한 방안이 마련돼야 한다. 또한 대량의 데이터를 수집할 수 있는지도 중요하다. 딥러닝은 대량의 데이터를 필요로 하기 때문에, 이를 위해 라벨링 작업을 진행할 원천데이터가 많아야 한다. 원천데이터를 가공하게 되면 라벨링된 데이터의 수가 줄어든다. 중복 학습이 됐거나, 불필요한 데이터를 제외하고 작업을 진행하기 때문이다. 그렇기에 대량의 원천 데이터 확보가 중요하다.

대량의 원천데이터를 수집하기 위해 반드시 고려해야 할 부분이 있다. 바로 저작권 문제다. 코난 테크놀로지는 국가 인공지능 프로젝트인 ‘VTT(Video Turing Test) 세부 비디오 이해를 위한 데이터 수집 및 보정 자동화 시스템 개발’ 사업을 주관하고 있는데, tvN의 드라마 ‘또오해영’의 영상을 활용하는 과정에서 저작권 문제를 해결하기 위해 드라마 제작사와 협의를 거쳤다고 한다. 이후 영상의 장면과 샷을 구간으로 분할하고, 라벨링하고 있다. 사용 중인 데이터의 종류는 클립 영상, 이미지, 소리, 자막 데이터다.

두 번째로는 라벨링된 데이터의 품질을 보장하기 위한 과정이 어렵다는 점이다. 실제로 라벨링 작업 시 ‘어떻게 라벨을 부착할 것인가’에 대한 기준이 없다면, 품질이 낮은 데이터를 얻게 된다. 그만큼 데이터 라벨링에서는 명확한 기준을 정립하는 것이 중요하다는 것이다. 특히, 여러 변수들이 존재하기 때문에 보다 상세한 기준이 필요하다.

이 문제를 해결하기 위해서는 데이터 수요 기업과 함께 작성한 데이터 가공에 대한 기준이 명확한 지에 대해 확인해야 한다. 가령, 자동차를 라벨링하기 위해 무엇을 자동차라고 규정할 것인지, 자동차의 어느 부분을 표시할 것인지, 자동차가 이미지 내에서 가려져 있는 경우에는 어떻게 처리할 것인지 등에 대한 명확한 가이드라인을 수립해야 한다는 것이다.

김현수 슈퍼브에이아이 대표는 “명확한 가이드라인은 고객이 제공할 서비스에 따라 달라질 수 있다. AI 기술을 이용해 어떤 서비스를 할 것인지, 서비스 개발을 하겠다는 고객의 계획에 맞춰 성능 향상을 위해 고객과 함께 객체 이름, 데이터 가공 형식을 결정하고, 이것을 상세하게 가이드로 만든다. 이렇게 만들어진 가이드를 기반으로 학습데이터를 만들고 있다”고 설명했다.

마지막으로 작업 인력을 관리하고 양성하는 과정도 중요하다. 이미지 하나에 여러 개의 객체가 있다면, 라벨링을 하기 위해서는 명확한 기준으로 객체의 영역을 분리해줘야 한다. 그 후에 라벨링 작업을 수행해야 한다. 이 같은 작업을 수행할 인력을 관리하고 양성하는 과정 역시 만만치 않다.


디지털 뉴딜로 생태계 조성

국내에서는 이제 데이터 라벨링 산업의 생태계가 조성되고 시장이 열리기 시작하고 있다. 이미 미국, 유럽 등에서는 AI 기술 발전을 위해 정부와 민간의 협업·투자로 대규모의 데이터셋을 공개했다. 이들 국가는 데이터 라벨링을 비롯해 데이터 가공 기술이 적용된 학습데이터를 민간에 제공해 AI 모델 개발과 성능 개선, 다양한 서비스 개발에 이용할 수 있도록 돕고 있다.

실제 미국 정부는 딥러닝의 대모라고 불리는 페이페이-리 교수가 2009년 ‘이미지넷’이라는 데이터 공유 사이트를 만들자는 제안을 받아들이기도 했다. 이렇게 만들어진 이미지넷은 미국의 딥러닝을 발전시켰다는 평가를 받고 있다. 학습데이터셋을 구축하기 위해서는 데이터 라벨링을 포함한 가공 기술이 함께 이뤄져야 한다는 점을 인식하고 이에 대응했던 것이다.

AI 산업이 선순환 생태계를 조성하기 위해서는 구글의 ‘유튜브 8M’과 같은 AI 학습데이터 허브가 구축돼야 한다.

하지만 국내에서는 AI 학습데이터 허브 구축 사업이 늦었다. 2018년에 한국정보화진흥원(NIA)에서 ‘AI허브’라는 이름으로 데이터셋 구축 사업을 시작했다. 이 사업은 현재 2차 사업이 진행 중에 있다. ‘AI 학습용 데이터 구축 사업’의 목적은 정부 지원의 범용 데이터셋을 공개해 민간 기업을 중심으로 생태계를 구축한다는 데 있다.

정부의 ‘AI 학습용 데이터 구축 사업’이 시작된 이유도 외국과는 달랐다. AI 기술 발전을 위해 정부와 민간의 협업·투자라기보다는 국내 중소벤처기업들의 어려움을 해결하자는 차원에서 이루어졌다고 볼 수 있다. AI 학습용 데이터 구축에 많은 시간과 비용을 들이고 있고, 원천데이터 확보에 어려움을 겪고 있는 중소기업들을 지원하자는 취지가 강했던 것이다.

정부는 최근 코로나19에 따른 경기불황을 해소하고자 한국형 ‘디지털 뉴딜’ 정책에 ‘AI 학습용 데이터 구축 사업’을 포함시켰다. NIA가 주관하는 이 사업의 예산은 2,925억 원 규모다. 사업의 과제는 자연어, 헬스케어, 자율주행, 농축수산, 기후환경, 미디어, 안전, 기타 등 8개의 분야로 이뤄졌으며, 과제의 수는 43개의 그룹과제를 포함해 총 150개다.

▲ AI 학습용 데이터 구축 2차 사업 주제지정 과제 목록 및 예산규모(단위: 억 원)(출처: NIA)

관련 기업들은 이제 열리기 시작한 데이터 라벨링 산업이 ‘디지털뉴딜’로 인해 크게 성장할 것으로 보고 정부의 이 같은 정책을 환영하고 있다.

시장 조사 기업인 커그니리티카는 다양한 형태로 발전하고 있는 전 세계 데이터 라벨링 시장이 2018년에 5,835억 원을 넘어섰고, 향후 2023년에는 1조 4,000억 원에 이를 것으로 전망했다. 그랜드뷰리서치의 보고서에 따르면, AI 성장과 더불어 세계 데이터 라벨링 툴 시장 규모도 지난해 전 세계 기준 4,700억 원에 달했으며, 수익 규모는 8,500억 원이었다. 이 시장은 2020년부터 2027년까지 년평균 26.9% 증가해 2027년에 약 3조 원 규모로 확대될 것으로 예측됐다.

국내 시장 역시 ‘디지털뉴딜’의 영향으로 큰 폭 성장이 기대된다. 데이터 플랫폼 및 라벨링 전문 기업들은 ‘디지털뉴딜’ 정책에 따라 단기간에 큰 폭 성장이 기대되고는 있지만 그 이후를 생각해야 한다는 입장을 보이고 있다. 디지털 뉴딜로 인한 단기적인 성과에 만족해서는 안 된다는 것이다.

김현수 슈퍼브에이아이 대표는 “이번 정부의 ‘디지털뉴딜’ 정책을 통해 매출 확대가 기대된다”며, “하지만 단순히 눈앞에 있는 매출 확대에만 전념하면, 정책이 끝난 뒤 자생력을 잃어버릴 수 있기 때문에 생태계 구축이 우선”이라고 강조했다.

데이터 라벨링이 사용되는 산업군은 자율주행, 건설, 제조, 문화 등 다양하다. 특히 자율주행분야에서 데이터 라벨링은 매우 중요하다. 자율주행의 경우 자동차 센서를 통해 교통 요소 원천데이터가 수집된다. 그렇게 모인 원천데이터를 반자동화 툴을 사용해 라벨링 작업을 한다. 이후 검수 단계를 거친 후 모델 학습도 병행하며, 피드백을 주고 다시 받기도 한다.

김현수 슈퍼브에이아이 대표는 “도로의 상태에 대해 라벨링 작업을 진행할 경우 도로 상의 침몰 형태가 단순해 보이지만 굉장히 많은 형태와 분류가 존재한다”며, “모양에 대한 파손 정도를 분류하고 확인하는 것은 전문가들만 알 수 있다. 데이터 라벨러는 알 수 없다. 데이터 라벨링 작업을 시작하기 앞서 컨설팅을 진행해 전문가들과 협업해야 하는 이유다”라고 설명했다.

데이터 라벨링 산업은 정부의 ‘디지털뉴딜’을 기회로 활성화 될 조짐을 보이고 있다. 시장 활성화와 함께 이 시장에 참여하는 업체도 늘어나고 있다. 창업한지 1~2년에 불과한 중소·벤처기업들이 라벨링 반자동화 툴을 개발해 비즈니스에 활용하는 사례도 나타나고 있다.

현재 ‘코난 테크놀로지’, ‘테스트웍스’, ‘슈퍼브에이아이’, ‘마인즈랩’ 등이 데이터 라벨링 반자동화 툴을 내세워 데이터 라벨링 시장에 참여하고 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지