AI 산업 육성 밑거름 ‘데이터 라벨링’이 떠오른다

[아이티데일리] 인공지능(AI)의 발전과 함께 ‘데이터 라벨링’ 산업이 떠오르고 있다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 사람이 일일이 데이터에 라벨을 붙여야 해 ‘AI 눈알 붙이기’라고 불리기도 했다. IT업계의 막노동으로 인식되는 데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 최근 들어 업체들이 반자동화 툴을 만들어 인력과 비용 절감을 꾀하고 있다.

데이터 라벨링을 손쉽게 할 수 있도록 반자동화 툴을 만드는 기업들이 있다. 이들 기업은 ‘디지털뉴딜’ 정책으로 특히 주목받고 있다. 데이터 라벨링 산업 생태계를 조성하기 위해 노력하고 있는 ‘코난 테크놀로지’, ‘테스트웍스’, ‘슈퍼브에이아이’, ‘마인즈랩’ 등 4곳의 반자동화 툴 및 전략과 각 기업들의 데이터 라벨링 절차에 대해서도 알아봤다.

[데이터 라벨링①] 데이터 라벨링은 ‘AI 눈알 붙이기’
[데이터 라벨링②] 겉보기엔 쉬워도 실상은 어려워
[데이터 라벨링③] 반자동화 툴 활용한 기업 전략(1)
[데이터 라벨링④] 반자동화 툴 활용한 기업 전략(2)

 

 

‘블랙올리브’로 3D 객체도 라벨링한다

테스트웍스는 2015년 6월에 설립된 회사로 사회적 소셜 미션을 수행하고 있는 AI 데이터, 자동화 전문 사회적 기업이다. 2019년에는 50억 원의 매출을 기록했다. 올해 예상 매출은 100억 원이지만, 상반기에 이미 70억 원을 돌파한 상태다. 이 같은 테스트웍스의 매출 향상의 공신이 바로 데이터 가공 반자동화 플랫폼 ‘블랙올리브(Blackolive)’다.

테스트웍스는 크라우드 소싱 방식을 통해서도 라벨링 작업을 진행하고 있다. 라벨링 작업을 할 경우 대학교를 졸업하기 위해 채워야 하는 필수요건인 봉사시간도 인정해주고 있다. 이를 위해서는 테스트웍스의 툴 사용 및 라벨링에 대한 기초 교육을 받아야 한다. 사회적 기업이라는 지향점을 위해 생활이 어려운 기초생활수급자 및 장애인 등을 채용하기도 했다.

‘블랙올리브’를 통해 진행하는 데이터 가공은 총 4단계를 거친다. 먼저 수집 플랫폼이나 다양한 경로를 통해 원천데이터를 얻은 후, 수집한 데이터를 보호하기 위해 비식별화 작업을 진행한다. 이후 1차적으로 다양한 모델을 통해 라벨러가 수월하게 일할 수 있도록 비식별화된 데이터를 자동화한다. 이후 2차적으로 자동화 프로세스를 거친 데이터들을 가공하고, 3차적으로 검수자가 리뷰를 통해 한 번 더 관리 후 고객사에 전달한다.

‘블랙올리브’의 특징은 라벨러와 관리자의 편의성을 고려해 설계됐다는 점이다. 핵심 기능은 ▲대시보드를 통한 프로젝트 관리 ▲사용자 고려한 작업 환경 ▲직관적인 사용자 및 프로젝트 관리 ▲손쉬운 작업 생성 ▲통계 대시보드 ▲사용자와 관리자의 소통 가능한 공간 등 총 6가지다.

우선 데이터 가공에서 중요하다고 할 수 있는 가공된 데이터를 관리하기 용이하다는 점이다. 사용자가 ‘블랙올리브’를 통해 데이터를 가공하면, 관리자는 대시보드를 통해 데이터를 프로젝트별로 관리할 수 있다.

다음은 사용자 입장을 고려해 작업 환경을 설계했다는 점이다. 이를 통해 사용자는 대시보드를 통해 작업 화면으로 이동할 수 있으며, 작업의 진행률과 반려 상태를 볼 수 있다. 또한, 라벨러가 검수를 요청하면, 어떤 상태인지 관리자가 직접 확인이 가능하기 때문에 라벨러는 진행 중인 작업에 집중할 수 있다.

아울러 직관적인 사용자와 프로젝트 관리가 가능하다는 점도 특징이다. 관리자가 대시보드에서 작업자 및 프로젝트를 관리할 수 있어, 대시보드의 핵심 기능인 모델별 자동화를 실행할 수 있다. 또한, 원하는 작업을 선택해 관리자, 중간 관리자, 작업자, 프로젝트를 변경할 수 있다.

AI를 학습시키기 위한 XML도 다운로드 받을 수 있다. 이 외에 손쉬운 작업 생성도 특징이다. 관리자가 데이터를 대량으로 업로드하고, 그 데이터에 대한 정보가 입력된 엑셀 파일을 추가로 업로드 할 수 있다. 또한, 템플릿을 통해 여러 작업을 한 번에 생성할 수도 있다.

‘블랙올리브’를 통해 진행되는 라벨링 방법은 ▲바운딩 박스(Bounding Box) ▲폴리곤(Polygon) ▲폴리라인(Polyline) ▲포인트(Points) ▲큐보이드(Cuboid) 등 총 5가지다.

먼저 ‘바운딩 박스’ 형태의 라벨링은 이미지에서 특정 개체를 캡처하는 방법으로 데이터 라벨링 작업에서 가장 일반적으로 사용된다.

‘폴리곤’ 형태의 라벨링은 AI 모델링 방법에 따라 식별하고자 하는 개체 이외의 포함된 빈 공간으로 인해 오류가 발생할 수 있는데, 이를 사전에 막을 수 있는 라벨링 방법이다. 개체에 대해 직접 ‘점’으로부터 시작해 ‘선’ 형태로 이어가는 방법으로 개체의 빈 공간을 없애준다.

▲ 블랙올리브의 포인트 및 큐보이드 라벨링 작업 (출처: 테스트웍스)
▲ 블랙올리브의 폴리곤과 폴리라인 라벨링 작업 (출처: 테스트웍스)

다음은 ‘포인트’ 라벨링 방법이다. 이 방법은 특정 지점을 라벨링하는 작업으로 안면 인식을 위한 데이터 구축에 많이 사용된다. 주로 감정분석과 같은 정밀하고 섬세한 작업을 요구하기 때문에 난이도가 있는 편이다. 다음은 ‘큐보이드’ 라벨링 방식이다. 자동차, 건물 등 입체적인 객체들을 2D 형식으로 라벨링하는 데 한계가 있다. 이를 해결하기 위한 3D 라벨링 방식이다. 정육면체를 객체에 적용시켜 라벨링한다.

“사회적 기업에 걸맞는 다양한 교육 프로그램 진행”
금효영 테스트웍스 AI사업본부 이사

▲ 금효영 테스트웍스 AI사업본부 이사

Q. 데이터 라벨링 작업을 위한 데이터 확보 방법은.

A. 데이터 확보 방법은 기업에서 받거나 별도의 데이터 수집 등 2가지다. 우선 기업 고객에서 데이터를 보유하고 있는 경우가 많다. 이런 경우는 직접 전달받아 데이터 라벨링을 진행한다. 두 번째로 알고리즘에 대한 데이터 없이 알고리즘 디자인만 존재하는 경우에는 데이터 수집을 우선 진행해야한다. 데이터 수집은 직접 수집과 간접적인 수집으로 나눌 수 있고, 직접 수집은 데이터를 직접 제작하는 것을 의미한다.

간접 수집은 데이터를 보유하고 있는 기업 또는 공공기관에서 데이터를 구매하거나, 제공받는 것을 뜻한다. 테스트웍스는 데이터의 직접 및 간접 수집을 동시에 수행하고 있다.

Q. 데이터 라벨링 값에 대한 통일성 제고 방안은.

A. 라벨링의 통일성을 위한 기준은 당연히 필요하다. 그렇기에 프로젝트마다 고객사의 수요와 개발을 목표로 하는 알고리즘 학습에 가장 적합한 기준을 세우기 위한 컨설팅 서비스도 제공하고 있다. 같은 유형의 데이터, 같은 유형의 AI라도 목적에 따라 다르게 학습돼야 하기 때문이다. 고객이 원하는 대로 AI가 동작할 수 있도록 고객의 요구를 최우선으로 고려하며, 꼭 필요한 기준을 고객이 놓치고 있는 경우 먼저 제안해 AI 데이터의 품질을 높이고 있다.

Q. 크라우드 소싱 진행 방식은.

A. 크라우드 소싱 방식은 ‘AI 웍스’라는 AI 수집 가공 플랫폼에 접속해 웹 페이지에서 데이터 라벨링을 진행하고 있다. 일반 대중들이 데이터 수집에 참여할 뿐 아니라 데이터 가공 작업도 하며, 쉽게 할 수 있어 원하는 만큼 가공하고, 결과를 보상으로 지급받는다. 테스트웍스가 명확한 가공 가이드라인을 제시하고, 그 결과를 검수한다. 고객 맞춤형 고난이도 고품질의 데이터 라벨링 가공이 필요한 경우 ‘AI웍스’에 연결된 데이터 라벨링 전문 가공 툴 ‘블랙올리브’를 통해 데이터 라벨링 작업 및 검수가 가능하다.

아울러, 사회적 기업이라는 비전을 갖고, 데이터 라벨러 전문가 양성을 위해 다양한 교육 프로그램을 진행하고 있다. 또 사회취약계층들에게 포용적 고용의 기회를 제공하기 위해 고용 취약계층에 대한 데이터 라벨링 교육도 진행하고 있다.

Q. 구축 사례에 대해 소개해달라.

A. 모션투에이아이를 들 수 있다. 물류센터 환경의 안전과 효율을 위해 모빌리티 솔루션을 개발했지만, 이를 구현하기 위한 학습용 데이터셋 구축에 많은 고민이 있었다. 이에 요구사항에 따른 가이드를 만들어 물류 데이터셋 구축 프로젝트를 진행했다. ‘블랙올리브’를 활용했으며, 단기간에 데이터를 자동화 및 정밀 가공했다. 또한, 전담 대응팀을 구성해 가이드에 따른 가공작업 현황에 대한 상시 피드백도 진행했다. 3단계 검수 작업을 통해, 데이터 품질을 검수 진행해 고품질의 데이터셋을 구축했다.

그 결과 1개월 동안 7,700장의 이미지 데이터를 ‘폴리라인’과 ‘BB박스’ 등 2가지 유형으로 총 11만 건의 객체를 가공했다. 모션투에이아이와 프로젝트 이후 지속적으로 협력하고 있으며 AI를 활용한 물류센터 관제 솔루션 시장을 공략하기 위해 업무 제휴를 체결하기도 했다.

Q. 향후 데이터 라벨링의 발전 방향과 시장 전망은.

A. 데이터 라벨링은 당분간 계속 성장할 것으로 생각한다. AI 기술이 연구 단계에서 상용화 단계로 넘어가면서 서비스를 운영 중 축적한 데이터가 발생하고, 이 데이터를 성능 개선에 활용하기 위해서는 데이터 라벨링이 더 많이 필요하게 될 것이기 때문이다. 결국 상품이나 서비스의 경쟁력이 HW가 아니라 AI의 정확도에 따라 정해지게 될 수도 있다. 누가 데이터를 많이 모아서 정확한 서비스를 제공하는지가 중요하다.

연구 레벨에서는, 라벨링 없이 AI를 학습시키는 기법도 생기고 있다. 하지만 아직 이 기술이 상용화되는 수준은 아니다. 산업에서는 최대한 성숙한 기술을 이용해 최대의 효율을 내고 싶어 하는 만큼, 이미 성숙한 기존 기술과 새로운 기술의 성숙 사이에서 라벨링 시장이 당분간은 성장할 것이라 예상한다.

 

 

바로 쓰고 쉽게 쓰는 데이터 가공이 목표

마인즈랩은 ‘마음 데이터(maum DATA)’라는 데이터 가공 서비스가 있다. 이 안에 데이터 라벨링 툴이 있다. 이 솔루션을 사용해 ▲보이스 워크 ▲텍스트 워크 ▲이미지 워크 등 데이터를 가공하고 있다.

마인즈랩은 이 솔루션을 기반으로 다양한 산업군에서 축적한 노하우를 살려, 전문 데이터 사이언티스트의 전문 컨설팅으로 양질의 데이터를 정제 및 분류하는데 집중하고 있다.

‘마음 데이터’의 라벨링 툴에는 텍스트를 음성으로 전환, 라벨링 작업 기능과 자동차 번호판 인식과 같은 이미지 라벨링 기능, 기계 독해 학습 기능, 입력된 텍스트나 문서의 내용을 분석하는 문서 분류기 기능 등이 기본으로 탑재돼 있다.

마인즈랩의 AI 데이터 라벨링 프로세스는 ▲작업 의뢰 및 데이터 사이언티스트와 작업 설계 ▲AI 엔진으로 데이터 전처리 ▲작업 및 검수 ▲데이터 학습효과 측정 ▲학습 결과에 따른 데이터 설계 조정 등의 단계를 거친다.

음성 단위 문장 분리 작업을 예로 들면, 우선 주어진 음성을 듣고 문장이 끝나는 부분에 맞춰 ‘컷’ 버튼을 눌러 분리작업을 수행한다. 이렇게 음성을 분리한 후 음성 전후 소음을 제거하는 작업을 진행한다. 이 작업은 분리된 음성을 듣고 소음이 없는 부분이나 잡음이 있는 부분을 드래그해서 묵음 및 잡음이 있는 부분을 제거한다.

그 다음이 바로 음성 전사 작업이다. 잡음이 제거된 음성을 듣고 작성하는 란에 라벨러가 직접 작성을 한다. 이후에는 G2P 작업을 거친다. 이 작업은 들리는 대로 작성된 것 중 잘못 적힌 부분을 수정한다. 이렇게 작업한 데이터를 저장하면, 프로젝트에 기록된다. 이렇게 가공된 데이터를 판매하기도 한다. 마인즈랩 측은 데이터셋 판매의 경우 같은 데이터라도 기업에 따라 데이터량 및 추가 데이터 정제에 대한 수요가 다르기 때문에 가격 기준을 정확히 매길 수 없다고 한다.

▲ 마인즈랩은 라벨링 작업이 끝난 학습데이터를 판매하기도 한다 (출처: 마인즈랩)

이 외에도 마인즈랩은 크라우드 소싱을 통해 사회적 기업 역할을 하기 위해 노력하고 있다. 크라우드 소싱을 통해 라벨러들을 교육한 후 라벨링 작업을 진행하고 있다. 데이터 건당 작업비는 라벨러가 한 시간에 몇 건을 작업할 수 있는 지 기준을 세우고, 1시간당 최저임금을 기본으로 포인트 형태로 제공하고 있다. 포인트는 5,000포인트부터 돈(단위: 원)으로 환산해 지급하고 있다.

마인즈랩의 AI 데이터 라벨링 구축 사례로는 서울시 노후경유차 차량번호 인식과 수원시 이상행동 CCTV 시스템 구축이 있다. 다음은 서울시 노후경유차 차량번호 인식 사례다. ‘AI 기반 차량 학습 시스템’으로 번호판의 위치와 글씨를 인식해 차량 검출, 차종 인식, 차량 번호판 위치 검출, 번호판 글씨를 인식해 노후경유차를 단속한다.

‘수원시 이상행동 CCTV 시스템 구축’ 사업은 영상을 프레임 단위로 라벨링해 이상행동에 대한 객체와 흐름, 관계 파악 등을 통해 범죄를 예방한다. 관련 이상행동 영상을 프레임 단위로 추출한 후 라벨링 작업을 수행하고, 이상행동 도출 학습 데이터셋을 구축한다. 마인즈랩 측은 이 데이터셋을 학습한 지능형 CCTV가 이상행동을 감지하면 관제사에 전달하고, 이를 통해 범죄 예방이 가능해질 것으로 전망한다.

▲ 마인즈랩의 데이터 구축 사례 (출처: 마인즈랩)
저작권자 © 아이티데일리 무단전재 및 재배포 금지