데이터 품질 개념·범위·세부 요구사항 등 정의…“국가 전반의 AI 기술·서비스 향상 기대”

[아이티데일리] 과학기술정보통신부(장관 최기영, 이하 과기정통부)가 국내에서 개발한 인공지능(AI) 데이터 품질 표준안이 국내 시장 및 전 세계 산업계의 표준이 될 수 있도록 지원에 나선다.

전 세계적으로 아직 데이터 품질 수준은 높지 않은 상황이다. 가령 마이크로소프트가 2014년부터 구축한 개방형 데이터셋 ‘MS COCO’의 라벨링 정확도는 83%, 구글이 2016년부터 구축한 ‘구글 오픈 이미지(Google Open Images)’의 라벨링 정확도는 43%에 불과하다. 이는 아직 세계적으로 AI 데이터 품질에 대한 체계적인 방법론이 정립되지 않은 것이 중요 원인이다.

이에 과기정통부는 디지털 뉴딜 ‘데이터 댐’의 핵심자원인 AI 데이터 관련 품질의 개념과 범위, 세부 요구사항 등을 정립한 표준안을 개발하고, 국내 시장의 표준으로 삼기 위해 한국정보통신기술협회(TTA) 내의 단체 표준화 기구(TTA PG 1005)에 공식 제안했다. 과기정통부와 TTA는 관련 전문가 등의 의견수렴 절차를 거쳐 내년 6월에 최종 채택·확정할 계획이다.

이번 표준안은 TTA와 한국정보화진흥원(NIA)을 통해 개발한 ‘AI 학습용 데이터 구축 및 품질관리 공통기준(’19년)’을 바탕으로, 해외사례 분석과 전문가 자문 등을 보완해 새롭게 개발한 것이다. 자연어처리, 자율주행 자동차, 의료, 제조 등 다양한 분야에서 공통적으로 사용할 수 있도록 범용 표준 형태로 개발됐다.

과기정통부는 이번 표준안에서 AI 데이터의 품질을 ‘AI 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보해 사용자에게 유용한 가치를 줄 수 있는 수준’으로 정의했다. 데이터의 품질을 체계적으로 확보하고 상호호환성을 제고할 수 있도록 수집·정제·가공·품질검증·활용 등 데이터 라이프사이클 전체에 걸쳐 필요한 절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격을 담았다.

▲ 새로운 표준안에서는 데이터 품질 관리 대상을 ‘데이터 자체의 품질’과 ‘구축 과정의 품질’ 등으로 구분한다.

과기정통부는 이번에 개발된 표준안을 이미 추경사업 과제(10대 분야, 150종 데이터)에 적용하고 있다. 향후 TTA와 함께 산·학·연 전문가 의견수렴을 거쳐 신속하게 단체 표준화를 추진하고, 관련 사항을 국립전파연구원 등을 통해 ‘AI 국제표준화회의(ISO/IEC JTC1/SC42)’에 제안하는 등 국제표준화의 성과로 이어나갈 계획이다.

아울러 올 연말까지 데이터 품질 표준안을 바탕으로 AI 개발자, 공공기관 관계자 등이 AI 데이터의 품질을 보다 체계적으로 계획·관리할 수 있도록 ‘AI 데이터 품질관리 가이드’를 개발 및 배포한다.

과기정통부 측은 “이번에 개발된 표준안이 디지털 뉴딜 ‘데이터 댐’의 핵심자원인 AI 데이터의 품질을 향상시키고, 나아가 국가 전반의 AI 기술과 서비스의 성능을 높이는데 크게 기여할 것으로 기대한다”며, “앞으로 국제표준화를 선도하고 우리나라가 AI 강국으로 도약하는데 더욱 노력할 계획”이라고 강조했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지