[화제의 현장] “자동화된 머신러닝 프로세스로 전 산업계 지원”

위세아이텍, 창립 28주년 기념 세미나 개최

▲ 위세아이텍이 창립 28주년을 맞아 산업별 AI 구축사례를 공유하는 세미나를 개최했다.

[컴퓨터월드] 위세아이텍(대표 김종현)이 지난달 12일 창립 28주년 기념 세미나를 개최했다. 이번 세미나는 ‘인공지능(AI) 산업별 애플리케이션 구축사례’를 주제로, 국내 산업계 각 분야에서 AI와 머신러닝 기술을 활용해 우수한 성과를 거둔 사례를 공유하는 자리로 마련됐다.

본격적인 세션에 앞서 연단에 오른 김종현 위세아이텍 대표는 “머신러닝의 현재를 살펴보고 실제 구축사례에 대해 많은 정보를 얻어갈 수 있는 자리가 될 것”이라고 말했다. 김종현 대표는 또한 이날 행사에 마련된 세션들에 대해 간략히 소개하고, 자사의 기술력을 바탕으로 머신러닝 프로세스를 자동화하고 데이터를 처리할 수 있는 머신러닝 플랫폼의 가능성을 강조했다.

성공적인 머신러닝을 위한 자동화 도구
첫 번째 세션은 김지혁 위세아이텍 연구소장이 ‘피처 엔지니어링(Feature Engineering) 기반의 머신러닝 플랫폼’을 주제로 발표에 나섰다. 김지혁 연구소장은 “많은 기업들이 머신러닝을 통해 자사가 보유한 데이터를 좀 더 가치 있는 프로젝트로 활용하고자 한다”며, “하지만 이러한 관심에도 불구하고 머신러닝 프로젝트를 성공시키기까지는 많은 한계들이 있다”고 말했다.

과학기술정보통신부가 공개한 2017 정보화통계집에 따르면, 국내 기업들은 머신러닝 프로젝트를 꺼리는 이유로 경제적 부담과 전문 인력 부족을 꼽았다. 특히 머신러닝 프로젝트를 수행할 경우 적절한 데이터를 준비하는 과정에서 80% 이상의 시간을 소요하게 되는데, 피처 선택이나 스케일링 적용 등에 데이터 및 머신러닝 전문가의 역량이 집중적으로 투자돼야 한다. 이 과정에서 업무 전문가에 능력에 따라 2주~3개월에 달하는 시간이 걸린다. 따라서 이를 개선할 수 있는 머신러닝 자동화 도구가 요구된다.

머신러닝 자동화 도구는 크게 네 가지 요구사항을 만족시킬 수 있어야 하는데, 이는 ▲검증된 오픈소스를 활용하고 다양한 모델을 경쟁시켜 최적의 모델을 선택 ▲데이터 전처리 및 변수 최적화를 자동화해 전문가 개입을 최소화 ▲머신러닝의 결과가 유효하고 설명 가능해 비즈니스 통찰력을 제공 ▲만들어진 모델을 손쉽게 배포하고 활용할 수 있어야 한다는 것 등이다. 실제로 구글이 공개한 머신러닝 자동화 도구 ‘오토ML(AutoML)’ 역시도 이와 같은 요구사항들을 만족하고 있다.

위세아이텍의 ‘와이즈프로핏(WISE Prophet)’은 피처 엔지니어링을 기반으로 머신러닝 프로세스를 자동화한 플랫폼이다. 머신러닝 프로젝트를 수행하고자 하는 기업이 ‘와이즈프로핏’을 활용할 경우 ▲코딩 없이 간단한 숫자 입력이나 파라미터 조정 등을 통해 모델 학습 및 테스트 가능 ▲정형·비정형 데이터를 가리지 않고 학습에 필요한 피처를 추출해 모델 학습에 활용 ▲지도·비지도 학습을 모두 지원하며, 특히 지도 학습의 분류·회귀 알고리즘과 비지도 학습의 클러스터링(Clustering) 알고리즘을 지원 ▲도메인별로 커스터마이징된 대시보드를 통한 예측결과 시각화 등의 장점을 얻을 수 있다.

피처 엔지니어링은 원천데이터로부터 피처를 이해·개선·구성함으로써 피처링된 데이터셋을 구성하는 과정이다. 머신러닝 알고리즘의 예측 정확도를 높이기 위해 필수적으로 요구되지만 전문가의 역량이 집중적으로 투자돼야 한다. ‘와이즈프로핏’은 피처 엔지니어링과 모델 학습·운영 등 머신러닝 프로세스의 전 과정을 지원할 뿐만 아니라, 다양한 머신러닝 알고리즘을 분석해 사용자 목적에 맞는 최적의 모델을 선정할 수 있도록 돕는다.

가용성 및 생산성 높이기 위한 스마트 예측정비
다음은 김상수 위세아이텍 이사가 ‘인더스트리 4.0과 스마트 예측정비’에 대한 소개를 위해 연단에 올랐다. 김상수 이사는 먼저 “인더스트리 4.0의 다섯 가지 키포인트는 ▲산업의 디지털화 ▲수직 및 수평 통합 ▲독립적으로 정보 교환이 가능한 지능형 머신 ▲스마트 팩토리 구현 ▲데이터에 대한 실시간 제어 및 최적화”라고 설명하며, “우리나라도 제조혁신 3.0 전략 등 최신 기술을 활용해 제품의 품질과 설비 가용성을 향상시키기 위한 시도를 하고 있다”고 밝혔다.

스마트 예측정비는 설비 및 장비 운영과 관련된 데이터를 분석해 사전에 장애 상황을 예측함으로써 가용성을 높이고 유지보수 비용을 절감할 수 있는 방법이다. 이러한 예측정비가 불가능해 실제 장애에 맞닥뜨리게 된다면 해당 장비를 수리하는 동안 생산이 멈추게 된다. 위세아이텍은 ‘와이즈 PMAS(WISE PMAS)’를 통해 스마트 예측정비를 위한 데이터 수집과 예측, 실행 과정을 자동화한다. IoT 장비에서 생성되는 센서데이터, 비즈니스 데이터, 환경 데이터 등을 수집해 장애 패턴 및 원인 분석을 수행하고, 이를 통해 유지보수 일정을 수립할 수 있도록 한다. 이에 더해 장비나 부품별로 나쁜 공급자를 찾거나 제품 사양 변경 및 정비 효율 향상을 위한 체계를 갖출 수 있다.

이어서 위세아이텍과 국방부가 함께 진행한 군 장비에 대한 예측정비 사례가 공개됐다. 특히 해당 과제를 수행할 때 데이터 품질에 대한 우려가 많았는데, 이를 기준값에서 과하게 벗어나는 데이터를 삭제하거나 평준화하는 등 데이터 정제 및 정형화를 통해 해결했다. 또한 정비 업무 특성상 고장 내역을 정량 수치로만 표현하는 데에는 한계가 있어 정비 담당자가 결함에 대한 상세 내역을 텍스트로 기록하는 경우가 많은데, 위세아이텍 측은 텍스트 분석을 위한 비정형 데이터 분석 알고리즘을 추가해 해당 데이터가 버려지지 않도록 보강했다.

김상수 이사는 “운용 과정에서 수집한 정비 데이터와 운행 데이터에 더해 제품 개발 당시 제조사에서 작성하는 RAM(Reliability, Availability, Maintainability) 데이터를 확보해 정확도를 높였다”며, “실제로 T-50 항공기의 경우 제조사에서는 2017년 9월 교체를 예상했으나, 각 호기별 및 계통별 정비예측을 통해 2017 12월까지 이상없이 사용할 수 있다는 결과를 얻었다”고 말했다.

마케팅 효율 높이는 광고 콘텐츠 추천 및 관리
세 번째 세션은 ‘머신러닝 플랫폼으로 구성한 온라인 동영상 빅데이터 허브’를 주제로 윤상혁 스마트미디어랩(SMR) 매니저의 발표가 이어졌다. SMR은 MBC, KBS 등 대형 방송사들이 연합해 2014년 설립한 기업으로, 온라인에 게재된 방송 콘텐츠에 광고 콘텐츠를 제공하는 한편 제작사 측에는 온라인 콘텐츠 수요와 관련된 데이터를 제공하고 있다.

이는 뉴미디어 시장에서 스마트폰이나 PC 등을 통한 콘텐츠 소비가 늘어나면서 TV 시청률만가지고는 시청자들의 선호도를 파악할 수 없으므로, 온라인 상에서의 콘텐츠 소비 성향을 조사하고자 하는 목적이다. 이를 위해 SMR은 온라인 동영상 통계분석 시스템 ‘SMR 위즈덤(Wisdom)’과 개인화된 동영상 추천 시스템 ‘SMR RECO’를 제공하고 있다. 특히 ‘SMR RECO’의 경우 효과적인 광고 송출을 위한 추천 알고리즘 개발을 위해 위세아이텍과 협력했다. 각 페이지별로 클립 리스트와 추천 유형을 최적화해 시청 맥략에 알맞은 클립 영상을 제안하고 효과적인 광고상품 송출을 위한 추천 알고리즘을 개발했다는 설명이다.

‘SMR 위즈덤’은 다양항 동영상 플랫폼에서 생성되는 사용자 로그데이터를 바탕으로 일 평균 1.5억 건 이상의 데이터를 수집하고 저장된 데이터를 통계분석도구로 손쉽게 조회할 수 있도록 주제역역 및 분석항목별로 분류한다. 이를 통해 온라인에서의 콘텐츠 소비 동향을 파악함으로써 콘텐츠 공급자는 수요예측을 통한 비즈니스 의사결정이 가능하다. 또한 TV나 VOD와는 다른 패턴으로 소비되는 방송 클립 등에 대한 다차원 분석을 통해 방송사의 편성·제작·클립 운영팀과 긴밀한 공조가 가능하다.

또한 광고 콘텐츠를 게재하고자 하는 광고주를 위해 타기팅 프로그램 리스트를 제공한다. 풍부한 이용자 로그데이터를 바탕으로 매체 전략의 효과를 극대화하고 데이터에 기반한 프로그램 타기팅이 가능하며, 브랜드별 콘텐츠 노출량이나 프로그램별 시청자 성별 및 연령 등을 확인할 수 있는 세분화된 리포트를 제공한다.

이미지 분석 활용한 3D 설계도면 관리
다음으로는 김현아 위세아이텍 선임연구원의 ‘비지도 학습을 적용한 유사 금형 설계도면 검색’과 관련한 사례 발표가 이어졌다. 해당 세션에서는 한국금형산업진흥회와 함께 국내 금형기업의 설계데이터 관리 및 공유시스템 개발을 수행한 경험이 공유됐다.

국내 금형기업의 93%는 50인 미만 사업장이며, 이에 따라 제품 설계 및 개발 과정에서 중소기업 간의 협업이 잦다. 하지만 사업장이 작다보니 제품에 대한 체계적인 데이터 관리 및 공유시스템의 중요도가 높아도 제대로 된 체계가 갖춰져 있지 않다는 문제가 있다. 이에 따라 개인의 경험과 과거 데이터를 바탕으로 금형 설계가 진행되고 있으며, 이는 일관적인 품질 유지와 기업 차원의 노하우 축적에 어려움을 가져온다. 이에 따라 한국금형산업진흥회는 제품 설계 데이터에 대한 통일된 데이터 양식을 정립해 설계 빅데이터 시스템을 구축하고자 했다.

위세아이텍 측은 먼저 텍스트 검색을 통해 설계 데이터를 관리하고자 했지만, 기존 설계도면들에 대한 기준 정보, 메타데이터 관리가 안 돼있다는 문제에 직면했다. 제품명, 소재, 크기 등에 대한 일괄된 기준 없이 그저 50인 미만 중소기업들의 설계도면들이 제공됐을 뿐이다. 이에 따라 위세아이텍은 설계도면 그 자체를 3D 이미지로 파악함으로써 이미지 검색 기법을 적용했다.

또한 설계도면 데이터가 너무 적다는 점도 문제점으로 지적됐다. 전 세계 이미지 인식 기술의 트렌드를 확인할 수 있는 이미지넷 챌린지(Imagenet Large Scale Visual Recognition Challenge, ILSVRC)의 경우 과거 약 120만 건의 데이터를 활용해 사용했던 것으로 알려졌다. 하지만 이번 프로젝트에서는 초기 제품도면이 174건, 건당 10개의 도면이 제공돼 1740개의 데이터만이 있었다. 이 정도 데이터로는 제대로 된 학습이 불가능한 실정이었다.

이를 개선하기 위해서는 3D 이미지의 크기나 방향을 조정해 캡처함으로써 이미지의 숫자를 늘리는 데이터 확장(Augmentation) 기법이 사용됐다. 이로써 한 개의 3D 도면을 7개의 2D이미지로 만들고, 거기에 각도 조절이나 수평·수직이동, 확대·축소·뒤집기 등을 이용해 이미지당 720건의 데이터를 생성했다. 결과적으로 주어진 데이터를 약 80만 건 정도로 확장해 유효한 학습이 가능하도록 함으로써 성공적인 사업 수행이 가능했다.

빅데이터 기반의 철도 사고 예방 시스템

휴식시간 이후 진행된 다섯 번째 세션에서는 김예진 한국철도공사 주임이 ‘머신러닝을 활용한 철도사고 위험예측’ 사례를 공유했다. 해당 사업은 국토교통부가 주관하며 한국철도공사는 협동연구기관으로 참여하고 있다. 올해로 5차 년도 마지막 단계에 접어들었다.

한국철도공사는 수십 년에 걸쳐 전국에 걸친 다양한 철도 관련 서비스를 총괄하고 있는 만큼 축적된 방대한 데이터를 보유하고 있지만, 동일한 사건에 대한 보고서임에도 작성자에 따라 내용이 일관되지 않고 서로 다른 운영 주체에서 같은 내용의 보고서를 별개의 양식으로 작성한 경우도 있어 표준화된 데이터를 확보하기 어려웠다. 이를 위해 ‘한국철도공사 빅데이터 통합 플랫폼’ 구축 사업이 함께 진행됐으며, 지역별 및 운영주체별로 산재돼 있는 온·오프라인 데이터를 통합해 공사의 서비스 품질 개선과 안전성 확보를 위한 기반을 다졌다.

이번 사업으로 구축된 ‘철도안전 의사결정 지원시스템’은 사고 데이터에 기반해 과거의 철도 사고 사례를 분석하고 향후 발생할 가능성이 있는 사고에 대한 위험 예측을 제공한다. 해당 사업에는 위세아이텍의 빅데이터 분석 도구 ‘와이즈 올랩(WISE OLAP)’이 사용돼, 실시간 철도 노선별 분석보고서와 통계정보 등을 점검하고 각 선로·열차에 대해 네 단계(안전·주의·경고·위험)로 구분된 사고 위험 예측 지수를 확인할 수 있도록 했다. 현재 해당 시스템의 정확도는 차량에 대해 86.9%, 선로에 대해 84.8%에 달한다.

한편 절도안전 의사결정 지원시스템은 현재 서원주부터 강릉으로 향하는 경강선 일부 구간에 테스트베드를 구축해 시범운용 중에 있다. 이는 실제 시스템의 안정성을 확인해보고자 하는 목적과 함께, 고속철도와 관련된 운행 데이터가 경부고속선에 한정돼 있고 국내에서 열차 사고 사례가 지극히 적은 점을 고려한 것이다. 우리나라는 전 세계 1~2위를 다투는 0.1%의 사고율로 대표적인 철도 안전 국가로 꼽히지만, 그만큼 철도 사고와 관련된 데이터가 적어 분석 고도화에는 한계가 있다. 따라서 경강선에서 운행되는 일부 열차에 IoT 센서를 장착, 열차의 상태를 실시간으로 수집해 정밀한 분석과 변수 조정에 효과적으로 활용하고 있다.

편의성·자동화 강조되는 데이터 품질 관리
이어서 황덕열 위세아이텍 전무가 ‘빅데이터 품질향상을 위한 머신러닝 적용 자동화 도구’를 주제로 자사의 ‘와이즈 DQ(WISE DQ)’ 제품 소개에 나섰다.

지난 8월 가트너가 발표한 보고서에 따르면 오늘날 데이터 품질 관리에 영향을 미치는 요소에는 8가지 트렌드가 있다. 이는 사용자 측면에서 고려할 수 있는 ▲사용자 ▲데이터 거버넌스 ▲데이터 다양성 ▲처리속도, 그리고 공급자 측면에서 고려할 수 있는 ▲분석 및 시각화 도구 ▲인텔리전스 성능 ▲배포 방식 ▲가격 정책 등이다.

먼저 사용자 측면에서는 비즈니스 현업 조직이 직접 데이터를 다룰 수 있어야 한다는 셀프서비스 AI가 대두되고 있다. 사용자가 원하는 데이터 분석을 IT 조직의 도움 없이 수행할 수 있어야 한다는 것이다. 또한 데이터 거버넌스 및 다양성 측면에서는 사용자가 고려해야 할 데이터가 복잡해지고 있다는 것을 의미한다. 과거에는 비즈니스 인사이트를 획득하기 위해 기업 내부의 데이터만을 고려했지만, 이제는 기업 밖에서 생성되는 데이터도 수집 및 관리해야 할 필요성이 생겼다. 아울러 처리 속도 측면에서는 실시간 데이터 처리와 엣지 컴퓨팅의 중요성이 강조되고 있다.

이어서 분석 및 시각화 측면에서는 미래 예측의 정확도와 잘못된 분석 결과를 걸러낼 수 있는 기능, 현업 사용자를 위한 시각화 등이 중요하게 여겨진다. 인텔리전스 측면에서는 기존에 사용자의 역량으로 처리해야 했던 요소들이 머신러닝이나 AI 기술을 이용해 대체되고 있다는 점이 눈에 띈다. 마지막으로 배포 및 가격정책 측면에서는 클라우드로의 이동이 중요하게 여겨지고 있는데, 이는 데이터 저장소가 클라우드로 옮겨지고 있을 뿐만 아니라 제품 구매 역시 클라우드로 이뤄진다는 점을 반영한 것이다.

위세아이텍의 ‘와이즈 DQ’는 다양한 데이터의 품질 측정 기술 자동화 수준을 향상시킨 제품이다. 탐색적 분석과 도메인 판별 등을 통해 데이터 전처리를 손쉽게 수행할 수 있도록 돕고, 머신러닝 기반의 이상값 탐지 기능으로 정확한 비즈니스 룰이 없는 상황에서도 적절치 못한 데이터들을 찾아낼 수 있다. 아울러 주어진 데이터들의 유사도를 판별해 대표 용어를 추천하거나, 거래처 및 기관명 클러스터링을 통한 중복데이터 군집화 역시 가능하다.

황덕열 전무는 “품질 관리 및 평가 방법은 좀 더 자동화되고 편하게 사용할 수 있도록 하는 것이 전 세계적인 트렌드”라고 설명하며, 국내 한 병원에서 임상데이터를 바탕으로 실시한 데이터 품질 측정 및 향상 프로젝트 결과를 공유했다.

한편 마지막 세션은 구영현 세종대학교 컴퓨터공학과 교수가 연단에 올라 ‘딥러닝 기반 온라인 상품 이미지 활용사례’에 대해 발표했다. 구영현 교수는 온라인 상거래 사이트에 게재되는 광고 이미지의 적합성 여부와 유사 이미지 검색 모델을 개발했으며, 이를 수행하는 과정에서 얻은 경험과 노하우를 공유했다.

김성수 기자 kimss56@itdaily.kr

다른기사 보기

상단영역

본문영역

[화제의 현장] “자동화된 머신러닝 프로세스로 전 산업계 지원”

위세아이텍, 창립 28주년 기념 세미나 개최

기사 댓글 0

비회원 로그인