필요성에 대한 인식 부족…‘셀프-서비스’ 등 개선 위한 시도 진행 중

[아이티데일리] 데이터의 수집과 분석이 비즈니스 혁신의 필수 요소로 자리 잡았지만, 수집한 데이터를 분석에 활용할 수 있도록 만드는 데이터 전처리(Data Preparation)에 대한 인식은 부족한 실정이다.

쓰레기를 넣으면 쓰레기가 나온다(garbage in, garbage out)는 것은 데이터 분석의 기본 전제다. 데이터는 기업의 다양한 분야에서 동시다발적으로 생성되지만, 이렇게 얻은 로우 데이터(raw data)는 품질이 낮고 불완전하기에 분석에 그대로 활용할 수는 없으며, 수집한 데이터를 올바르게 가공해 분석에 활용할 수 있도록 만드는 데이터 전처리 과정이 필요하다.

기업의 데이터 전문가는 DB, ERP, SCM, SNS, IoT센서 등 수많은 창구를 통해 수집되는 데이터를 분석에 활용할 수 있도록 정제해야 한다. 문제는 처리해야 할 데이터가 증가하면서 전처리 업무에 대한 부담도 함께 증가했다는 점이다. 실제로 일부 금융권에서는 500개 이상의 컬럼을 가진 데이터 셋을 활용하기도 하며, 이를 IT조직이 수작업으로 진행한다는 것은 거의 불가능에 가깝다.

서로 다른 데이터들을 아우를 수 있는 일관된 기준이 없다는 것도 문제점으로 지적된다. 각 전처리 과정은 분석의 목적에 따라 제각기 다른 기준을 적용하며, 가공된 데이터의 재사용을 어렵게 만들어 새로운 분석 프로젝트를 진행할 때마다 다시금 전처리 과정을 수행하게 만든다.

▲ 데이터 전처리는 데이터 분석 과정에서의 많은 시간과 역량을 필요로 하고 있다.

따라서 대량의 데이터를 갖추고 기업의 비즈니스 과정에 데이터 분석을 적극적으로 활용하고자 하는 기업은 데이터 전처리를 위한 솔루션이나 기술을 갖추고, 데이터에 대한 이해가 부족한 비즈니스 조직과 현업에 대한 이해가 부족한 IT조직 사이에서 발생하는 마찰을 최소화해 무의미하게 반복적인 업무를 수행하지 않도록 해야 한다.

이와 같은 문제를 해결하기 위해 업계에서는 ‘셀프-서비스(Self-Service)’ 개념을 적용한 제품들이 속속 등장하고 있다. 이는 IT 조직의 최소한의 지원만을 바탕으로 비즈니스 조직이 직접 로우 데이터에서 의미 있는 정보를 추출하는 것을 의미한다.

비아이매트릭스는 자사 빅데이터 분석 솔루션 ‘아이스트림(i-STREAM)’에 데이터 전처리에 필요한 거의 모든 기술을 도입하고 있다고 밝혔다. 마이크로스트레티지 역시 자사 엔터프라이즈 BI 플랫폼의 최신 버전에서 셀프서비스 BI를 강조한 바 있으며, SAS 역시 셀프서비스 빅데이터 전처리를 자사 솔루션의 중요한 기능 중 하나로 언급하고 있다.

또한 지난해 5월 국내 진출한 팍사타는 비즈니스 조직이 로우 데이터를 손쉽게 취합·가공할 수 있는 셀프-서비스 데이터 전처리(Self-Service Data Preparation) 플랫폼을 제공한다. 키보드와 마우스 기반의 직관적인 UI로 코딩 등의 전문적인 지식 없이도 로우 데이터에서 정보를 추출할 수 있다는 설명이다.

<이하 상세 내용은 컴퓨터월드 2017년 11월호 참조>

저작권자 © 아이티데일리 무단전재 및 재배포 금지