데이터 품질 향상 방법론과 활용 사례

캐롤라인 림-브라운 트릴리엄 소프트웨어 아태지역 BD 매니저

데이터 품질 향상 방법론과 활용 사례
캐롤라인 림-브라운 트릴리엄 소프트웨어 아태지역 BD 매니저

기업마다 매년 증가하는 데이터양이 100% ~ 200%이고, 이런 속도로 증가되는 데이터들이 10년 이상 축적된다고 가정해 볼 때 기업의 데이터는 현재의 천 배에서 육만 배에 이르게 될 것이다. 이렇게 방대하게 축적된 데이터는 다른 경쟁사들과는 차별화 된 서비스를 제공하여 궁극적으로 회사의 이윤을 가져오는 기회적인 요소와 데이터에 근거한 의사결정이 과연 진실에 근거한지 아니면 신뢰할 수 없는 부정확하고 왜곡된 데이터에 근거한 것인지를 알지 못한다는 위협적 요소를 모두 가지고 있다.

특히 정보시스템의 고객정보, 기업관련 정보, 제품정보에 대한 불량데이터는 시스템의 가치를 떨어뜨리고 나아가 시스템에 대한 신뢰를 저하시켜 현업 사용자들을 점점 시스템으로부터 멀어지게 한다. 또한 이러한 불량데이터는 기업이 진행하고 있는 프로젝트를 위험에 빠뜨릴 수 있는 잘 알려져 있지 않은 비밀 가운데 하나이다.

이러한 데이터 품질관리에 관련하여 회사들이 직면하고 있는 문제들을 보다 더 잘 이해하기 위해 트릴리엄 소프트웨어 시스템은 Jupiter Media Metrix 와 함께 "CRM의 성공적인 구현에 관련하여 데이터 품질관리가 필요한가?"등의 주요 질문으로 설문조사를 실시하였다. 그 결과 87%의 관리자들은 데이터의 품질은 CRM뿐만 아니라 운영계 시스템에도 심각한 영향을 주고 있고, 전사적 차원의 품질관리 솔루션을 도입하면 25% 정도의 생산성을 향상시킬 수 있다"고 답하였다.

일관된 고객 관점의 필요성

기업에서의 데이터 품질에 대한 이슈는 새로운 것은 아니었으나, 최근까지 각 제품 또는 부서 내에서 관리하는 동일한 고객의 다양한 데이터를 일치시킬 만한 적절한 방법이 없었다. 비록 문제를 수행하는 것이 새로운 이슈는 아니었지만, 중복된 데이터와 부정확한 데이터는 통신시장의 크기에 중대한 영향을 주게 되었다.

일관된 고객 관점을 만들기 위해 시스템을 통합하는 작업은 결코 쉬운 일이 아니다. 예를 들어, 동일한 고객이라 할지라도 부서에 따라 고객에 대한 여러 주소와 전화번호를 가질 수 있기 때문이다. 또 다른 문제는 데이터 휘발성 관점인데, 시기와 사람에 관계없이 누구든지 고객이 될 수 있다는 것이다. 더구나 고객이 다른 지역으로 이사를 가면, 고객 데이터 소스 파일과 내용 역시 바뀔 수 있다.

세계 제1의 음성, 비디오 그리고 데이터 커뮤니케이션 회사인 AT&T는 정부의 통신업계 규제 철폐를 통해 지역 전화 서비스 시장을 열어갈 다음 단계를 준비하고 있었다. AT&T는 신용카드, 전자상거래(EC) 및 고객 서비스 통합을 통한 제품과 서비스를 공급함으로써 시너지 효과를 가져올 수 있다는 것을 인식하게 되었다. 더욱이, 모든 제품과 서비스 요청 사항들에 대해 단일한 고객지원 번호를 제공해야 했다. 이러한 인식을 통해 AT&T는 고객들을 단순히 하나의 개인 고객이 아닌 여러 제품이나 서비스를 함께 구입할 수 있는 고객으로써 새롭게 평가하게 되었으며, 이런 기회들을 활용하기 위해 AT&T는 고객 데이터를 통합하고, 일괄적으로 고객을 확인할 필요가 있었다.

고객 데이터웨어하우스의 "통합 고객 뷰 프로젝트"가 AT&T의 이러한 니즈를 충족시켰다. 데이터웨어하우스 내에서 통합된 고객 뷰를 생성하기 위해서는 고품질의 일관성 있는 데이터가 필요했는데, 이는 위험부담이 큰 작업이었다. 1억 이상의 잠재 고객을 가지고 있는 통신업계 시장에서 99%의 정확성이 높은 고객 데이터라 하더라도 여전히 백만 이상의 허위 고객 기록 데이터를 보유하게 되기 때문이다.

AT&T의 통합 고객 뷰 프로젝트를 담당했던 David Binkley 매니저는 "고객 데이터 품질관리 문제는 너무 복잡했기 때문에 한 사람이 해결할 수 있는 능력의 범위를 벗어나 있었고, 이를 해결하기 위하여 우리는 고객의 주소를 기반으로 하는 '지식'을 축적하고, 표준화된 프로세스에 따라 데이터를 정제하고 개별화하여 데이터를 확장, 관계설정을 수행할 수 있는 데이터 정제 시스템이 필요했다"고 회고했다.

금융·의료·소매 등에서 정확한 데이터 필요성 높아

핵심 비즈니스 시스템들에 들어있는 고객 정보의 품질을 개선하기 위해 공식적인 프로젝트를 시작하고 있는 많은 조직들(금융, 의료, 소매 등)에서 정확한 데이터에 대한 필요성은 갈수록 높아지고 있다. 얼마 전까지만 해도 대부분의 기업은 불량 데이터를 정리하는 일에 대해 관심을 갖지 않았다. 즉, 정확하지 않고 중복된 고객정보는 사소한 문제이며, 비즈니스를 하는데 있어 묵인될 수 있는 사항으로 간주했었다. 그러나 데이터웨어하우스와 데이터 마이닝, CRM 등에 대한 기업들의 관심이 높아지면서 양질의 데이터에 대한 가치와 데이터의 정제비용도 동시에 증가하고 있다. 그리고 이러한 작업은 결코 사소한 문제가 아니며 그 비용은 엄청난 규모이다. 한 전문가에 의하면 "데이터 품질 관리를 하지 않는 정보시스템은 매월 2% 정도씩 데이터의 품질에 문제가 발생하고, 정보시스템 운영비의 15~20% 이상이 데이터 품질 문제를 분석하고 해결하는데 지출된다"고 한다.

가트너 그룹의 Ted Friedman도 "2005년까지, 50%이상의 데이터웨어하우스와 CRM이 완전한 실패는 아니지만 데이터품질에 대한 부주의로 인한 제한적인 사용만이 가능할 것"이라고 분석하고 있다.
현재 기업이 보유하고 있는 고객에 대한 정보가 만족할만한 품질인지는 의문스럽다. 그 원인은 다음과 같다. 첫째, 기업의 고객에 대한 이해 정도 즉, 우리의 고객이 누구이며 무엇을 원하는가에 대한 답을 명백하게 알고 있지 않다. 둘째, 고객의 중요도에 대한 종업원들의 이해 정도 및 실천이 부족하다. 셋째, 이러한 활동에 대한 효과측정의 미비와 지속적인 활동이 부재하다. 이러한 원인은 첫 단추를 잘못 끼우면 옷맵시가 나지 않는 것처럼 고객에 대한 이해 정도에 따라 그 전체의 성과가 표현된다고 할 수 있으므로 이를 위해서 데이터 특히, 고객의 데이터 품질을 향상시키는 방법론적 접근이 절실히 요구되는 시점이다. 그렇다면 기업의 데이터 품질향상을 위한 방법은 무엇일까?

데이터 품질 향상을 위한 4단계 방법론

데이터 품질 향상을 위한 첫 번째 단계는 기존의 기업이 보유하고 있는 데이터 검사이다. 이것은 도메인의 빈도분석, 형식분석, 유효성분석, 데이터구조분석, 데이터관계분석 등을 통해 실행될 수 있으며, 이러한 분석은 통계 보고서로 작성된다.

빈도분석과 형식 분석은 데이터의 요소를 검증하는 기본적인 작업으로 데이터의 의미적 원자단위 값의 도메인 및 그 빈도수를 측정하는 것이고, 유효성분석은 원자단위의 값이 공백이나 '0' 또는 의미 없는 값(유효하지 못한 값)을 갖는지의 여부를 분석하는 것이다. 데이터란 원자단위의 값으로서의 의미뿐만 아니라 데이터 상호간 관계에 있어서 그 의미를 보유하고 있으므로 데이터 상호간의 정규화에 관련된 구조분석과 비즈니스 규칙에 따른 관계설정에 대한 분석을 필요로 하는데 이를 데이터구조분석과 데이터관계분석이라고 한다.

두 번째 단계는 표준화이다. 표준화는 첫 번째 단계의 검사 결과를 바탕으로 복잡한 사용자 관점의 데이터 형식과 배열을 통합하는 것이며 데이터에서 발견된 문제의 조건에 대한 지능적인 평가를 제공한다. 표준화는 문자 또는 마스크를 활용, 테이블을 참고하는 등의 방법으로 데이터의 전체 또는 일부의 값과 형식을 변환하는 작업이다.

표준화의 가장 대표적인 사례는 새로운 시스템을 구축할 때 필요한 코드체계의 정립과 과거 시스템 데이터 통합방안 등이다. 또한 여러 개의 원천데이터를 하나의 통합데이터로 변환하는 기능 등도 필요하다. 이 작업은 ETL에서도 수행가능하다.

세 번째 단계는 개별화 및 강화다. 사용자 관점에서 비즈니스 규칙(business rule)을 정의하고 이를 실행한 최상의 결과와 예외보고서 등을 작성하여야 한다. 이를 위해 워드/패턴 테이블에 비즈니스 규칙을 기록하고 개별화 결과에 따른 새로운 비즈니스 규칙을 제공하여야 한다. 특히, 고객의 데이터는 개인 또는 회사이름, 주소 등과 같이 정보에 대한 문맥 중심의 처리 즉, 사용자 중심 의 업무규칙 정의 알고리즘에 기반해야 한다.

예를 들어 '홍 길동 팀장 서울시 강남구 논현2동 3-1 신사빌딩 4층 135-010'이라는 데이터에 대한 개별화란 첫째, 그 원자단위의 값에 대한 구분이 있어야 하며 둘째, 그 구분에 대한 정확한 이름 즉, '홍 길동'은 사람이름, '팀장'은 직책, '서울시'는 시 이름, '강남구'는 구 이름, '논현2동'은 동 이름, '3-1'는 번지, '신사빌딩'은 건물이름, '4층'은 층, '135-010'은 우편번호 등이 있어야 하며 셋째, 이름에 대한 정확한 정의가 있어야 하고 넷째, '홍 길동'과 '팀장'은 함께 적합한 구조를 가질 수 있는 반면 '홍 길동'과 '서울시'는 함께 적합한 구조를 갖기 어렵다 등 적합한 구조('홍 길동 팀장'은 이름, '서울시 강남구 논현동'은 주소, '3-1 신사빌딩 4층'은 상세주소, '135-010'은 우편번호 등)를 가져야 하며 다섯째, 정확한 통합 규칙('논현동'과 '논현2동')을 가져야 한다. 또한 주소정보를 우편번호 테이블과 비교하여 정확한 정보로 수정('논현동 3-1'은 '3-1'번지 값으로부터 '논현2동 3-1'로, 우편번호 '135-283'은 '135-010'으로 변경)할 수 있어야 한다. 인구통계자료와 비교도 가능해야 한다.

마지막 단계는 관계설정이다. 관계설정은 어떤 데이터에 대해서도 가능하여야 하며, 여러 단계도 가능해야 한다. 이러한 관계설정은 업무규칙을 정의함으로써 실행할 수 있으며 데이터의 품질 정도에 따른 융통성 있는 규칙을 정의할 수 있어야 한다.

최상의 결과를 얻기 위해 표준화, 개별화 등의 작업을 반복적으로 실행하여 조정할 수 있어야 한다. 이를 위하여 같은 엔트리에 대하여 '가장 자주 일어나는', '가장 최근의', '가장 높은/낮은', '가장 완전한'" 등을 선택적으로 사용하여 '최상의 데이터'를 획득하고 사용자가 정의한 업무규칙을 사용하여 '가장 좋은 품질의 레코드'를 지정하여야 한다.

실제로 기업에는 각 제품 또는 부서 내에서 관리하는 동일한 고객의 다양한 데이터가 존재하며 이러한 중복된 데이터와 부정확한 데이터는 통합에 어려움이 있으며, 시간이 지남에 따라 끊임없이 바뀌는 속성을 가지고 있다. 이러한 다양한 데이터의 통합을 위해서는 조합 가능한 수천 가지 중 하나의 시나리오를 빠르게 찾아내는 패턴 매칭 기술이 필요하며 이를 통해 가장 질적으로 우수한 레코드가 어떤 것인지 알아낼 수 있다. 이를 통해 레코드들에 대한 제품과 회사의 관계, 개인과 세대와의 관계, 개인과 회사와의 관계설정을 가능케 한다.

DW의 근본은 신뢰성 있는 데이터

데이터 클린징 및 품질관리를 가장 많이 적극적으로 사용하는 분야는 은행, 보험, 소매, 통신, 유통 등 데이터에 크게 의존하는 곳이다. 그러나 데이터베이스 기술이 실질적으로 모든 경제와 정부 활동의 필수가 됨에 따라 데이터 클린징은 급속하게 모든 산업 군에 퍼지고 있다. 즉, 대규모의 고객을 갖고 있거나 서비스를 해야 하는 조직은 데이터 클린징 도구를 사용할 수 있다.

기업은 다양한 데이터베이스에서 데이터를 가져와 최종사용자가 빠르고 쉽고 유연하게 중요한 사실에 접근할 수 있도록 데이터를 재정리하는 데이터웨어하우스 구현 과정에서 데이터 클린징의 필요성을 인식하게 된다. 그러나 데이터웨어하우스는 담고 있는 데이터가 정확하고 유용할 경우에만 가치가 있다. 따라서 신뢰성 있는 데이터야말로 데이터웨어하우스의 근본이다. 완벽하게 깨끗한 데이터를 갖고 있다고 자신하는 기업도 지속적인 데이터 품질관리가 필요하다. 서로 다른 기종의 중대형 시스템에서 가져온 데이터를 통합할 경우 저장 형태, 데이터 정의 등 다양한 구조적 문제에 직면하게 될 것이기 때문이다. 따라서 현재 자사의 데이터가 완벽하게 깨끗하다고 주장할 수 있는 기업은 없다.

또한, CRM은 기존사업측면에서 가속화된 가격 경쟁의 구도를 벗어나 고객과 우호적 관계를 구축함으로써 장기적 관점에서 수익을 확보할 수 있으며, 신규 사업 측면에서는 고객과의 관계와 고객에 대한 지식을 기반으로 한 사업의 다각화를 가능케 한다.

CRM의 범위는 고객의 확보, 고객 개발, 고객 유지로 구성되어 있으며 국내처럼 외부의 잠재 고객 데이터베이스를 직접 취득하는 것이 법적으로 금지되어 있으며 앞으로 이 법이 바뀔 가능성이 낮은 상태에서는 고객의 확보에 소요되는 비용이 가장 크다는 것은 자명한 일이다. 그러므로 CRM은 고객의 개발과 유지를 얼마나 효과적으로 수행하느냐에 대한 효과측정이 중요하다. 또한 신규고객의 확보보다 이탈고객을 재유치하는 즉, 윈백(Win-Back) 비용이 50-60% 정도 적다는 사례는 현재 기업이 보유하고 있는 고객에 대한 정보의 가치가 얼마나 큰 것인가를 시사하고 있다고 하겠다.

활용사례
썬의 데이터 품질관리 - NAR

미국의 썬 마이크로시스템즈는 자사의 거대한 고품질 고객 데이터가 미래의 성장원이 될 것이라고 인식했다. 이에 따라 자사의 다양한 하드웨어, 소프트웨어, 서비스 부서의 관리자와 직원들이 데스크톱 비즈니스 애플리케이션을 통해 정확한 고객 정보를 이용할 수 있도록 D&B사의 데이터와 자사의 내부 비즈니스 정보를 토대로 NAR(Name and Address Registry)을 만들었다. NAR은 썬 직원이 잠재적 고객 및 현재와 과거 고객의 이전 영업 현황, 서비스 역사, 다른 부서와의 연락처 등 개요를 입수할 수 있도록 돕는다. 각 사업부는 나름대로 애플리케이션과 자체 고객 마스터 데이터를 갖고 있었다. 그리고 여러 사업부가 같은 고객을 서비스하는 경우도 많았다. 썬 마이크로시스템즈는 이런 각 사업부의 데이터를 NAR로 통합해 비즈니스 기회를 높이려 했다.

썬 마이크로시스템즈에서 NAR을 구현하고 유지보수하는 동안 부딪친 최대의 난관은 데이터의 정확성을 보장하는 것이었다. 썬은 읽기 쉬우며 정확한 고객 개요를 영업 사원들에게 제공하기 위해 깨끗한 데이터를 원했다. 여기에 중복 데이터를 제거함으로써 동일한 고객에 대해 서로 모순되는 데이터가 제공되지 않도록 하고자 했다. 썬 마이크로 시스템즈는 이와 같은 NAR 데이터의 무결성을 보장하기 위해 트릴리엄 소프트웨어 시스템이 개발한 "트릴리엄 소프트웨어"를 선택했다. 썬 마이크로시스템즈의 썬익스프레스(SunExpress) 부품 사업부에 설치된 트릴리엄 소프트웨어는 중복 데이터를 제거하고 주문 입력 시 실시간으로 고객 정보를 조회하는 작업을 후위에서 수행했다. 이 시스템의 설치와 조율은 6개월이 걸렸다. 이 시간의 대부분은 검증 절차를 조율하고 트릴리엄 소프트웨어의 테이블 기반 논리회로에 있는 검증 논리를 조절하는데 쓰여졌다. 이처럼 데이터 정제는 한번만 하고 마는 작업이 아니라 데이터 정확성을 계속 유지하기 위한 표준화된 방법론에 근간한 주기적인 반복작업이 반드시 필요하다.

영국 최대의 금융 기관인 Woolwich는 마케팅, 예측분석 그리고 전략수립을 위해 오라클, HP-UX를 사용하여 데이터웨어하우스 재디자인 작업을 착수하였다.

데이터웨어하우스 디자인은 Woolwich가 각 개인과 세대에서 보다 고객관점에서의 비즈니스를 제공하기 위해서 였다. 이전에 회사는 고객의 니즈, 고객행동 보다는 제품과 성과에만 중요성을 부여하였다. 고객중심 또는 세대중심의 정보를 제공하면서 데이터웨어하우스는 비즈니스 디자인과 "Open Plan"과 같은 전략을 실행할 수 있게 되었다. 그러나 데이터웨어하우스에 입력되는 정보들은 다양한 소스에서 추출된 데이터들이며 새로운 데이터들이 계속 증가되었고, 향후 외부 데이터 소스를 포함한 추가 데이터들이 발생할 경우 빠르고 쉽게 통합하여 지속적인 일관성을 유지할 수 있어야 했다. 이로 인해 다양한 형태의 데이터들을 통합하고, 정제하고, 표준화 작업이 검증된 방법론에 입각한 솔루션을 요구하였다.

Woolwich 의 데이터웨어하우스 컨설턴트이며, 트릴리엄 소프트웨어 시스템의 제품디자인 그리고 프로세싱의 테스트 및 튜닝 총괄 책임을 맡고 있는 Phil Bright는 "가장 최상의 방법은 실전연습을 통해 얻는 것이지만, 지침이 되는 가이드가 있는 것이 중요하다. 트릴리엄 소프트웨어는 10여년동안 쌓아온 지식과 경험, 방법론을 우리에게 전달하면서 많은 도움을 주었다"고 언급했다.

관리자 webmaster@itdaily.kr

다른기사 보기

상단영역

본문영역

데이터 품질 향상 방법론과 활용 사례

캐롤라인 림-브라운 트릴리엄 소프트웨어 아태지역 BD 매니저

기사 댓글 0

비회원 로그인