데이터 마이닝의 4대 방법론

데이터 마이닝 모델링에 대한 개념적 이해

▲ 허명회 stat420@korea.ac.kr미국 스탠포드대학교에서 통계학 박사학위를 취득한 뒤 1984년 이래 고려대학교에서 통계학 교수로 재직 중이다. 최근「데이터 마이닝: 모델링과 사례」(SPSS 아카데미)를 출간했다.

많은 기업들이 데이터 마이닝으로 경영지식을 과학적으로 도출해 내고 이를 CRM에 활용하고 있다. 데이터 마이닝에 쓰이는 모델링 방법은 다양하지만 이 중에서 신경망(neural network), 나무형 분류(tree-structured classification), K-평균 군집화(K-means clustering), 자기조직화 지도(self-organizing map) 등이 대표적이다. 일반 경영자들이 쉽게 이해할 수 있도록 이들 모델링 방법론을 개념 위주로 설명하고자 한다.

1. 신경망 모형은 선형회귀 모형과 어떻게 다른가?
선형회귀 모형(linear regression model)은 1개의 목표변수를 규명하기 위하여 다수의 설명변수를 사용하되 관계식을 선형으로 설정한다. 예로서 개인소득이 관심이라고 하자. 당연히 개인소득은 고객간 상당한 변이를 보일 것이다. 왜 소득이 다른가? 무엇과 연관이 있는가? 소득과 관련 있는 변수들이 무엇인지를 알고 있고 개별 고객에 대하여 관련 변수들의 자료 값을 취하였다면, 기업은 고객 개개인에게 가구 소득을 일일이 묻지 않고도 그것을 알아낸 셈이 된다.

개인소득과 관련 변수들 사이의 관계식을 활용한다면 말이다. 개인 소득에 대한 설명변수가 교육년수와 나이라면, 선형회귀 모형은 교육년수가 길수록, 그리고 나이가 많을수록 소득이 선형적으로 증가한다고 가정한다. 즉 12년 교육을 받은 사람과 16년 교육을 받은 사람간 소득 차이가 월 40만원이라면 16년 교육을 받은 사람과 18년 교육을 받은 사람간의 소득 차이는 월 20만원일 것이다. 나이에 대하여도 이와 같다.

교육년수가 같은 두 사람 중 한 사람이 30세이고 다른 한 사람이 45세인데 소득 차이가 월 100만원이라면 (45세 쪽이 많음), 교육년수가 같은 45세인 한 사람과 60세인 다른 사람 간 월 소득 차이도 월 100만원일 것이라고 가정한다 (60세 쪽이 많음).

그런데 요즘 세상은 이렇게 질서정연하게 움직이지 않는다. 특히 나이에 있어서 그럴 것이다. 45세 사람이 30세 사람에 비해 월수입이 많을지라도 60세인 사람은 45세 사람에 비해 월수입이 작을 수 있고 많더라도 그렇게 월 100만원이나 차이가 나지는 않을 것이다. 이런 비선형적 효과가 자료에 내재하여 있다면 소득에 대한 선형회귀 모형은 헛다리짚는 셈이 된다. 자료를 보는 틀(=모형)이 경직되어 있어 자료가 명백히 말하는 것을 분석자가 알아듣지 못하는 결과가 된다.

신경망 모형이 선형회귀 모형에 비해 다른 첫 번째 점은 신경망은 설명변수의 비선형적 효과를 포착해낸다는 데 있다. 나이가 소득에 주는 효과가 처음에는 증가하다가 일정 나이를 지나면서 정체하는 경향이 있다면 신경망은 그것을 스스로 알아낸다. 이것은 우리가 음식에서 단 맛을 느낄 때 음식의 당도가 높을수록 단 맛의 강도가 커지지만 음식의 당도가 엄청 크다고 해서 그에 상응하는 단 맛을 느끼지 않은 것과 같은 이치이다. 이와 같이 데이터 마이닝에서 사용하는 인공 신경망 모형은 생물체의 실제 신경망과 같은 이치로 작동한다. 왜? 이에 대한 답은 쉽지 않다. 환원적이지만, 인공 신경망을 실제 신경망과 유사하게 만들었고 가급적 더욱 유사하게 되도록 계속 개량해나가기 때문이라고 이해하면 되지 않을까 싶다. 현재까지 나온 인공신경망 중 대표적인 다층 퍼셉트론 모형은 입력 층과 출력 층 사이에 은닉 층을 둔다. 그리고 그 안에 뉴런(신경세포)을 넣는데 뉴런은 입력노드로부터 받은 신호(자료)들을 조합하여 적절한 반응(변환)을 산출한 뒤 출력노드로 보내 최종 정보처리 하는 과정을 거친다.

그러면 신경망 모형은 만능인가? 설명 변수들의 리스트를 분석자가 제시하여야 한다는 점에서 신경망의 지능 수준은 선형 회귀와 마찬가지이다. 소득과 관련 있는 변수를 스스로 알아내지는 않는다는 의미이다. 교육년수와 나이 외에 무엇이 소득과 관련 있는 변수인지 그럴 가능성이 있는 변수들을 분석자가 먼저 말하지 않는다면 신경망은 더 이상의 작업은 하지 않는다. 다시 말하여, 현재까지의 인공 신경망은 수동적인 작업자일 뿐 스스로 생각하고 행동하지 못한다.

신경망이 오히려 선형회귀 만도 못한 측면도 있다. 우리가 우리 몸의 신경계를 운영하고 있지만 동작 원리를 잘 모르고 있듯이, 분석자가 신경망 모형을 구축하였다 하더라도 내부까지 샅샅이 이해하는 것은 매우 어렵다. 단지 이런 값을 신경망 모형에 넣으면 이런 값이 나오고 저런 값을 넣으면 저런 값이 나온다는 것을 여러 번의 시행을 통하여 볼 수 있을 뿐이다. 이렇듯 모형 자체에 대한 설명이 어렵기 때문에 실제 기업의 BI 활용시 신경망을 쓰지 못하는 경우도 있다. 예컨대 신용예측 모형을 신경망으로 만든 경우 왜 고객 A는 좋은 신용으로 예측되는데 그 보다 못할 것 없어 보이는 고객 B는 나쁜 신용으로 예측되는지를 신경망이 알려주지 않기 때문이다.

2. 나무형 분류 모형은 엔트로피를 어떻게 감소시키나?

자연과학에서는 불확실성을 엔트로피(Entropy)로 계량화한다. 엔트로피의 정의를 예를 들어 살펴보기로 하자. 사건 A, B, C, D 중 어느 하나가 발생하는데 각각 확률 1/4, 1/4, 1/4, 1/4로 발생한다면 엔트로피는
-(1/4)log2(1/4)-(1/4)log2(1/4)-(1/4)log2(1/4)-(1/4)log2(1/4)=2.00이다.[여기서는 밑수가 2인 로그가 사용되었는데 꼭 그래야 하는 것은 아니다. 어느 값을 밑수로 하든지 수치적으로는 다른 엔트로피 값이 나오지만 전체 방법론에는 영향을 주지 않는다]. 이에 반하여 4개 사건의 발생 확률이 4/8, 2/8, 1/8, 1/8이라면 엔트로피는 -(4/8)log2(4/8)-(2/8)log2(2/8)-(1/8)log2(1/8)-(1/8)log2(1/8)=1.75가 된다. 따라서 먼저 경우에 비하여 엔트로피가 작다. 그렇다면 나중 경우의 불확실성이 상대적으로 작다는 것인데 이것이 맞는 말인지 곰곰이 생각해보자. 먼저 경우에서는 A, B, C, D 중 어느 것이 발생할지 전혀 알 수 없다. 그런데도 예측해야 한다고 해서 A를 택하였다고 하자. 그러면 오류 확률은 3/4이다. 나중 경우에서는 A, B, C, D 중 어느 것이 발생할지 알 수 없지만 A에 대한 확률이 가장 높으므로 A로 예측하는 것이 좋을 것이다. 그러면 오류 확률은 4/8이다. 그러므로 나중 경우가 더 가시적이고 덜 불확실한 경우라고 할 수 있다.

나무형 분류 모형은 목표 범주의 예측에 있어서 엔트로피를 최소화하는 설명변수를 단계적으로 찾아 활용한다. 예컨대 자동차 보험 가입자의 위험 등급(A, B, C, D; 각각 확률 1/4) 예측이 관심인 경우 무엇을 기준으로 나눔으로써 엔트로피가 최소가 되는가를 찾는다. 나이가 30대 이하(전체의 50%)인가, 아니면 40대 이상(50%)인가로 나누는 경우, 30대 이하에서는 A, B, C, D 등급일 확률이 4/8, 2/8, 1/8, 1/8이고 40대 이상에서는 그 확률들이 0, 2/8, 3/8, 3/8이고 하자. 그러면 엔트로피는 다음과 같이 산출된다.

1) 30대 이하 (50%): 1.75 [앞에서 이미 계산되었음]
2) 40대 이상 (50%): 1.03 [앞에서와 같이 계산하되, Olog20 = 0으로 함]

따라서 평균 엔트로피는 1.39 (=0.5*1.75 +0.5*1.03)가 된다. 그러므로 엔트로피는 나이대로 분류하기 전의 2.00에서 0.71 (=2.00-1.39)만큼 감소한 것이다. 이것은 나이대로 나누었을 때의 결과이므로 다른 것을 기준으로 분류하였을 때 더 큰 엔트로피의 감소가 있나 살펴, 그런 분류가 있다면 그것을 기준으로 한다는 것이 나무형 분류 모형의 기본 아이디어이다. 예컨대 나이대, 흡연 유무, 운전 경력 등으로 분류하여 얻는 결과들을 서로 비교하여 최선의 것을 찾는 것이다. 일단 1개의 분류 기준이 확정되면 그 다음엔 무엇으로 나누는 것이 좋은가를 계속 탐구하여 최종 분류 나무를 얻는다.

나무형 분류 모형의 방법론으로 대표적인 퀼란(Quilan, 1988)의 C4.5와 이것을 개량한 C5.0이 이제까지 설명한 엔트로피를 사용하고 있고 브라이만 등(Breiman et al., 1984)의 CART(Classification and Regression Trees)는 지니 지수(Gini Index)를 활용하는 데, 지니 지수는 엔트로피와 개념상 유사하다.
나무형 분류 모형은 결과를 읽기가 아주 쉽기 때문에 ["If-Then"의 반복 형식으로 되어 있으니까] 데이터 마이닝에 자주 활용된다. 그러나 어떤 기준 점을 중심으로 나누어지므로 설명변수 값의 작은 차이에서 예측 결과상 큰 차이가 빚어지기도 하므로 모형이 다소 불안정하다는 단점이 있다. 그러나 최근에는 배깅(Bagging), 부스팅(Boosting) 등 다양한 보완적 방법이 나왔으므로 앞으로 더욱 자주 활용될 것이다.

3. K-평균 군집화는 어떤 생각에서 나왔나?

어릴 적 동네 공터에는 많은 돌들이 뒹글고 있었다. 이것저것 모아 보면 돌들이 크기와 재질면에서 제각각이여서 몇 개의 그룹으로 어렵지 않게 나눌 수 있었다. 고등학교 때 학우들을 생각해보자. 얌전한 모범생부터 활동적인 리더, 지사적 극기형, 몽상가형, 사고뭉치형 등 여러 그룹이 있었다. 인간이란 본래 집합적 대상을 이해할 때는 이와 같이 분류를 중간과정으로 활용하는 경향이 있다. 그것이 BI에서는 고객세분화로 나타나는데 이것은 동네 공터의 돌을 분류하는 문제와 다르지 않다.
K-평균 군집화(K-means clustering)란 많은 수의 개체들을 주어진 수(=K)의 그룹으로 분류하기 위한 방법이다. 이것의 원리는 다음과 같이 단순하다.

1) 처음에는 K개 그룹 각각에 1개씩의 개체를 넣는다. 각 그룹에 개체가 1개씩만 있으므로 그룹 중심은 그룹별로 처음 배당한 개체 스스로가 된다.
2) 남은 모든 개체 각각을 가장 가까운 그룹 중심을 찾아 그 그룹에 배속시킨다.
3) 각 그룹 중심을 새로 계산한다. 여기서 그룹 중심은 각 그룹에 배속된 모든 개체들의 평균이다.
4) 앞의 단계 2와 3을 충분한 회수 반복하여 수행한다. 이것이 막대한 계산적 부담이 될 것 같지만 실제로는 그렇지 않다. 실제로는 대략 10회 내외의 반복으로 충분하며 웬만한 자료라면 커피 한 잔을 마실 시간 이내에 계산이 완료된다.

K-평균 군집화에서 문제는 군집 수 K를 사전에 정하는 일이다. 분석자로서는 이것이 곤혹스럽지만 대략 상식적인 값을 시도한 뒤 그 결과가 해석가능하고 멋지게 보이면 채택하고 그렇지 않으면 그 수를 줄이거나 늘이는 방법이 무난하다.
최근에는 K를 정하기 위하여 자료 분할(data partitioning)을 활용하는 방법도 연구되었다(허명회 등, 2003). 이것은 분석자료를 3개 세트(A, B, C)로 분할하여 A와 B로부터 각각의 K-평균 군집화 규칙을 만들고 이들 규칙을 C에 중복 적용하여 분류 결과가 얼마나 상호간 일치하는가를 보는 것이다. 일치계수로는 랜드(Rand, 1971)의 일치도 또는 엔트로피 등을 쓴다.

4. 자기조직화는 어떻게 가능한가?

1980년대 중반 이후 핀랜드의 전기공학자 코호넨(Kohonen)에 의하여 개발된 자기조직화지도(Self-Organizing Map)는 다수의 다차원 공간상 개체들이 스스로 비슷한 것들을 찾아 끼리끼리 저차원 공간(2차원)에 자리 잡도록 하는 방법을 말한다. 어떻게 이것이 가능할까?

다음 상황을 생각해보자. 고객들을 큰 운동장에 소집하여 유사한 사람들끼리 근처에 자리 잡게 하는 것이 목적이라고 하자. 어떻게 하면 될까?

1) 처음에는 각 위치의 특성을 임의로 정한다.
2) 첫 사람을 가장 유사한 위치 특성을 찾아내 그곳에 세운다. 그리고는 그 주변의 위치 특성을 모두 업데이트 하는데 이 때 새로 그 주변에 세워진 사람의 영향을 일정 크기 고려한다. 그 사람이 세워진 곳에서 가까운 위치점의 특성은 크게 업데이트 되고 일정 반경 내이지만 먼 위치점들의 특성은 작게 업데이트 된다. 이 작업을 한 명씩에 대하여 반복 적용하되 점차 주변 반경의 크기를 줄이고 업데이트 하는 정도도 줄인다. (따라서 처음에는 반경의 크기가 크지만 점차 줄어든다. 업데이트 정도도 마찬가지이다.)
3) 앞 단계의 계산을 충분한 횟수 반복한다. 이에 따라 주변 반경은 계속 줄게 되어 맨 나중에는 바로 옆 위치점만 겨우 포함될 정도로 작아진다. 업데이트 정도도 처음에는 크지만 나중에는 무시될 수 있을 만큼 작아진다. 그러므로 자기조직화 과정에서 처음에는 사람들의 위치 변경이 심하지만 점차 안정되어 가며 유사한 사람들은 근처에 자리 잡게 된다.

자기조직화지도도 고객 세분화에 사용될 수 있다. 이 점에서는 K-평균 군집화와 마찬가지이지만 자기조직화지도는 고객들의 위치를 시각적으로 보여주기 때문에 훨씬 유연하게 활용될 수 있다. 여러 통계전문가들은 자기조직화지도를 K-평균 군집화의 확장으로 보기도 하지만 이것보다는 주성분/인자분석의 비선형적 버전으로 이해하는 것이 더 옳다.

이상으로 데이터 마이닝의 4대 방법론인 신경망, 나무형 분류, K-평균 군집화, 자기조직화지도 등을 살펴보았다. 이들 방법론 외에 연관성 분석 방법으로 Apriori, GRI 등의 알고리즘을 SPSS 클레멘타인, SAS E-miner 등 유명 데이터 마이닝 소프트웨어들이 제공하고 있다. 그러나 이들 방법론들은 다수의 파라미터들이 제대로 설정되었을 때 최대의 성과를 낼 수 있으므로 무조건 따라하기식의 활용은 위험하다. 전문가의 자문을 필요로 하는 부분이다.

관리자 webmaster@itdaily.kr

다른기사 보기

상단영역

본문영역

데이터 마이닝의 4대 방법론

데이터 마이닝 모델링에 대한 개념적 이해

기사 댓글 0

비회원 로그인