본지, 제18회 ‘2021 데이터 컨퍼런스’ 개최

[아이티데일리] 본지(컴퓨터월드/IT DAILY)가 지난달 25일 양재동 엘타워에서 ‘제18회 2021 데이터 컨퍼런스’를 개최했다. 이날 행사는 ‘성공적인 하이브리드 데이터 플랫폼을 위한 A to Z’라는 주제로, 각계 전문가와 기업들이 다양한 데이터 관련 솔루션들과 사례들을 공유하며 성공을 위한 인사이트를 공유했다.

클라우드의 영향력이 증가하면서 기업들의 IT 인프라가 온프레미스와 클라우드를 아우르는 하이브리드 환경으로 옮겨가고 있다. 하이브리드 환경에서는 데이터가 생성 및 활용되는 포인트가 증가해 관리해야 할 범위가 늘어나면서 전 세계 기업들이 자사의 데이터 관리 역량을 재차 점검하게 만든다. 아무리 정확한 데이터 분석 시스템을 갖추고 있다고 하더라도 원하는 데이터를 적시에 찾고 활용할 수 없다면 무용지물이기 때문이다.

이번 ‘2021 데이터 컨퍼런스’는 복잡한 하이브리드 IT 환경에서 데이터를 손쉽게 찾고 활용할 수 있는 전략을 제시하기 위해 마련됐다. 또한 마이데이터와 메타버스, 그래프DBMS 등 최신 IT 기술과 트렌드를 데이터 관점에서 살펴보는 시간도 준비됐다.

본지(컴퓨터월드/IT DAILY)가 지난달 25일 양재동 엘타워에서 ‘제18회 2021 데이터 컨퍼런스’를 개최했다.

“혁신 위해서는 현상이 아닌 원인 분석 필요하다”

김용대 서울대학교 통계학과‧데이터사이언스학과 교수
김용대 서울대학교 통계학과‧데이터사이언스학과 교수

가장 먼저 연단에 오른 것은 한국데이터마이닝학회 회장을 맡고 있는 김용대 서울대학교 통계학과‧데이터사이언스학과 교수였다. 김용대 교수는 ‘상관관계에서 인과관계로 : 데이터 과학의 새로운 흐름’이라는 주제로 축사 및 키노트 발표를 진행했다. 과거부터 현재까지 데이터를 활용하는 방법이 변화해온 양상을 소개하고, 최근 전 세계적으로 분석의 트렌드가 상관관계 분석에서 인과관계 분석으로 옮겨가고 있다고 설명했다.

유사 이래로 데이터로 할 수 있는 일들은 점점 늘어나고 있다. 과거에는 왕정이나 정부 등 지배 계층이 원활한 통치를 위해 데이터를 수집하고 활용했다. 세금을 걷고 병사를 징집하기 위해서는 영지 내 인구나 재화 생산에 대한 통계적인 정보가 필요했다. 이러한 통치 관점의 데이터 활용은 정치 산술이라고 불리기도 했다. 이후 18세기 프랑스 대혁명 이후에는 국민들의 생활을 분석하고 개선하기 위한 사회통계가 발달했고, 19세기에는 본격적이고 현대적인 통계학이 탄생해 합리적인 데이터 분석 방법에 대한 연구가 등장했다.

지난 20세기에서부터 현재의 21세기에 이르기까지, 데이터는 하나의 학문이나 과학의 영역을 넘어 실전적으로 산업을 혁신하는 원동력이 됐다. 과거의 데이터로 현상을 분석하고 기록하는 것만이 아니라, 기업이 자사의 비즈니스를 개선하고 생산력을 높여 돈을 벌기 위한 수단으로 활용되고 있다. 김용대 교수는 “오늘날 기업들은 데이터 분석을 통해 손쉽게 비즈니스 현황을 파악하거나 보다 개인화되고 미시적인 예측을 할 수 있게 됐다”며, 구글이나 AT&T 등 데이터를 통해 빠르게 성장하고 있는 핵심 기업들에 대해 소개했다.

김용대 교수는 이어 최근 전 세계적으로 데이터 분석의 관심이 상관관계 분석에서 인과관계 분석으로 옮겨가고 있다고 설명했다. 상관관계는 수집한 데이터와 변수 사이에서 공통적으로 발생하는 현상이다. 그들 사이의 관계는 구체적으로 알 수 없으나, 통계적으로 A와 B의 그래프가 함께 움직인다면 이들 사이에 어떤 상관관계가 있을 것이라고 판단한다. 예를 들어 담배를 피우는 사람이 폐암에 걸릴 확률이 높다거나, 커피를 마시면 수명이 늘어난다거나, 게임을 많이 하면 성적이 떨어진다거나 하는 식이다. 오늘날 비즈니스 현장에서 활용되는 대다수는 상관관계 분석이다.

반면 인과관계 분석은 A와 B 사이의 직접적인 원인-결과 관계를 찾는 것이 목표다. 예를 들어 일반적으로 고기 소비량이 많은 나라는 평균 수명이 길다. 두 데이터의 상관관계를 분석하면 고기 소비량과 평균 수명은 연관이 있는 값처럼 보이지만, 인과관계를 분석해보면 둘 사이에는 직접적인 관계가 없다는 것을 알 수 있다. 단순히 국민들의 소득 수준이 높은(GDP가 높은) 나라가 고기 소비량이 많고 뛰어난 의료시설 덕분에 평균 수명도 길 뿐이다. 다른 예시로는 소아마비 발병률과 아이스크림 판매량이 있는데, 두 데이터들을 1년 주기로 그래프에 그려보면 비슷하게 움직이는 것을 알 수 있다. 하지만 아이스크림이 소아마비를 유발하는 것도, 소아마비가 아이스크림 판매를 촉진하는 것도 아니다. 둘 사이에는 ‘기온’이라는 제3의 공통된 원인이 있다.

김용대 교수는 “이미 미국 방위고등연구계획국(DARPA)은 대규모 인과추론 프로젝트를 수행했으며, AAAI나 NeuroIPS, ICML 등 수많은 글로벌 학회에서도 인과관계 분석 연구성과들이 속속 발표되고 있다”며, “상관관계 분석이 ‘어떤 학생이 성적이 좋을까?’와 같이 예측을 목표로 하는 것이라면, 인과관계 분석은 ‘성적이 좋아지는 원인이 무엇일까?’처럼 원인을 찾는 것이 목표다. 단순히 과거 데이터에 대한 통계적 분석을 넘어 실제 원인을 찾고 변화를 일으킬 수 있는 요인을 제시한다”고 설명했다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지