사미 아크베이 스트림 부사장 겸 공동창업자

[컴퓨터월드] 빅데이터가 화두로 떠오른 이래 기업들은 데이터로부터 인사이트를 얻기 위해 많은 투자와 시도를 해왔고, 인공지능(AI) 열풍이 불고 있는 지금도 그 기반을 이루는 데이터의 중요성은 날로 높아지고 있다. 그러나 여전히 적잖은 기업들은 필요한 데이터를 모으는 일에서부터 어려움을 겪고 있는데, 데이터의 양적인 폭증뿐 아니라 그 원천의 다양성과 비즈니스에 요구되는 속도 역시 관건이 되기 때문이다.

‘스트림(Striim)’은 기존 분석 솔루션들로는 해결하기 어려웠던 ‘실시간 데이터 통합’의 실질적 구현에 초점을 맞춘 소프트웨어(SW) 제품으로, 스트리밍 데이터 통합 기능과 스트리밍 데이터 분석 기능을 결합해 하나의 플랫폼에서 제공한다. 최근 방한한 사미 아크베이(Sami Akbay) 스트림 부사장(EVP) 겸 공동창업자로부터 실시간 데이터 통합·분석의 필요성과 관련 시장의 향후 전망에 대해 들어봤다.

▲ 사미 아크베이 스트림 EVP


경력 같은 신입?

WAS(웹애플리케이션서버) ‘웹로직(WebLogic)’과 CDC(변경데이터캡처) 솔루션 ‘골든게이트(GoldenGate)’ 사이에서는 몇 가지 공통점을 찾을 수 있다. 각 해당 분야에서 널리 쓰이고 있는 제품이고, 지금은 오라클을 통해 제공되고 있으며, 과거 동명의 회사가 대기업에 인수될 때 동일인물이 CEO를 맡았다는 점이다. 현재 스트림 CEO를 맡고 있는 알리 쿠테이(Ali Kutay)는 당시 시장에서 거둔 성과를 바탕으로 각각 웹로직을 훗날 오라클에 인수되는 BEA시스템즈에, 골든게이트소프트웨어를 오라클에 합병시키는 데 성공한 바 있다.

스트림은 그가 가장 최근에 세운 벤처기업으로, ‘골든게이트’ 개발자 및 경영진이 중심을 이뤄 지난 2012년 미국 실리콘밸리에서 설립됐다. 그동안 인텔을 포함한 4개 벤처캐피털(VC)로부터 총 3천만 달러 이상의 투자를 받았고, 포레스터리서치를 포함한 여러 시장조사기관과 IT전문매체의 인증을 받으면서 지난해에는 가트너 ‘쿨 벤더’에도 선정된 바 있다. 현재 금융권에서 다수의 고객을 확보하고 있으며, 주로 사물인터넷(IoT)을 포함한 빅데이터 분야에서 실시간 서비스를 제공하기 위해 도입되고 있다. 신생기업이지만 전문분야에서만큼은 유수의 IT기업들 못잖은 탄탄한 실력과 배경을 지니고 있는 셈이다.


스트리밍 인티그레이션, 스트리밍 인텔리전스

▲ ‘스트림(Striim)’ 솔루션 아키텍처

엔드-투-엔드 스트리밍 통합 및 지능형 분석 플랫폼을 표방하는 ‘스트림’은 스트리밍 데이터에 대한 실시간 통합 및 분석 기능을 지원하는 게 특징으로, 기존 SQL 언어와 유사한 방식(SQL-like)으로 사용할 수 있다. 기업 데이터베이스(DB)의 트랜잭션과 변경된 데이터를 비롯해 로그, 메시지큐, 센서 등 폭넓은 정형·비정형 데이터 소스로부터 데이터가 생성되자마자 수집, 이를 인메모리 기반 분산병렬처리를 통해 기업 DB와 데이터웨어하우스(DW), 하둡이나 NoSQL DB 등 빅데이터 플랫폼, 메시지큐, 클라우드 등 다양한 형태의 타깃 시스템에 1밀리초(millisecond, 1000분의 1초) 내로 전달 가능하다.

특히, 이 과정에서 쉽게 정제하고 변환하며 결합할 뿐만 아니라 품질도 높일 수 있어, 데이터가 디스크에 저장되기도 전에 분석을 위한 전처리를 빠르게 마칠 수 있게 해준다. 또한, 스트리밍되는 정보들과 기 보유 데이터에 대한 연관분석을 플랫폼상에서 바로 수행함으로써 실시간으로 이상을 탐지하거나 이벤트·패턴을 식별해 대응할 수 있으며, 분석결과를 실시간으로 시각화할 수 있는 대시보드도 제공된다. 가공된 데이터는 보다 심층적인 분석이 필요할 경우 다양한 저장소로 전송 가능하며, 메타데이터와의 조인을 통해 현재 스트리밍 데이터의 콘텍스트 파악에 쓰이기도 한다.


실시간 데이터 통합·분석 수요 확대

데이터가 곧 경쟁력으로 여겨지는 시대, 급변하는 시장 환경 속에서 경쟁자들보다 앞서나가기 위해서는 그만큼 민첩한 움직임이 요구되기 마련이다. 이에 스트림은 기업고객들이 데이터를 적시적소에 활용함으로써 비즈니스 성장을 이룰 수 있도록 지원하는 데 초점을 맞추고 있다.

사미 아크베이 스트림 부사장 겸 공동창업자는 “머신러닝(기계학습)도 충분한 데이터가 기반이 됐을 때 위력을 발휘하며, 여기에 실제 비즈니스 상황을 얼마나 반영할 수 있는지 또한 관건이 된다. 즉, 빅데이터, 인공지능, 스트리밍은 서로 밀접한 관계에 있으며, 이들을 별개로 여기고 관련 프로젝트를 진행한다면 원하는 바를 달성하기 어려울 수 있다”면서 스트리밍 데이터와 실시간 데이터 통합·분석의 중요성을 강조했다.


다음은 사미 아크베이 스트림 부사장과의 인터뷰 내용을 문답식으로 정리한 것이다.

‘스트림’ 솔루션의 특징은?

‘스트림’의 특징은 스트리밍 데이터의 실시간 통합과 분석을 모두 지원하는 엔드-투-엔드 플랫폼이란 점이다. ‘골든게이트’를 만들었던 이들이 주축이 돼 설립한 회사인 만큼 데이터를 빠르게 탐색하고 수집하는 기술에서부터 차별화됐으며, 그 대상이 되는 데이터 원천도 기업 시스템부터 IoT를 위한 엣지 프로세싱에 이르기까지 다양하게 지원한다. 이러한 스트리밍 데이터에 대한 실시간 시각화 기능도 제공, 과거 현황을 확인하는 수준을 넘어 현재 나오고 있는 데이터를 기반으로 미래를 보다 정확하게 예측할 수 있도록 돕는다.

물론 오픈소스SW를 활용해도 이러한 기술들을 개별적으로 구현할 수 있고, 우리 역시 오픈소스SW와의 통합 및 연계를 중시하고 있다. 그러나 오픈소스SW만으로 이렇듯 안정적으로 통합된 기능을 구현하기란 쉽지 않은 일이며, 업무생산성과 유지보수 측면에서도 고려해볼 필요가 있다. 무엇보다 ‘스트림’은 확장성, 고가용성, 보안성 등 기업 IT시스템에 필요한 요소들을 모두 갖춰, 전 세계 금융권에서 손꼽히는 기업들과 대형 제조기업들의 미션크리틸한 업무에도 쓰일 만큼 검증된 제품이다. SQL만 쓸 줄 알아도 충분히 활용 가능한 사용자 친화적 솔루션이기도 하다.

실시간 데이터 처리·분석에 있어 ‘실시간’의 기준은 무엇인가?

빅데이터에 이어 패스트데이터(Fast Data)가 각광받으면서 ‘실시간’을 표방하는 여러 솔루션들이 등장하고 있는데, 이에 대한 정의와 기준은 사람마다 다른 것 같다. 개인적으로는 사용자가 질문에 대해 즉답을 얻었다고 여길 만큼의 속도를 지원한다면 곧 실시간이라 할 수 있다고 본다. ‘스트림’ 솔루션의 경우 인메모리 프로세싱과 연속적인 파싱(parsing)으로 데이터를 소스부터 타깃까지 1밀리초 이내로 전달하므로 실시간 처리의 기준에 부합한다고 본다.

이때 데이터에 대한 필터링과 이상 탐지 및 연관분석 등을 동시에 수행 가능하다는 것도 특장점이다. 타 솔루션들과 달리 데이터를 분석하기 위해 일단 저장하고 나서 다시 불러오는 일련의 작업들이 필수적으로 요구되지 않아, 업무시간을 절약해줄 뿐만 아니라 심층적으로 분석하고 활용하는 데 필요한 데이터만 저장할 수 있어 인프라 비용도 아낄 수 있다.

스트림 데이터 프로세싱에 CDC 기능을 포함하면 얻는 이점은?

대개의 경우 가장 중요한 데이터는 기업 DB에 존재하지만, 운영에 사용되는 시스템이라 로드가 가해질수록 비즈니스에 영향이 갈 수밖에 없다. 그래서 CDC는 DBMS(DB관리시스템)에 적은 영향을 끼치면서 분석에 필요한 데이터를 마련할 수 있는 방법 중 하나로 꼽히며, 데이터의 변경사항만 대상으로 삼기 때문에 어느 솔루션보다 선제적으로 처리할 수 있게 된다.

그러나 ‘스트림’과 ‘골든게이트’의 CDC 기능이 동일하다고 볼 수는 없다. ‘골든게이트’의 주목적이 고가용성 확보인 반면, ‘스트림’은 데이터 통합에 중점을 두고 개발됐기 때문이다. 예를 들어, DB에서 주소 하나가 바뀌었을 때 ‘골든게이트’는 이 변경된 부분을 다른 백업DB에도 적용한다면, ‘스트림’의 경우 변경된 데이터에 대해 타임스탬프 등의 정보를 갖고 이를 메타데이터를 포함한 여러 요소들과 연계해 반영하는 식이다.

아울러, 기존 데이터 거버넌스 전문기업들도 CDC 및 ETL(추출·변환·적재)과 같은 데이터 통합을 위한 솔루션들을 제공하고 있지만, 이들은 배치(batch) 처리에 맞춰 설계돼 쓰이고 있기에 지속적인 소규모 데이터 이동에 초점을 맞춘 ‘스트림’과는 아키텍처 관점에서 출발부터 다르다고 할 수 있다. 사실 요즘 상당수 고객들은 ETL 솔루션을 크게 필요로 하지 않는다. 물론 거대한 IT인프라를 갖춘 기업에서 대규모 데이터셋 조인(join)이 필요한 경우라면 ETL이 요구되겠지만, 람다 아키텍처와 같이 새로운 기술을 기반으로 삼는 기업들은 배치 쪽에 크게 신경 쓰지 않는 모습을 보이고 있다.

현재 어느 기업들과 어떤 부분에 협력하고 있나?

예를 들어 헤이즐캐스트의 경우 파트너십을 통해 헤이즐캐스트 인메모리 데이터 그리드 플랫폼 상에 ‘핫캐시’란 CDC 기능을 제공하는데, 메모리 캐시를 거치지 않고 DB에 영향을 미치는 프로세스 등으로 인해 DBMS와 캐시 영역 간의 데이터 불일치가 발생했을 때 이를 해결해주는 역할을 한다. 이밖에도 아마존웹서비스(AWS), 마이크로소프트(MS), 구글 등 클라우드 서비스 제공사, 클라우데라, 호튼웍스, 맵알 등 글로벌 하둡 기업, HPE, 에릭슨, 화웨이, 여러 통신사 등 수많은 파트너들과 함께 협업을 진행하고 있다.

많은 기업들과 협업을 하면서 느낀 것은, 고객들은 이제 DW와 ODS(운영데이터저장소)의 구조에서 떠나고 있다는 점이다. 보다 비용효율적으로 더욱 크고 다양한 데이터를 다루기 위해 하둡으로 옮겨가고 있으며, 이를 보다 수월하게 활용하기 위한 SQL온하둡(SQL on Hadoop)도 보편화되는 추세다. 하둡이 장기적인 데이터 저장소가 되는 셈이다. 클라우드 관련해서는 온프레미스 환경에서의 데이터 수집과 클라우드 상에서의 실시간 분석 간의 동기화가 얼마나 잘 이뤄지는지가 관건으로 보이며, 스트림 또한 이 부분에 대해 신경 쓰고 있다.

스트림의 향후 계획과 한국시장에 대한 전략은?

스트림은 현재 서유럽과 아시아 시장 공략에 집중하고 있다. 이들 지역에서 생성되는 데이터의 증가추이가 가장 폭발적이라는 이유에서다. 자연스레 한국에도 주목하고 있는데, 그동안 새로운 IT를 빠르게 받아들여 발전해온 얼리어답터이자, IoT의 발전에 직접적인 영향을 받게 되는 제조업 분야에서 손꼽히는 강국이기 때문이다. 최근 데이타벅스(대표 조외현)와 총판 계약을 체결하고 한국 시장 공략을 본격적으로 개시했으며, 앞으로 스트림에게 많은 기회가 주어질 것으로 보고 있다. 언어장벽의 극복과 현지 기술지원 등을 맡아 해결해줄 데이타벅스에게 거는 기대도 크다.

스트림의 비전은 처음 회사를 세울 때와 같다. 데이터가 만들어졌을 때 싱싱한 가치 그대로 고객에게 전달해 비즈니스 성공을 돕는 것이다. 물론 비즈니스에 따라 다르겠지만, 조금이라도 시간이 지나면 데이터가 갖는 의미가 퇴색되면서 비즈니스에 도움이 되지 않는 경우도 많다. 급변하는 환경 속에서 실시간 데이터의 가치는 높아져갈 수밖에 없기에, 앞으로 스트리밍 관련 기술들은 갈수록 중요해질 것으로 보인다. 지금은 몇몇 선도적인 기업들만 시도하는 것처럼 보이겠지만, 아마 수년 내로 보편적으로 쓰이는 기술이 될 것이다. 우리는 거대한 기술적 전환이 이뤄지는 흥미로운 시대에 살고 있기 때문이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지