찰스 제도루스키 클라우데라 제품 총괄 부사장

▲ 찰스 제도루스키 클라우데라 제품 총괄 부사장
[컴퓨터월드] 클라우데라는 대표적인 글로벌 하둡(Apache Hadoop) 배포판 벤더 중 하나로, 하둡의 창시자인 더그 커팅(Doug Cutting)이 수석 아키텍트를 맡고 있는 것으로 유명하다. 최근 클라우데라 엔터프라이즈 6(Cloudera Enterprise 6) 베타 버전을 출시하며 대대적인 변화를 예고한 바 있으며, 다수의 오픈소스 커미터들을 보유한 하둡 관련 기술력을 바탕으로 새로운 도약을 준비하고 있다.

클라우데라의 머신러닝, 애널리틱스, 클라우드 등 신규사업부를 총괄하고 있는 찰스 제도루스키(Charles Zedlewski) 제품 총괄 부사장을 만나 클라우데라가 생각하는 효과적인 데이터 전략에 대해 들어봤다.


데이터 분야의 네 가지 핵심 주제
“클라우데라는 독특한 기회를 가지고 있다. 우리는 데이터 플랫폼을 제공하는 기업이며, 동시에 머신러닝 개발 라이프사이클 모델을 제공하는 기업이다. 그래서 우리는 둘 사이의 연결을 지원하면서 유연한 모델을 개발할 수 있다.”

빅데이터 분석을 활용하려는 기업들에게 있어 하둡은 더 이상 낯선 단어가 아니다. 이미 많은 기업들이 하둡 기반의 빅데이터 분석 환경을 자사 비즈니스에 활용하고 있으며, 하둡 생태계를 구성하는 하둡 파일 시스템(Hadoop Distributed File System, HDFS), 쿠두(Kudu), 스파크(Spark), 카프카(Kafka) 등의 컴포넌트들을 통해 새로운 인프라를 구성하고 있다. 분산병렬처리에 기반해 안정적이고 비용효율적으로 빅데이터를 처리할 수 있는 하둡은 기존의 분석 솔루션들과 차별화된 시장을 구축하며 입지를 넓혀가고 있다.

클라우데라는 하둡 생태계를 구성하는 컴포넌트들에 대해 철저한 버전 관리와 수많은 테스트를 수행해 안정적으로 관리되는 클라우데라 엔터프라이즈 시리즈를 공급하고 있다. HDFS를 포함해 하둡 생태계를 구성하는 오픈소스 컴포넌트들은 자체적인 안정성을 보장할 수 없으며, 많은 개발자들이 참여해 빠르게 발전하고 있기에 버전 관리도 쉽지 않다. 이에 따라 최근 몇 년 사이에는 클라우데라와 같은 하둡 배포판 벤더를 이용하는 것이 일반적이다.

또한 지난해부터는 기업의 머신러닝 라이프사이클 전체를 통합적으로 관리할 수 있는 CDSW(Cloudera Data Science Workbench)를 제공하고 있다. 관리자는 CDSW에서 전체 사용자·프로젝트 수와 같은 운영 현황을 모니터링하고 엔진 프로필 생성이나 인증 타입 설정 등을 수행할 수 있으며, 사용자는 격리된 프로젝트 공간에서 스파크(Spark)·임팔라(Impala)와 같은 하둡 컴포넌트들을 손쉽게 활용하고 데이터 사이언스를 수행할 수 있다.

인터뷰에 앞서 찰스 제도루스키 부사장은 오늘날 클라우데라가 ▲머신러닝 ▲분석 ▲클라우드 ▲플랫폼 등 네 가지 핵심 요소를 중요하게 바라보고 있다고 설명했다. 실제로 클라우데라는 CDSW와 같이 머신러닝 라이프사이클을 뒷받침할 수 있는 인프라를 확장해나가고 있으며, 분석 분야에 대한 적극적인 투자를 통해 편리한 셀프서비스 BI와 유기적인 스케일링이 가능한 서비스와 플랫폼을 구축해나가고 있다.

또한 클라우드 분야에서는 AWS와 애저(MS Azure) 상에서 임시 클러스터를 생성해 하둡 컴포넌트를 사용할 수 있도록 도와주는 클라우데라 알투스(Altus)를 서비스하고 있으며, 향후 알투스 포트폴리오를 더욱 확장해 프라이빗 클라우드까지 적용할 계획이다. 마지막으로 플랫폼 분야에서는 관리자가 더욱 편리하게 다양한 기능을 구동하고 플랫폼 성능 관리가 가능하도록 지원해나가겠다는 전략이다.

다음은 찰스 제도루스키 부사장과의 인터뷰 내용을 문답 식으로 정리한 것이다.


Q. 클라우데라가 데이터와 관련해 집중하고 있는 분야는?
현재 우리가 초점을 맞추고 있는 것은 데이터 엔지니어링과 데이터 프로세싱, 이 두 가지를 바탕으로 한 머신러닝, 마지막으로 최근 많은 고객들이 요구하고 있는 실시간 데이터 처리다. 이미 많은 기업들이 이 네 가지의 핵심 과제들을, 혹은 더 많은 것들을 해결할 수 있다고 주장하고 있다. 하지만 클라우데라가 그들과 차별화되는 점은 이들을 단일한 플랫폼 상에서 해결할 수 있다는 것이다.

앞서 클라우데라는 데이터 사이언티스트들을 위한 셀프서비스 분석 플랫폼 CDSW 프레임워크를 제공해 머신러닝 라이프사이클 전체를 아우를 수 있도록 했다. CDSW는 데이터 탐색·분석·모델링·시각화 등 모든 라이프사이클을 관리할 수 있는 도커 기반의 환경을 제공한다. 우리는 머신러닝 알고리즘이나 애플리케이션을 개발하지 않으며, 오로지 매일 새롭게 변화하는 알고리즘들을 담을 수 있도록 단일한 플랫폼을 제공한다. 이러한 단일 플랫폼에서는 R이나 파이썬, 텐서플로우 등 모든 종류의 머신러닝 알고리즘이 구동될 수 있다.

클라우데라의 단일한 데이터 플랫폼 전략은 기본적으로 CDSW의 방식과 같다. 클라우데라SDX(Shared Data eXperience) 프레임워크를 통해 관리자는 보다 편리하게 데이터에 접근하는 모든 활동을 확인하고 자동화된 처리를 구현할 수 있으며, 각각의 사용자들은 기업 내 모든 데이터와 연결할 수 있는 단일한 데이터셋을 바탕으로 독립된 업무를 처리할 수 있다.

SDX는 데이터셋이 어디에 위치해있든 동일한 애플리케이션을 적용할 수 있도록 오픈플랫폼으로 제공되며, HDFS나 쿠두(Kudu)와 같은 하둡 컴포넌트들은 물론, 아마존 S3나 마이크로소프트 ADLS(Azure Data Lake Storage) 등의 데이터 스토리지와도 연결할 수 있어 단일한 접점에서 기업 내 모든 데이터셋에 접근 가능한 환경을 제공한다. 서로 다른 버전, 다른 규모, 다른 성능을 가진 팀들이 모두 동일한 데이터셋을 사용하도록 하는 것이다.

Q. 단일 데이터 플랫폼 전략이 요구되는 이유는?
여기에는 두 가지 이유가 있다. 먼저 양질의 인사이트를 확보하기 위해서는 보다 다양한 종류의 데이터들을 복합적으로 살펴봐야 한다는 점이다. 가령 한 기업이 자사의 어떤 제품이 잘 팔리고 있는지를 확인하기 위해서는 구매 이력만 살펴보면 되겠지만, 이것만으로는 데이터를 충분히 활용하고 있다고 말하기 어렵다. 구매 이력과 함께 고객의 사용자 경험(여정), 제품 정보를 얻는 채널, 고객센터의 상담 내역 등을 복합적으로 고려함으로써 기업은 보다 가치있는 인사이트를 얻을 수 있다.

이러한 이유로, 오늘날 기업들은 더 많은 데이터를 모아서 함께 분석하기를 원하며 또한 그것이 필요하다는 것을 인식하고 있다. 따라서 기업들의 1차 목표는 각각의 팀들이 가지고 있는 데이터를 한 곳으로 집중할 수 있는 단일 아키텍처를 마련하는 것이다. 이를 통해 모든 사용자들은 단일한 접점에서 다양한 데이터셋에 동시에 접근함으로써 보다 심층적인 인사이트를 발견할 수 있다.

다만 단일 데이터 플랫폼을 구성할 때에는 사내의 분석 프로세스와 역량에 따른 밸런스를 고려해야 한다. 앞서 말한 바와 같이 단일 아키텍처는 더 복잡한 인사이트를 발견하고 관리자의 업무 효율성을 향상시킬 수 있지만, 한편으로는 각 팀들이 가지고 있었던 자유도를 저해할 가능성이 있다. 반면 각 팀들이 각자의 데이터 플랫폼과 애플리케이션을 가지고 있으면 높은 자유도를 바탕으로 보다 다양하고 실험적인 결과를 얻을 수도 있다. 기업은 데이터에서 최대한의 가치를 얻어내기 위해 이러한 밸런스를 적절히 조절해야 한다.

▲ “단일한 데이터 플랫폼을 통해 양질의 인사이트를 경제적으로 확보할 수 있다.”

두 번째 이유는 바로 경제성이다. 분석 애플리케이션의 가치를 최대한으로 발휘하기 위해서는 다양한 워크로드를 한 번에 처리할 수 있어야 한다. 일반적인 분석 애플리케이션 혹은 기업의 분석 프로세스는 한 편에서는 데이터 엔지니어링을, 한 편에서는 머신러닝을, 한 편에서는 실시간으로 데이터를 수집할 수 있어야 한다.

그런데 이들이 각기 다른 벤더가 제공하는 데이터 플랫폼을 사용하고 있다면, 플랫폼 자체를 구축·유지하는 데에 곱절의 비용이 소요되는 것은 물론이거니와 상호간의 데이터를 일치시키기 위한 별도의 자원이 요구된다. 이를 단일 벤더가 제공하는 데이터 플랫폼으로 통합한다면 보다 경제적이고 효율적인 시스템을 갖출 수 있을 것이다.

Q. 셀프서비스 BI에 대한 요구는 어떻게 해결해야 하는가?
셀프서비스 BI가 대두되면서 관리자가 통제해야 하는 업무가 증가하는 것은 아주 오래된 문제다. 기업의 IT조직은 데이터에 직접 접근하려는 사용자에게 올바른 가이드를 제공하고, 데이터 거버넌스에 기반해 데이터가 안전하게 활용할 수 있도록 해야 한다. 실제로 셀프서비스 BI를 얘기하는 기업들은 관리자가 감당해야 하는 업무가 적지 않게 증가하고 있다.

이러한 측면에서 기업은 세 가지 문제, 즉 ▲사용자가 관리자의 도움 없이 어떻게 데이터를 찾을 것인가 ▲데이터에 대한 사용자의 접근을 어떻게 관리할 것인가 ▲사용자가 필요한 데이터를 어떻게 가져갈 수 있는가 등을 고려해야 한다. 클라우데라는 이 세 가지 질문에 대해 각각 다른 해결책으로 접근하고 있다.

가령 데이터 디스커버리 기능을 탑재해 사용자가 원하는 데이터를 스스로 찾아낼 수 있도록 돕는다. 해당 기능은 자동 분류(auto classification)와 데이터에 대한 백그라운드 이미지를 제공함으로써 데이터가 어떤 정보를 담고 있는지를 알려준다. 또한 쿼리가 실행될 때마다 새롭게 생성되는 테이블들이 사용자의 혼선을 빚지 않도록 자동으로 데이터 계보(lineage)를 제공하며, 특정 데이터에 대해 어떤 조직이 관심을 보이는지를 파악해 통계 기반의 추천 목록을 제공한다.

또한 사용자들의 접근 권한을 손쉽게 관리하기 위해 보안 자동화(security automation) 모델을 도입했다. 데이터에 대한 접근 요청이 발생할 때마다 자동으로 판단 및 승인함으로써 관리자의 개입을 최소화한다.

Q. 최근 일부 기업에서 HDFS 없이 쿠두만으로 하둡 시스템을 구축하는 사례가 나오고 있다. 이와 같은 쿠두의 약진에 대해 어떻게 생각하는가?
클라우데라는 그동안 쿠두에 대한 많은 연구·개발과 투자를 진행해왔기 때문에, 쿠두가 많은 산업영역에서 활발히 사용되고 있다는 얘기를 들으니 매우 기쁘다.

쿠두의 인기가 높아지는 가장 큰 원인은 전통적인 DB에 대한 배경지식을 가지고 있는 사용자들이 보다 쉽게 접근할 수 있기 때문이라고 생각한다. 컬럼 기반 스토리지인 쿠두는 전통적인 관계형DB와 유사한 데이터 모델을 갖고 있으며, 따라서 관계형DB를 다뤄본 사용자들이 익숙하게 사용할 수 있다. 이에 더해 데이터 분석 등의 업무에 있어 HDFS나 H베이스에 비해 전반적으로 뛰어난 성능을 보여준다는 점도 중요하다.

하지만 쿠두가 HDFS의 영역을 100% 대체할 수는 없을 것이다. 관계형DB와 유사한 데이터 모델을 갖고 있는 만큼, 쿠두는 정형데이터만을 저장할 수 있다는 한계가 존재한다. 따라서 비정형·반정형 데이터를 저장 및 분석하고자 하는 기업은 아마존 S3이나 HDFS와 같은 쿠두 이외의 스토리지를 확보해야만 한다. 최근 비정형·반정형 데이터에 대한 관심이 증대됨에 따라 이러한 한계가 더욱 부각되고 있다. 쿠두는 매우 높은 가능성을 지니고 있으며 클라우데라 역시 이에 주목하고 있지만, 폭넓은 데이터를 다양하게 분석해야 하는 기업이라면 쿠두만으로 시스템을 구성하는 것은 바람직하지 않다.

이를 고려하면 앞서 얘기한 단일 데이터 플랫폼의 역할이 한층 더 중요해진다. 우리가 SDX를 통해 추구하는 바는 고객이 데이터가 어디에 저장돼 있든 상관없이 단일한 접점에서 자유롭게 데이터에 접근 및 활용할 수 있도록 하는 것이다. 어떤 데이터는 HDFS에, 어떤 데이터는 쿠두에 저장돼 있지만, 사용자는 그런 것에 신경 쓰지 않고 데이터 카탈로그에서 원하는 데이터를 찾아 작업을 수행할 수 있다. 따라서 쿠두가 갖고 있는 한계는 SDX와 같은 데이터 관리 전략을 통해 극복 가능하다.


한편 클라우데라는 최근 배포판 하둡 최신 버전인 클라우데라 엔터프라이즈 6의 베타 버전을 출시했다. 기존의 5.xx 버전에서 차기 넘버링으로 넘어가는 만큼 패키징된 컴포넌트들의 최신 메이저급 업데이트가 진행됐다.

▲ 클라우데라 엔터프라이즈 6 베타 버전에 새롭게 업데이트된 제품

가령 하둡 3.0 탑재가 대표적인 변화 중 하나다. 기존의 하둡 2.x 버전은 데이터 손실을 방지하기 위해 동일한 데이터를 3개 블록에 복사(replica)하는 방식을 취했기에, 원본 데이터의 최소 3배에 달하는 저장 공간이 필요했다. 반면 하둡 3.0은 이레이저 코드(Erasure Code)를 통해 데이터를 인코딩해 저장했다가, 데이터 손실이 발생했을 경우 디코딩을 통해 데이터를 복구하는 이레이저 코딩(Erasure Coding)을 적용함으로써 요구되는 저장 공간을 획기적으로 절감했다. 이를 통해 원본 데이터의 1.4~1.5배 수준의 저장 공간 만으로도 데이터 손실을 방지할 수 있으며, 이는 하둡 2.x 버전과 비교하면 약 50% 수준이다.

이외에도 벡터화(vectorization)를 통해 분석 워크로드 성능을 최대 80%까지 개선할 수 있는 하이브(Hive) 2.0이 탑재됐으며, 얀(YARN)은 맞춤형 하드웨어 프로필을 통해 GPU에 스파크 작업을 예약할 수 있게 돼 높은 성능 향상이 가능하게 됐다.

또한 클라우데라가 독자적으로 제공하는 서포트 도구 역시 강화됐는데, ▲하둡 환경에 대한 설치·설정·배포·모니터링 등 운영에 필요한 전반적인 기능을 제공하는 전용 관리도구 클라우데라 매니저(Manager) ▲퍼블릭 클라우드 환경에서 하둡 환경 구축을 간소화·자동화할 수 있는 클라우데라 디렉터(Director) 등이 새로운 넘버링을 달고 탑재됐다.

찰스 제도루스키 부사장은 이에 대해 “클라우데라 엔터프라이즈 6 베타 버전을 출시한 후 우리의 전략 고객들 중 일부가 긍정적인 피드백을 보내주고 있다”며, “베타 버전이기는 하지만, 출시 이전부터 모든 컴포넌트들이 하나의 플랫폼처럼 움직일 수 있도록 최적화를 진행해왔으며, 우리가 보유한 데이터와 고객의 워크로드를 고려해 6개월 이상의 테스트를 거쳤기에 즉시 사용하기에도 큰 문제가 없는 수준”이라고 자신했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지