김도진 효성인포메이션시스템 데이터사업팀 차장

김도진 효성인포메이션시스템 데이터사업팀 차장
김도진 효성인포메이션시스템 데이터사업팀 차장

[아이티데일리] 새로운 디지털 경제를 맞아 데이터의 가치가 급상승했다. 21세기 원유로 불리는 데이터를 활용하기 위해 클라우드 전환이 가속화되고, 많은 기업들이 데이터센터 구축과 빅데이터 프로젝트를 진행하고 있다. 그러나 기업들은 여전히 필요한 데이터를 빠르고 효과적으로 분석하는 데 어려움을 겪고 있다. 클라우드 시스템과 데이터 레이크(Data Lake) 구축 후에도 데이터의 비즈니스 활용도가 떨어지는 이유가 무엇인지, 그리고 이를 극복할 방안을 살펴본다.


빅데이터·데이터 레이크 프로젝트의 어려움

빅데이터와 데이터 레이크 프로젝트가 곳곳에서 진행되고 있지만 성공 사례는 아직 많지 않다. 시장조사기관 분석에 따르면 기업당 평균 8개의 데이터 레이크가 존재하고, 전체 데이터의 오직 1%만이 분석되고 있다. 데이터에서 인사이트를 얻기 위해서는 데이터가 어디에 있든 쉽게 접근해 가져올 수 있어야 한다. 그러나 너무 많은 저장소가 복잡하게 구성되어 있다.

하둡(Hadoop), DW(데이터 웨어하우스), DM(데이터 마트) 등은 대부분 정형 데이터로 구성돼 비정형 데이터의 실제 활용도가 낮다. 빅데이터 프로젝트 수행 경험이 풍부한 기업의 분석가들은 머신러닝(ML) 분석할 데이터가 부족하다고 토로한다. 아키텍처와 목적성 부재, 시스템과 기술 이해도가 낮은 것이 큰 원인이다.

데이터의 종류와 형태가 갈수록 다양해지고, 비정형 데이터의 양과 복잡성도 가중되고 있다. 이 같은 상황에서 많은 기업들이 데이터 관리 시스템 환경의 어려움을 해결할 방법을 고민 중이며, 그 해답의 실마리는 바로 오브젝트 스토리지(Object Storage)에서 찾을 수 있다.

AWS는 자사 S3(Simple Storage Service)를 토대로 오브젝트 스토리지 아키텍처를 선택했다. 이후 오브젝트 스토리지는 구글, 마이크로소프트 등 모든 클라우드 서비스 업체 스토리지의 표준 플랫폼이 됐다. S3 프로토콜은 클라우드나 기업 데이터센터에서 실행되는 현대 데이터 중심 애플리케이션의 업계 표준으로 자리 잡았다.

초창기 빅데이터 통합 플랫폼은 하둡, DW, NoSQL에 NAS(Network Attached Storage)를 활용해 구축했다. 모든 데이터의 형태를 다 담을 수 없어 각 용도에 맞게 만든 저장소였다. 반면 AWS는 새로운 방식을 택했다. 하둡과 DW에 데이터를 바로 저장하는 방식이 아닌, 중간에 새로운 저장소인 오브젝트 스토리지를 배치했다. 오브젝트 스토리지를 데이터 레이크로 활용하기 시작했다.


오브젝트 스토리지 기반 데이터 레이크, 메타데이터 자동으로 관리

NAS와 대비되는 오브젝트 스토리지 기반 데이터 레이크의 장점은 메타데이터를 자동으로 관리한다는 것이다. 데이터가 들어올 때마다 각각 새로운 정보를 메타데이터베이스(DB)화해 관리하고, 자동으로 생성된 것 외에 커스텀 메타정보를 관리할 수 있다. 따라서 정형·반정형·비정형 데이터에 관계없이 다양한 형태의 데이터를 쉽게 찾고 관리할 수 있다.

오브젝트 스토리지가 중간에 있으면 레거시 시스템을 거치지 않고 각각 필요한 저장소로 찾아갈 수 있다. 새로운 레거시 시스템이 추가돼 데이터가 쌓여도 하둡이나 DW 등의 저장소 중 어디에 배치할지 고민하지 않아도 된다. 새로운 분석 DB가 나올 때마다 모든 데이터를 일단 오브젝트 스토리지에 담아 가져올 수 있다. 이 같은 데이터 레이크 시스템은 기존 레거시 시스템이나 분석 DB 확장에 영향을 받지 않아 매우 유연한 아키텍처가 가능하다.

만일 DW 에코시스템으로 데이터 마트를 생성해 시각적 분석을 원한다면 S3에서 REST API(애플리케이션 프로그램 인터페이스)를 사용해 필요한 정보를 대시보드로 볼 수 있다. 이 같은 아키텍처와 시스템을 AWS 클라우드 환경뿐 아니라 온프레미스·하이브리드 클라우드 환경에서도 만들 수 있다. 데이터 저장 및 관리 비용은 줄이면서 안정적 성능으로 처리·분석하는 환경을 구축할 수 있다.

특히, 오브젝트 스토리지의 고성능이 보장되면 미래의 워크로드를 엄청나게 빠른 속도로, 향후 필요한 확장성까지 고려해 즉각적으로 활용할 수 있다. 미래 워크로드에는 실시간 로그 집계부터 IoT 워크로드, 고성능 데이터베이스의 트랜잭션 로그 등 거의 모든 데이터 작업이 포함된다. 이들 각각의 데이터에 사용자 지정 메타데이터를 적용해 조직 내 활용 가치를 더욱 높일 수 있다.

예전 같으면 수년 동안 모니터링 환경에 원본 포맷으로 저장됐을 로그 데이터를 오브젝트 스토리지에 모두 취합해 애플리케이션 부하와 라이선싱 비용을 대폭 줄일 수 있다. 트랜잭션 기록이 한층 풍부해지고 데이터도 정상화돼 온프레미스든 퍼블릭 클라우드든 위치에 상관없이 분석 수요가 생기면 언제라도 사용할 수 있다.


AI 시대에 최적화된 데이터 레이크 전략

오브젝트 스토리지는 데이터 레이크 환경 구현을 위해 활발하게 도입되고 있다. AI 기반 데이터 레이크 환경 구현을 위해 멀티 테넌트 구성으로 원본/가공 데이터 저장 및 관리 자동화를 통한 효과를 높여준다. 원본 데이터는 오브젝트 스토리지에 1차로 저장하고 분류, 학습 서버를 통해 원본 데이터를 압축해제, 분류, 정제하여 가공된 파일을 2차로 저장한다. 각 서버 애플리케이션과 HCP 데이터 엑세스는 REST API로 연동되며, 데이터를 각 테넌트, 네임스페이스로 구성하여 스토리지 레벨 데이터 자동 관리화 기능을 제공한다.

BI/DW영역의 데이터 플랫폼 시스템으로도 활용할 수 있다. 빅데이터 등 대내 정보계 업무 시스템과 데이터 공유가 가능하며, 대용량 데이터의 보호 및 웜 데이터의 조회 필요 시 신속한 데이터 제공으로 기업의 데이터 전략에 힘을 실어준다. 또한, 전사 S3 데이터 레이크 전환에도 활용 가능하다. 대규모 비정형 데이터 운영이 가능하며, 대용량 데이터 전송/처리를 위한 고성능을 지원한다.

싱가포르 정부도 기존 하둡 환경에 오브젝트 스토리지를 적용하여, 데이터 수집 성능과 안정성을 높였다. 기존에 싱가포르 정부 클라우드 시스템은 로그파일 분석을 위해 파일을 NFS(Network File System)에 수집하고 분석을 위해 다시 하둡에 전송하는 형태로 운영됐다. 그러나 로그 양이 증가하고 상관분석을 위한 데이터 보관 주기가 늘어남에 따라 NAS 적재 성능 이슈가 발생했다. NAS 및 하둡 스토리지 증가에 대한 비용 부담이 컸으며 작업 부하가 걸리는 등 여러 어려움이 발생했다.

이에 대한 솔루션으로 싱가포르 정부는 오브젝트 스토리지를 도입, 실시간 대용량 로그 처리 방식을 변경과 파일 포맷 변환을 통해 데이터 수집 성능 및 안정성을 높였다. 하둡 저장공간 50%를 절감함으로써 하둡과 오브젝트 스토리지 간 명확한 처리량 목표를 제시해 하둡 분석(Hive/Impala) 성능 향상을 도모했다. 원활한 분석을 위한 적정 처리량을 찾고, 물리적 컴퓨팅과 스토리지 노드를 구성해 향후 개별 노드 확장이 가능한 유연한 환경을 제시했다.


효성인포메이션시스템, 데이터레이크 오퍼링 통한 데이터 혁신 제공

효성인포메이션시스템은 국내 오브젝트 스토리지 시장을 개척하고 현재까지 꾸준히 사업을 전개하고 있는 유일한 벤더로, 최다 레퍼런스 확보를 통한 풍부한 경험과 노하우가 강점이다. 오브젝트 스토리지 솔루션 ‘HCP(Hitachi Content Platform)’는 대규모 비정형 데이터 환경의 안정적 운영과 공유 서비스를 단일 플랫폼에서 지원한다. 비정형 데이터의 탁월한 저장 관리 기술력을 기반으로 퍼블릭 클라우드 및 빅데이터 솔루션과 원활한 연계, 오브젝트 스토리지의 강점인 유연한 스토리지 용량 추가, 스토리지 관리 비용 절감, 비즈니스 민첩성 향상 등을 제공한다.

특히 효성인포메이션시스템은 데이터 레이크 구현에 필요한 인프라와 솔루션을 함께 제공하는 ‘데이터 레이크 오퍼링’을 통해, 새롭고 복잡해진 데이터 환경에서 고객들이 데이터 운영 효율성을 극대화할 수 있는 방안을 제시한다. 데이터 레이크 오퍼링은 데이터 저장부터 분석, 운영 관리까지 하드웨어 인프라와 데이터 솔루션을 통합하여 기업에서 필요로 하는 데이터 레이크 구현 및 운영 전략을 컨설팅하는 효성인포메이션시스템만의 차별화된 서비스다. 이미 국내 메이저 통신사와 제조사 등에서 데이터 레이크 프로젝트를 성공적으로 완수하였으며, 지속적으로 레퍼런스를 확대하고 있다.

효성인포메이션시스템의 오브젝트 스토리지 솔루션 ‘HCP’
효성인포메이션시스템의 오브젝트 스토리지 솔루션 ‘HCP’

 

저작권자 © 아이티데일리 무단전재 및 재배포 금지