모든 데이터에 대한 단일한 관리·접점 필요…‘S3’-‘글루’ 중심의 단순화된 구조 제시

▲ 양승도 AWS 솔루션즈아키텍트매니저

[아이티데일리] “데이터 소비 패턴의 변화는 데이터 저장 패턴의 변화를 야기한다. 기업은 데이터를 저장하는 새로운 개념으로써 데이터레이크 전략을 활용해야 한다.”

양승도 아마존웹서비스(AWS) 솔루션즈아키텍트매니저는 4일 진행된 기술 교육 세션에서 ‘AWS를 이용한 빅데이터와 데이터레이크’에 대해 발표하며 이같이 밝혔다.

데이터의 규모와 소비 패턴이 달라지면서 데이터웨어하우스(DW)를 중심으로 한 기존의 데이터 관리 전략은 한계에 이르렀다. DW를 구축하기 위해서는 대규모의 비용과 인력, 많은 시간이 요구되지만, 이렇게 구축한 DW에서 원하는 인사이트를 얻을 수 있으리라는 보장은 없다. 관계형DB(RDB)에 저장할 수 없는 다양한 데이터 유형의 등장 역시 DW의 한계를 부채질하고 있다.

이에 따라 데이터를 보다 쉽고 비용효율적으로 저장·관리·활용하기 위한 데이터레이크의 중요성이 강조되고 있다. 데이터레이크는 정형·비정형 데이터를 가리지 않고 모든 종류의 데이터를 단일한 저장소에 담아 데이터의 중복 저장을 방지하고 최신 상태로 유지하며, 저장소에 담긴 데이터에 대한 정보를 관리할 수 있는 카탈로그 레이어를 생성해 단일한 접점에서 기업의 모든 데이터를 활용할 수 있도록 구성된다.

특히 데이터레이크는 저장 단계에서 데이터의 성질을 정의하지 않고 그대로(raw data) 저장하되, 사용하는 시점에 용도에 따라 정의할 수 있도록 한다. 이를 통해 빠르고 대량으로 생성되는 데이터들을 별도의 처리 없이 실시간으로 저장하는 것은 물론, 다양한 분석도구에서 동일한 데이터를 필요에 따라 달리 정의해 사용할 수 있다는 설명이다.

▲ AWS의 서비스들을 활용한 데이터 활용 전략 예시

이어서 양승도 매니저는 AWS가 기업의 빅데이터 및 데이터레이크 전략을 효과적으로 지원할 수 있는 다양한 솔루션을 제공하고 있음을 강조하며, ‘아마존 S3(Amazon S3)’와 ‘AWS 글루(AWS Glue)’를 소개했다.

AWS의 가장 오래된 서비스 중 하나인 ‘S3’는 ▲별도의 백업이 필요하지 않은 내구성 ▲이론상 무한히 가능한 확장 ▲최상의 보안 및 컴플라이언스 관리 ▲‘스노우볼(Snowball)’ 등 기존 인프라에서 데이터를 가져올 수 있는 다양한 방법론 ▲수많은 파트너사 및 서드파티 솔루션 등 기업의 데이터 저장소로써 요구되는 성능을 갖춘 스토리지 서비스다.

‘글루’는 데이터레이크를 위한 카탈로그 생성과 ETL 기능을 제공한다. ‘아마존 S3’ 등을 통해 구축한 데이터레이크를 중심으로 메타데이터 카탈로그를 생성해 ‘아테나(Athena)’나 ‘레드시프트 스펙트럼(Amazon Redshift Spectrum)’과 같은 서비스들이 손쉽게 데이터에 접근하고 활용할 수 있도록 돕는다. 데이터의 저장과 활용 단계 사이에 데이터를 원하는 포맷으로 읽을 수 있는 단일한 접점(카탈로그)를 배치함으로써 구조를 단순화할 수 있다.

양승도 매니저는 “클라우드 상에서 가장 효율적으로 데이터레이크를 구성하는 방법은 안전하고 비용효율적인 스토리지 ‘S3’와 데이터 카탈로그 및 ETL을 위한 ‘글루’를 활용하는 것”이라며, “효과적인 데이터레이크 전략을 통해 실시간으로 생성되는 데이터들을 관리하고 새로운 비즈니스 인사이트를 얻을 수 있을 것”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지