조현기 타이거그래프 기술이사

[아이티데일리] 본지(컴퓨터월드/IT DAILY)가 지난달 25일 양재동 엘타워에서 ‘제18회 2021 데이터 컨퍼런스’를 개최했다. 이날 행사는 ‘성공적인 하이브리드 데이터 플랫폼을 위한 A to Z’라는 주제로, 각계 전문가와 기업들이 다양한 데이터 관련 솔루션들과 사례들을 공유하며 성공을 위한 인사이트를 공유했다.

클라우드의 영향력이 증가하면서 기업들의 IT 인프라가 온프레미스와 클라우드를 아우르는 하이브리드 환경으로 옮겨가고 있다. 하이브리드 환경에서는 데이터가 생성 및 활용되는 포인트가 증가해 관리해야 할 범위가 늘어나면서 전 세계 기업들이 자사의 데이터 관리 역량을 재차 점검하게 만든다. 아무리 정확한 데이터 분석 시스템을 갖추고 있다고 하더라도 원하는 데이터를 적시에 찾고 활용할 수 없다면 무용지물이기 때문이다.

이번 ‘2021 데이터 컨퍼런스’는 복잡한 하이브리드 IT 환경에서 데이터를 손쉽게 찾고 활용할 수 있는 전략을 제시하기 위해 마련됐다. 또한 마이데이터와 메타버스, 그래프DBMS 등 최신 IT 기술과 트렌드를 데이터 관점에서 살펴보는 시간도 준비됐다.

이어진 세션에서는 조현기 타이거그래프 기술이사가 ‘그래프DB 시대 원 커넥티드 데이터의 효용적 분석과 AI/ML’라는 주제로, 그래프 DB에 대해 소개했다. 조현기 이사는 “아직 국내에는 그래프 DB에 대한 개념이 정립돼 있지 않다. 그래프DB를 이해하기 위해선 우선 그래프를 네트워크라고 이해하면 좋을 것”이라고 말하며 설명을 시작했다.

조 이사에 따르면 우리나라에서는 아직 소수의 기업만 그래프DB를 활용하고 있다. 하지만 타이거그래프만 해도 글로벌 레퍼런스가 1,200개를 넘고 있다. 우리나라가 그래프DB와 관련해 시장이 늦게 열리고 있는 것뿐이다. 그래프DB는 쪼개져 있는 데이터를 연결해 의미를 찾는 것에 초점을 맞추고 있다.

기존의 RDB에서는 데이터를 연결하기 위해 쿼리를 짜야 한다. 업무팀에서 요청하는 데이터를 연결하려면 전문가도 쿼리를 짜는 데 어려움을 겪는다. 그래프 DB는 데이터의 연결을 미리 해둔 것이다. 미리 연결된 데이터에서 필요한 것만 찾으면 된다. 조현기 이사는 “비유를 하자면, 기존의 RDB는 강을 건너기 위해 다리를 하나하나 놓아야 한다. 이에 비해 그래프 DB는 이미 다리가 놓여 있기 때문에 건너가기만 하면 된다”고 설명했다.

조현기 타이거그래프 기술이사
조현기 타이거그래프 기술이사

RDB는 가장 볌용적으로 사용되고 있으며, 데이터의 일관성과 정합성을 보장한다. 스키마가 있어 규악된 데이터를 넣고 사용한다는 것이 특징이다. 키밸류DB는 초대용량의 로그데이터와 같이 짧은 시간의 대량으로 발생하는 데이터를 쌓을 수 있다. 스키마 없는 사용이 가능하지만, 데이터 일관성 문제 등 관리 이슈가 발생할 수 있다.

그래프DB는 그래프 네트워크를 표현하기 위한 목적의 DB다. 연결된 데이터에 대한 네트워크 분석을 실시간성으로 할 수 있으며, 대량의 데이터 분석도 동시에 가능하다. 다만 범용 DB를 대체하는 용도로 사용되지 않는다. 연결 데이터에 대해 강점을 갖고 있어 RDB나 노SQL을 대체하지 않는다. 기존 DB에 추가하는 형태로 사용한다.

데이터 연결관점에서 RDB는 데이터간 관계를 잘 표현한다. 하지만 데이터 연결을 위해서는 조인과 인덱스 조회 등을 통해 데이터 조회가 가능하다. 문제는 중간에 인덱스가 잘못되면 답이 나오지 않는다는 것이다.

그래프DB는 출발부터 연결을 표현하기 위해 설계된 DB다. RDB는 선언적 스키마, 테이블의 연결이기 떄문에 실제 데이터를 연결할 때마다 내부적으로 연결을 만들고 실행해야 한다. 그래프 DB는 이미 데이터 값(노드) 수준에서 연결이 돼 있어 연결을 타고 ‘순회(Traverse)’하면 된다.

그래프DB로는 ▲커스터머 360 ▲머신러닝 ▲사기 예방 ▲소셜네트워크 분석 등이 가능하다. 딥링크 분석, 다차원분석, 패턴 분석, 커뮤니티 분석 등이 가능하다.

타이거그래프는 트랜잭셔널과 분석, 두 가지를 모두 지원한다. 레이블드 프로퍼티 그래프(Labeled Property Graphs)라는 기능을 통해 노드 및 에지(Edge, 데이터간 관계성)의 속성을 관리할 수 있다. 그래프DB는 성능이 매우 중요하며, 타이거그래프는 네이티브 그래프 디자인과 C++엔진, 스토리지 아키텍처 확장, 분산 아키텍처 등을 통해 그래프DB 중 가장 빠른 성능을 제공한다. 조 이사는 “타이거그래프는 익스터널ID 값이 들어오면 인터널ID 값으로 변환해 노드와 에지가 같은 노드 사이에 배치될 수 있도록 분산 전략을 적용했다. 하나의 노드에서 해결할 수 있는 구조를 통해 네트워크 비효율을 줄여 성능을 높인 것이 특징이다”라고 설명했다.

관련기사

저작권자 © 아이티데일리 무단전재 및 재배포 금지