디토닉 기술연구소 ST-AIR팀 이민우 팀장

디토닉 기술연구소 ST-AIR팀 이민우 팀장
디토닉 기술연구소 ST-AIR팀 이민우 팀장

[아이티데일리] IT 기술의 발전은 인간이 현실 공간을 가상 공간에 투영할 수 있게 만들었다. 바로 디지털 트윈이다. 디지털 트윈에는 현실 공간과 동일한 가상 공간이 존재한다. 건물, 공장의 기계, 날씨 등이 가상 공간에서 구현된다. 그러기 위해 필요한 것이 데이터다.

가상 공간을 구성하기 위한 데이터는 현실 공간으로부터 수집된다. 디지털 트윈에서는 LiDAR나 3D 스캔 기술을 통해 현실 공간을 가상 공간에 재구축하기 위한 데이터를 수집한다. 가상 공간의 환경이나 가상 물체의 동작을 정의하기 위한 데이터는 IoT 센서를 통해 수집한다. 다양한 통계 데이터나 공장 작업자의 실적 정보, 운전자의 운전 기록 등의 데이터는 정제나 가공을 거쳐 가상 공간에 제공한다.

가상 공간에서도 다양한 데이터를 생산한다. 현실 공간에서 수집하기 어려운 데이터는 시뮬레이션을 이용해 생산한다. 인공지능 기술을 통해 미래 예측 데이터를 생산하기도 한다. AR/VR 등의 기술과 융합해 시뮬레이션 결과를 가시화하거나, 가상의 물체가 현실의 공간에 투영되기도 한다.


디지털 트윈와 시공간 데이터

베를린 훔볼트 대학교의 토비아 라크(Tobia Lakes) 교수에 따르면, 세상의 약 80퍼센트의 데이터가 시간과 공간의 속성을 갖는다고 한다. 즉 현실 공간에서 생성하는 데이터 역시 대부분 시공간적 속성을 갖는다는 의미다. 특히 시뮬레이션을 위한 데이터들은 데이터를 수집하는 위치나 시간에 대한 의존성이 더 클 수밖에 없다. 그렇기 때문에 디지털 트윈의 데이터를 효율적으로 저장하고 처리하기 위해서는 다음과 같은 데이터의 시공간적 특성을 이해해야 한다.

첫째, 모든 데이터는 생명 주기를 갖는다는 점이다. 가상 공간을 이루는 3D 맵 역시 현실 공간의 구조가 변함에 따라 새롭게 갱신해야 한다. IoT 데이터의 경우 실시간으로 사용하기도 하지만 통계나 분석을 위한 데이터로 활용하기도 한다. 이처럼 모든 데이터는 사용하는 시점이 존재하며, 때로는 과거의 데이터를 통한 분석이 이루어지기도 한다. 데이터는 이러한 사용성에 따라 Hot, Cold, Warm 데이터로 구분하고 각 데이터별로 저장하는 공간을 구분하는 것이 필요하다.

둘째, 모든 시공간 데이터는 고정형과 이동형 데이터가 존재한다. 고정형 데이터는 한 지점에서 지속적으로 수집하는 데이터로 자동 기상 관측소나 공장의 장비 관련 센서 등이 있다. 고정형 데이터는 대부분 수집하는 지점에 따른 분석이 수행되며 주로 시계열 분석을 많이 사용한다. 고정형 데이터는 특정 지점에서 수집한 데이터라는 특징 때문에 센서가 설치된 위치에 따라 수집한 값이 달라진다. 따라서 공간에 따른 상관성에 대한 분석들도 자주 이루어진다.

이동형 데이터는 움직이는 물체에서 수집한 데이터로 차량이나 드론과 같은 이동형 개체에 센서를 부착해 수집한다. 이동형 데이터는 이동 궤적에서 데이터를 수집하기 때문에 데이터를 수집하는 시점과 위치가 모두 다르다. 이를 위한 경로 분석이나 인공지능 분야에서는 강화 학습 등의 분석 방법론들을 주로 사용한다.

이동형 데이터와 고정형 데이터는 분석이나 활용 방법에 따라 저장 방식을 고민하게 된다. 시공간 데이터에는 정형 데이터와 비정형 데이터가 있는데 IoT 센서를 통해 수집하는 대부분의 데이터는 정형 데이터다. 하지만 3차원 공간을 구축하기 위한 포인트 클라우드나 영상 데이터 등은 비정형 데이터에 속한다. 시공간 데이터의 형식은 데이터 저장소를 선정하는데 중요한 역할을 한다.


현실과 가상을 연결하는 데이터 허브 기술

디지털 트윈 기술의 핵심은 상호 작용에 있다. 이를 위해서는 현실 공간과 가상의 공간을 연결하는 통로가 필요하다. IoT 센서로부터 수집한 현실 공간의 데이터는 가상 공간에 동기화되며, 가상 공간에서 얻은 결과는 현실의 물체 또는 사람에게 반영된다. 디지털 트윈의 상호 작용을 지원하는 이 통로가 바로 정보 처리 계층(Information Processing Layer)이다.

히타치의 디지털 트윈 기술

정보 처리 계층은 두 공간을 동기화하기 위해 데이터의 상호작용이 실제로 발생하는 계층이다. 정보 처리 계층은 데이터 저장, 처리, 데이터 매핑 등의 역할을 수행한다. 먼저 현실 공간과 가상 공간에서 발생한 모든 데이터는 정보 처리 계층에서 저장하고 관리한다. 정보 처리 계층에서 처리의 기능은 데이터 수집, 전처리, 분석 및 마이닝이나 데이터 융합 등의 역할을 수행한다. 데이터 매핑에서는 두 공간의 데이터 사이의 상관성, 시계열 분석 등을 통해 두 공간 사이의 동기화를 지원한다. 이러한 디지털 트윈을 다루는 기업이나 연구 기관들이 이처럼 두 공간 사이의 데이터 통로를 연결하는 허브 기술에 많은 관심을 갖는 것은 어떻게 보면 당연한 일이다.

데이터 허브는 데이터 수집, 저장, 관리, 처리, 분석이 가능한 플랫폼 기술로 다양한 분야에서 활용된다. 디지털 트윈에서도 데이터 허브를 구축하고 활용하고 있다. 대표적으로 일본 히타치의 데이터 허브가 있다. 히타치의 데이터 허브 기술은 디지털 트윈 기반의 스마트 공장 구축을 위한 기술로써 운영기술(OT)과 정보기술(IT) 데이터 등 현실 공간에서 생산하는 데이터를 저장하고 가상 공간에서 이를 활용할 수 있도록 만든다. 이를 위해 데이터를 수집하고 처리, 저장할 수 있는 데이터 허브를 구성했다. 히타치 데이터 허브의 주요 기능은 수집, 정제, 저장, 그리고 관리다. 다양한 종류의 데이터를 수집할 수 있도록 구성했고, 처리 흐름을 UI에서 관리하며 대용량 처리를 위한 확장성을 고려했다. 또한 대용량의 정형 또는 비정형 데이터를 저장하고 관리하기 위한 데이터 레이크를 구성했다.

시티 데이터 허브

한편 국내에는 최근 오픈소스로 공개된 시티 데이터 허브가 있다. 시티 데이터 허브는 국내에서 개발한 플랫폼 기술로 스마트 시티에 적용하는 것을 목표로 시작했지만 디지털 트윈에도 활용하고 있다. IoT 데이터를 위한 데이터 모델 표준을 적용했으며 수집, 저장, 분석 등 다양한 기능들을 제공하고 있다. 특히 시티 데이터 허브는 디토닉이 보유한 시공간 부스팅 엔진 ‘지오하이커(Geo-Hiker)’를 통해 다양한 시공간 연산 기능을 제공하고 데이터 레이크 기술로 데이터를 효율적으로 저장하고 활용할 수 있다. 데이터 레이크에서는 RDBMS, 하이브(Hive), H베이스(HBase) 등 다양한 데이터 저장소를 지원해 시공간 데이터의 특성에 따라 선택적으로 사용할 수 있다. 데이터 생명 주기 및 메타 데이터 관리 기능을 지원해 수집한 데이터를 효율적으로 관리한다. 또한 다양한 인덱싱 알고리즘 지원을 통해 데이터에 따른 조회 성능을 최적화할 수 있다.


디지털 트윈의 중심, 데이터

디지털 트윈에는 다양한 데이터들이 존재한다. 데이터는 두 공간 모두에서 생성되고 상호작용을 위해 서로 교환된다. 이를 위해 정보 처리 계층에서는 데이터를 수집하고 저장하며 관리한다. 또한 현실 공간과 가상 공간 사이의 상호 작용을 위한 통로의 역할을 수행한다. 그리고 다양한 시공간 데이터를 효율적으로 다루기 위해서는 저장부터 분석, 시뮬레이션까지 디지털 트윈 곳곳에서 시공간 연산 기능들이 필요하다. 따라서 방대하고 다양한 종류의 데이터를 다룰 수 있는 데이터 처리 및 저장 기술은 디지털 트윈에서 필수불가결한 요소일 것이다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지