승정원일기 활용한 자동번역 훈련 진행…고전문헌-현대문 번역 저변 확대

 
[아이티데일리] 시스트란인터내셔널(대표 지 루카스, 이하 시스트란)이 인공지능(AI)을 활용한 고전문헌 자동번역 시스템을 선보였다.

시스트란은 지난해 6월부터 6개월간 진행된 한국고전번역원의 ‘AI 기반 고전문헌 자동번역 시스템 구축’ 프로젝트를 성공적으로 완수했다고 22일 밝혔다. 해당 프로젝트는 과학기술정보통신부 ‘2017년도 ICT기반 공공서비스 촉진사업’의 일부다.

AI 기반 고전문헌 자동번역 시스템은 고전번역원에서 제공한 승정원일기의 35만 개 말뭉치와 시스트란이 보유한 말뭉치를 기반으로 30번 이상의 AI 기반 자동번역 모델 훈련을 통해 완성됐다. 원문과 번역문에서 서로 연관성이 있는 고유패턴을 찾아내고 번역모델을 생성하며, 이를 바탕으로 원문과 번역문 간의 대응 관계 정보를 스스로 학습함으로써 가장 적합한 대역어 관계를 찾아 최종 번역문을 생성한다.

이와 함께 시스트란은 AI 번역엔진이 고전문헌을 보다 쉽게 인식할 수 있도록 고전 한자를 뜻 단위로 분리시켜주는 ‘고전문헌용 토크나이저’를 별도 개발했다. 올해 안에 고전문헌 말뭉치를 추가하고 번역문 기계학습 길이를 300자까지 확장해 장문의 고전문헌 문장도 초벌 번역 작업에서 원활하게 활용될 수 있도록 할 예정이다.

향후 시스트란 측은 한국고전종합DB에서 서비스되고 있는 조선왕조실록·일성록·기타 문집류를 대상으로 고전문헌 자동번역 모델을 확대하는 등 지속적인 고도화 사업을 진행하는 한편, 고전문헌 번역 유관기관과 관련 학과의 업무·연구 과정에 사용할 수 있는 자동번역 서비스를 구현할 계획이다.

지 루카스 시스트란 대표는 “시스트란은 언어 간의 번역뿐 아니라 과거와 현재를 이어주는 번역 산업까지 성공적으로 완수하며 회사의 가능성을 부각시키고 있다”며, “지능형 언어처리 선도기업으로써 역사 연구를 비롯한 다양한 연구 분야 발전을 위해 지속적으로 노력하며 비즈니스 역량을 강화하겠다”고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지