딥러닝 적용해 사용할수록 텍스트 인식률 높아져, 작업 효율성 데이터 활용도 향상

[아이티데일리] 포스트 코로나 시대를 맞아 ‘로보틱 프로세스 자동화(이하 RPA)’가 다시 각광받고 있다. 비대면 업무 시스템이 보편화되면서 RPA는 단순 반복 업무를 자동화하는 기존의 수준을 넘어 인공지능(AI)과 융합해 데이터 수집·활용 등 보다 복잡하고 다양한 업무를 효율적으로 수행하기 위한 수단으로 떠오르고 있다.

전자문서 솔루션 전문기업 이파피루스(대표 김정희)는 이미지 속 텍스트 인식부터 데이터 활용까지 자동화할 수 있는 인공지능 딥러닝 기반 OCR(광학적 문자 인식 Optical Character Recognition) 솔루션 ‘텍스트센스(TextSense)’를 지난 3일 출시했다.

‘텍스트센스’는 사람이 쓰거나 인쇄된 이미지를 스캔해 문자 데이터로 변환하는 데 그쳤던 기존의 OCR 제품과는 달리 축적된 데이터를 통해 스스로 학습한다. 이를 통해 사용할 수록 더 낮은 품질의 이미지에서도 자체 보정 작업을 거쳐 더 정확하게 텍스트를 인식할 수 있다. 인식한 텍스트는 내용에 따라 자동으로 분류하고 저장돼 다양한 업무에 활용할 수 있다.

문서에서 사용자가 원하는 정보만 빠르게 읽어내는 ‘핵심어 검출’ 기능도 ‘텍스트센스’만의 특징이다. 사용자가 사전에 원하는 핵심어를 지정해 주면, 문서 이미지 속에서 해당되는 텍스트 형태를 찾아내고 이와 관련된 정보를 우선적으로 추출할 수 있다. 예를 들어 사용자가 ‘사업자등록번호’를 핵심어로 설정하면 문서 속에서 ‘사업자번호’, ‘등록번호’ 등 유사한 모양의 단어를 인식하고 관련된 숫자 등의 정보도 함께 찾아 준다. 꼭 필요한 정보만 빠르게 읽어내므로 텍스트 전체를 읽어야 하는 기존 방식에 비해 효율적이며, 문서가 흐릿하거나 핵심어가 부분적으로만 일치하는 경우에도 데이터 추출이 가능하다.

김정희 이파피루스 대표는 “비대면 시스템과 RPA는 공공기관과 금융, 병·의원 등 전 분야에 걸친 화두다. 인공지능 기술을 통해 작업 품질 향상은 물론 데이터 활용까지 자유자재로 가능한 ’텍스트센스’가 업무 자동화의 중추 역할을 할 수 있을 것”이라며 “이파피루스의 전자문서 노하우를 바탕으로 개인정보 보호, 실시간 번역 서비스 등 다양한 업무에 활용 가능하다”고 밝혔다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지