시각적 어휘 접근으로 향상된 이미지 캡셔닝 구현…‘시각 AI’ 등에 적용해 접근성 높인다

[아이티데일리] 마이크로소프트(MS)는 이미지 캡셔닝(Image Caption) 인공지능(AI) 기술을 인간 수준으로 고도화하고, 이를 모든 사용자들이 더 쉽게 사용할 수 있도록 지원한다고 20일 밝혔다.

MS의 이미지 캡셔닝 기술은 ‘알트 텍스트(alt text)’로 알려져 있다. 이는 다양한 이미지를 인식 및 분석해 자연어로 해설해 주는 기술로, 지난 2015년부터 활용돼왔다. MS측은 최근 업데이트를 통해 ‘알트 텍스트’가 사람과 비슷한 수준에 도달했으며, 자동화를 통해 검색 엔진부터 프레젠테이션에 삽입된 이미지까지 중요한 콘텐츠를 쉽게 이해할 수 있도록 도와준다고 설명했다.

‘알트 텍스트’의 고도화에는 그림책과 유사한 시각적 어휘(visual vocabulary)가 사용됐다. 먼저 대규모 AI 모델에 단순 어휘들이 태깅된 이미지들을 다량의 데이터 세트로 제공하고, 각각의 태그는 이미지의 특정 개체에 매핑해 사전교육을 시켰다. 이는 아이들이 언어를 익힐 때 사과 사진 밑에 ‘사과’라는 단어를 다는 것과 유사한 방법이다. 문장 작성법을 학습하기 위한 정밀교정도 거쳤다.

이러한 방법은 완성된 문장을 사용하는 훈련보다 효과적인 결과를 만들어냈다. 새로운 개체가 포함되어 있는 사진들도 시각적 어휘를 사용해 보다 정확한 캡셔닝이 가능해 졌으며, 2015년부터 사용해 온 모델 대비 정확도가 2배 향상됐다. 위 이미지를 과거에는 각각 ‘곡물 확대 사진’과 ‘산 정상 위 남자’로 인식했지만, 현재의 모델은 ‘들판 속 보리 확대 사진’과 ‘서핑 보드를 들고 있는 남성’으로 보다 구체적이고 정확하게 묘사할 수 있게 됐다.

향상된 이미지 캡셔닝 기술은 현재 ‘애저 코그니티브 서비스’를 통해 사용 가능하다. 올해 말에는 윈도우(Window) 및 맥(Mac) 환경의 워드, 아웃룩, 파워포인트 등에서도 사용 가능하게 된다. 파워포인트는 웹 환경에서도 제공된다.

▲ MS의 ‘시각 AI’ 기능으로 봉투의 텍스트를 스캐닝 하고 있다.

또한 시각장애인에게 주변 환경, 인물, 사물, 글자, 이미지 등을 설명해 주는 모바일 애플리케이션 ‘시각 AI(Seeing AI)’와도 통합된다. 시각 장애인이나 시력이 좋지 않은 사람들은 ‘시각 AI’에 탑재된 이미지 캡셔닝 기능을 통해 사진을 텍스트로 묘사함으로써 보다 정확하고 풍부한 정보를 얻을 수 있다.

사킵 사이크(Saquib Shaikh) MS AI플랫폼 그룹SW 엔지니어링 매니저는 “모두가 ‘알트 텍스트’ 기능을 문서, 웹, 소셜미디어 등의 이미지에 적용한다면 시각장애인도 콘텐츠를 더욱 쉽게 이해하고 사람들과의 대화에 참여할 수 있을 것”이라고 말했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지