“프롬프트 내용뿐 아니라 현실 세계 이해”…전문가에 제한적 공개

[아이티데일리] 오픈AI가 15일(현지 시각) 자사 홈페이지를 통해 ‘텍스트 투 비디오(Text to Video)’ 인공지능(AI) 모델 ‘소라(Sora)’를 공개했다.

소라는 사용자가 입력한 텍스트를 바탕으로 최대 60초 길이의 동영상을 생성한다.

오픈AI는 블로그를 통해 “현실 세계와의 상호작용이 필요한 문제를 해결하는 모델을 개발하고자 AI가 움직이는 물리 세계를 이해하고 구현할 수 있도록 학습시켜 왔다”고 개발 배경을 밝혔다.

이어 “소라는 다양한 캐릭터와 구체적인 움직임, 사물이나 배경의 정확한 디테일을 살린 복잡한 장면을 생성할 수 있다”면서 “프롬프트로 입력된 요청 사항뿐만 아니라 현실 세계에 대한 이해 능력도 갖췄다”고 강조했다.

프롬프트로 캘리포니아의 골드 러시 시절을 재현한 영상 (출처: 오픈AI 블로그)

다만 오픈AI는 소라가 아직 복잡한 장면의 물리학을 정확히 모사하는 데 어려움이 있으며, 인과관계의 특정한 예시를 이해하지 못할 수 있다며, 아직 완전한 모델이 아니라고 설명했다.

오픈AI 블로그에 따르면, 쿠키를 한 입 먹는 사람을 영상으로 만들 수 있지만 쿠키에 먹은 자국이 남지 않는 등의 오류가 발생할 수 있다.

현재 소라는 일부 전문가들에게 서비스하며 위험성을 평가하는 단계이며 시각 예술가, 디자이너, 영화감독 등에 제한적으로 공개돼 기술 고도화를 위한 피드백을 받고 있다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지