AI·음성인식 등 체감 위한 창구…시장 선점 위한 눈치 싸움 치열

[컴퓨터월드] 스마트홈 시장이 전 세계 기업들의 화두로 떠올랐다. 스마트홈의 구현을 위해서는 최신 IT·전자 기술이 집약적으로 요구되는 만큼 너나할 것 없이 새로운 시장에 발을 내딛고 있다. 아마존이나 구글과 같은 글로벌 기업들은 물론, 삼성전자나 LG전자 등 국내 굴지의 기업들 역시 투자를 확대하며 적극적인 공세를 펼치는 중이다. 스마트홈 구현을 위해 활용되는 기술들과 관련 기업들의 행보를 짚어본다.


스마트홈 시장을 잡아라
지난 1월 개최된 CES 2018에서 스마트카나 스마트시티와 함께 가장 주목받은 키워드 중 하나가 바로 스마트홈이었다. 냉장고나 세탁기, 에어컨과 같은 전통적인 가전기기부터 소파나 책상에 이르기까지, 전시장 어디에서나 인공지능(AI)이 탑재된 스마트가전을 쉽게 찾아볼 수 있었다. 아마존 알렉사(Alexa)나 구글 어시스턴트(Google Assistant)와 같은 AI 플랫폼 역시 적용 영역을 눈에 띄게 넓히는 데에 성공했다.

LG전자는 지난해 9월, AI와 IoT 기술 역량 강화를 중심으로 빠르게 확장되고 있는 스마트홈 생태계에 대응하겠다고 밝힌 바 있다. 오는 2020년까지 연간 투자 규모를 2배로 확대하고, 관련 연구개발 인력도 50% 이상 늘려나간다는 계획이다. 또한 기존에 에어컨이나 냉장고와 같은 주요 생활가전에 집중적으로 AI 기술을 도입하던 것에서 한발 더 나아가 새롭게 출시되는 모든 가전제품이 스마트홈 환경 구축에 대응할 수 있도록 와이파이를 탑재하는 등 인프라 확충에 나선다.

▲ 통합된 스마트씽스 앱을 통해 삼성전자의 다양한 가전제품을 제어할 수 있다.

삼성전자 역시 바쁜 행보를 보이고 있다. 단순히 가전제품끼리의 연결성(Connectivity)만을 확보하는 것이 아니라 실제로 체감할 수 있는 지능화된 서비스를 제공하겠다는 방침이다. 이를 위해 적용 영역이나 용도에 따라 나뉘어 있던 삼성 커넥트(Samsungs Connect), 아틱(ARTIK)을 스마트싱스(SmartThings) 클라우드로 통합했으며, 2016년 공개된 패밀리허브(Family Hub)를 지속적으로 강화해 모든 가전기기를 관리하는 중심 플랫폼으로 발전시켰다. 특히 CES 2018에서 공개된 새로운 패밀리허브에는 AI 기반의 화자인식(Voice ID) 기능이 탑재돼, 명령을 내리는 사람이 가족 구성원 중 누구인지를 파악해 보다 개인화된 서비스를 제공할 수 있게 됐다.

국내에서도 스마트홈 구축을 위한 시도가 빠르게 이어지고 있다. SKT·KT·LGU+ 등 통신 3사는 대형 건설사들과의 MOU를 통해 새로이 준공된 아파트에 월패드를 기반으로 스마트홈 구축에 앞장서고 있으며, 스마트 스피커와 셋톱박스 등을 활용한 홈 IoT 역시 꾸준히 가입자를 늘려나가고 있다. 네이버나 카카오 역시 자사의 AI 플랫폼과 스마트 스피커를 중심으로 스마트홈 IoT 시대에 대응해나가고 있다.


스마트홈의 형태 만드는 머신러닝과 연결성
스마트홈 구축을 가능케 만드는 대표적인 키워드로는 머신러닝과 연결성, 음성인식을 꼽을 수 있다. 기기 자체를 구성하는 HW의 성능 향상도 무시할 수는 없겠으나, 그에 비해서는 상기한 세 가지의 SW 측면에서의 키워드가 더욱 중요하게 여겨진다.

최근 마케팅이나 고객경험과 같은 영역에서 적용되는 것과 같이, 머신러닝은 사용자에게 개인화된 서비스를 제공하기 위한 필수요소다. 스마트홈 환경이 구축된 각각의 집에 맞춰, 가족 구성원들의 행동패턴을 학습하고 그에 맞는 서비스로 진화해간다. 기존에는 사람이 가전기기를 편리하게 사용할 수 있는 최적화된 방법과 동선을 생각했다면, 이제는 개별적인 학습과정을 거친 가전기기가 사용자의 습관과 사용공간을 고려한 최선의 활용 방법을 제시한다. 과거의 세탁기가 세탁물의 종류에 따라 정해진 옵션을 선택해 왔다면, 학습을 거친 세탁기는 가족들이 많이 입는 옷과 자주 선택하는 옵션을 고려해 최적화된 세탁 코스를 추천할 수 있다.

스마트홈 환경에서는 집안의 복수의 가전제품을 연결해 단일한 접점에서 관리할 수 있어야 한다. 모바일 앱이나 음성인식이 가능한 스마트 스피커등을 통해 제어할 수 있도록 모든 가전제품의 연결이 요구된다. LG전자가 모든 가전제품에 와이파이를 탑재하겠다고 밝힌 것 역시 이와 같은 측면에서 이해할 수 있으며, 삼성전자 역시 스마트싱스 클라우드로의 통합이나 패밀리허브의 기능 강화 등 연결성을 강조한 기능 향상에 나서고 있다.

카카오는 자사 핵심 기술을 결합한 통합 AI 플랫폼 카카오I, 국내에서 독보적인 입지를 보유한 메신저 카카오톡을 중심으로 서비스 연결에 나서고 있다. 주거 공간은 일상에서 AI 기술의 효용을 체감할 수 있는 공간이니만큼 건설·통신·가전 등 다양한 기업들과 제휴를 맺고 자사 AI 기술의 접점을 늘려나간다는 방침이다. 집안의 조명, 가스, 냉난방, 환기 등을 스마트 스피커 카카오 미니(Kakao Mini)를 활용한 음성명령이나 카카오톡 메시지를 통해 제어할 수 있다. 특히 카카오톡이 메신저로써 매우 높은 점유율을 가지고 있는 만큼, 다양한 서비스와의 연결이 편리하고 익숙한 접점을 제공할 수 있다는 장점이 있다.


개방된 플랫폼이 성장 견인한다
한편 연결성은 동일한 제조사가 출시한 제품끼리의 연결만을 의미하지는 않는다. 만약 스마트홈 환경을 구축하기 위해 같은 제조사의 제품만을 사용해야 한다면 스마트홈 기술의 발전과 확산은 요원한 일이 될 것이다. 각 가정에서는 서로 다른 제조사의 가전기기가 동시에 사용되는 만큼, 스마트홈을 위한 AI 플랫폼은 집안의 모든 기기를 지원할 수 있는 확장된 연결성을 갖춰야 한다.

이는 아마존 에코(Echo)가 선도적인 스마트 스피커 중 하나로 인식되는 이유이기도 하다. 아마존 에코에 탑재된 알렉사는 구글 어시스턴트나 애플 시리(Siri)가 그러한 것처럼 시장에서 매우 강력한 입지를 갖춘 자사 OS와 디바이스를 보유하지 못했으며, 삼성전자 빅스비처럼 계열사가 생산하는 막대한 규모의 전자제품과 밀접하게 연결돼 있는 것도 아니다. 그렇다고 알렉사가 여타 AI들보다 눈에 띄게 강력한 성능을 제공할 수 있는 것도, 가장 먼저 등장해 시장 선점 효과를 충분히 누린 것도, 하다못해 다른 스마트 스피커들을 압도할 만큼 실용적이면서도 예술적인 디자인을 갖춘 것도 아니다.

그럼에도 불구하고 아마존 에코는 현재 스마트 스피커 시장에서 매우 유리한 고지에 골라선 제품으로 여겨진다. 지난해 3분기 기준으로 전 세계 스마트 스피커 시장의 약 67%를 차지하고 있다.

▲ 제조사별 전 세계 스마트 스피커 점유율 (2017.Q3, 출처: 스트레티지애널리틱스)

아마존 에코의 장점은 탁월한 확장성, 개발자를 위해 개방된 플랫폼이다. 에코가 출시되면서 함께 공개된 아마존 스킬(Skills)은 알렉사를 통해 사용할 수 있는 기능들을 자유로이 개발하고 추가할 수 있도록 한다. 이로써 아마존 에코는 사용자들의 잡다하고 다양한 요구에 대응할 수 있는 것은 물론, 가정 내의 전자제품들과 연결해 그들을 컨트롤 할 수 있는 도구를 갖추게 됐다. 새로운 제품을 에코로 통제하기 위해서는 단지 새로운 스킬을 추가하기만 하면 된다.

지금의 스마트폰 애플리케이션 마켓이 그러한 것처럼, 개발자와 사용자들이 자유로이 새로운 기능을 개발하고 배포할 수 있는 플랫폼이 일정한 규모에 달하게 되면 이를 무너트리기는 쉽지 않으며 자연히 새로운 사람들을 불러들이는 선순환 생태계가 마련된다. 이미 아마존 에코를 통해 사용할 수 있는 스킬은 2만 개를 넘겼으며, 아직도 빠르게 증가하는 추세다. 아마존이 시장 전략에 큰 변화를 주지 않는 이상은 지금의 안정적인 행보가 유지될 수 있을 것으로 보인다.

구글 또한 개발자를 위한 개방된 플랫폼인 안드로이드 마켓을 통해 많은 혜택을 누렸던 만큼, 스마트홈 시장에서도 마찬가지의 전략을 취하고 있다. 구글은 2016년 12월, 구글 어시스턴트의 개발자용 플랫폼 ‘액션 온 구글(Action on Google)’을 공개했다. 아마존 스킬과 마찬가지로, 액션 온 구글을 활용해 개발자들은 구글 어시스턴트에 기반해 원하는 기능을 구현할 수 있게 됐다.

또한 HW 제조사들이 자체 제작한 제품에 구글 어시스턴트를 적용할 수 있도록 구글 어시스턴트 내장 SDK(Embedded Google Assistant SDK) 역시 마련됐다. 강력한 구글 서비스 생태계에 개방된 개발자 플랫폼이 더해지면서 구글 홈은 아마존 에코를 추격할 수 있는 추진력을 얻게 됐다. 지난 1월 개최된 CES 2018에도 구글 어시스턴트를 채용한 가전제품들이 대거 출품되며 후발주자인 구글의 저력을 보여줬다.

개방된 개발자 플랫폼 전략을 취하는 것은 국내 기업들 역시 마찬가지다. LG전자는 지난해 10월, 스마트홈 플랫폼 스마트씽큐(SmartThinQ)의 개발자 사이트를 공개했다. 해당 사이트에 가입해 LG전자의 파트너 개발자가 되면, LG전자는 이들에게 스마트씽큐의 표준 프로토콜 규약과 API 정보를 공개한다. 이 정보를 활용해 개발한 IoT 제품이나 기능은 LG전자의 스마트스피커 스마트씽큐 허브(SmartThinQ Hub)나 모바일의 스마트씽큐 앱과 연동할 수 있다. 이를 통해 LG전자는 스마트홈 구축을 위한 파트너십의 범위를 중소기업이나 스타트업까지 넓혀간다는 방침이다.

▲ LG전자는 스마트씽큐 개발자 사이트를 공개해 파트너십을 넓혀나가고 있다.

이외에도 LG전자는 오픈 파트너십(Open Partnership), 오픈 플랫폼(Open Platform), 오픈 커넥티비티(Open Connectivity)라는 ‘3대 개방(Openness) 전략’을 바탕으로 스마트홈 생태계 확장을 더욱 가속화한다. ▲아마존·구글과 같은 글로벌 기업들이나 국내 통신 3사 등과 AI를 활용한 스마트홈 분야에서 파트너십을 체결했고 ▲냉장고·세탁기·건조기·에어컨·공기청정기·로봇청소기·오븐 등 대표 생활가전 7종이 구글 어시스턴트나 아마존 알렉사와 같은 타사 AI 플랫폼과도 연돌될 수 있도록 했으며 ▲글로벌 IoT 표준화 단체인 OCF(Open Connectivity Foundation)에 가입해 스마트씽큐 허브나 자사 가전제품에 OCF 플랫폼을 적용해나가고 있다.


인식 정확하면서도 의도 추론 가능해야
스마트홈을 위한 사용자 인터페이스(UI)로 각광받고 있는 것은 단연 음성인식을 기반으로 한 대화형 AI다. 앞서 얘기한 스마트 스피커가 그렇듯, 스마트홈 구축을 위한 사용자 접점에는 음성인식 기술이 주류로 자리잡고 있다. 아니, 스마트홈 분야에 국한되지 않더라도 음성인식 기술이 UI의 최전선에 있다는 것은 분명하다.

직접 명령어를 타이핑해야 하는 명령어 인터페이스(Command Line Interface, CLI)와 마우스·터치의 시대였던 그래픽 인터페이스(Graphical User Interface, GUI)를 지나, 이제는 자연스러운 대화를 통해 필요한 기능을 실행하는 음성 인터페이스(Voice User Interface, VUI)의 실현이 가능해진 것이다.

이전까지 VUI의 실현을 가로막았던 가장 큰 원인은 음성인식의 성능이었다. 마우스 클릭이나 화면 터치와 같이 명료하게 입력이 전달되며 1:1로 상호작용하는 GUI와 달리, 음성인식은 명료한 입력을 전제하기도 어렵고 동시에 입력되는 복수의 소리 중 사용자의 명령만을 분리해내는 것도 간단하지 않다. 누가 누르든 똑같은 입력이 전달되는 마우스·터치와 달리 사용자에 따라 말투가 제각각이라는 점도 음성인식을 어렵게 만드는 이유 중 하나다. 그렇기 때문에 지금까지 음성인식 기술의 발전은 어떻게 하면 시끄러운 환경에서도 사용자의 목소리를 명확하게 분리해 텍스트로 전환할 수 있는가(Speech-To-Text, STT)의 싸움이었다.

또한 AI 기술의 발전과 함께 중요하게 다뤄지기 시작한 것은 입력된 명령에서 사용자의 의도를 읽어내 정확한 기능과 연결하는 작업이었다. 사용자가 명확한 명령을 내리고 이것이 기계가 인식 가능한 텍스트로 정확히 전환될 수 있다면, 이와 같이 사용자의 의도를 읽어내는 과정은 필요치 않지도 모른다. 그러나 사용자가 언제나 명확하고 의심의 여지가 없는 명령을 내릴 수는 없다. 달리 말하면, 항상 명확한 명령을 내려야만 작동하는 것은 음성인식 기기에 대한 일반적인 기대 수준에 미치지 못한다.

사용자는 “안방 에어컨을 켜서 25도로 설정해줘”라고 구체적인 명령을 내리기보다는, “덥다”라는 한 마디에 자동으로 에어컨이 작동하고 쾌적한 온도로 맞춰지기를 기대한다. 음성인식 기기는 “덥다”라는 말을 명령으로 인식할 수 있어야 함은 물론, 사용자가 집안 어디에 있는지를 확인하고 해당 공간의 온도를 체크해 작동시킬 에어컨과 냉방코스를 선택할 수 있어야 한다. 이를 위해 음성인식 기능에는 사용자의 명령을 올바르게 분리해내 의도를 추론하고 필요한 서비스를 제공할 수 있는 별도의 추론 엔진이 필요하다.


스마트홈 환경의 음성인식 기술
음성인식 기기가 상기한 조건을 모두 갖췄다고 하더라도, 스마트홈의 구현을 위해서는 추가적으로 고려해야 할 문제가 남아있다. 이는 해당 기기가 스마트홈에 활용되기 때문에 발생하는 문제다.

먼저 복수의 사용자를 구분할 수 있어야 한다는 점이다. 스마트폰은 개인화된 기기이기에 이와 같은 점을 고려할 필요가 없다. 가령 안드로이드 스마트폰에서 구글 어시스턴트를 활용할 때에는, 하나의 구글 계정과 연결된 한 명의 사용자만 고려하면 된다. 그러나 스마트홈 가전이나 스마트 스피커는 가족들이 공동으로 사용하는 경우가 많다. 이러한 상황에서 가족 구성원 각자에게 정확한 서비스를 제공하기 위해서는 음성 명령의 화자가 누구인지를 구분할 수 있어야 한다.

만약 사용자를 구분할 수 없다면 아버지가 “오늘 내 일정을 말해줘”라고 했는데 아들의 일정을 알려주는 등의 잘못된 서비스가 제공될 수 있으며, 손님 등 가족 구성원 이외의 사용자에게 가족만의 민감한 정보가 제공될 여지도 있다.

지난해 1월에는 미국의 TV쇼 진행자가 방송에서 “알렉사, 인형의 집을 주문해줘(Alexa order me a dollhouse)”라고 말하자, 이를 명령으로 인식한 각 가정의 아마존 에코가 저마다 인형의 집을 주문하는 해프닝이 발생하기도 했다.

▲ 패밀리허브의 화자인식 기능은 사용자를 구별해 맞춤 서비스를 제공한다.

CES 2018에서 공개된 삼성전자의 패밀리허브에 탑재된 화자인식 기능은 이와 같은 문제를 해결하기 위한 것이다. 패밀리허브는 화자인식 기능을 통해 사용자의 목소리를 자동으로 구별하고 가족 구성원 각자를 위한 맞춤 서비스를 제공할 수 있다. 또한 구성원마다 별도의 계정과 연결시킴으로써 서로 다른 수준의 권한을 부여할 수 있다. 최근의 스마트 스피커가 자체적으로 결제 기능을 내장하는 경우가 많은 만큼, 가족 구성원일지라도 각자의 권한을 일정 수준으로 제한함으로써 남용을 방지할 필요가 있다.

스마트홈 구축이 완료된 환경에서는 음성인식이 가능한 기기가 여러 대 존재할 가능성이 높은 만큼, 음성인식 기기가 여러 대인 상황에서도 사용자의 명령이 중복으로 인식되는 것을 방지해야 한다.

가령 “짜장면 시켜줘”라는 명령이 세 대의 기기에 동시에 인식된다면 한 번의 주문으로 짜장면 세 그릇을 받아봐야 할 것이다. 이를 방지하기 위해서는 아마존 에코에 탑재된 ESP(Echo Spatial Perception)와 같은 기술을 활용할 있다. ESP는 가정 내의 복수의 기기와 사용자의 위치를 인식함으로써, 사용자와 가장 가까운 기기만이 명령을 수행하도록 제한한다.


시장 형성 시기에 적극적 공세 필요
스마트홈에 대한 사용자들의 기대 수준이 높아지는 만큼, 이제 음성인식 기기는 사용자가 하나하나 명령하지 않은 것까지 유추하고 서비스할 수 있어야 한다. 세제나 휴지 같은 소모품이 떨어지면 자동으로 주문한다든가, 음식 레시피를 물어보면 재료 구매까지 한 번에 진행한다든가, 특정 목적지까지 가는 길을 물어보면 집에서 출발해야 하는 시간까지 알려준다든가 하는 것들이 이러한 서비스에 속한다. 사용자들이 스마트홈 서비스에 대해 아직 영화 아이언맨의 ‘자비스’나 ‘프라이데이’ 같은 수준을 기대하지는 않지만, 1+1=2라는 단순한 답변밖에 할 수 없는 AI에는 만족하지 못한다.

스마트홈 생태계를 구현하는 기술 하나하나는 그다지 새롭지 않을 지도 모른다. 그러나 머신러닝이나 AI, 음성인식과 같은 최전선의 기술들이 스마트홈이라는 시장을 통해 형태를 갖추고 있는 것도 사실이다. 기술이 아닌 시장으로써 스마트홈을 두고 글로벌 기업들이 각축전을 벌이는 시점에, 새로운 기회를 창출하기 위한 국내 기업들의 적극적인 도전이 요구된다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지