※ <빅테크 칼럼>은 사회 이슈를 ICT 관점에서 살펴보고, 트렌드를 전망하는 전문가 칼럼 시리즈입니다. 인공지능, 메타버스, 통신 및 인프라, UAM 등 분야별 ICT 인사이트를 <빅테크 칼럼>에서 확인하세요.
* 필자의 견해는 SK텔레콤의 공식 입장과 다를 수 있습니다.
AI 에이전트는 우리와 얼마나 가까워졌을까. 말하는 기계는 처음 등장했을 때의 그 대화 자체에 대한 신기함이나 흥미를 뛰어넘어 자연스러운 일상의 도구가 됐다. 적절한 쓸모와 대화의 방법을 찾아가는 것인데, 이는 폭발적인 관심을 받는 것보다 더 안정적으로 안착하는 상황으로 볼 수 있다.
AI 에이전트는 여러 인공지능 관련 기술 중에서도 우리가 가장 친밀감을 느끼는 서비스다. 직접 대화를 나누기 때문이다. 초기 AI 스피커들이 인기를 누리면서, 의외로 혼자 사는 이들에게 소소한 대화를 나누는 것이 큰 역할로 비치기도 했다.
하지만 2020년도 인터넷이용실태조사에서 AI 에이전트 활용에 ‘농담하기’가 차지하는 비율은 6.3%에 지나지 않았다. 그렇다면 AI 에이전트는 어떤 기대 속에 어떻게 진화해 나가고 있을까?
신기함 넘어서는 기기와의 소통
아주 오랫동안 우리는 기기와 대화를 하는 것을 흥미로운 눈으로 지켜봤다. 아마도 우리나라에서 음성인식이 대중적으로 관심을 받았던 것은 90년대 후반 보급되기 시작했던 휴대전화일 것이다. 0번부터 9번까지 단축 다이얼에 등록된 연락처에 전화를 거는 것이 이 기능의 전부였다. 단축키를 길게 눌러서 음성인식 기능을 켜고 ‘우리집’을 외치면 전화를 걸어주는 것이다.
인식률은 둘째 치고 우스운 건 이 휴대전화는 그냥 덮개를 열고 숫자 키패드를 길게 누르면 다른 조작 없이 통화를 시작할 수 있다. 사실상 이용자 경험으로는 큰 의미가 없는 기능인 셈이다. 결국 이 음성인식은 흥미를 넘지 못하고 썩 좋지 않은 경험의 기억을 남긴 채 사라지고 말았다.
다시 10여 년이 지난 2011년, 아이폰 4S가 세상에 등장한다. 이 스마트폰이 세상에 끼친 가장 큰 영향은 스마트폰과 말로 대화하는 경험을 자연스럽게 만들어냈다는 점이다. 아이폰 4S를 구입해서 받아 들고 종일 궁금함을 참아내다가 퇴근 뒤 집에 돌아와서야 우리말은 알아듣지도 못하는 시리(Siri)를 불러 고작 내일의 날씨가 어떤지 영어로 물어보고, 시답지 않은 농담 몇 가지를 던져보는 것이었다.
이후 AI 에이전트는 스마트폰의 가장 중요한 기능이 됐고, 거의 모든 제조사는 자체적인 AI 에이전트를 개발해내기도 했다. 그리고 그 인기는 AI 스피커로 옮겨붙으면서 사실상 우리가 만지는 적지 않은 가전, 자동차 등 일상의 기기들이 입을 떼기 시작했다.
되돌아보면 초기 이 기기들의 주 역할은 아무래도 대화에 가까웠다. 개발자들도 의사소통보다도 적절하게 대응하는 채팅 내용을 개발해 내는 데에 노력을 쏟아야 했다. 물론 이 역시 의미 없는 일은 아니다. AI와의 대화에서 중요한 영역이 바로 챗봇이었고, 각 기업이 챗봇을 위한 데이터 학습과 검증을 하기 가장 좋은 것이 AI 에이전트였기 때문이다.
AI 에이전트 속 인공지능의 진화 ‘초거대 AI’
돌아보면 AI 에이전트와 인간 사이의 커뮤니케이션은 매끄러워야 하지만, 그 방향성은 일상의 대화보다 말속에 담긴 의도를 명확히 파악하는 것이 우선이다. 우리가 이 기기에 기대하는 것은 바로 ‘내가 직접 하지 않아도 무엇인가를 거들어 주는 것’이기 때문이다.
AI의 다음 진화 단계는 인간을 흉내 내는 데에서 시작해 인간을 이해하는 방향으로 흘러간다. 물론 아주 냉정하게 기술적인 관점에서 보면 당연히 현재의 AI 기술이 인간을 공감하고 이해하지는 못한다. 그렇게 보일 뿐이다. 그리고 더 공감하는 것처럼 자연스럽게 행동하도록 진화하고 있다.
그 진화의 중심에는 AI가 있다. 이 AI라는 말이 미묘하게 여러 가지로 해석되는데, AI 에이전트는 실제 지능이라고 할 만한 수준을 갖고 있지 않다. 이 서비스들이 사람의 말을 알아듣고, 적절한 반응을 보이도록 학습하는 과정에 AI의 한 갈래인 딥러닝, 머신러닝이 쓰이는 것이다.
그 과정에서 가장 큰 것은 자연스러운 우리의 언어를 해석할 수 있게 됐다는 것이다. 언어의 구성을 쪼개고, 주어와 서술어를 구분해서 기계적으로 맥락을 읽어내는 기존의 방식은 복잡하고 결과물이 매끄럽지 못하다. 기계가 우리의 언어를 알아듣는 것이 아니라, 우리가 기계에게 이해할 수 있는 약속된 문법으로 명령어를 만들어서 던지는 셈이었다. 하지만 딥러닝은 문장을 통째로 익혀 버리기에 그 속에 숨은 의미를 제대로 학습한다면 말속에 담긴 의도를 정확히 파악하는 것이 가능하다.
이 언어 처리 기술은 AI와 관련된 여러 기반 기술의 성장과 밀접한 관계가 있다. 특히 막대한 컴퓨팅 파워와 늘어나는 데이터를 바탕으로 더 고도의 학습을 할 수 있게 되고, 자연스럽게 스스로 대화하며 학습하는 초거대 AI 언어 모델로 진화하면서 AI의 커뮤니케이션 능력은 문장의 해석이 아니라 문맥을 통해 의도를 읽는 방향으로 흘러가고 있다. 말속의 의도를 정확히 읽어내는 단계로 접어드는 것이다.
의사소통의 완성 ‘속내 읽어 내기’
별것 아닌 것처럼 보일 수 있지만 생각해 보면 정확한 의도를 읽는 것은 AI 에이전트의 가장 기본이다. 우리가 아무렇지도 않게 말하는 “그래”라는 말도 앞뒤 상황, 그리고 그 속의 미묘한 뉘앙스를 통해서 전혀 다르게 해석되곤 한다.
말속에 담긴 인간의 의도를 읽어낼 수 있게 되면 행동의 이유를 알 수 있게 된다. 그리고 다음 단계는 이용자가 원하는 답을 꺼내 주는 것이다. 그리고 더 나아가서 더 많은 정보를 받아들일 수 있다면 따로 묻지 않아도 적절한 행동을 먼저 할 수 있게 되는 것이다.
예를 들어, 매일 아침 출근길에 정해진 커피숍에서 앱을 통해 커피를 주문한다면 AI 에이전트가 이 패턴을 학습하고, 정확도에 대한 확신을 갖게 되면 스마트폰 앱을 열기 전, 지하철에서 내리는 순간 “아이스 아메리카노를 주문해 놓을까요?”라고 묻는 식이다.
SK텔레콤 ‘A.(에이닷)’의 등장도 바로 이 AI가 사람을 이해하는 흐름을 반영하는 서비스다. 스마트폰은 우리가 가장 많이 의존하는 기기이고, 이를 통해 다른 사람과 소통하고 정보를 얻는다. 그 과정을 편리하게 도와서 기기를 더 잘 쓰고, 더 나은 통신 서비스를 이용할 수 있도록 필요한 정보들을 꺼내 놓는다. 전문 분야를 바탕으로 조언하는 기반이 만들어지는 것이다.
그다음 단계는 어떻게 될까? 아마도 기기가 적극적으로 대화를 먼저 시작하게 될 것이다. 지난 5월 구글은 개발자 컨퍼런스인 구글 I/O에서 기기를 쳐다보기만 해도 AI 에이전트가 말을 듣는 기술을 선보였다. 카메라와 동작 센서 등을 반영한 것이지만, 우리의 경험은 ‘기기와 눈을 마주치는 것’으로부터 대화가 시작되는 것이다. 이 기기는 언제든 대화를 시작할 준비가 되어 있다.
하지만, 다른 한 편으로는 우리가 컴퓨터와 얼마나 대화 나눌 준비가 되어 있는지에 대해 되짚어 볼 필요가 있다. 구글은 2018년 ‘듀플렉스’라는 서비스를 공개했는데, 이는 AI 에이전트의 가장 적극적인 형태를 보여주었다. 캘린더에 등록된 ‘저녁 식사’라는 정보를 바탕으로 주변 식당에 직접 예약 전화를 걸어 사람과 매끄럽게 대화하며 시간, 인원수, 메뉴 등을 조율한다. 사람이 하는 일을 그대로 하는 것이다. 꽤 긴 대화는 아주 자연스러워서 상대방이 AI라는 것을 알아채지도 못할 정도였다. 오히려 그 자연스러움이 불편함을 만들어내면서 경계의 대상이 되기도 했다.
물론 인공지능 기술은 이 역시 극복해 나가고 있다. 학습 기반의 머신러닝이 흥미로운 이유다. AI 에이전트는 우리와 가장 오랫동안 소통해 온 인공지능 기술이고 그 기술의 방향은 시작부터 대화를 통한 ‘공감’에 맞춰져 있었다. 그저 ‘말을 알아듣고 대답한다’는 수준을 넘어서 때로는 대화를 주도하기도 하고, 명령을 내리기 전에 필요한 일들을 미리 챙겨줄 수도 있는 게 지금 우리 곁에 있는 AI 에이전트다. 인공지능에 공감과 눈치가 더해지면서 대화가 진짜 소통으로 넘어가는 순간이라고 할 수 있다.
참고자료. SKT, 맥락 이해하고 인간에 공감하는 AI ‘에이닷’ 선보여
SK텔레콤은 지난 5월 성장형 AI 서비스 A.(에이닷)을 공개하고, 안드로이드 베타 버전을 출시했다(iOS 버전은 6월 중 출시 예정).
거대언어모델(GPT-3) 한국어 특화 버전 기반의 A.(에이닷)은 맥락을 이해하는 자연스러운 대화가 가능하며, 대화 중 목적 지향 대화로 자유롭게 변경 가능하다. 이를 통해 사용자는 자유 대화는 물론 서비스 추천, 일상 관리 등 다채로운 편의 기능을 누릴 수 있다.