SKT 정예팀이 ‘독자 AI 파운데이션 모델 프로젝트’ 1단계 평가를 통과하며 2단계 개발에 본격 착수했다. 2단계에서는 초거대 AI 모델 A.X K1에 이미지·음성 등 멀티모달 기능을 단계적으로 적용해 옴니모달 모델로의 확장을 추진한다. 서울대학교 김건희 교수 연구팀은 SKT 정예팀과 함께 멀티모달 연구를 지속해 오고 있다. 김건희 교수는 기고를 통해 멀티모달·옴니모달 관점에서 A.X K1의 진화 방향과 그 의미를 설명한다.

SKT 컨소시엄은 지난 15일 발표된 정부의 ‘독자 AI 파운데이션 모델 프로젝트’ 1차 평가에서 당당히 2단계 진출에 성공했다. SKT 정예팀은 지난해 12월 30일 ‘독자 AI 파운데이션 모델 프로젝트 1차 발표회’에서 국내 최초로 매개변수 500B(5천억 개) 규모의 초거대 AI 모델 ‘A.X K1’을 공개했으며 뛰어난 추론 성능과 다국어 이해 능력으로 주목받았다.
강력한 초거대 모델을 갖추는 건 AI 기술 개발에 매우 중요한 의미를 지닌다. 대규모 모델은 지식 증류(knowledge distillation)를 통해 다양한 분야에 특화된 중소형 모델을 빠르고 강력하게 개발할 수 있기 때문이다.
초거대 언어모델에서 옴니모달 AI로
초거대 언어모델은 등장한 지 5년도 채 되지 않아 일상생활에서 범용적으로 활용되는 필수 기술로 자리 잡았다. 다양한 산업 분야의 종사자뿐 아니라 일반 대중, 나아가 어린이까지도 ChatGPT나 Gemini와 같은 언어모델을 활용하는 것이 이제 자연스러운 일이 되었다. 언어모델은 텍스트, 사진, 동영상 등 다양한 형식의 데이터를 통합적으로 이해하는 멀티모달(Multimodal) 모델로 확장해 왔으며, 최근에는 음성까지 이해하는 옴니모달(Omnimodal) 모델로 진화하였다.
옴니모달 모델이란, 라틴어 접두사 omnis가 ‘모든’을 의미하듯이, 모든 형식의 데이터를 이해하는 언어모델을 지칭한다. 이 용어는 2024년 3월에 OpenAI가 새로운 모델에 GPT-4o(“o” for “omni”)라는 이름을 붙이면서 본격적으로 사용되기 시작했다. 언어적 의미라면 AI가 모든 형식의 정보를 다 이해해야 하겠지만, 통상적으로 텍스트에서 사진, 영상 등 시각 정보들까지 이해하고 생성하는 모델을 멀티모달 모델로, 음성까지 아우르면 옴니모달 모델이라고 부른다.
음성은 텍스트에 비해 보다 직관적이고 빠르게 AI 모델과 의사소통을 할 수 있는 수단으로, 최근 학계와 산업계에서 큰 주목을 받고 있다. 하지만 음성은 단순히 새로운 입력 형식을 추가하는 것을 넘어, 여러 기술적인 도전 과제들이 존재한다.
첫째, 기존의 텍스트 기반 대화는 입력과 응답이 순차적으로 이어지는 턴(turn) 기반의 단방향 소통 방식이다. 이에 비해 음성 대화는 동시적이고 양방향적인 특성을 가진다. 즉, 텍스트 환경에서는 사용자가 프롬프트를 입력하면 AI가 응답하고, 이를 확인한 뒤 다시 발화를 이어가는 구조로 대화가 진행된다면, 음성 대화에서는 상대방이 말하는 도중에 끊고 발화를 시작할 수 있으며, ‘음’, ‘아니’, ‘맞아’와 같은 짧은 반응으로 즉각적인 피드백을 전달할 수 있다. 이러한 짧은 반응을 ‘백채널(backchannel)’이라 하며, 이에 따라 대화 상대는 대화의 흐름과 내용을 실시간으로 조정하게 된다.
또한 AI모델이 대화를 생성할 때는 발화 친화적인 방식으로 해야 하는 어려움이 존재한다. 예를 들어, ChatGPT는 사용자의 질문에 대해 다양한 항목으로 나누어 개조식으로 설명하지만, 음성 대화에서는 너무 긴 응답은 상대방이 급격히 주의를 잃게 하므로, 질문자의 핵심 내용을 유지하면서 최대한 간결하게 응답을 생성해야 하는 어려움이 있다.
마지막으로 음성 대화에서는 음성에 특화된 다양한 사용자 지시를 AI모델이 적절히 반영해야 하는 점이다. 예컨대 감정을 담아 말해 달라거나, 노래를 부르듯 이야기해 달라거나 혹은 아이처럼 말해달라 등 표현 방식에 대한 요구가 다양하게 제시될 수 있다. AI 모델은 동일한 내용이라 하더라도 복잡한 표현 방식을 고려해 상황에 맞는 음성 응답을 생성해야 한다.
이처럼 기존 언어모델을 음성 대화에 특화해 발전시킨 모델을 ‘음성언어모델(Spoken Language Models)’이라 부르며 구별하기도 한다. 초기에는 단계적(cascade) 처리 방식이 주로 활용됐다. 텍스트 입출력이 가능한 기존 언어모델 앞단에 음성인식기(Speech-to-Text)를 두고, 뒷단에 음성합성기(Text-to-Speech)를 결합하는 구조였다. 그러나 이 방식은 음성을 텍스트로 변환한 뒤 다시 음성으로 재생성하는 과정이 필요하므로 응답 지연이 발생하고 자연스러운 대화 흐름을 구현하는 데 한계가 있었다. 또한 음성에서 텍스트로 변환되는 과정에서 음성의 고유 정보(호흡 패턴, 감정, 말의 크기와 속도 등)의 손실이 발생하는 문제점이 있었다.
이러한 한계를 극복하기 위해 최근에는 하나의 통합된 언어모델이 음성 정보까지 처리할 수 있도록 기술이 발전되고 있다. 대표적인 예시로 엔비디아에서 오픈소스로 공개한 OmniVinci 모델이 있다. 이 모델은 언어 모델을 백본으로 두고 그 앞에 음성, 텍스트, 이미지 등 다양한 모달리티의 정보들이 공통된 의미공간에서 서로 잘 정렬할 수 있도록 여러 아이디어를 제안하였다. 결과적으로, 최근의 옴니모달 모델은 강력한 사전 학습된 언어모델을 그 핵심에 두고 음성을 포함한 다양한 멀티모덜 데이터로 미세조정(fine-tuning)하는 방식으로 개발되므로, 높은 성능의 언어모델을 갖추는 것이 옴니모달 모델 개발 성공의 핵심 요소가 된다.
언어·음성·현장을 잇는 옴니모달 전략
SKT 컨소시엄의 초거대 AI 모델 ‘A.X K1’은 옴니모달 모델로의 진화를 계속해 나갈 계획이다. 이는 SKT 컨소시엄이 추구하는 ‘모두의 AI’ 서비스 실현에 있어 핵심적인 기반이 될 것으로 기대된다. SKT는 천만 명 이상의 가입자를 보유한 에이닷 서비스에 이 모델을 적용하여 통화 요약을 비롯해 티맵, B tv 등의 다양한 생활 밀착형 서비스에서 실시간 음성 대화를 지원할 수 있다. 또한 크래프톤의 게임 AI에 핵심 기술로 활용돼, 게임 속에서 여러 사용자가 음성 대화를 통해 공동의 임무를 수행하는 새로운 플레이 경험도 구현할 수 있는 전망이다. 더불어 42dot은 옴니모달 모델을 기반으로 모빌리티 AI를 고도화해, 운전자와 동승자 모두의 주행 경험을 향상시킬 수 있을 것으로 보인다.
소버린 AI의 성공을 위해서는 국가 핵심 데이터 주권을 온전히 활용할 수 있어야 한다. 국가, 공공, 산업 데이터는 대부분 다양한 형식의 비정형 데이터이므로 옴니모달 모델은 이 이러한 데이터를 외부 플랫폼에 의존하지 않고 직접 학습·운영할 수 있게 해준다. 나아가 옴니모달 모델은 산업 전반을 하나의 모델로 연결할 수 있으며, 장기적으로는 물리적 세계까지 아우르는 실행형 AI로 진화해 나갈 것이다. 즉, 성공적인 옴니모달 모델 확보는 디지털 주권을 넘어 물리적 인프라 주권까지 함께 강화하는 기반이 될 수 있다는 것이다.
옴니모달 모델로의 성공적인 진화를 바탕으로 앞으로 A.X K1이 선도해 갈 대한민국 소버린 AI의 미래를 기대해 본다.
