Skip to the content
AI

SKT 광고모델된 버추얼 휴먼 ‘나수아’, 목소리는 어떻게 만들었을까?

추천 콘텐츠

AI, 가상인간, 디지털휴먼, 수아, 나수아, SUA, AI음성합성, SK스퀘어, 온마인드, 메타버스, 에이닷, tv, 장원영, 버추얼 휴먼

SKT 모델 장원영과 버추얼 휴먼 나수아가 친구 사이로 등장하는 SKT의 ‘에이닷티비(A. tv)’ 광고 속 나수아 모습

‘나수아(SUA)’는 3D 디지털 휴먼 개발 기업 ‘온마인드’가 만든 버추얼 휴먼이다. 온마인드는 SK텔레콤에서 분할해 투자전문회사로 출범한 ‘SK스퀘어’가 첫 투자처로 선택한 회사다. SK스퀘어는 지난해 11월, 온마인드에 80억 원을 투자해 카카오 계열사인 넵튠과 함께 온마인드의 공동 최대주주에 올랐다. 그간 SK스퀘어와 온마인드는 디지털 휴먼, 메타버스 등 미래 성장 동력을 함께 만들어가기 위해 의기투합해왔다.

그 결실로, SKT가 자사의 음성합성엔진인 ‘T보이스’를 기반으로 한 AI 음성합성기술을 활용해 ‘나수아’의 목소리를 만들어냈다. SKT와 온마인드는 ‘AI 버추얼 휴먼 공동 제작 사업’을 본격적으로 추진하기 위해 업무 협약(MOU)를 체결했다. SKT는 통신사 최초로 버추얼 휴먼을 광고 모델로 발탁했다. 나수아는 SKT AI 서비스 ‘A.(에이닷)’의 광고에 등장한다. 얼굴부터 목소리까지 버추얼 휴먼의 모든 것을 AI로 만들어 광고에 적용한 사례다.

목소리도 AI … 나수아의 어색함 없는 목소리는 어떻게 만들었을까?

그동안 일부 버추얼 휴먼 목소리는 성우의 목소리를 녹음하여 싱크를 맞추는 방식으로 진행해왔다. SKT와 온마인드는 이번 사업 협력을 통해 Z세대의 워너비이자, 다채로운 매력을 지닌 나수아의 이미지에 적합한 목소리를 AI로 제작했다.

음성합성(Speech Synthesis)은 말소리의 파형을 입력 텍스트에 기반하여 만들어 내는 기술로, ‘텍스트 음성 변환(Text-To-Speech, TTS)’이라고도 부른다. 일반적으로 딥러닝 음성합성은 입력된 텍스트로부터 발음과 억양 등의 특징을 생성하는 ‘음향 모델’과 음성 파형을 생성하는 ‘뉴럴 보코더 모델’을 연결하는 2 stage 구조로 개발된다. 그러나, 각 단계별로 모델링을 하면 둘을 연결할 때, 부정합(mismatch)이 발생할 수 있어 합성 음질이 떨어질 수 있다. 이를 극복하는 방법 중 하나로, SKT는 두 모델을 통합하여 한 번에 모델링 하는 single stage 방법을 도입하였다.

또한, 음성합성에 사용되는 딥러닝 생성형(generative) 모델은 직렬 순차 연산을 하는 AR(Auto-Regressive) 모델과 기술적 난이도가 더 높지만 병렬 연산을 하는 non-AR(non-Auto-Regressive) 모델이 있다. SKT는 non-AR 기반의 음성합성 모델을 연구 개발해, 긴 문장의 입력도 매우 빠른 속도로 고품질의 음성으로 변환을 할 수 있다.

SKT 음성합성기술팀은 다양한 상용 서비스에 적합한 수준의 나수아 보이스 모델을 만들기 위해 낭독체, 안내체, 대화체 등 다양한 문장들을 약 1천 문장 정도 녹음한 후, 약 1주일 정도의 데이터 가공을 거치고 약 1~2주 정도의 딥러닝 모델링을 수행하였다.

AI, 가상인간, 디지털휴먼, 수아, 나수아, SUA, AI음성합성, SK스퀘어, 온마인드, 메타버스, 에이닷, tv, 장원영, 버추얼 휴먼AI, 가상인간, 디지털휴먼, 수아, 나수아, SUA, AI음성합성, SK스퀘어, 온마인드, 메타버스, 에이닷, tv, 장원영, 버추얼 휴먼

나수아에게 왜 AI 목소리가 필요했을까?

SKT의 음성합성기술팀 김상진 리더는 “발화해야 하는 문장이 고정되어 있지 않고 자꾸 변한다면 그리고 발화해야 하는 문장이 많다면 음성합성기술을 활용하는 것이 더욱 실용적이다”라고 말했다. 딥러닝 기반 음성합성기술은 적은 분량의 음성 녹음으로도 자연스러운 목소리 구현이 가능하다. 또한, 딥러닝 음색 변환 음성합성기술을 이용해 억양이나 발화 스타일을 유연하게 조절할 수 있고, 쉽게 대사 수정도 가능해 영상 제작 효율성을 크게 높일 수 있다.

김상진 리더는 “나수아가 AI 목소리를 갖게 되면 성우의 목소리 컨디션에 종속되지 않고 일관되고 일정한 음성을 쓸 수 있다. 성우의 스케줄이나 녹음실 스케줄도 상관없게 된다”고 밝혔다.

버추얼 휴먼 ‘나수아’가 궁금하다!

AI, 가상인간, 디지털휴먼, 수아, 나수아, SUA, AI음성합성, SK스퀘어, 온마인드, 메타버스, 에이닷, tv, 장원영, 버추얼 휴먼

‘나수아’는 하고 싶은 대로 하는 Z세대의 워너비. 취미는 골프, 테니스, 춤, 노래를 즐긴다. 포토제닉한 포즈와 남다른 끼를 뽐내며 인스타그램과 틱톡에서 활동하며 브랜드 모델, 영상 광고 등에도 활발하게 참여하고 있다.

나수아는 국내 최초 실시간 상호작용이 가능한 버추얼 휴먼이다. 리얼타임 동작 기술로 대중과 실시간 상호작용이 가능한 것이 특징이다. 현재 다른 버추얼 휴먼 상당수는 얼굴 뺀 나머지 몸동작은 인간 모델로 구현하고 있는 데 반해, 나수아는 바디와 페이스 전체가 Full 3D로 제작된다.

SKT, AI 목소리 협업 발판 삼아 “AI 음성합성 기술 확대 예정”

나수아는 SKT의 AI 음성합성기술을 통해 자연스럽게 연기하고, 노래할 수 있는 고유 목소리를 갖게 됐다. SKT는 나수아의 활동 폭이 앞으로 더욱 넓어질 것으로 기대하고 있다.

SKT는 온마인드 협업 이전인 2017년부터 AI 음성합성기술을 활발히 활용해오고 있다. TMAP 길안내 시스템, 누구(NUGU) 보이스, KBS 라디오 ‘누군가 어딘가에’ AI DJ, AICC 콜센터, A.(에이닷) 등 다양한 서비스에서 사용 중이다. SKT는 온마인드와의 이번 협업을 발판 삼아, 앞으로도 AI 음성합성 기술을 다양한 방식으로 소비자들에게 선보일 예정이다.

■[참고자료] SK텔레콤-온마인드, AI 버추얼 휴먼 공동 제작 사업 관련 업무협약 체결

서울 중구 을지로 SK T타워에서 진행된 MOU 행사 모습, 좌측부터 SKT 이상호 CTO, 버추얼 휴먼 나수아, 온마인드 김형일 대표

 

SK텔레콤이 버추얼 휴먼 제작사인 ㈜온마인드와 업무협약(MOU)를 맺고 AI 버추얼 휴먼 공동 제작 사업을 본격적으로 추진한다. 온마인드는 자체 개발한 정교한 3D 버추얼 휴먼 구현 기술력과 실시간 상호작용이 가능한 렌더링 기술로 업계에서 높은 평가를 받고 있다.

 

특히 메타버스 시대의 중요한 자사인 버추얼 휴먼 제작에 있어 다양한 AI 기술을 확보하고 있는 SKT와의 협력을 통해 온마인드는 가상공간에서 사람과 유사하게 작동하는데 도움을 받을 수 있을 것으로 기대하고 있다.

 

SKT 이상호 CTO(CTO : Chief Technology Officer)는 “SKT의 AI 기반 음성합성기술을 통해 버추얼 휴먼에 자연스러운 생명력을 불어넣을 수 있을 것으로 기대한다”“앞으로도 SKT가 보유한 AI 기술 역량을 다양한 산업 영역에서 활용할 수 있도록 지원 영역을 넓혀 가겠다”고 밝혔다.

콘텐츠 사용 안내
콘텐츠 사용 시에는 SK텔레콤 뉴스룸 출처 표기를 부탁드립니다.
카카오 채널 안내
SK텔레콤 뉴스룸 채널을 추가해 보세요.
추가하기

이 콘텐츠가 SK텔레콤을 이해하는데 얼마나 도움이 되었나요?

답변 선택하기