2026년 4월, 미국 라스베이거스에서 열린 세계 최대 방송·미디어 전시회 NAB(National Association of Broadcasters) 쇼. 1923년에 시작되어 100년 넘게 이어지고 있는 역사적인 행사에서 SK텔레콤의 ‘라이브 투 카트(Live-to-Cart)’가 한국 기업으로는 유일하게 ‘올해의 제품상’ 수상에 성공했다. ‘라이브 투 카트’는 라이브 방송을 보는 시청자가 별도 검색 없이 화면 속 상품을 즉시 구매할 수 있도록 연결하는 AI 미디어 커머스 솔루션이다. 뉴스룸이 SKT 엔터프라이즈설루션개발팀의 배주한, 김동원 님을 만나 이번 수상 의미와 성과, 기술 개발 배경에 대해 들어봤다.

NAB 쇼 2026에서 ‘올해의 제품상’ 수상 후 기념사진을 촬영 중인 (왼쪽부터) SKT 엔터프라이즈설루션개발팀 김동원, 배주한 님
실제 사업화 가능한 AI 미디어 솔루션으로 세계 무대에서 경쟁력 입증
Q. 엔터프라이즈설루션개발팀은 어떤 업무를 하는 팀인지 소개 부탁드립니다.

A. 배주한: 안녕하세요. 엔터프라이즈설루션개발팀은 SKT가 보유한 AI·미디어 기술을 기업 고객과 그룹사 사업 현장에서 바로 적용할 수 있는 설루션으로 개발하는 조직입니다.
A. 김동원: 비전·언어 모델, 음성·자막 처리, 영상 분석 같은 코어 AI 기술을 미디어·커머스에 적용하는 일을 하고 있습니다. 광고 도메인에 맞춰 엔드 투 엔드(end-to-end) 파이프라인으로 엮어내고, 실제 트래픽이 흐르는 서비스에 올려 운영 가능한 형태까지 책임지는 역할을 담당합니다.
Q. 지난달 개최된 NAB 쇼 2026에서 SKT의 ‘라이브 투 카트’ 기술이 한국 기업으로 유일하게 ‘올해의 제품상’을 받았습니다. 수상 소감과 의미에 대해 말씀 부탁드립니다.

NAB 쇼 2026에서 한 참여자와 기념사진을 촬영 중인 SKT 엔터프라이즈설루션개발팀

NAB 쇼 2026에서 전시한 SKT 엔터프라이즈설루션개발팀의 '라이브 투 카트' 시연 부스
A. 배주한: 이번 수상이 뜻깊은 이유는 ‘올해의 제품상’이 단순히 기술의 참신함만 보는 시상이 아니라 ▲혁신성 ▲기술력 ▲실제 현장 적용 가능성이라는 세 축을 함께 평가한다는 점 때문입니다. 연구실 안의 좋은 모델로만 머무르지 않고, 실제 미디어 서비스 환경에서 돌아가는 AI 설루션이 비즈니스로 직결된다는 점을 글로벌 전문가들에게 인정받았다는데 큰 자부심을 느낍니다.
A. 김동원: SKT가 그동안 쌓아온 AI 기술력과, SK브로드밴드 B tv라는 실증 환경, 그리고 네이버 쇼핑과 같은 커머스 파트너십이 하나의 풀스택으로 작동해야 가능한 결과였습니다. 이 상은 한 팀이 아니라 그 협업 생태계 전체가 받은 상이라고 생각합니다.
Q. SKT의 AI 미디어 기술이 글로벌 시장에서 인정받을 수 있었던 주요한 요인은 무엇인가요?

A. 배주한: 글로벌 무대에서 한국의 AI 미디어 커머스에 대한 기대치는 생각보다 훨씬 높습니다. IPTV 보급률과 거대 커머스 플랫폼, 그리고 K-콘텐츠 기반의 PPL 시장이 모두 한 나라 안에 있는 환경은 글로벌로 나아가도 흔하지 않기 때문입니다.
글로벌 사업자들은 “왜 라이브 채널 위에 커머스가 안 붙느냐”는 문제의식을 모두 갖고 있습니다. 그렇지만 통신사·IPTV 운영사·커머스 플랫폼을 동시에 연결해 풀스택으로 실증해본 사례는 아직 없었습니다. ‘라이브 투 카트’는 SKT가 상품 추출 기술을 담당하고, SK브로드밴드가 실제 서비스를 담당하고, 네이버 커머스 채널이 구매 링크를 연결합니다. 이러한 프로세스가 가장 큰 경쟁력으로 작용해 올해의 제품상을 수상할 수 있었다고 생각합니다.
A. 김동원: ‘라이브 투 카트’는 기술적으로 세 가지 차별점이 있습니다. 첫째, 사전에 상품이 등록되지 않은 라이브 방송에서 시각·자막·화면 텍스트를 동시에 인식하는 멀티모달 융합 구조를 상용 수준으로 구현했다는 점입니다. 두 번째로는, FP8 양자화AI 모델의 크기를 줄이고 연산 속도를 획기적으로 높이기 위해, 데이터를 8비트 부동소수점(Floating Point 8-bit) 형태로 변환하는 기술와 모델 경량화 작업을 통해 채널당 GPU 비용을 1대당 2~4개 채널까지 끌어내려 다채널 스케일링의 단위 경제를 확보했습니다.
마지막으로 단순 PoC가 아니라 실제 B tv 라이브 채널에서 돌아가며 소비자 구매까지 이어지는 상용 프로세스를 검증했다는 점입니다. 이 세 가지 구조가 이어졌기 때문에 글로벌 심사위원들도 “사업화 가능한 AI 솔루션”으로 평가해주신 것 같습니다.
Q. NAB쇼에서 현장 관계자나 심사위원 반응 등 소개해 주실 만한 에피소드가 있으면 말씀 부탁드립니다.

A. 배주한: 가장 많이 들었던 질문은 “이게 PoC가 아니라 진짜 라이브 채널에서 돌아가고 있는 거냐?”였습니다. GPU 비용과 커머스 플랫폼 매칭 등에 대해서도 많은 관심을 보였는데 결국 모두 ‘사업화 가능성’에 대한 질문이었습니다. 개별 모델을 만드는 건 누구나 할 수 있지만 그걸 하나의 파이프라인으로 묶어 단위 경제가 맞는 운영 모델까지 만들어내는 건 다른 차원의 문제라는 것을 글로벌 사업자분들이 누구보다 잘 알고 계셨던 것 같습니다.
A. 김동원: “각각의 기술들은 우리도 갖고 있는데 이걸 하나로 묶어서 실제 라이브 채널 위에서 돌리고 있다는 게 놀랍다”는 평이었습니다.
상품이 사전 등록되지 않은 라이브 방송에서 상품을 잡아내고 그걸 다시 실제 커머스 플랫폼의 구매 가능한 상품과 매칭해 TV 화면에 3.8초 안에 띄우는 이 풀스택을 상용 서비스로 돌리고 있는 사례는 본 적이 없다는 반응이 가장 많았습니다.
TV와 커머스 사이의 간극을 메우다
세계 무대의 인정을 받기까지 이 기술은 어디에서 출발했을까? ‘라이브 투 카트’의 시작에는 누구나 한 번쯤 겪어봤을 불편함이 있었다. TV 화면 속 상품을 보고 마음이 동했지만, 장면이 바뀌는 사이 그 이름도 가격도 사라져버리는 순간. 엔터프라이즈설루션개발팀은 바로 그 지점에서 출발했다.
Q. ‘라이브 투 카트’는 어떤 배경에서 시작된 프로젝트인가요?

A. 배주한: 전 세계 TV 시청자는 매일 수백 개의 상품을 화면에서 보지만 정작 그 상품을 사려면 휴대폰을 켜고 따로 검색해야 합니다. 드라마 속 배우가 입은 재킷, 예능에서 출연자가 마신 음료처럼 “사고 싶다”는 감정이 가장 높은 순간, 그 감정과 실제 구매 행동의 연결고리가 완전히 끊어져 있습니다.
이는 사업자 입장에서도 마찬가지였습니다. IPTV에서 VOD는 사람이 일일이 태깅해 커머스를 붙일 수 있지만 가장 트래픽이 큰 라이브 채널은 커머스 매출이 사실상 0원이었습니다. 보는 것(라이브 방송)과 사는 것(커머스) 사이의 단절을 없애고자 했던 것이 출발점이었습니다.
A. 김동원: 어떤 방식도 날 것의 라이브 방송에서 미등록 상품을 실시간으로 인식하지는 못했습니다. 이 문제를 해결할 수 있다면 라이브 방송이 완전히 새로운 커머스 채널이 될 수 있다고 판단했습니다.
다행히 최근 2~3년 사이 비전·언어 모델의 성능이 임계점을 넘었고, FP8 같은 양자화 기술이 상용 수준의 추론 비용을 가능하게 만들었습니다. 두 흐름이 만나는 시점이 바로 지금이라고 판단했습니다. B tv라는 자체 실증 환경을 가진 SKT가 아니면 풀기 어려운 문제라는 점도 프로젝트를 시작한 결정적인 이유였습니다.
Q. ‘라이브 투 카트’의 작동 원리에 대해 설명해 주시기 바랍니다.
A. 배주한: ‘라이브 투 카트’는 사람이 미리 상품을 등록하거나 태깅하지 않는 ‘제로 큐레이션’ 구조가 가장 큰 특징입니다. 바로 라이브 방송에 등장한 상품을 AI가 실시간으로 잡아내 구매 가능한 정보로 바꿔주는 구조입니다.
1. 인제스트 단계: 라이브 IPTV 멀티캐스트 스트림을 받아 3~4초 간격으로 키프레임을 추출하고, EPG 편성 정보와 PPL 광고 데이터를 함께 동기화합니다. 어떤 프로그램의 어떤 장면인지 컨텍스트를 부여하는 단계입니다.
2. 멀티모달 분석 단계: 추출된 각 키프레임을 세 개의 AI 모듈이 동시에 분석합니다.

– VLM(비전·언어 모델): 화면 속 상품을 검출해 시각적 특징과 키워드를 추출. 객체 인식 정확도 80% 이상.
– 캡션(Caption) 모듈: 실시간 자막에서 언급된 상품명·브랜드를 추출.
– OCR 모듈: 화면에 표시된 자막 외 텍스트, 즉 가격표·브랜드 로고·CG 오버레이 등을 분석.
3. 융합·스코어링 단계: 세 모듈의 결과를 코사인 유사도로 중복 제거한 뒤, 모달 간 합의도(spatial confidence)와 최신성(temporal relevance)을 기준으로 점수를 매깁니다. 어두운 장면이나 흔들린 프레임은 이미지 품질 필터로 점수를 낮춰 노이즈를 걸러냅니다.
4. 딜리버리 단계: 최종 후보 상품을 네이버 쇼핑 API와 매칭해 실제 구매 가능한 상품 카드를 만들고, 셋톱박스에 QR 코드와 함께 띄웁니다. 시청자는 QR을 스캔해 모바일에서 결제합니다.
A. 김동원: 예를 들어 드라마에서 재킷이 등장하면 VLM은 소재·색상·실루엣을 추출하고 캡션은 대사에서 브랜드명을 잡아낸 뒤, OCR은 화면 하단 그래픽의 가격 정보를 읽습니다. 세 신호가 동일한 상품을 가리킬 때 최고 신뢰도로 판정합니다. 화면에 상품이 보인 시점부터 카드가 뜨기까지 약 3.8초, 매칭 정확도는 75%를 넘습니다.
Q. 세 가지 AI 모듈을 실시간으로 동시에 돌리는 구조가 기술적으로 쉽지 않았을 것 같습니다. 개발 과정에서 가장 어려웠던 부분은 무엇이었나요?
A. 배주한: 가장 어려웠던 건 단일 기술 난제가 아니었습니다. 세 가지 모듈이 ‘동시에·실시간으로·사업성 있는 비용에’ 작동되어야 한다는 점이었습니다.
먼저 멀티모달 동시 추론의 자원 비용 문제가 있었습니다. VLM, 캡션, OCR 세 모델을 한 프레임마다 병렬로 돌리면 자연스럽게 GPU 자원이 채널 하나당 1대 이상 필요합니다. 95개 채널로 확장하면 인프라 비용이 사업성을 무너지게 합니다. 이를 풀기 위해 FP8 양자화와 모델 경량화를 통해 GPU 한 대로 2~4개 채널까지 처리할 수 있게 만들었습니다. 이 작업이 사실상 사업화 여부를 가르는 분기점이었습니다.
A. 김동원: 더불어 멀티모달 결과의 통합 문제가 있었습니다. 세 모듈이 같은 상품을 다른 표현으로 잡아내거나 한 모듈만 잘못 검출하는 경우, 신뢰도 점수를 매기는 방법이 난제였습니다. ‘몇 점 이상이어야 이 상품이 맞다고 볼 것인가’라는 기준선(임계값)을 어디에 두느냐에 따라 결과가 크게 바뀌기 때문에 실제 방송 데이터로 수많은 검증을 했습니다.
Q. 기술에 대한 실제 고객 반응도 궁금합니다. 기억에 남는 인상적인 고객 반응이 있으실까요?

‘라이브 투 카트’ 부스에서 참가자들과 함께 기술을 시연하는 모습
A. 배주한: 2026년 2월 B tv에서 진행한 라이브 방송 파일럿에서 실제 시청자의 90%가 별도의 안내 없이 화면 프롬프트만 보고 자연스럽게 기능을 발견했다는 점입니다.
기술이 시청 습관 자체를 바꿀 수 있다는 것을 처음으로 실감했습니다. 보통 새로운 IPTV 기능은 별도의 학습 기간이 필요하여 실제 사용자의 사용으로 이어지기가 어려운데, ‘라이브 투 카트’는 시청자가 화면 속 상품에 관심이 있는 상태에서 바로 떠오릅니다. 그에 따라 시청자 절반 이상이 첫 5분 안에 기능을 사용했고, 3명 중 1명은 이 기능 때문에 방송을 더 오래 보게 될 것 같다고 답했습니다.
A. 김동원: 구매 의향 측면에서도 라이브 방송 시청자의 60%가 AI가 추천해준 상품에 대해 구매 의향을 보였고, 69%는 이 기능을 계속 사용하겠다고 응답했습니다. 그리고 73%는 화면에서 발견한 상품 중 하나 이상을 실제로 구매할 의향이 있다고 답했습니다.
특히 네이버 쇼핑과 연동된다는 점이 사용 의향에 긍정적이라고 답한 비율이 65%에 달했는데요. 이는 시청자들이 ‘낯선 별도 커머스가 아니라 내가 평소 쓰는 익숙한 쇼핑 경험’으로 이어지는 것을 중요하게 본다는 의미입니다.
국내를 넘어, 글로벌 TV 커머스의 표준으로
파일럿이 증명한 것은 단순한 숫자가 아니라, 기술이 시청자의 행동을 실제로 바꿀 수 있다는 가능성이었다. 이제 엔터프라이즈설루션개발팀의 시선은 B tv 95개 채널 전면 적용을 넘어 글로벌 무대를 향해 있다.
Q. SK브로드밴드와의 협업을 통해 B tv 95개 채널 전체 확대, 나아가 글로벌 IPTV 사업자 라이선싱까지 목표로 하신다고 들었습니다. 앞으로 이 기술이 어떻게 발전하길 기대하시나요?
A. 배주한: ‘라이브 투 카트’는 세 단계의 확장 로드맵을 갖고 있습니다. 1단계는 B tv 내 95개 상업적 적용 가능 채널로의 확대입니다. 현재 단일 채널 기준으로 연간 약 6만 8천 달러의 매출이 나오고 있습니다. 이 기술을 95개의 채널에 적용하면 연간 650만 달러 규모의 시장을 확보할 수 있게 됩니다.
2단계는 국내 유료방송과 무료 스트리밍 채널(FAST)까지 확장하는 단계입니다. 국내에만 9개 플랫폼에 283개 채널 소스가 있어 잠재 시장 규모는 연간 약 7,920만 달러로 추정됩니다.
3단계는 글로벌 IPTV·OTT·FAST 사업자를 대상으로 기술을 라이선싱하는 단계입니다. 전 세계 600개 이상의 채널 소스와 5,000개 이상의 서비스 노드가 잠재 대상이며 시장 규모는 연간 약 3억 3,980만 달러로 추정됩니다. NAB 쇼 ‘올해의 제품상’ 수상을 계기로, 글로벌 사업자들과의 접점도 넓어지고 있습니다.
A. 김동원: 기술 자체도 두 방향으로 발전시켜 나갈 계획입니다. 현재는 화면·자막·텍스트 세 가지로 상품을 잡아내지만, 앞으로는 오디오 신호나 출연자 스타일 분석, 시청자 취향 기반 추천까지 더해 정확도를 높여갈 예정입니다.
다른 하나는 PPL의 재정의입니다. ‘라이브 투 카트’는 ▲상품 노출 ▲클릭 ▲실제 구매로의 전환, 전 과정을 추적할 수 있기에 PPL을 효과가 측정되는 광고 채널로 바꿀 수 있습니다. 광고주는 투자 대비 성과를 확인할 수 있고, 사업자는 새로운 수익을 얻고, 시청자는 원하는 상품을 바로 구매할 수 있는 구조를 만드는 것이 장기 목표입니다.
Q. 마지막으로, ‘라이브 투 카트’는 두 분에게 어떤 의미의 프로젝트로 남을 것 같나요?

NAB 쇼 2026 ‘올해의 제품상’ 트로피
A. 배주한: AI가 시청자의 실제 행동을 바꾸는 순간을 직접 확인할 수 있었던 프로젝트입니다. 시연 참여자분들이 화면 속 상품을 보고 자연스럽게 QR을 스캔하시는 모습을 보면서, 우리가 만든 시스템이 사람들의 의사결정에 실제로 개입하고 있다는 걸 체감했습니다.
나아가 라이브 방송 내 콘텐츠 화제성에 대한 의존도 없이 일관된 데이터를 추출하고 수익을 낼 수 있는 기술을 더 고민하고 개발하고 싶습니다.
A. 김동원: ‘기술이 사업이 되는 마지막 1마일을 직접 걸어본 경험’으로 남을 것 같습니다. AI 모델 자체는 최근 몇 년 사이 엄청나게 발전했지만, 그 모델을 통해 실제 시청자의 액션까지 이어지도록 하려면 인프라, 비용, 운영, 외부 연동 등 모든 것을 유기적으로 연결해야 한다는 걸 깊게 배운 프로젝트였습니다. 앞으로도 ‘사업 가능한 AI’를 만드는 방향으로 계속 일하고 싶습니다.
엔터프라이즈설루션개발팀은 NAB 쇼 2026 심사위원 한 분께서 시상식 후에 짧게 해주신 코멘트가 가장 기억에 남는다고 덧붙였다. “올해 AI 관련 출품작은 정말 많았지만, 실제 시청자가 쓰고 있는 AI는 흔치 않았다”는 말이었다. 라이브 방송을 세계 최초의 실시간 커머스 채널로 만들어낸 기술, ‘라이브 투 카트’. 국내 B tv 95개 채널 전면 적용을 시작으로, 글로벌 무대를 향한 엔터프라이즈설루션개발팀의 여정은 이제 막 본궤도에 올랐다.