Skip to the content
AI

AI가 AI를 평가하다, SKT의 LLM 품질 평가 플랫폼 ‘스펙트라(SPeCTRA)’

‘Good Change’는 SKT 뉴스룸이 전개하는 캠페인으로 AX를 통한 일·문화 혁신과 고객 가치 혁신(CX)을 통한 신뢰 회복, 두 방향의 변화를 소개합니다.
[Good Change 콘텐츠 모아보기 링크]

에이닷, 에이닷 오토, SKT 대표 AI 서비스에 새로운 기능이 추가되거나 AI 모델이 업데이트될 때마다 수천 가지 테스트가 진행된다. 하지만 생성형 AI 시대의 품질 검증은 기존 소프트웨어와 달랐다.

같은 질문에도 답변이 달라질 수 있고, 대화가 길어질수록 맥락을 놓치기도 한다. “이 답변이 맞는가?”뿐 아니라 “이 답변이 안전한가?”, “사용자에게 자연스럽게 들리는가?”까지 확인해야 한다. 사람이 일일이 검증하는 방식만으로는 AI 서비스의 빠른 진화를 따라가기 어렵다.

SKT는 이 문제를 해결하기 위해 품질 검증 방식 자체를 바꾸기로 했다. 사람이 하던 검증 업무를 AI가 수행하도록 전환한 것이다. 그렇게 탄생한 것이 생성형 AI 서비스 품질 평가 플랫폼 ‘스펙트라(SPeCTRA)’다. 스펙트라는 AI 서비스가 고객과 만나기 전, ▲안전성(Safety), ▲성능(Performance), ▲톤 앤 매너(Tone & Manner), ▲정확성(Accuracy)을 기준으로 24시간 품질을 점검한다. AI로 일하는 방식을 혁신하고(AX), 그 변화가 더 신뢰할 수 있는 고객 경험(CX)으로 이어지도록 만든 Good Change 사례다.

스펙트라(SPeCTRA)란? — AI가 AI를 채점하다

기존 소프트웨어 품질 기준은 기능이 제대로 작동하는지, 오류가 없는지를 중심으로 설계된다. 그러나 AI 서비스는 다르다. 버튼을 눌렀을 때 화면이 뜨는지처럼 정답이 명확한 검증이 아니라, “이 답변이 자연스러운가”, “이 표현이 적절한가”처럼 맥락과 판단이 개입되는 항목들이 훨씬 많다. 기존 방식으로는 AI 서비스의 품질을 제대로 측정하기 어렵다는 문제의식에서 스펙트라가 출발했다.

SKT가 독자적으로 구축한 스펙트라는 생성형 AI 서비스가 고객을 만나기 전, 안전성·성능·정확성 등을 평가하는 LLM 품질 평가 플랫폼이다. 이름 자체에 이 시스템이 평가하는 네 가지 기준을 담고 있다.

1. Safety(안전성): AI 서비스가 위험하거나 부적절한 말을 하지 않는지 감시한다. 편향적이거나 차별적인 표현, 개인 정보 침해 가능성까지 포함된다.

2. Performance(성능): 다양한 질문에 얼마나 잘 응답하는지, 응답 속도는 적절한지 측정한다.
3. Tone & Manner(말투와 태도): 상황에 맞는 어조로 대화하는지 확인한다. 사용자의 기대에 맞는 어조를 사용하는지가 평가 기준이다.
4. Accuracy(정확성): AI 서비스가 제공하는 정보가 정확하고 최신의 응답인지를 검증한다.

이 4가지 기준을 바탕으로 스펙트라는 ‘입력 → 실행 → 판정 → 리포트’의 4단계 자동화 파이프라인을 24시간 진행한다. 에이닷을 예로 들면, 에이닷에 실제 사용자가 보낼 법한 질문을 넣고(입력), 에이닷이 대화를 진행하면(실행), 에이닷과 다른 AI Model로 그 답변을 채첨하고(판정), 전체 결과를 정량 수치화 하고 그중 낮은 점수 케이스를 선별하여 품질 전문가에게 전달한다(리포트). 사람은 이 선별된 케이스에만 집중해 원인을 분석하면 된다.

단순한 질문 하나를 던져 분석하는 것이 아니다. ‘서울에 사는 30대가 출근길 버스 안에서 에이닷에 물어보는 상황’처럼, 실제 사용자 맥락을 그대로 재현한 시나리오로 테스트한다. 대화가 여러 번 이어지는 상황(Multi-Turn)에서도 맥락이 자연스럽게 이어지는지, 사용자의 모바일 환경까지 반영해 종합적으로 검증한다.

검증 대상은 답변에만 그치지 않는다. 에이닷 4.0에는 사용자와의 대화 내용을 기억하는 Memory(기억) 기능이 추가됐다. “내 이름은 민준이야”라고 알려주면 이후 대화에서도 그 이름을 기억해 자연스럽게 이어가는 기능이다. 에이닷 4.0에 맞춰 진화한 스펙트라는 이 기억 기능까지 검증 범위에 포함했다. 기억해야 할 정보를 정확히 저장하는지, 필요한 순간에 제대로 꺼내 쓰는지, 반대로 오래된 정보는 적절히 갱신되는지까지 평가한다. AI의 답변 품질뿐 아니라 ‘기억하는 능력’까지 검증하는 것이다.

숫자로 본 변화 — “3일 걸리던 검증, 이제는 3시간”

스펙트라 도입 전, 테스트 케이스 1,000개를 검증하려면 3일(하루 8시간 기준 총 24시간)이 걸렸다. 스펙트라 2.0 도입 이후에는 이 시간이 3시간으로 줄었다. 87.5%가 단축된 것이다.

인력 운영 방식도 달라졌다. 반복적인 1차 테스트와 필터링은 스펙트라 시스템이 자동으로 수행한다. 테스트 인력은 절반으로 줄었고, 품질 전문가들은 반복 테스트 대신 원인 분석과 품질 개선 업무에 집중하게 됐다. 과거에는 사람이 테스트 결과를 확인하는 데 많은 시간을 썼다면, 이제는 시스템이 선별한 사례를 중심으로 분석과 검증이 이뤄진다.

검증 과정의 자동화와 함께 평가 기준 고도화도 이뤄졌다. 스펙트라는 인공지능 관리 시스템(AIMS)에 관한 국제 표준인 ISO/IEC 42001의 요구사항을 기반으로 설계됐다. ISO/IEC 42001은 AI 시스템을 투명하고 책임감 있게 운영하기 위한 국제 표준으로, AI 개발·운영 과정의 관리 체계를 규정한다. SKT는 이 기준을 바탕으로 안전성, 정확성, 성능 등 AI 서비스 품질을 평가할 수 있는 자체 검증 체계를 구축했다. 이를 통해 AI가 어떤 근거로 답변을 생성하는지, 그 과정이 적절하게 이뤄졌는지를 보다 체계적으로 점검할 수 있도록 했다.

미니 인터뷰 | SK텔레콤 Biz서비스개발팀 김성수 님

 

Q1. 스펙트라를 처음 기획했을 때, 가장 해결하고 싶었던 문제는 무엇이었나요?

 

A. LLM과 AI 에이전트는 기존 소프트웨어와 근본적으로 다른 특성을 지닙니다. 동일한 질문에도 응답이 달라질 수 있고, 맥락을 기억하지 못해 예기치 않은 오류가 발생하기도 하죠. 기존 테스트 방법론으로는 이러한 문제를 다루기 어렵다고 판단했습니다. 또한 LLM 평가에 대한 선행 사례나 참고할 레퍼런스도 부족한 상황이었습니다. 이에 새로운 품질 기준과 정량 측정이 가능한 프레임워크의 필요성을 느꼈습니다. ‘AI 서비스의 신뢰성을 보장하고 품질을 정의하는 설계자’로서 평가 과정을 자동화하고 정량 수치로 전환하는 것을 목표로 검증 과정을 해결하고 싶었습니다.

 

Q2. 에이닷 4.0에 따라 스펙트라가 업데이트되면서 가장 달라진 점은 무엇인가요?

 

A. 에이닷 서비스가 개인화 중심으로 업데이트되면서, 평가 대상의 근거가 되는 데이터 확보가 필수적이었습니다. 유관 부서의 협조를 통해 검증용 데이터 API를 제공받아 해결할 수 있었고, 덕분에 에이전트의 처리 과정까지 들여다볼 수 있는 기반이 마련되었습니다. 이후 ‘대화 기억’에 대한 평가 품질 지표를 고도화하고, 병렬 실행 구조를 도입함에 따라 자동 평가 파이프라인의 처리 속도도 크게 향상되었습니다.

 

Q3. 스펙트라의 하반기 추진 계획과 방향에 대해 말씀 부탁드립니다.

 

A. ‘스펙트라의 범용 플랫폼화’를 목표로 다음 단계를 준비하고 있습니다. 기존 에이닷 서비스에 국한하지 않고, LLM이 도입된 사내외 에이전트에서 스펙트라의 평가 지표를 활용하고 자동 평가를 제공할 수 있는 구조로 확장해 나갈 계획입니다. 나아가 검증 서비스의 완성도를 높이기 위해 TestCase AI 자동 생성 기능도 함께 준비하고 있습니다.

검증된 AI, 달라지는 고객 경험

현재 스펙트라가 적용된 서비스는 에이닷, 에이닷 오토, T맵이다. 이 서비스들이 업데이트될 때마다 해당 플랫폼을 통한 검증을 거친다. 서비스 사용자에게 직접 보이는 시스템은 아니지만, 품질 검증 체계는 AI 서비스의 일관성과 안정성을 유지하기 위한 기반 역할을 한다.

일관된 품질
어제 질문받은 내용을 오늘도 비슷한 수준으로 답하는 것은 당연한 것처럼 느껴지지만, 사실 AI 모델이 업데이트될 때마다 이 일관성은 흔들릴 수 있다. 스펙트라는 매 배포마다 동일한 기준으로 채점해 품질의 기준선이 내려가지 않도록 잡아준다.

더 자연스러운 대화
에이닷이 이전 대화 내용을 기억하고, 사용자의 상황에 맞게 응답할 수 있는 것은 기억(Memory) 기능 덕분이다. 이 기억 기능이 제대로 작동하는지, 잊어야 할 것은 잊고 기억해야 할 것은 기억하는지까지 검증한다. 자연스럽게 이어지는 대화 경험의 뒤에 스펙트라의 검증이 있다.

안전한 AI
안전성(Safety) 검증을 통해 에이닷이 부적절하거나 위험한 답변을 생성하지 않도록 상시 모니터링한다. 사용자가 편안하게 에이닷에 말을 걸 수 있는 것은 이 안전망이 작동하고 있기 때문이다.

SKT는 올해 6~7월 중 스펙트라를 정식 공개할 예정이다. 범용화된 스펙트라는 에이닷뿐 아니라 사내외 다양한 AI 서비스의 품질을 평가할 수 있도록 확장된다. AI 서비스의 질문과 답변 데이터를 연동하면, 스펙트라의 평가 기준에 따라 품질을 정량적으로 측정할 수 있는 구조다.

여기에 테스트 항목 자동 생성 기능도 함께 준비되고 있다. 기획 문서와 화면 설계서를 입력하면 AI가 테스트 케이스를 자동으로 작성해 주는 기능으로, 기존에 사람이 수백~수천 건씩 수기로 작성하던 작업을 대폭 줄일 수 있다. 내부 서비스에서 쌓아온 검증 경험과 기술 역량이 더 넓은 영역에 적용될 수 있는 기반을 갖춰가고 있는 것이다.

생성형 AI 서비스가 산업 전반으로 확산되면서 품질 검증의 중요성도 커지고 있다. 스펙트라는 AI를 활용해 품질 검증 과정을 자동화하고, 이를 에이닷과 T맵 등 실제 서비스 운영에 적용하고 있다. 품질 검증 방식의 변화가 서비스 개발 과정에 어떤 영향을 가져올지 주목된다.

콘텐츠 사용 안내
콘텐츠 사용 시에는 SK텔레콤 뉴스룸 출처 표기를 부탁드립니다.
카카오 채널 안내
SK텔레콤 뉴스룸 채널을 추가해 보세요.
추가하기