※ <AI 만·사>는 ‘AI 만드는 사람들’이라는 의미로, SK텔레콤 내 AI 업무를 담당하는 임직원 인터뷰 콘텐츠입니다.
통신의 연결성이 중요해지면서, 안정적이고 효율적으로 통신 인프라를 운용하고 관리하는 역량은 Telco의 핵심 과제가 되어가고 있다. 이를 위해 SKT는 통신 인프라에 AI를 적용해 AI 인프라(AI assisted Infra)로 고도화해 나가고 있다. 이번 [AI 만·사] 시리즈에서는 이 과업을 수행하고 있는 Infra AI솔루션팀의 곽민호 님을 만나봤다.
AI 솔루션으로 인프라의 이상을 감지·분석하는 Infra AI솔루션팀
Q. 곽민호 님이 속해있는 Infra AI솔루션팀 소개와 현재 담당하는 일에 관해 설명을 부탁드립니다.
Infra AI솔루션팀은 현장 구성원들과 함께 통신 인프라 영역에 적용할 AI 사례를 기획하고, Network AI Co-worker인간의 업무를 돕는 가상의 동료. 통신 인프라 업무에 도움을 줄 수 있는 AI 기술을 적용해 만든 솔루션. 네트워크 이상을 감지하는 솔루션, 품질을 분석하는 솔루션 등 업무 영역이 다양하며, Network AI Co-worker는 여러 솔루션을 통칭하는 개념.를 개발하는 업무를 하고 있습니다.
저는 Core 및 IP 네트워크 분야에서 특정 장비나 네트워크 고장을 사전에 감지하고 문제의 원인을 분석하는 모델을 개발하고, Network AI Co-worker 솔루션 중 하나인 ‘작업 지능화 AI 과제’를 진행하고 있습니다.
Q. AI를 활용해 네트워크의 이상을 감지하고, 분석하는 업무는 어떻게 이뤄지나요?
네트워크는 고객이 사용하는 단말에서 시작해 수많은 통신 장비를 거쳐 앱 서버까지 연결됩니다. 이 과정에서 시스템 간의 연결이 복잡해져 수천, 수백만 가지 상황이 발생할 수 있습니다. 이러한 모든 상황을 완벽하게 점검하는 것은 매우 어려운 일입니다. 이때, AI 모델을 사용해 비정상적인 패턴을 찾아내고 원인을 분석해 문제를 관리합니다. 이후, 재학습을 통해 AI 성능을 고도화하고 있습니다.
Q. 현재 개발하고 있는 작업 지능화 AI 과제에 관해 설명해 주세요.
작업 지능화 AI 과제는 네트워크 변경 작업에서 발생할 수 있는 인과 관계를 파악하고, 여러 네트워크 작업 일정을 자동으로 조정하고 결과를 분석하는 시스템입니다. 현장 구성원들이 네트워크 고장을 감시하고, 작업과 관련된 데이터를 분석하고 평가할 때 더 나은 결정을 내릴 수 있도록 돕는 역할을 합니다.
예를 들어, 매일 현장에서는 네트워크 최적화와 안정성을 확인하기 위해 명령어 기반 네트워크 작업을 진행합니다. 이때 AI는 해당 명령어가 안정성을 갖추고 있는지, 다른 명령어와 충돌하지 않는지, 위험한 명령어가 입력되지 않았는지 등을 판단해 이슈가 발생하기 전에 조기 진단할 수 있도록 도와줍니다. 사람이 놓칠 수 있는 부분을 AI가 분석해 한 번 더 검증함으로써 네트워크의 안정성을 높이는 기능을 제공합니다.
현장의 통점(pain point)를 해결하는 AI가 ‘진짜’ AI 솔루션
Q. 통신 인프라에 AI 솔루션을 왜 적용하나요? AI가 업무에 어떻게 기여하는지 궁금합니다.
통신의 연결성이 중요해지는 것과 반대로 통신사업자의 네트워크 운용 난이도는 점점 올라가고 있습니다. 신기술이 발전할수록 고객의 일상생활에서 통신의 역할이 더욱 커지고, 안정적인 통신망에 대한 고객의 기대도 높아지고 있습니다. 이러한 이유로 통신망을 안정적으로 유지하고, 고객에게 미치는 영향을 최소화하기 위해 네트워크 고장 긴급복구 체계를 마련하고 있습니다. AI 솔루션은 복잡한 문제를 빠르고 정확하게 분석해 골든 타임 내에 원인을 찾고 조치를 하는 데 큰 역할을 하고 있습니다.
Q. AI 솔루션을 개발할 때 도전 과제나 어려움은 없었나요? 업무를 AI에 적용할 때 가장 중요하게 생각하는 부분이 있다면?
네트워크 운용에서 중요한 철학 중 하나가 “100-1은 0”입니다. 즉, 일상적인 운용을 100번 잘 관리하더라도 한 번의 서비스 중단이 모든 노력을 물거품으로 만들 수 있다는 의미입니다. 수십만 개의 시스템에서 다량의 알람이 발생하는데 AI를 활용해 더 높은 정확도와 정밀도를 유지하는 것이 큰 도전 과제입니다.
특히 장비를 모니터링하고 고장에 대응하는 조직은 이슈 발생 시 골든 타임 내에 원인을 찾아 조치해야 합니다. AI 모델은 기존 패턴을 분석해 장비나 품질에 이상이 있는지 점검하고, 고장의 원인을 추천해 주기 때문에 더 빠르게 문제를 해결할 수 있습니다. 하지만 AI가 잘못 판단하면 모델의 신뢰도가 떨어지고 대응이 지연될 수 있습니다. 이러한 어려움 때문에 특정 시스템에 AI 모델을 먼저 도입하고, 이를 철저히 검증하는 과정을 거친 다음, 기존 환경과 병행하면서 이상이 있는지 판단한 후 점차 확대해 나가고 있습니다.
Q. 업무를 하며 어떨 때 보람을 느끼시나요?
저는 Core Infra 운용부서에서 6년 동안 중요 핵심 장비를 운용한 경험이 있습니다. 이 과정에서 네트워크의 안정성을 높이는 것만큼이나 효율적인 작업 방식이 필요하다는 것을 느꼈고, 이를 개선하고자 지금의 팀으로 이동하게 되었습니다. AI 모델들을 하나씩 배우면서 다양한 시도를 해보았고, 그 결과로 현장에서 느낀 통점(Pain point)을 해결해 나갔던 과정들이 모두 기억에 남습니다. 실제 현장에서 겪는 문제를 해결하는 AI가 ‘진짜’ AI 솔루션이라고 생각합니다. 현장에서 힘들어하는 통점(Pain point)을 해결해 주어 고맙다는 피드백을 받았을 때 보람을 느낍니다.
통신 네트워크에서 이상을 감지하고 원인을 분석하는 일은 여러 글로벌 통신사에게도 매우 중요하지만 어려운 과제입니다. AI 기술에 대한 기대와 현실은 여전히 차이가 있으며, 복잡한 네트워크 이상 상황에 인간처럼 판단하고 행동하는 능력은 아직 네트워크 운용자가 만족할 수준에 이르지 못합니다.
어렵고 도전적인 과제지만 2017년부터 사전적 인지를 위한 AI 개발을 지속해 오고 있으며, 도이치텔레콤과 미팅에서 개발 프로젝트가 큰 주목을 받았습니다. 특히 Core 영역에서 진보된 이상 감지 AI 개발 사례로 소개되었고, 네트워크 장비 상태를 분석하는 Knowledge Graph도 높은 평가를 받아 글로벌 AI 기술을 선도하고 있다는 점에서 큰 보람을 느꼈습니다.
Q. SKT는 글로벌 AI 컴퍼니 지향하며 다양한 AI 서비스를 다루고, AI 업무를 처리하고 있습니다. 그 속에서 Infra AI솔루션팀의 역할은 어떤 의의가 있을까요?
SKT의 통신 인프라는 AI 기술 적용 사례를 많이 만들어 가면서 점차 AI Assisted Infra로 발전해 나가고 있습니다. AI가 일상적인 운용 업무를 지원해 안정적이고 효율적인 네트워크를 만들면 국내외 통신 기술 시장에서 가치를 인정받을 수 있을 뿐만 아니라, 이를 기반으로 비즈니스 활성화에도 기여할 수 있을 것으로 생각합니다. 또한, 고객에게도 더 나은 품질 서비스를 제공할 수 있습니다. Infra AI솔루션팀은 SKT가 글로벌 AI 회사로서 입지를 강화하는 데 중요한 역할을 담당하고 있습니다.