Skip to the content

[피플2.0] AI 유토피아를 일구는 데이터 사이언티스트들

Related

※ SKT는 지난해 고객 · 기술 · 서비스 중심의 ‘AI & Digital 서비스 컴퍼니’로의 비전을 발표했습니다. 뉴스룸은 SKT 2.0 시대를 여는 임직원들을 만나 담당 업무와 비전에 대한 이야기를 듣는 시리즈를 기획했습니다. 첫 번째 편으로 SKT 주요 서비스의 AI 모델 개발에서 데이터를 다루는 인물들을 만나봤습니다.

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

AI 모델 개발에서 가장 기본이자 핵심적인 요소는 ‘데이터’이다. 양질의 데이터를 발굴해야만 견고하고 안정적인 모델 구축이 가능하다. 하지만 모든 데이터가 그 자체로 유용한 것은 아니다. 어떤 데이터를 수집해 어떻게 검증하고 가공하느냐에 따라 가치가 달라진다.
‘인간과 AI가 함께 가치를 높이는 세상’, 즉 AI 유토피아를 일구기 위해 노력하는 정형 데이터 파트의 조민구 리더와 김경환 님, 언어 데이터 파트의 이선우 님, ML 데이터 파트의 조남규 님을 만나 업무 영역, 비전 등에 대해 이야기 나눴다.

인간과 AI가 함께 삶의 가치를 높이는 세상을 꿈꾸는 사람들

Q. 하고 있는 업무에 대해 소개를 부탁 드립니다.

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

A. 조민구 리더: 자사 통신 데이터를 분석해 가치를 발굴하는 팀에서 전체 과정을 리딩하는 역할을 맡고 있습니다. 일반 고객 등을 대상으로 대외적으로 활용할 만한, 가치 있는 데이터 인텔리전스를 발굴하고 서비스화합니다. 데이터 분석과 활용 대상을 타 기업, 일반 고객 등 외부로 설정해 진행하면서 ‘모두를 위한 AI 모델’을 심도 있게 고민하는데요. 개발한 콘텐츠들은 향후 PUZZLE(가칭)이라는 서비스를 통해 공개 예정입니다.

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

A. 김경환 님: Data Intelligence Service팀의 데이터 파트 일원으로서 데이터를 통해 고객 삶의 가치를 높이는 영역을 탐구하고, 해당 영역의 서비스와 콘텐츠를 생산하는 역할을 담당하고 있습니다.

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

A. 이선우 님: 언어 데이터를 연구하며 자연언어를 이해하고 생성하는 범용 언어 모델을 개발합니다. 팀에서 저를 포함한 4명의 언어학자가 언어 데이터를 설계 · 수급 · 검수하는 일을 하고 있습니다. 언어 모델이 고도화되면서 AI 에어전트와 사용자가 인간의 대화에 가까운 의사소통이 가능하게 되었습니다. 사용자의 감정에 공감하고 조언과 위로를 건네는 대화형 에이전트도 많이 개발되었는데요. 저희 팀에서도 자연스럽고 적절한 대화를 이끌어가는 모델과 서비스를 개발하려고 노력 중입니다.

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

A. 조남규 님: BioMedical AI개발팀은 AI 모델 자동화 플랫폼인 메타 러너(Meta Learner) 원천 기술 개발과 이를 활용한 사업부 협력 업무를 수행합니다. 저는 의료 영상을 판독해 의료 서비스 품질을 향상하는 Medical AI 분야를 맡고 있습니다.

Q. SKT의 어떤 서비스에서 데이터를 다루고 있나요? 실제 서비스 사례를 공유해 주세요.
A. 조민구 리더: 지난해 당사 통신 데이터를 분석해 지하철 혼잡도와 장소 혼잡도 안내 서비스를 구축했습니다. 코로나19가 확산하면서 덜 붐비는 장소를 알고 싶어 하는 수요가 늘어나자, 이를 반영한 서비스를 개발한 것이지요.

*지하철 혼잡도와 장소 혼잡도 안내 서비스

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

(왼쪽) 지하철 혼잡도 안내 (오른쪽) 장소 혼잡도 안내

 

지하철 혼잡도 안내는 진입하는 열차에 탑승객이 얼마나 많은지 칸 별로 추정한 정보를 제공하는 서비스로 현재 티맵모빌리티의 TMAP 대중교통과 서울교통공사의 또타지하철 앱을 통해 이용가능하다.
장소 혼잡도 서비스는 쇼핑몰과 같이 붐비는 장소에 사람이 얼마나 많은지 확인하는 서비스로 현재 개발하고 있는 PUZZLE(가칭)을 통해 제공할 계획이다.

A. 이선우 님: 저는 국립국어원과의 협업을 통해 수어(Sign Language) 데이터를 모을 계획을 가지고 있습니다. 아직 초반의 준비 단계이지만, 농인들이 수어 사전과 수어 번역기, 수어 아바타 등의 기술로 편리해지기를 꿈꾸며 데이터를 하나하나 수집해 나가고 있습니다.

*범용 언어 모델의 학습데이터 관리를 위한 데이터시트

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

AI tech. module은 수집한 언어 데이터의 품질 관리를 위해 데이터시트를 적용하고 있다. 카테고리, 문체, 학술 분야 등을 기준으로 데이터를 분류한 후 내부 데이터인지 외부 수집 데이터인지 수집 방법과 출처를 관리한다. 적용 모델 현황 등 전처리 과정과 현황을 분석한 후, 개인 정보 침해나 저작권 이슈, 혐오 표현은 없는지 위험도를 확인한다. 이러한 데이터 시트를 활용하여 범용 언어 모델의 학습데이터 안정성을 높이고 있다.

A. 조남규 님: 저는 Medical AI 분야에서 ML 데이터를 활용하고 있는데요. X-ray, CT 등의 의료 영상을 판독해서 전문가가 뇌출혈, 근골격계 질환을 정확히 진단하는데 일조하고 있습니다. 데이터로 의료 서비스 품질을 향상하는 것이지요.

AI, 데이터사이언티스트, 데이터사이언스, AI 전문가, 인공지능, Vision AI, TMAP, SKT2.0, 티맵모빌리티

추상적인 데이터를 실체로 만드는 일, 원석을 연마하는 과정과 같아

Q. AI 서비스를 위해서는 양질의 데이터가 필수입니다. 각자의 업무에서 데이터 연구 노하우가 있나요?
A. 이선우 님: 언어 데이터 파트는 데이터 양이 부족합니다. 수집된 데이터 또한, 개인 정보가 담긴 데이터, 혐오 표현이 포함된 데이터, 정보 중복 등 제대로 걸러지지 않았을 가능성도 많습니다. 저작권법, 망법 등의 법적 이슈를 필터링하고 윤리적 이슈까지 검토하면 유용한 데이터는 소량만 남게 되죠.

이러한 어려움이 있다 보니 언어 데이터 파트에서는 범용성이 높은 고품질의 데이터를 확보하는 데 총력을 기울입니다. 수집 단계에서부터 언어 현상이나 사용 맥락 등을 고려해 데이터 종류와 비율을 설계하고, 확보한 데이터들은 언어학자들의 검수를 거칩니다. 크라우드 소싱 방식으로 ‘좋은 대화’를 바탕으로 한 대화 데이터를 수집하기도 하고, 국립국어원 등 전문 기관과 협업해 새로운 데이터를 수집해 나갑니다.

A. 조남규 님: 의료 영상의 경우 병원마다 사용하는 기기가 달라서 각각 다른 해상도와 형태의 자료를 가지고 있는 경우가 많습니다. 수집 환경이 다른 것도 유용한 데이터를 수집하는 데 변수가 되지요. 예외 상황에서 오는 문제점을 개선하기 위해 데이터 수집 전 설계와 수집 후, 현업 종사자와 합의점 도출을 통한 처리(Data Cleansing) 모듈 추가 등의 방법을 시도하고 있습니다.

‘모두를 위한 행복한 AI 유토피아’를 위한 노력

Q. 앞으로의 비전, 목표를 말씀해 주세요.
A. 김경환 님: AI가 사회적 난제를 해결하고 모든 사람들의 가치를 증진할 날을 기대합니다. 데이터를 기반으로 한 서비스가 한 국가나 기업, 개인만을 위하는 것이 아닌 모든 사람의 삶을 비추길 바랍니다.
A. 조민구 리더: AI 기술이 특별하지 않을 정도로 생활화 되는 때야말로 AI 유토피아가 도래한 시점이 아닐까요? AI를 일상적으로 사용한 날을 앞당기기 위해 데이터뿐만 아니라 데이터가 가치를 발현할 영역까지 발굴하며 많은 사람의 삶에 도움이 될 수 있는 서비스를 개발하고 있습니다.

A. 이선우 님: 앞으로 반복되는 업무를 할 때 언어 모델의 도움을 받게 되길 기대합니다. 업무상 자주 비슷한 답변을 제공해야 할 때, 긴 문서를 요약해야 할 때, 회의록이나 마케팅 문구 생성 등 언어 활용 관련 업무에 AI를 투입하고, 사람들은 더 가치 있고 의미 있는 일을 하는 거죠. 더불어 AI 윤리가 잘 정립되어서 편향이나 차별이 없는 AI가 구현되기를 꿈꿉니다

A. 조남규 님: 앞으로 더 많은 종류의 질병을 정확히 진단하는 근간을 만들어 의료 현장 관계자들과 환자들에게 도움이 되는 서비스를 구축하는 것이 목표입니다. 인간이 AI가 처리할 수 있는 형태의 데이터만을 생성해야 하는 제약에 갇히지 않도록 주도권을 갖고, 기술의 긍정적인 측면과 부정적인 측면까지 예측해야 하는 인간의 사명과 노력에 대해서도 끊임없이 고민하고 있습니다.

 

정형 데이터, 언어 데이터, ML 데이터 분야에서 유용한 데이터를 발굴하기 위해 더 새롭고 나은 방식을 찾아가는 네 명의 개발자들. 앞으로 이들이 데이터를 엮어 실현해 나갈 AI 유토피아를 기대한다.

콘텐츠 사용 안내
이 콘텐츠는 공유, 인용, 배포가 가능하며
사용 시에는 ‘SK텔레콤 뉴스룸’으로
출처 표기
를 부탁드립니다.

문의하기

카카오 채널 안내
SK텔레콤 뉴스룸 카카오 채널을 추가하고
SK텔레콤 소식을 쉽고 빠르게 만나보세요.
추가하기

이 콘텐츠가 SK텔레콤을 이해하는데 얼마나 도움이 되었나요?

답변 선택하기