Skip to the content
AI

[테크 스토리] 에이닷에 적용된 거대언어모델 GPT-3가 무엇일까?

추천 콘텐츠

※ ‘어렵게 느껴지는 기술! 쉽게 이해할 수 없을까?’ <테크 스토리>는 기술에 관한 궁금증을 꼬리에 꼬리를 무는 질문을 따라가며 풀어보는 기획 시리즈입니다. 기술과 친해져 보세요.

2020년 6월 오픈(Open)AI*가 발표한 연구 논문**은 AI 학계와 업계는 물론, 일반인들까지 충격에 빠지게 했다. 오픈AI는 이 논문에서 자사가 개발한 초대형 인공지능 기반의 언어 생성 모델 ‘GPT-3’를 공개했다. 이 언어 모델이 작성한 뉴스 기사는 인간이 쓴 것과 구별이 어려웠고, GPT-3로 구현한 챗봇과의 대화는 이전과 비교할 수없이 세련됐다.

딥마인드의 알파고 이후, 또 한 번 AI가 세상의 주목을 받는 순간이었다. 그 후, 2022년 5월, SK텔레콤은 GPT-3 기반으로 한 ‘성장형 AI 서비스, A.(에이닷)’을 공개해 고객들의 일상에 도움을 주겠다고 나섰다. GPT-3가 무엇이길래 관심을 받았는지, GPT-3의 현재진행형 ‘A.’이 나온 배경은 무엇인지, 꼬리에 꼬리를 무는 질문을 따라 살펴본다.
* 일론 머스크와 샘 알트먼이 설립한 인공지능 회사
** Language Models are Few-Shot Learners, 31명의 공동 저자가 발표한 74쪽 분량의 연구 논문

GPT-3가 뭐길래?

에이닷, OpenAI, GTP3, AI언어모델, AI, 인공지능, 테크스토리

GPT-3는 오픈(Open)AI가 개발한 AI 언어 모델인 GPT의 3세대 모델로, 2020년에 공개되었다. AI 언어 모델은 쉽게 말해서 기계가 인간의 언어를 이해하고, 구사할 수 있도록 하는 기술이다. 실제화된 예로 자동번역, 챗봇이나 음성 비서를 생각하면 된다.

GPT를 직역하면 생성적 사전학습 트랜스포머(Generative Pre-trained Transformer)이다. 여기서 생성적은 변수들의 관계를 밝히는데 쓰이는 통계적 모델을 의미한다. 트랜스포머(변환기)는 구글에서 2018년 개발한 딥러닝 모델 중 하나로, 대량의 데이터를 학습하는데 유용하여 AI 언어 모델이나 AI 비전에서 근래에 활발하게 사용되고 있다.

GPT-3는 기존 AI 언어 모델들보다 더 많은 데이터를 학습할 수 있는 구조를 목표로 개발되었고, 웹에 존재하는 45TB의 방대한 텍스트와 책들, 위키피디아를 실제로 학습한 결과, 그 언어 구사 능력이 매우 뛰어남을 보여주었다.

GPT-3는 어떻게 사람처럼 대화하거나 글을 쓸까?

GPT와 같은 AI 언어 모델들은 방대한 텍스트 데이터를 입력 받아, 문장 내 단어들 사이의 연관성을 스스로 찾는 비지도학습을 통해 좀 더 높은 언어 지능을 얻는 것을 목표로 한다. 이러한 AI 언어 모델의 출발은 컴퓨터가 자연어를 처리하는 기술(NLP, Natural Language Processing)이다. 초기에는 문법과 같은 언어 규칙을 기계가 잘 이해할 수 있는 형태로 만드는데 초점을 두었다. 그러다, 컴퓨터의 연산 속도와 디지털화된 데이터의 증가, 딥러닝 등이 AI 언어 모델에도 도입되면서 인간이 컴퓨터에게 언어 규칙을 알려주기보다는, 컴퓨터가 스스로 학습을 하게 되었다.

예를 들어, “한국의 수도는 어디인가?”를 묻는 질문에 답을 하는 경우를 생각해 보자. 초기의 자연어 처리를 이용한 전문가 시스템이라면, 문법 규칙을 정의한 컴퓨터 프로그램이 질문 문장을 분석하고, 지식 데이터 검색을 통해 ‘서울’이라는 후보 답안 찾고, 다시 문법 규칙에 맞추어 “한국의 수도는 서울입니다”라고 출력한다. 이에 비해 GPT-3와 같은 AI 언어 모델은 백과사전을 모두 입력하여, AI가 스스로 단어들 간의 연관성을 파악하도록 한다. 스스로 학습을 통해서, 한국, 미국, 서울, 제주, 수도, 도시 등에서 한국, 수도와는 서울이 가장 잘 연결된다는 것을 통계 확률적으로 계산해 내는 것이다.

에이닷, OpenAI, GTP3, AI언어모델, AI, 인공지능, 테크스토리

GPT-3의 대답 과정은 사람이 질문한 “한국의 수도는 어디인가?”에 이어질 단어로 확률이 가장 높은 후보는 ‘한국의’이고, 이어서 나올 후보 단어는 ‘수도는’, 마지막으로 ‘서울입니다.’를 순차적으로 알아내는 것이라고 단순화할 수 있다. 이런 지능은 백과사전 글들의 사전 학습을 통해서 얻어진 것이다. GPT-3는 이런 단어들의 관계를 한국, 서울, 수도의 3차원이 아닌 거대 규모의 차원으로 계산하기 때문에, 짧은 문장 하나가 아니라, 기사나 짧은 에세이 정도 분량의 문장으로 단어들을 이어갈 수 있는 것이다.

비유하자면, 알파고가 바둑의 몇 수가 아닌 수십 수를 멀리 볼 수 있었던 것처럼, GPT-3는 순차적으로 이어질 단어들 수십 개를 알아낼 수 있다. 우연이 아닌 것이, 알파고와 GPT-3 모두 AI 딥러닝 기술에 기반하고 있음이다.

어디에 실제로 쓰일까?

GPT-3는 딥러닝을 이용해 그럴듯한 문장 번역, 작문, 텍스트, 자연스러운 언어 표현을 바탕으로 한 감성 대화 등의 결과물을 만들어냄으로써 업계의 큰 주목을 받았다. 초기 GPT-3 API가 외부 개발자에게 공개됐을 때, GPT-3 기반 애플리케이션만 300개가 만들어졌고, 국내외 빅테크 기업들이 AI 모델을 개발하고, 서비스 개발에 박차를 가하게 되는 계기도 되었다.

에이닷, OpenAI, GTP3, AI언어모델, AI, 인공지능, 테크스토리

GPT-3 기반 애플리케이션 사례. 출처: OpenAI

AI 언어 모델의 활용처는 챗봇이나 AI 음성비서, AI 자동번역 외에도 다양하다. 예를 들면, 고객의 소리를 모아서, 자동으로 요약하거나 문제가 무엇인지 파악하는데 사용할 수 있다. 실제로 전 세계에서 가장 유명한 고객관리시스템(CRM) 업체인 Salesforce가 GPT-3를 이용한 실험들을 하고 있다.

이미 화제가 되었던 것처럼, 글을 요약하거나, 뉴스 기사나 칼럼을 쓸 수도 있다. 어떤 제품에 대한 기사나 SNS 글들을 모아서 입력하면, 마케팅에 활용할 문구를 뽑아내는 카피라이터 역할이 가능하다. 각종 영수증이나 급여명세서 등을 다양한 형태로 입력해도, 그 언어들을 이해하여 가계부나 회계장부를 작성해 줄 수도 있다.

단어들 간의 관계 학습이라는 점에서, 프로그래밍 언어를 학습시키면 코딩도 시킬 수 있다. “타이틀과 버튼, 입력란이 있는 웹 페이지를 만들어줘.”라는 요청에 웹 코딩 결과로 답한다든지, 간단한 데이터 추출용 코드를 만들어 낸다든지 하는 GPT-3 API 활용 코딩 예제들은 쉽게 찾아볼 수 있다.

다른 AI 언어 모델들도 있는데, 왜 GPT-3가 주목을 받았을까?

GPT-3는 영국 언론지 ‘가디언’에 ‘나는 인간을 파괴할 생각이 없다’라는 기고문을 쓰며 주목받았다. 당시 가디언지 편집국은 AI가 작성한 글을 편집하는 것이 칼럼니스트의 글을 수정하는 것과 크게 다르지 않았다고 말했다. 또한, GPT-3가 작성한 뉴스 기사가 기존에 사람이 작성한 기사인지 판별하는 테스트에서, 실험자들은 평균 52%로 구분에 성공했다고 한다. 가장 확률이 낮은 것은 12%의 실험자들만이 AI 작성 기사일 것이라고 추측하는데 성공했으니, 그 수준이 얼마나 높은지 짐작할 수 있다.

이런 일화들을 넘어서서, GPT-3가 유사 AI 언어 모델이나 이전 세대의 GPT 기술과 다르게 다가온 것은 학습 데이터의 엄청난 양과 이를 처리할 수 있는 모델의 구조 때문이었다. GPT-3는 방대한 양의 데이터 셋(3,000억 개의 토큰)과 매개변수*(1,750억 개)를 갖췄다고 알려졌다. AI의 기술 발전은 곧 매개변수 수를 높이는 것이라 할 정도로, 매개변수가 많을수록 AI는 더 정교한 학습이 가능하다. GPT-3는 이러한 결과로 높은 언어 수준을 갖출 수 있었다.
* AI에 데이터를 입력하고 원하는 결과를 도출하기 위해 찾아내는 변수. 인간의 시냅스와 유사한 역할을 한다. 인간 뇌 속 시냅스 수는 약 1,000개 조.

에이닷, OpenAI, GTP3, AI언어모델, AI, 인공지능, 테크스토리

그림에서 볼 수 있듯이, 언어 모델의 규모가 10배, 100배 이상 커져서 GPT-3 수준에 이를 때에, 모델의 테스트 정확도는 수%, 10~20% 수준에서 50~60%를 넘어서는 수준으로 높아져서, 쓸만한 언어 지능이 확보될 수 있겠다는 가능성을 GPT-3가 보여준 것이다. GPT-3의 AI 언어 모델 자체는 전혀 새로운 것은 아니지만, 양적인 변화가 임계치를 넘어서는 것만으로도 질적인 차원의 변화를 가져온다는 점을 보여주었기에 AI 분야에 시사하는 바가 컸다. 이 때문에, 구글, 마이크로소프트, 메타 등도 AI 언어 모델 규모의 거대화 경쟁에 합류해 사례를 만들어내고 있다. 우리나라 빅테크 기업들의 투자와 연구도 활발한 상황이다.

SK텔레콤도 개발을 오랫동안 해왔다는데?

GPT-3를 개발한 오픈AI의 사례를 보듯, 향후 AI 언어 모델을 보유한 기업이 미래 시장에서 경쟁우위를 점할 것으로 보고, SKT는 2018년부터 AI 언어 모델을 개발해왔다. 특히, GPT-3에 이용된 데이터가 대부분 영어 기반이기 때문에, 한국어 AI 중심의 토종 GPT-3 개발에 지속 투자해왔다.

에이닷, OpenAI, GTP3, AI언어모델, AI, 인공지능, 테크스토리

SKT는 ’19년 KoBERT를 개발해 고객센터 챗봇 등에 활용하고 있다. ’20년 4월 KoGPT-2 개발을 완료해 챗봇의 대화를 보다 자연스럽게 발전시켰다. ’20년 10월에는 뉴스나 문서를 고품질 요약문으로 만들어 내는 능력 등 텍스트 처리 역량이 뛰어난 KoBART를 개발해 자연어 이해 및 처리 영역 기술력을 강화했다. ’21년 4월에는 국립국어원과 한국어에 적합한 차세대 AI 언어 모델 개발 업무 협약을 체결했다. ’22년 5월에는 SKT가 자체 개발한 GPT-3 기반 한국어 특화 버전이 탑재된 ‘AI 서비스 A.(에이닷)’의 안드로이드 오픈 베타 버전을 대중에게 공개했다.

에이닷에 GPT-3는 어떻게 쓰일까?

SKT는 왜 B2C 기반의 AI 서비스를 출시했을까? ‘A.’은 ‘따뜻한 기술’로 고객의 불편을 바로잡고, 모바일 환경에서 고객에게 좀 더 도움이 되는 서비스를 제공하겠다는 SKT의 ‘AI 서비스 컴퍼니’를 향한 지향점을 담고 있다.

‘A.’에 탑재된 AI 언어 모델은 SKT가 GPT-3 구조를 기반으로 한국어 특화 버전을 자체 개발해, B2C로 내놓은 첫 번째 AI 서비스다. GPT-3 기반으로 한 일상적인 대화와 고객이 요구하는 특정 작업 처리를 자연스럽게 결합했다. ‘A.’을 설치한 이용자들은 나만의 개성을 반영한 캐릭터를 만들고 꾸밀 수 있으며, AI 캐릭터와 음성 대화(또는 문자)를 통해 자유롭게 대화하고 궁금한 정보를 물어볼 수 있다. T맵, UT, FLO, wavve 등을 A. 앱 안에서 편리하게 이용할 수 있다.

에이닷, OpenAI, GTP3, AI언어모델, AI, 인공지능, 테크스토리

출시 초, 한시적 프로모션으로 FLO with A. 이용권이 제공돼 매월 90곡 음악을 무료 이용할 수 있으며, 데이터 무료 제공 프로모션도 받을 수 있다. ‘A.’은 오픈 베타 서비스로 아직은 초기 버전의 서비스다. 고객과 함께하는 ‘성장형 AI 서비스’인 만큼, 많은 고객들이 ‘A.’과 대화하며 교감하는 기간을 통해 성장하며 진화할 예정이다.

콘텐츠 사용 안내
이 콘텐츠는 공유, 인용, 배포가 가능하며
사용 시에는 ‘SK텔레콤 뉴스룸’으로
출처 표기
를 부탁드립니다.

문의하기

콘텐츠 사용 안내
콘텐츠 사용 시에는 SK텔레콤 뉴스룸 출처 표기를 부탁드립니다.
카카오 채널 안내
SK텔레콤 뉴스룸 채널을 추가해 보세요.
추가하기

이 콘텐츠가 SK텔레콤을 이해하는데 얼마나 도움이 되었나요?

답변 선택하기