데이터 전성시대입니다. 올해 4월 시장조사기관 IDC가 작성한 ‘데이터 에이지 2025’ 백서에 따르면 오는 2025년까지 전 세계 데이터 총량이 현재보다 10배 증가한 163 제타 바이트(ZB)가 될 것으로 예측했습니다. 2011년 전 세계 데이터양이 1.8제타바이트(ZB)였으니 15년 만에 100배 가까이 늘어나는 것입니다.
빅데이터, 인공지능, O2O, 클라우드 컴퓨팅 등 4차 산업혁명 시대의 핵심 기술들의 중심에는 모두 데이터가 있습니다. 글로벌 IT기업 오라클 창업자 래리 엘리슨은 데이터를 ’21세기 석유’에 비유했고, 삼성전자는 지난 10월 샌프란시스코에서 개최한 ‘CEO 서밋’에서 가전, 반도체, 전자업체를 넘어 ‘삼성은 이제 데이터 회사’라고 천명하기도 했습니다.
그러나 무수한 인터넷 정보의 바다에서 헤매봤다면 꿰어지지 않은 정보는 백사장의 흩어져있는 모래알이라는 것을 아실 겁니다. 맥락 없이 쌓여 있기만 한 많은 데이터는 차라리 친구가 알려준 작은 소식 하나만 못합니다.
데이터 분석으로 숨은 의미를 찾아내는 전문가
데이터에 의미를 불어넣고, 가치를 부여하여 마침내 매우 귀중한 정보의 금덩어리로 만들어주는 데이터 연금술사가 있습니다. 데이터 사이언티스트(Data Scientist)입니다. 빅데이터 시대에 접어들면서 인기를 끌고 있는 데이터 사이언티스트는 데이터 수집, 가공, 분석을 통해 정보의 숨은 의미를 찾아내 과학적이고 합리적인 의사결정을 돕는 전문가를 말합니다.
데이터 사이언티스트의 손을 거친 데이터는 기업 비용 절감과 매출 상승의 도구가 되고, 교통사고나 범죄율을 줄여주는 해결책이 되기도 합니다. 또, 중요한 선거에서 이길 전략도 됩니다. 심지어 앞으로 전쟁은 데이터 분석을 기반으로 전략을 짜고 드론과 로봇이 이를 수행하는 행태로 바뀔 것입니다.
데이터 분석 전문업체 베가스의 윤석용 대표컨설턴트는 데이터 사이언티스트의 전형(model)이라 할 만합니다. 전산 1세대의 경험부터 첫 직장에서 접해본 데이터 분석 업무, 다양한 전산 프로젝트를 통한 각종 IT툴과 웹 기술 습득, 대기업에서의 전사적 데이터 서비스 노하우까지. 지난 35년의 경력은 윤 컨설턴트가 데이터 사이언티스트의 길을 걸을 수밖에 없는 필연적 과정을 보여줍니다.
윤 컨설턴트는 전산학, 수학, 통계학, IT 등 필수 지식 역량뿐 아니라 호기심과 상상력, 끊임없는 학습 욕구, 업무 도메인에 대한 감각까지 갖췄습니다. 국내에서 손꼽히는 데이터 사이언티스트가 될 수밖에 없는 조건입니다. 하지만 만들어진 엘리트 코스를 따라 쉽게 데이터 사이언티스트가 된 것은 아닙니다. 데이터 분석이나 빅데이터가 직업군으로 들어온 것 자체가 10년도 안 됐기 때문입니다.
“점수에 맞춰 금속공학과에 입학했는데 그때 막 전산 과목이 개설됐습니다. 금속공학은 오래되고 안정적인 학문이지만 1950년대에 이론이 통용될 정도로 변화가 없습니다. 전산은 계속 변하니까 성향에도 맞고 SW 프로그래밍이 너무 재미있었습니다. 수강 과목으로 부족해 청강과 도강을 넘나들며 대학 4년 내내 끈질기게 들었습니다. 그랬더니 전산학과 교수님들도 알아주셨고 전산 장비도 접할 수 있게 허락해 주셨습니다. 아마 지금이었으면 초등학교 때부터 코딩하는 아이로 자랐을 겁니다.”
“1989년 전공과 밀접한 포스코(포항제철)에 입사했지만 전산 업무에 자원했습니다. 당시 기업 내에서 전산직무는 위상이 잡혀있지 않았습니다. 하지만 전산 장비를 만지며 모델을 만들고 데이터를 분석하는 재미에 빠져 그런 것쯤은 아무렇지도 않았습니다. OA 프로세스와 오픈 시스템, 전문가 시스템 등을 다루면서 조업 데이터 등 시계열 데이터를 분석하거나 쇳물의 양을 조절하는 SW 프로그래밍 등의 다양한 업무 경험했습니다. 현대정보기술 재직 시절에는 프로젝트 관리, 데이터베이스(DB) 구조 분석, 컨설팅 업무를 진행했습니다. 또한, 당시 전산 애플리케이션이 웹 기반으로 전환하던 시기였기 때문에 웹 혁명을 가장 앞단에서 체험하기도 했습니다.”
하둡 기술을 만나 데이터의 매력에 푹 빠지다
윤 컨설턴트가 본격적인 데이터 사이언티스트 길을 걷게 된 것은 포스코경영연구소에서 하둡(Hadoop)이라는 대용량 데이터 처리 기술을 접하면서부터입니다. 2005년에 나온 하둡은 빅데이터 시대를 연 주역입니다. 데이터가 아무리 많이 쌓여 있어도 기존 관계형 DB로는 제대로 분석처리가 어려웠는데 하둡이 나오면서 빅데이터 처리는 물론 백업과 리커버리 기능 등이 자동으로 수행 가능해졌습니다.
“여러 프로젝트가 도움이 됐지만 특히 포스코가 ‘실패도 인정하겠다’며 대대적으로 추진한 전사 빅데이터 프로젝트가 매우 귀한 경험이 됐습니다. 20개 빅데이터 프로젝트가 동시다발적으로 진행돼 업무 적용은 물론 방법론 마련, 전문 인력 양성 방안, 중장기 계획까지 빅데이터 A-to-Z를 다져보는 계기가 됐습니다.”
“데이터는 그냥 놔두면 잡동사니에 불과합니다. 그런데 분석하고 인사이트를 불어 넣으면 금덩어리가 됩니다. 무에서 유를 창조하는 기분입니다. 데이터를 들여다보면 산도 그리고, 강도 그릴 수 있습니다. 데이터로 온갖 상상의 나래를 펴는 것이 무척 재미있습니다. 숫자만 보면 머리가 아프다는 사람이 많지만 저는 체질적으로 잘 맞는 것 같습니다.”
윤 컨설턴트는 빅데이터가 제조업에서 훨씬 더 큰 가치를 가져온다고 확신합니다. 제철업을 사례로 들면 역청탄, 원광석 등을 가열해 쇳물을 뽑아내고 이후 슬라브라는 형태를 만들어 내는데, 만들고 나서 제품 결함이 있다는 것을 파악하면 이미 수백억 원, 수천억 원의 손실이 있기 때문입니다. 만약 이전 단계에서 입력 데이터와 출력 데이터 차이를 파악해 데이터를 분석하면 오류나 결함을 사전에 파악할 수 있습니다. 제조업에서는 납기를 맞추고 재고를 관리하는 것이 가장 어려운 작업인데 이것 역시 기존 업무 데이터와 외부 데이터를 결합해 예측할 수 있습니다.
잡동사니가 금덩어리가 되는 순간의 희열
윤 컨설턴트는 요즘 예측 분석에 집중하고 있습니다. 과거 분석을 하는 것도 모두 미래를 대비하기 위한 것이기 때문입니다. 구매든 판매든 담당 직원의 경험에 의존하지 말고 데이터 기반 의사결정이 이뤄져야 한다는 설명입니다. 최근에는 여러 전문가와 범죄 예측 관련한 빅데이터 프로젝트를 진행하고 있습니다. 경찰의 수사기록과 위치 정보, 외부 통계데이터 등을 활용해 재범 가능성 예측할 수 있습니다.
“데이터 사이언티스트가 되려면 다양한 역량이 필요합니다. 수학이나 통계학 지식이 있어야 하고 이를 업무에 활용할 수 있는 전문성도 필요합니다. 또 R이나 파이썬 같은 언어를 다룰 줄 알고 데이터셋을 만들어 프로그래밍할 수 있는 IT 활용 능력도 있어야 합니다. 이처럼 업무 관련 지식이 있어야 데이터 맥락을 좀 더 쉽게 파악할 수 있다고 생각합니다. 그리고 그다음은 지적 호기심, 자유로운 상상 등이 도움이 됩니다.”
윤 컨설턴트에게 데이터 사이언티스트를 택한 이유를 물어봤습니다. 그는 네 가지 이유를 들었습니다. 첫째, 전문가라는 자부심이 있습니다. 둘째, 사회적 가치를 발굴하는 의미 있는 직업입니다. 세 번째는 데이터 사이언티스트로 이름을 올리기는 어렵지만 일단 진입하면 높은 장벽의 이점이 있습니다. 마지막으로 데이터 사이언티스트는 전기, 조선, 자동차, 유통 등 업종과 관계없이 어떤 영역으로도 진출할 수 있다고 답했습니다. 또한, 창업해도 실패 가능성이 작고 교육 분야도 가능하다는 장점도 있다고 말했습니다.
“현재 데이터 사이언티스트의 연봉 수준이나 처우는 매우 좋은 편입니다. 수요보다 공급이 적다는 점도 있지만 이제는 버즈워드가 아닌 부가가치가 입증됐기 때문이기도 합니다. 물론 언제까지나 높은 연봉이 유지되지는 않을 겁니다. 전문인력들이 많이 배출되고 있고 쉽게 쓸 수 있는 도구들도 많이 나올 겁니다. 또 시티즌 데이터 사이언티스트 혹은 셀프서비스 데이터 분석가 등으로 불리는 사람들이 늘어나게 돼 있습니다. 인사 업무를 하면서 데이터 분석을 하고, 마케팅하면서 데이터 분석을 하는 식입니다. 데이터 분석이 보편화되면 데이터 사이언티스트들의 위상이 지금과 같을 수는 없지만 그래도 기본적인 수준은 유지될 겁니다. 데이터 분석의 가치는 문서작성 업무나 단순 코딩과는 다르기 때문입니다.”
앞서 언급한 IDC의 ‘데이터 에이지 2025’ 백서로 돌아가면 2025년의 방대해진 데이터 가운데 20%가 우리 삶에 큰 영향을 끼치며 10%는 우리 삶에 없어서는 안 되는 데이터라고 합니다. 데이터 사이언티스트가 향후 수십 년 동안, 혹은 그 이후에도 유의미한 직업으로 남아있을 것으로 생각할 수밖에 없는 대목입니다.