코로나는 사람들의 이동에 어떤 변화를 가져왔을까? 야구장을 어디에 지어야 더 많은 팬들이 더 편리하게 이용할 수 있을까?
SK텔레콤 뉴스룸은 실험적인 콘텐츠를 시도하는 LAB(랩) 카테고리를 통해 「빅데이터로 보는 세상」을 연말까지 10회에 걸쳐 선보입니다. 「빅데이터로 보는 세상」은 11년간 데이터와 기술이 축적된 SKT 빅데이터 플랫폼 ‘지오비전’을 통해 분석한 사회, 경제 현상을 소개할 예정입니다.
데이터가 세상을 움직인다
2015년 경기도 수원시는 보다 안전한 도시 생활을 위해 CCTV 설치를 확대하기로 했다. 이 과정에서 빅데이터를 통해 CCTV 설치 위치를 결정했다. SK텔레콤는 CCTV 설치 민원 발생 지역, 유동인구가 많은 곳, 지구대 위치, 여성이나 청소년이 많은 곳 등을 다각도로 분석해 CCTV를 설치할 최적의 위치를 찾았다. 이를 통해 설치에 소요되는 시간, 예산을 획기적으로 줄일 수 있었다.
제주시는 어르신들의 대중교통 이용 편의를 위해 버스 정류장 증설을 계획했다. 버스정류장 간격이 넓어 먼 거리를 걷기 어려운 어르신들의 불편함이 있었기 때문이다. SKT는 버스정류장에서 500m 이상 떨어진 어르신들의 거주지역, 이들의 이동 경로 등을 분석해 최적의 신설 버스정류장 위치를 찾았다.
빅데이터가 세상을 움직이는 시대다. 인류는 오랜 시간 동안 개인, 혹은 집단의 경험과 직관에 의존해 의사결정을 해왔다. 그 기간동안 데이터는 의사결정에 참고하는 보조적인 수단으로만 사용되어 왔다. 그러나 스마트폰, SNS 등 기술 덕택에 데이터의 생성, 보관, 분석이 가능해졌으며, 이를 기반으로 한 과학적인 의사결정이 이뤄지고 있다.
특히, CCTV 설치, 버스정류장 증설 등 공공 의사결정은 다양한 의견 수렴 등 절차를 거치게 된다. 이 과정에서 많은 시간과 비용이 들어간다. 빅데이터에 기반한 과학적인 의사결정이 이루어진다면 사회적 비용을 줄일 수 있다.
빅데이터(Big Data)란 데이터의 절대적 양(量)만을 의미하지 않는다. 흩어져 있는 비정형의 데이터를 어떻게 가치 있게 가공하느냐에 따라 그 활용도는 무궁무진하다. 현재 빅데이터는 마케팅, 영업 등의 민간 목적으로만 한정되어 활용되지 않고 있다. 수원시와 제주시 사례처럼 행정, 복지, 정책, 안전 등 공공 목적에도 이미 널리 쓰이고 있다.
올해 시행 1년을 맞은 ‘데이터 3법’ 개정*으로 가명 정보**를 통한 사업자 간 데이터 교차 활용이 활성화되면서, 우리나라는 ‘데이터 경제 시대’로 한 발 더 나아가고 있다.
* 2020년 8월 시행, 개인 정보를 식별할 수 없는 가명 정보로 바꿔 이용할 수 있도록 함. 정부는 올해 시행 1년을 맞아 가명 정보 결합 전문기관을 27개로 확대하고, 가명 정보 결합·활용 확산 지원책을 추가함
** 개인정보를 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용/결합 없이는 특정 개인을 알아볼 수 없는 비식별정보
사회, 안전, 소상공인에 도움을 주는 빅데이터
수원시와 제주시는 공공의사 결정 과정에서 SKT의 빅데이터 기반 실시간 유동인구 분석 플랫폼 ‘지오비전’을 활용했다. 지오비전은 올해 출시 11년째를 맞이한 빅데이터 플랫폼으로, 정부 · 공공 · 지자체 · 민간 수백 곳이 정책 의사결정 과정에 활용되고 있다. 소상공인과 스타트업이 새롭게 사업을 시작할 때 지오비전의 상권 데이터가 큰 도움이 되기도 한다.
지오비전은 탁월한 유동인구 데이터 수집 및 분석 역량이 강점이다. 이를 기반으로 ▲해수욕장·축제·쇼핑시설 실시간 방문객 수 파악 · 예측을 통해 지방정부의 행정 지원 ▲유동인구 및 사각 지대 분석으로 CCTV 추가설치 위치 결정 ▲출퇴근 인구 규모를 파악해 대중교통 노선 개선 등에 활용된다.
지오비전 실시간 유동인구 사이트 화면
지오비전은 기지국에 접속해 있는 사람 수 등을 분석하고, 이를 성별, 연령별 등으로 익명화된 통계를 생성할 수 있다. 특히, 최소 10m 단위로 잘게 쪼개 관리하는 ‘피셀(pCell)*’ 기술로 기존 방식 대비 5배 이상 정밀하다. 지오비전은 ‘지도 위의 빅데이터 플랫폼’이라 할 수 있다.
* 50m 단위로 유동인구를 파악할 수 있는 기술로 최소 10m 단위로 쪼개 관리할 수 있다. SKT 독자 보유
또, 유동인구 정보 뿐만 아니라 현대카드, 부동산 114, 중소기업청, 통계청 등 협력사의 통계 데이터를 하나로 융합해 양질의 DB를 구축하고 있다.
타사 빅데이터와 결합한 ‘가명 결합 데이터’로 더욱 고도화된 데이터 발굴
SKT는 올해 2월부터 신한카드, 코리아크레딧뷰로(KCB), GS리테일, 부동산 114 등 주요 데이터 기업들과 국내 최초로 민간 주도 데이터 댐 구축에 나섰다. SKT 지오비전의 유동인구 데이터, 신한카드의 소비 데이터, KCB의 소득 데이터를 결합해 만들어 낸 가치가 공공영역, 산업 영역에서 다양하게 활용될 수 있을 것으로 기대하고 있다.
예를 들어, 이동·소비·유통 정보를 결합해 자동차 브랜드별 소유주의 소비 패턴을 분석해 어떤 차종의 소유주가 백화점에서 소비성향이 높은 지 예측할 수 있다. 업체들은 해당 데이터를 활용해 각 채널에서 효과적인 타겟 마케팅을 할 수 있다.
SKT Data서비스사업팀 하도훈 매니저는 “가명 정보는 개개인을 알 수 없도록 모두 지운 비식별 통계 정보로, 개인정보 유출 우려가 없다”고 말했다. “지하철 개찰구를 빠져나오는 사람 수를 셀 뿐, 그 사람이 누군지 알 수 없는 것과 같다”고 설명했다.
■ 개인정보 없이 세상을 분석하는 빅데이터 기술
1. 빅데이터를 다루는 기업은 모든 개인정보를 볼 수 있는 것 아닌가?
흔히 알고 있는 개인정보는 특정 개인을 식별할 수 있는 가능성을 포함한 정보다. 빅데이터 분석은 개개인의 특정 정보를 모으고 활용한다는 의미가 아니며, 연령 · 성별 · 거주지별 등 다양한 항목에 따른 행동 패턴을 살펴 새로운 가치를 만드는 활동이다. 때문에 빅데이터 분석에는 익명화된 통계 데이터가 활용되고 있다.
2. 데이터를 안전하게 처리하는 방법 중에 가명 결합은 무엇인가?
가명정보는 데이터에 가짜 명칭을 부여한 정보로, 개인을 식별하지 못하는 수준으로 익명화된다. 가명결합은 기업 혼자 하는 것이 아니다. 신뢰할 수 있는 공공기관을 통해서만 결합이 이루어지며, 가명정보로 이 정보가 누구의 정보인지 특정할 수 없게 된다. 이를 법으로 규정하고 있다.
3. 익명화, 가명화 하는 기술 · 절차는?
‘익명화’는 개인식별정보를 영구적으로 삭제하거나, 개인식별정보의 전부 또는 일부를 기관의 공유식별기호로 대체하는 것이다. 익명화 절차는 데이터 세트에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하여 더 이상 개인을 알아볼 수 없도록 조치한 후, 적정성을 평가한다.
‘가명화’는 가명결합전문기관이 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가정보 없이는 특정 개인을 알아볼 수 없도록 처리하는 것을 의미한다. 정보에 따라 일반화, 범주화, 레코드 삭제 등의 기법을 활용한다.
가명화는 ①가명신청법인과 가명처리 대상/목적을 합의하고 데이터 추출 준비 → ②가명처리 목적/처리/이용환경/이용주체에 대한 위험도 분석과 데이터의 특성을 분석하여 가명처리 방법과 수준을 정함 → ③식별자 삭제/대체, 암호화(랜덤값/해시값 적용 후 암호기술적용) 한 후 일반화, 범주화 기법을 이용하여 가명처리 → ④가명처리한 결과물에 대해 결합기관(법인)이 개인 식별 가능성을 외부 전문가를 활용하여 적정성을 검토하는 단계를 거친다.
익명화와 가명화는 법적으로 허가 받은 법인만 처리할 수 있으며, 개인정보 관리법인의 업무 특성에 따라 가명결합법인도 달리 해야한다.