수집·정제에서 분석까지_KBS 이경진 기자

시작이 반이라는 말이 있다. 필요한 정보를 수집해 오류를 바로잡는 것은 데이터 저널리즘 전체 과정에서 실제 ‘의미 있는’ 절반에 해당한다. 그리고 정제된, 분석이 가능한 데이터를 손에 넣었다면 다음은 그 데이터가 품고 있는 의미를 찾아내야 한다. 즉 데이터 분석이다. 이제 기사를 완성하는 데 남은 건 현장 취재를 통해 미흡한 사실관계의 고리를 확인하고, 스토리텔링으로 실체와 감동을 더하며 데이터를 시각적으로 보기 좋게 만드는 과정이다. ‘데이터의 수집과 정제, 분석’이 데이터 저널리즘의 시작이자 핵심인 것이다.

데이터, 어떻게 수집할까?
KBS 김태형 기자는 ‘데이터’를 기준이 있고, 정렬이 가능한 것이라고 정의한다. 뉴스 제작에 쓸 수 있는 데이터를 수집하려면 현장 취재로 직접 자료를 입수하거나 인터넷 검색 엔진을 활용할 수 있다. 또 정부 3.0에서 제공하는 공공데이터 포털 같은 사이트를 활용하거나, 부족하면 정보공개청구 제도를 활용할 수도 있다. 인터넷에서 반복적인 검색 작업을 하는 크롤링 검색 로봇으로 필요한 자료를 뽑아내 정리하는 웹 스크래핑 방법도 있다. 다만, 프로그래밍 능력이 있어야 한다. 그래서 현실적인, 초보적인 방법을 몇 가지 살펴보자면 우선 ‘구글(고급)검색’이 있다. “”(큰따옴표), site, filetype 같은 명령어를 사용하거나 검색의 정확성을 높이는 핵심 키워드를 고민해 다양한 조건에 맞는 결과를 찾아낼 수 있다.

출입처를 옮길 때마다 해당 출입처 소속 기관들의 정보를 한눈에 볼 수 있는, 혹은 관련 업무 내용을 다루고 있는 사이트를 확인해 보고 이를 모아 두는 것도 데이터 수집이 필요할 때 꽤 큰 자산이 된다. ‘정보공개시스템’ 활용이 좋은 사례다. 이런 시스템을 활용하면 정부 부처, 특정 기관이 ‘발표하는’ 자료가 아니라 그들이 어떤 자료를 ‘생산하는지’를 파악할 수 있다. 정부 3.0의 일환인 공공데이터 포털은 교육, 국토관리, 재정, 행정, 산업, 식품, 문화 등 분야별 정보를 파일, 오픈 API, 데이터 시각화 형태로 제공한다. 이 외에도 전자공시시스템, 온나라부동산정보, 공정거래위원회 대규모 기업집단공개시스템, 공공기관 경영정보공개시스템, 유치원·학교·대학알리미, 대법원 인터넷 등기소, 정책연구관리시스템, 통계청, e-나라지표, 국회법률지식정보시스템, 국회예산정책처, 북한정보포털 등이 있다.

기술적인 능력도 필요하지만, 데이터를 수집하는 일련의 과정에서 필요한 건 ‘창의적으로 생각하기’가 아닐까 싶다. 이는 방송기자로서 반복적인 제작 업무에 익숙해질수록 가장 잘 안 되는 부분이기도 하다. 어떤 사건·사고가 났을 때 그 관리 주체는 어디일까, 비슷한 사건·사고를 기록해뒀을 법한 기관이 있지 않을까, 현장 조사 담당자라면 어떻게 했을까, 다음 단계는 무엇일까…. 이런 자문을 해 보는 것만으로도 어떤 데이터를 어떻게 찾을지 단서를 잡기는 훨씬 수월할 수 있다. 미국 NBC 스티븐 스탁Stephen Stock 기자가 문제성 어린이집에 대한 당국의 부실한 관리에 대해 보도할 때 ‘왜 국·공립 보육 기관에 대한 예산이 삭감됐지? 아이들에게는 투표권이 없으니까? 보육기관 내에서 부당한 일이 반복적으로 일어났는데? 이런 보육기관에 대한 당국의 제재 정보가 기록돼 있겠지?’라는 생각들을 펼치다 마침내 “어떤 당국에도 어린이집에 대한 관리 정보가 없다는 걸 발견했다.”고 했듯이 말이다. 여기까지 취재해 기사를 썼다면 사회부성 기사가 됐을 텐데 스탁 기자는 그 길로 위반사항이 발생한 어린이집의 이름과 위치, 위반 횟수, 당국의 관리 체계에 대한 자료를 조사해 데이터를 구축했고, 이 데이터에 현장 취재를 더해 데이터 저널리즘 방송 기사를 완성했다. 전미탐사보도협회(IRE)의 데이터 전문가 제이미 도우델Jaimi Dowdell의 설명은 더 와 닿는다. “히스패닉들에게 부정적 인식을 갖고 있다는 평가를 받는 시장이 있었다. 그 시장이 히스패닉 밀집 지역에 주류 판매 허가를 잘 내주지 않자 사람들은 시장이 히스패닉을 차별한다고 주장했다. 하지만 시장은 그 지역에 음주사고가 유독 많기 때문이라고 반박했다. 여기까지 기사를 쓰면 특정 지역의 그저 그런 갈등 뉴스다. 그런데 실제로 그 지역의 음주 사고 통계를 찾아 결과를 보도하면 어떤 일이 벌어질까?”

데이터 정제, 오류를 바로잡아라
데이터를 모았다면, 필요 없는 부분을 없애고 분석 가능한 형태로 만들어야 한다. 데이터 정제는 지극히 기술적인 작업이다. 가장 대표적인 데이터 정제 도구는 엑셀과 같은 스프레드시트다. 앞서 설명한 정보공개 사이트들이 제공하는 원본 데이터는 대부분 ‘제공’, ‘열람’의 목적으로 생산된 것이라서 엑셀 파일이라고 하더라도 대부분 빈칸, 오·탈자, 일정하지 않은 입력 형식 등을 포함하고 있기 때문이다.

“데이터는 절대 완벽하지 않다”
데이터는 수치다. 그래서 진실만을 말할 것이라고 생각하기 쉽다. 결과를 보여주는 마지막 단계에서는, 데이터가 우리 눈에 보이지 않던 진실을 말해 준다. 하지만 그 과정에서의 데이터는 그렇지 않다. IRE의 도우웰은 데이터가 절대 완벽하지 않다고 강조한다. 데이터도 기본적으로 사람이 생산하는 것이기 때문에 원본 데이터의 수치 자체에 오류가 있을 수 있다는 얘기다. 주어진 자료를 그대로 믿지 말고 일단 확인하는 습관을 지녀야 한다. 전통적인 취재 기법에서 팩트를 확인하고 또 확인하듯이 말이다. YTN 함형건 기자 역시 데이터에 대한 과신을 버려야 데이터 저널리즘이 산다고 강조한다.

“데이터를 인터뷰하라. 우리는 기자다”
이렇게 정제된 데이터를 분석하는 것, 데이터 저널리즘의 핵심이다. 데이터에 숨어있는 의미를 찾는 것, 기자의 역할이다. 미국 포인터 재단Poynter Institute의 방송·온라인 분야 전문가 알 톰킨스Al Tompkins는 “그저 데이터를 생산하는 데 그치지 말고 진실을 찾아라(Don’t just produce data, produce truth).”고 조언한다. 그러기 위해서는 수집하고 정제한 데이터를 인터뷰해야 한다는 게 IRE의 도우웰이 말한 내용이다. 기자들이 가진 주요한 기술 가운데 하나는 인터뷰가 아니던가.
엑셀의 피벗 테이블은 데이터를 인터뷰하는 데 있어 훌륭하고 효과적인 기능을 제공한다. 국회의원 후원금 내역처럼 수백 명의 국회의원, 그보다 더 많은 후원자의 명단과 후원금 액수 등이 포함된 자료에서 의미 있고, 쓸모 있는 데이터를 가려낼 때는 피벗 테이블 기능을 사용할 수 있다. 하지만 이 피벗 테이블을 사용할 때도 어떤 항목을 어떻게 정렬하느냐에 따라 결과가 크게 달라지기 때문에 피벗 테이블 활용이라는 기술적인 능력을 갖추는 동시에 분석하려는 사안 자체에 대한 이해와 핵심 데이터를 빠르게 찾아내는 훈련이 필요하다.

“중요한 건 숫자가 아니라 사람이다”
데이터 저널리즘은 언뜻 과학 기술에 기초한, 전통적 의미의 방송 뉴스 취재와는 많이 다른 것처럼 느껴지지만, 본질은 그렇지 않다는 것을 이번 교육 과정을 통해 알게 됐다. 그래서 포인터 재단의 알 톰킨슨이 “중요한 것은 숫자가 아니라 사람”이라는 점을 첫 수업에서 강조한 게 아닐까 한다. 수집과 정제, 분석을 통해 완성된 데이터는 하나의 이야기를 만들어 낸다. 그게 곧 기사다. 기자는 현장 취재를 통해 그 이야기의 가해자, 피해자를 만나봐야 한다. 왜 이런 숫자가 나온 건지 직접 들어보고 기사를 써야 한다. 알 톰킨슨은 기자들에게 수차례 힘주어 말했다. “숫자에는 문맥이 필요하다. 문맥 안에서 빛을 본다. Data, Numbers, People…. 데이터는 결국 기자를 사람들에게로 이끈다.” 데이터 저널리즘이 방송 뉴스와 어떻게 결합할 수 있는지, 데이터 저널리즘이 방송 뉴스와 결합할 때 어떤 힘을 가질 수 있는지, 여기에 답이 있다.

근본적 물음과 한계
이번 교육 과정은 데이터 저널리즘에 대한 많은 의문을 해소하고 지식을 얻는 계기가 됐다. 하지만 역설적이게도 배움의 과정에서 가장 큰 한계를 느낀 건, 그 시작 단계인 데이터의 수집에서 였다. 미국과 비교할 때 우리나라에서는 데이터를 모으는 것 자체가 쉽지 않다. (정치적, 역사적 배경이 아주 다르기 때문에 당연한 일이지만) 정보의 개념과 그 정보를 공개한다는 개념에 대한 인식을 놓고 볼 때 우리나라와 미국 사회는 아주 큰 차이를 보인다. 기본적으로 미국 사회는 공적인 이유로 생산된 정보라면 대부분 공개한다는 원칙을 갖고 있다. 정보공개청구라는 과정을 거치지 않아도 문제의식이 있는 사람이라면 일단 뒤져볼 수 있는 자료가 넘친다.

내년에 총선이 치러진다. 데이터 저널리즘이 가장 잘 활용될 수 있는 분야 가운데 하나가 선거 보도인 만큼 미국에서는 어떤 좋은 사례들이 있는지, 알 톰킨슨에게 추천을 부탁했다. Open Secret, ProPublica, PolitiFact, Fact Check…. 알 톰킨스가 추천한 정치 관련 사이트들은 대통령과 유력 정치인, 정당 등을 기발한 방법으로 검증하거나 검증할 수 있는 자료를 제공하고 있었다. 그렇지만 당장 내년에 우리나라에서 선거보도를 할 때 참고하기에는 너무 멀리 가 있는 사이트들이라는 불평부터 입 밖으로 튀어나왔다. 지금은 기자들을 교육하는 자리에 있지만 오랫동안 현장에 있었던 ‘선배 기자’인 알 톰킨슨은 이렇게 받아쳤다. 정치인들의 공약을 일일이 확인해 데이터를 만들어 나가는 것도 기자의 일이라고. 나아가 정보가 공개되지 않는다면 그 이유는 뭔지, 정보가 공개되지 않아 피해를 보는 사람은 누구고 이득을 보는 사람은 누구인지, 그것도 취재해야 한다고. 우리는 기자니까.