데이터 저널리즘팀 본격 가동, 뉴욕 타임스·NPR 탐방기_KBS 성재호 기자

가이드6-성재호01 

가이드6-성재호02   

지난 6월 갑작스럽게 제게 일이 하나 주어졌습니다. 탐사보도팀에서 유일하게 아이템 빈곤에 시달리는 저였기에 군말 없이 맡았습니다. 덕분에 그동안 막연하게만 생각해 오던 ‘데이터 저널리즘’에 대해 좀 더 분명히 알게 됐고 이렇게 글까지 쓰게 됐네요.

요즘 IT 쪽에서 유행하는 단어가 있죠? ‘빅 데이터’Big Data라고. 정부가 선정한 10대 핵심기술 가운데 하나라나… 근데 이게 알고 보니 남의 일이 아니더라고요. 무슨 얘기냐 하면 향후 우리 기자들의 밥벌이와도 관련됐다는 겁니다. 물론 과거에도 데이터data를 활용한 보도는 있었습니다. 탐사보도에서 자주 사용하던 CAR(Computer-Assisted Reporting: 컴퓨터 활용 보도)도 데이터 활용 보도라고 볼 수 있겠죠. 다만 지금부터 얘기하는 데이터 저널리즘은 탐사보도의 CAR보다 ‘데이터 시트’ 그 자체에 더 많은 비중이 실려 있다고 합니다. (『The Data Journalism Handbook』 중 ‘Data Journalism in Perspective’)

 

데이터 저널리즘 기사는 무엇이 다른가?
먼저 데이터 저널리즘 사례를 몇 가지 들어보겠습니다.

가이드6-성재호03

가이드6-성재호04

http://www.theguardian.com/world/interactive/2012/may/08/gay-rights-united-states

지난해 가디언이 인터넷판을 통해 보도한 미국의 주별 동성애자 권리의 실태를 일목요연하게 보여준 기사입니다. 올해 세계편집인네트워크GEN가 수여하는 데이터 저널리즘 본상을 수상했습니다. 모두들 인터넷에 접속해 직접 기사를 경험해 보시기 바랍니다. 화려하지만 직관적이고 이해하기 쉽게 미국의 지역별 동성애자 권리를 전하고 있습니다. 글보다는 그래픽이 화면의 대부분을 차지하지만 전통적인 기사와 비교해 훨씬 많은 정보를 독자들에게 훨씬 쉽게 전달하고 있습니다. 데이터 저널리즘이 가진 강점이죠. 하나 더 살펴볼까요?

가이드6-성재호05 

가이드6-성재호06

http://connectedchina.reuters.com/

로이터가 만든 중국의 권력 그룹 분석 보도입니다. 역시 데이터 저널리즘 본상 수상작입니다. 반드시 접속해서 직접 경험해 보세요. 엄청난 통계량뿐만 아니라 중국의 권력 그룹을 네트워크 분석과 놀라운 그래픽을 통해 일목요연하게 정리, 전달하고 있습니다. 놀랍죠? 마치 대학이나 연구소에서 발표한 학술 자료 같아 보이기도 하고… 하지만 내용을 이해하고 정보를 얻기에 정말 쉽고 편리하죠. 이 모든 것은 해당 언론사 기자들이 한 것입니다.

탐사보도 기자의 새 이름 – 데이터 저널리스트
도대체 어떤 기자들이 어떻게 해서 이런 보도를 하는 것일까요? 지난달 초 데이터 저널리즘을 조사하기 위해 미국의 대표 공영 라디오방송인 NPRNational Public Radio과 이젠 가장 큰 유료 인터넷 언론사 가운데 하나로 탈바꿈한 뉴욕타임스에 다녀왔습니다. NPR에서는 데이터 저널리즘을 이끌고 있는 뉴스앱스팀News Apps team의 데이터 에디터 매트 스타일스Matt Stiles를 만났고 뉴욕타임스에서는 인터랙티브 뉴스팀Interative News team의 에디터 애런 필호퍼Aron Pilhofer와 얘기를 나눌 수 있었습니다.

성재호2

뉴욕타임즈에서 GITMO Story를 만든 마고 윌리암스(사진 맨 왼쪽, 최근 ICIJ로 옮겼다), NPR 뉴스앱스팀 데이터 에디터 매트 스타일스(오른쪽 두번째)와 함께

NPR의 뉴스앱스팀은 최근 시카고 트리뷴Chicago Tribune에서 자리를 옮겨온 에디터 브라이언 보이어Brian Boyer를 포함해 모두 7명인데요, 데이터 애널리스트data analyst인 매트 스타일스 외에 디벨로퍼(프로그래머) 3명과 웹디자이너 2명으로 구성돼 있습니다. 디벨로퍼든 디자이너든 이들 모두 기자로서의 경험이 있으며 특히 매트의 경우엔 법조 기자를 하다가 정부의 한 사이트에서 방대한 데이터를 수집하기 위해 ‘프로그램’을 배워 만들기 시작하면서 데이터 저널리즘의 세계에 발을 들여놓았다고 합니다. NPR은 뉴스앱스팀 말고도 7명으로 구성된 탐사보도팀 안에 매트와 같은 데이터 애널리스트가 있어 독자적인 데이터 탐사저널리즘을 수행하고 있다고 합니다.

뉴욕타임스 역시 데이터 저널리즘의 강자로 정평이 나 있는데요, 애런 필호퍼가 에디터로 있는 인터랙티브 뉴스팀은 16명의 디벨로퍼(프로그래머)로 구성돼 있습니다. 또한 CAR팀에도 5명의 데이터 전문가가 일하고 있고, 디지털 그래픽과 디자인 전문가도 각각 8명과 7명이 일하며 데이터 저널리즘 구현에 참여하고 있습니다. 애런은 이들 모두를 합친 37명이 뉴욕타임스에서 데이터 저널리즘에 종사하는 인력이라고 말하면서 자신은 이들 모두를 ‘데이터 저널리스트’data journalist라고 정의한다고 말했습니다. 데이터 저널리즘에선 글을 쓰고 마이크 잡는 사람만이 기자라고 할 수 없다는 것이겠죠.

성재호1

 NPR 뉴스룸

탐사보도팀의 필수 인력 – 데이터 애널리스트 

그런데 데이터 저널리즘팀마다 왜 프로그래밍과 데이터 분석을 할 수 있는 (혹은 해야 하는) 저널리스트가 있는 것일까요? 국내에서 거의 유일한 데이터 저널리즘팀이라고 할 수 있는 뉴스타파의 데이터저널리즘 연구소가 지난 봄 보도한 ‘국정원 트위터 분석’을 예로 들어 보겠습니다. 제가 이 보도에 참여한 사람이 아니긴 하지만 들은 얘기를 토대로 설명하자면 이렇습니다. 뉴스타파는 지난해 말 국정원 직원 댓글 사건 이후 트위터 공간에서도 국정원 직원들이 활동했다는 정보를 얻고 이와 함께 몇몇 의심 트위터 계정을 확보했습니다. 그리고는 이들 트위터와 연관된 트위터 계정과 내용을 수집했고(주로 리트윗을 연결고리로 했겠죠?) 이를 토대로 수백 개의 국정원 의심 트위터와 수십만 개의 관련 트윗을 추출해 SNS상에서의 조직적인 그룹 활동을 분석하고 일부 계정 운영자의 실명을 밝혀내기까지 했습니다.

그럼 이 같은 정보는 어떻게 수집하고 분석했을까요? 제가 알기로는 국내 어느 SNS 관련 회사도 자신들이 축적한 트윗 정보를 제공하지 않은 탓에 뉴스타파가 직접 외부 프로그래머의 도움을 받아 웹크롤러web crawler 프로그램을 만들어 트윗을 긁어모았다고 합니다. 이렇게 모은 트위터 계정과 트윗을 엑셀과 같은 스프레드시트에 정리한 다음 아주 귀찮은 클리닝 작업을 거쳤겠죠. 그리고는 사회관계망 분석SNA: Social Network Analysis 프로그램을 이용하여 트위터 계정들 사이의 관계를 정리하고 분석해 그룹화했다고 합니다. 이 과정에서 데이터 애널리스트와 CAR 전문가 등이 필요한 거죠.

‘어휴~, 엑셀 하나 배우기도 벅찬데 CAR에 프로그래밍까지?’ 네. 맞습니다. 저처럼 이제 20년 차를 향해 가는 기자한테 이 모든 것을 배우라는 것은 좀 가혹하죠. 제가 NPR과 뉴욕타임스에서 만난 데이터 에디터 매트와 애런(물론 이 두 사람은 데이터를 다루는데 매우 능숙한 기술들을 갖고 있습니다.)은 이렇게 말합니다.

“기존의 기자들에게 프로그래밍 언어를 배우도록 하는 것은 멍청한 짓이다. 그것보다 저널리즘적 소양이나 관심이 있는 프로그래머, 데이터 애널리스트를 기자들과 한 팀에 묶어 일하도록 하는 것이 효율적이다. 그러다 보면 서로의 일을 이해하고 배우면서 데이터 저널리스트로 성장할 것이다.”

이런 조언도 있습니다.

“데이터 저널리스트가 되려면 항상 스스로 학습을 해야 한다. 엑셀이나 프로그래밍을 무조건 배우기보다 데이터와 관련된 것을 취재하면서 자연스럽게 답을 얻기 위한 스킬로 배워야 한다.”

데이터 저널리즘으로 무엇을 바꿀 것인가?
지금까지 제가 이번에 데이터 저널리즘과 관련한 조사를 하면서 중요하다고 느낀 것을 일부 정리해 봤습니다. 물론 데이터 저널리즘이 기존의 전통적 저널리즘을 완벽히 대체할 수는 없을 것입니다. 더구나 여전히 일방적 전달 구조를 갖고 있는 방송 프로그램에서 데이터 저널리즘을 어떻게 반영할 수 있을지도 분명치 않습니다. 하지만 데이터 저널리즘은 분명 이 시기의 커다란 흐름이자 도전 과제입니다. 웹 검색에서 우연히 알게 된 ‘시선’이라는 블로그 운영자의 말을 빌려 데이터 저널리즘의 중요성에 대해 다시 생각해 봅니다.

“혹시 우리는 정부와 거대 기업, 전문 기관이 내놓은 보도자료를 바탕으로 원천 데이터에 대한 검증조차 없이 마치 이게 진실이고 전부인 양 시청자들에게 전하고 있지는 않은지요?

수많은 사람들이 활동할 때마다 생산되는 로그 데이터, SNS를 통해 주고받는 수억 건의 기록들보다 특정 조직의 구성원이나 저잣거리의 일부 목소리를 인터뷰해놓고 이를 여론이라 하고 있지는 않은지요?

열린 정부를 통해 오픈된 공공 데이터보다 공문서 하나 얻어내기 위한 이른바 ‘샤바샤바’에 우리의 취재력을 모두 소모하고 있지는 않은지 한번 돌이켜 보는 게 어떨까요?”