[여운이 남는 데이터저널리즘] 데이터 노노? 사실 데이터저널리즘 배우고 싶었어…

데이터 노노? 사실 데이터저널리즘 배우고 싶었어…

 

SBS 배여운 기자

 

아는 지인으로부터 “데이터저널리즘은 이제 한 물 간 거 아냐?”란 말을 들었다. 빅데이터, 인포그래픽과 같이 한때의 유행했던 것과 별반 다르지 않냐는 의미로 들렸다. 과연 그럴까? 최근 데이터저널리즘 팀이 국내 언론에서 자취를 감춘 건 맞다. 올해 1월 KBS 데이터저널리즘팀이 해체됐고, 기사도 찾아보기 힘들어졌다. 신문에서는 가장 성과가 좋았던 중앙일보 데이터저널리즘 팀, 한국일보 뉴스래빗 팀이 없어졌지만 새로운 팀이 생긴 언론사는 거의 없다. 왜 그럴까?
분명 팀으로 존재하기에는 조직 안에서 ‘성과’를 인정받아야만 살아남을 수 있다. 여기서 성과란 자주기사를 보도하거나 많은 이들에게 각인될만한 보도가 필요한데 이런 기준에서 보면 비효율적인 게 맞다. 1-2개월씩 걸리는 데이터 작업 시간과 딱딱한 숫자로 점철되는 데이터저널리즘을 찾는 이는 드물다. 하지만 기자들의 관심까지 사라진 건 아니다. 요즘같이 언론의 혁신을 요구하는 시대에 데이터저널리즘을 공부하겠다는 기자는 오히려 많아지고 있는 걸로 보인다. 한국언론진흥재단의 데이터저널리즘 강의는 매번 빠른 마감을 기록할 정도다. 그래서 이번 편은 데이터저널리즘에 대해 많이 들어왔던 질문에 대한 답변을 공유하고자 한다. 평소 데이터저널리즘에 대한 오해와 궁금증을 풀 수 있는 계기가 됐으면 한다.
가장 많이 물어보는 질문은 바로 ‘자격’이다. 태어나서 한 번도 데이터를 다뤄본 적이 없는데 과연 데이터를 분석하고 이를 바탕으로 기사를 쓸 수 있겠냐는 자기 검열이다. 데이터저널리즘 팀에서만 데이터저널리즘 기사를 써야 한다는 법은 없다.
또한 데이터저널리즘 팀이 무조건 있어야 기사를 쓸 수 있는 것도 아니다. 정치부, 사회부, 경제부 등 일선 부서에서도 데이터만 다룰 줄 알면 충분히 날카롭고 통찰력 넘치는 데이터 기사를 만들 수 있다. 하지만 해본 적이 없으니 데이터 분석책 목차만 펼치다 끝나는 경우가 대부분이라고 한다.

Q. 그래서 데이터저널리즘 배우면 뭐가 좋은데?
A. 가장 큰 장점은 로우데이터raw data 분석을 통해 보도자료를 넘어서는 새로운 사실을 캐낼 수 있다는 점이다. 공직자 재산 데이터에서 공직자들의 재산 평균값을 넘어선 불법과 편법 사례, 전국 초·중·고교의 석면 사용 실태, 국회의원들의 부적절한 정치자금, 국회 예산 분석과 같은 기사들은 데이터 속에서만 발굴할 수 있는 대표적인 훌륭한 기사들이다. 로우 데이터가 제공하는 다양한 변수를 조합하면 기존 통계와 보도 자료에서는 발견할 수 없는 사실들을 이끌어 낼 수 있다.
특히 통계청에서 제공하는 마이크로데이터(MDIS)는 통계청에서 발표하는 공인 통계에 쓰인 데이터를 공개하기 때문에 다양하고 새로운 통계를 기자가 직접 이끌어 낼 수 있다는 점도 매력적이다. 물론 기술을 더해서 포털의 댓글을 수집하고 여론을 분석하는 것도 데이터를 다루는 기자에게 훌륭한 재료가 될 수 있다.
새로운 사실을 도출하는 것 말고도 탐사보도와 궁합이 좋다는 점도 매력적이다. 최근 국내외 탐사보도는 데이터를 많이 활용하는 추세다. 최근 이달의 기자상을 수상한 탐사보도 기사를 분석해 보면 일정 수준 이상의 데이터를 깊게 분석한 것을 알 수 있다. KBS 데이터저널리즘 팀의 분석가들은 탐사보도부에 합류하기도 했다. 방대한 자료를 분석하고 검증하려면 이제는 일정 수준 이상의 데이터를 다루고 자료를 검증하는 단계가 필요하기 때문이다.

Q. 나도 데이터저널리즘 배울 수 있나요?
A. 데이터저널리즘에는 자격은 없다. 누구나 데이터에게 질문하고 답을 얻는 과정을 거치는데 이는 취재원에게 묻고 사실을 캐묻는 과정과 별반 다르지 않다. 즉, 데이터도 취재원이 될 수 있는 현실이고 데이터에게 질문하는 법, 즉 데이터분석을 공부하면 누구나 데이터저널리즘 기법을 활용할 수 있다. 데이터저널리스트로 기자 경력을 시작하는 경우도 있지만 취재기자가 데이터를 배웠을 때 더 유리한 점도 많다. 출입처를 통해 넓게 보고 들은 사실과 특정 취재원에게만 받을 수 있는 데이터는 현장에 있기 때문에 가능한 지점이다. 그리고 무엇보다 데이터 분석에서 알 수 없는 현실의 반영에도 유리하다. 다만 새로운 기법을 배우기 때문에 꾸준하게 학습할 필요가 있는데 매일 시간에 쫓기다 보니 배운 걸 익히고 활용할 기회가 없다는 게 주변 취재기자들의 안타까운 상황이었다.

Q. 데이터저널리즘 팀을 만들고 싶은데 어떤 사람이 필요한 가요?
A. 팀을 만들고 싶어 하는 언론사도 많다. 탐사보도에 데이터저널리즘을 접목하고 싶은 방송사, 별도 데이터저널리즘팀을 만들고 싶은 언론사들이 없는 건 아닌데 내부에서 데이터저널리즘을 이끌 인력이 없다는 게 다수 언론의 고민이다.
아쉽지만 국내에 언론사에서 데이터 분석 업무를 하고 싶어 하는 인력은 없다. 더 정확하게는 오고 싶어 하지도 않는다. 개발자들이 언론사를 기피하는 이유와 크게 다르지 않다. 경력 직군을 찾는 게 힘들다면 데이터를 다룰 수 있는 신입을 뽑는 방법이 효율적일 수 있다. 기자를 지망하는 학생들 다수가 일정 수준 이상의 데이터를 다루는 수준이 뛰어난 경우를 자주 본다. SBS 데이터저널리즘팀 마부작침에서 인턴을 했던 학생들은 올해 뉴스타파 데이터 팀과 경향신문 데이터저널리즘 팀에 데이터 기자로 입사했다. 데이터를 다루고 보도하는데 어려움 없이 역할을 묵묵히 수행하는 걸 보면 신입에 대한 걱정은 굳이 할 필요는 없다. 기존 공채 시스템에서 데이터를 활용하는 능력을 보는 경우가 거의 없는데 향후 입사 전형에 이 같은 능력을 검증할 수 있다면 보도국에 큰 도움이 될 수 있다.

Q. R? 파이썬? 꼭 배워야 하나요?
A. 정말 많은 질문을 받았다. 물론 처음이고 잘 몰라서 물어보는 경우가 많기 때문에 항상 친절하게 답변을 주고 있는데, 이 질문을 비유하자면 기사를 쓰는데 ‘한글 프로그램으로 쓰는 게 좋을까요? 아니면 워드를 사용하는 게 좋을까요?’ 란 질문과 비슷하다. 결국 R언어와 파이썬은 데이터를 다루는 도구일 뿐이다. R언어는 통계와 데이터 분석을 목적으로 나온 언어이며 오픈소스이기 때문에 유용한 패키지가 많다는 장점이 있다. 반면 파이썬은 데이터 분석뿐만 아니라 서버를 만들고 딥러닝까지 할 수 있는 범용 언어란 장점이 존재한다. 중요한 건 데이터저널리즘에서는 어떤 언어를 쓰더라도 웬만한 것들을 다 할 수 있기 때문에 언어 하나를 정해서 꾸준히 학습하는 걸 추천한다.
한편으로는 데이터 크기가 엑셀을 넘어서는 경우가 늘어나고 있다. 엑셀은 데이터를 불러올 수 있는 행과 열이 1,048,576행×16,384열 수준이다. 하지만 예를 들어 촛불 집회에 얼마나 많은 인구가 특정 집계구에 몰렸는지 분석하기 위해 서울시 생활인구데이터를 분석하려면 엑셀에서는 불가능하다. 공공데이터도 시간이 흐르면서 데이터가 쌓이기 때문에 엑셀을 넘어선 R과 파이썬 언어가 이제는 충분조건이 아닌 필수조건으로 다가오고 있다.
유럽데이터저널리즘센터에서 제공하는 무료강의(MOOC)에 R과 파이썬을 배울 수 있는 강의가 있으며 10월에 열리는 뉴스타파 데이터저널리즘 온라인 강의도 데이터저널리즘을 배울 수 있는 좋은 기회이다.