美国记者为什么要学习电脑编程
2015年5月到12月间,我参加了哥伦比亚大学新闻学院下设的Lede项目。这是一个专门培训数据记者的项目,课程涵盖了统计、高等数学、计算机算法、数据库应用以及可视化制作等方面的内容。在这半年多的时间里,我接触到超过20种软件及编程语言(见下图),以供处理不同类型的数据。
一、背景环境及课程开设初衷
作为美国历史最悠久的新闻学院之一,哥伦比亚大学始终走在新闻教育的前沿,不仅为全球新闻行业培养了诸多优秀的记者和编辑,同时也在不断探索媒体行业的走向和发展。数据新闻起源于上世纪六十年代末,一个叫菲利普·梅耶(Philip Meyer)的记者他所供职的《底特律自由报》使用当时的大型计算机(mainframecomputer)整理和收集政府的公开数据,并尝试在报道中加入数据调查结果。后来,做了教授的梅耶写了本叫《精准新闻》(Precision Journalism)的书,详细记述了自己对数据的理解和经验,这本书已成为数据与调查新闻领域的经典著作。到了八十年代末,随着办公电脑的普及,数据新闻扮演的角色也越来越重要,而通过电脑协助完成的报道也开始斩获像普利策这样重量级的奖项。越来越多的从业者开始意识到数据新闻的价值,而全国计算机辅助报道协会(NICAR)也于1994年在密苏里新闻学院正式建立,给业内人士和新闻学院学生提供了更多交流和学习的机会。到了本世纪初,随着社交媒体和手机应用的迅速发展,传统新闻行业受到严重打击。老牌纸媒亏损停刊的不在少数,一大批记者不得不离开纸媒,去互联网公司寻找机会,网络媒体的地位不断得到提升。这些公司依赖于网站订阅和社交网络的传播,大量的读者是手机与平板用户。此外,它们的另一特点是对于数据与交互可视化的重视。
正是在这样的大环境下,哥伦比亚大学新闻学院的两位教授艾米丽·贝尔(Emily Bell)和马克·汉森(MarkHansen) 在聊到目前数据新闻的发展和数据记者的短缺时,不谋而合地提出开设数据培训课程的想法,于是便有了Lede项目。
二、紧贴行业发展的课程设置
1. 交互可视化
虽然学习的内容大多与计算机和编程相关,但Lede的宗旨并不是培养程序员,而是希望学员能够更加准确地分析和运用数据。它的课程分为四个方向:统计学,交互可视化,数据分析和计算机语言。Python,SQL, D3.JS,这些目前在数据新闻界最流行的几种工具对于文科出身的记者来说,可能十分陌生。但实际上,只要掌握一些基本数据结构和编程语法,就可以开始编写简单的程序去整理和分析数据,接下来便是抓取网页信息和制作可视化新闻。
Lede课程总长度为两学期。第一个学期从5月到8月,学习使用编程语言Python进行处理数据,抓取网页,建立模型, 以及简单的机器学习。第二个学期从9月到12月,有了一定编程基础的学员可以根据自己的兴趣在高等数学、数据结构、统计分析、交互可视化制作、大数据挖掘等不同领域选择进修方向。
进修之前,我有一年的数据处理和可视化制作经验,却从未涉及过电脑编程。我大部分情况下都是使用软件,比如Excel和Access,以及可视化工具Tableau,还有各种制作时间轴(Timeline)或是信息图(Infographic)的网站。使用这些资源的好处是上手容易,完成的快。但缺陷是形式比较单一,缺少个性化。上课期间, JavaScript 的一个函式库D3建立动态数据图,令我眼界大开:它设计出的图像简洁、美观,功能丰富,交互性强,很符合媒体的需求。
随着线上读者的不断增加,新闻网站越来越重视在新闻中加入交互与可视化元素。目前被媒体网站广泛使用的开源语言D3.js的开发者Mike Bostock曾是纽约时报的一名图片编辑,他开发的这款工具大大提高了数据图的专业度和灵活性,并且兼容手机浏览器:
以下是几个D3动态图案例:
《纽约时报》——通往白宫的512条路
《纽约客》——美国高校篮球队的预算之争
《那些孤单的人们》—— Lede项目往届学员作品
2.数据分析能力
去年获得普利策调查新闻奖的作品《揭秘联邦医疗保险:数字背后的故事》(Medicare Unmasked: Behind the Numbers)(《华尔街日报》)通过分析超过一百万份医疗账单,公开了联邦医疗保险系统中6000亿美元的走向, 以及这个保险给医院和医生带来的收入变化情况。
专门报道体育和政治新闻的网站538(FiveThirtyEight)以预测比赛和大选结果见长。主编Nate Silver在12年大选期间,利用数据模型近乎完美地预测每一轮的投票结果,并写成文字报道,广受业界好评。自由撰稿人,博客网站“I Quant NYC”的作者Ben Wellington 通过分析纽约市交警一年的罚单记录,发现了纽约最“挣钱”的消防栓一年的“收入”竟多达55000美元,合计33万元人民币。
这些独家新闻的背后,是深度的数据分析和统计知识。现在无论是政府还是企业,数据越来越多地被当做资源利用。作为记者,能够拿到独家数据无疑是如获至宝。但能否用好这些宝贝,还要看记者本身的分析能力。 Excel是一个简单又好用的软件,可以录入数据,整理归类,进行计算(总和、平均数、方差等等),还可以制作简单的数据图表。