美国记者为什么要学习电脑编程 (2)
但当数据量达到上十万或者百万时,Excel就会开始显得有些力不从心,有时光是打开表格就要处理很久。这样一组结构整齐,数量庞大的数据称为数据库。同属于微软办公软件的Access是一款容易上手的数据库软件, 如果每个Excel 表格是一个子文件,那么 Access就是存储和调用这些表格的工具。使用数据库软件可以方便管理、查询、访问、调取库中的具体信息。没有经过处理的数据被记者当作一手资料使用,找到这样的数据令记者兴奋不已,因为那里可能就有下一条独家新闻。但处理原始数据往往是最消耗时间的,对记者的数据能力也是一个很大的考验。错误的拼写,不连贯的格式,以及中间缺失的信息,这些都是最常见的数据问题。而若想从政府部门获取更加准确和完整的数据,得到的答复往往是滞后的。为了满足新闻的时效性,记者需要学会一些处理“肮脏”数据的技巧:比如在数据库中建立一个“错字表”,将错误的拼写和正确的拼写分别录入两列中,然后通过对比“错字表”和原始数据,找出数据库中所有出现错误的地方,再将它们统一替换为正确的拼写。整个过程一分钟都不需要。而且也便于日后追踪和更新记录。
对于熟悉编程的记者来说,还可以使用数据库语言SQL直接对数据下达各种指令,至于电脑如何实现这个指令,则是不需要用户去考虑的。此外,在处理数据方面,Python和R被数据记者广泛使用。Python是一款多功能的计算机语言,由于其功能全面,语法简单,成为不少编程入门者的首选。不同于软件,编程语言允许用户在高层数据结构上工作,功能也更加强大。比如Python中一款热门的绘图插件Matplotlib,让用户可以直观地看到数据的走势发展或是同类对比,这些通常是记者最感兴趣的地方。
三、数据分析在实际工作中的运用
在课程设计上,美国的新闻学院整体走实用路线,lede项目也不例外。个人作业和小组项目贯穿整个课程。这样的安排不仅让学员有更多机会练手,丰富个人作品集,为毕业后找工作铺路。此外,对于编程新手来说,一个主要障碍是自己写的程序经常出现“bug”,而又不知道问题出在哪儿。 幸运的是网络上关于编程的资源很多,大部分问题在谷歌、百度上搜一下就能找到答案。 对于应用为主的数据记者而言,能够找到解决代码问题的方法,甚至比学习编程本身更有意义,而课堂练习的目的也正在于此。
每学期末,学员都要完成一篇独立的数据新闻报道,题材不限。我的选题是利用自然语言处理,分析微博网友对去年五一期间“成都女司机变道被打”这个热点议题的态度和立场。通过对7000多条微博的分析,我发现在女司机劣迹斑斑的驾驶记录被公开之前, 97%的网友表示了对她的同情和支持,而这一比例在她劣迹斑斑的驾驶记录被曝光后,迅速跌至38.4%。这个语义分析用到了机器学习中两个使用广泛的模型:决策树和朴素贝叶斯。我将自己人工分析的大约1000条微博录入到模型中,而它通过一系列复杂的运算,建立起一个分类器,将剩下的6000条微博按照语义进行分类。概括来说,就是将数据按比例分成培训用和测试用两部分,先人工处理培训用的数据,然后将它们“喂给”你所选择的统计模型,让电脑“学习”你的处理结果,再将测试用的数据尽可能地按照你的逻辑思维去分类。
近年来,科学家不断地在机器学习(machinelearning)方面有所突破,人工智能离我们的生活越来越近,而自然语言处理一直是机器学习的一个重要领域。《纽约时报》和英国广播公司(BBC)率先在公司内部建立起新闻实验室,让电脑学习语法结构,自动生成新闻稿件。去年《纽约时报》制作了一个名为“Blossom”的机器人,可以预测新闻在社交媒体上的点击率,从而帮助编辑选择应该发布的内容。截止目前,有不少媒体都开始尝试更加复杂的数据分析和处理。《达拉斯早报》在一篇调查德州学生作弊的新闻中使用统计学中的回归模型分析学生的成绩分布;《洛杉矶时报》利用聚类分析法,计算出每个社区的犯罪情况,并对犯罪率有可能上升的地区做出预报;路透社去年通过一系列复杂的模型分析,调查出美国最高法院的判决结果是由一小群精英律师主导着,这则报道后来被普利策奖提名。
四、技能固然重要,但内容才是新闻的灵魂
Lede课程已经举办了两届,学员来自不同国家,背景多种多样。在我的这些同学中,既有编辑室的主编,也有刚毕业的大学生,既有学新闻出身的,也有学社会学和其他人文学科的。大家参加这个项目的目的各有不同,有些人想集中学习一下数据技巧,然后返回编辑室继续工作;有些人希望通过这个项目申请计算机或是数据科学的研究生。在与同学的交流中,我开始了解数据新闻在其他国家的发展,以及不同国家的记者最关注的话题,这个项目也让我认识了不少同行。
离开学校回到编辑室,我更加意识到,数据技能固然重要,但并非数据新闻的全部。想要做出好故事,依旧不能忽略传统新闻中采访和写作的重要性。数据可以帮助我们找到突破口,可视化可以帮助我们丰富画面,但内容才是新闻的灵魂。因此,在谈论数据新闻时,我们不能只依赖电脑和网络上的信息,而是要继续亲自走访现场,采访专家和线人,调查取证,一遍遍修改稿件,核实内容的准确性,这样才能让报道更加准确、深入、全面,具有影响力。