用户登录

中国作家协会主管

按照作者统计标准,纳博科夫最喜欢的词是“淡紫色”阿加莎克里斯蒂则是“审讯”“不在场证明”和“可怕的” 文学可以计算吗?

来源:长江日报 | 陈琰娇  2020年01月25日09:20

陈琰娇 南开大学文学院青年教师,主要从事电影研究和文化批评。

国内引进图书有个有趣的现象,那就是有时候会只译主标题不译副标题,又或者只译部分标题,各位看官若只是按名下单,有时不免文不对题。上回拿到一本《文学课:如何轻松理解伟大作品》,正准备学习一番,定睛一看才发现原书名里还有“for kids(给孩子的)”俩词没被译出。看来不是给我准备的书,只好转送中学生。这回发现一本《纳博科夫最喜欢的词》,兴致勃勃打开来,才发现这也并不是纳博科夫研究专著。纳博科夫喜欢什么词在这里仅仅是个引子,作者是要用统计的方法来研究“经典、畅销书和我们自己的写作背后的数据到底说明了什么”(What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing)。

尽管有点“标题党”,但确也是一本有趣的书。作者的研究方法是用数据统计来研究文学作品,比如:都说优秀的作品副词少,那么到底要少到什么程度才算好,谁是用副词最少的作家?男女作家在用词习惯上有什么不同,书中的男女角色在表现上有不同吗?我们会在自己的写作中留下“指纹”吗?什么样的开头结尾更受欢迎?当然,看到这里,也许你现在也有了一个疑问——这一连串的“十万个为什么”也算文学研究吗?

随着人工智能热潮的到来,“大数据”成为了这几年最热门的话题之一。不仅互联网要关心大数据,人文社科领域也要研究人工智能,思考数字人文。不仅现代影视剧要将数据库的功能可视化,像《长安十二时辰》这样的古装片中也出现了“大案牍术”,也就是原始的数据管理系统。那么接下来的问题便是,文学真的可以计算吗?

书一开篇,作者就讲了一个破案的故事。话说美国的《联邦党人文集》,收录了汉密尔顿、麦迪逊和杰伊三位政治家的85篇文章,影响深远。由于文章刊发时是共用笔名,所以一开始谁都没说哪篇是自己的。后来汉密尔顿在给朋友的信中分别列出了各篇文章的作者,再后来麦迪逊又说汉密尔顿认领的文章中,有12篇是他写的,于是这作者之争一吵就是一百多年,各方学者谁也说服不了谁。直到1963年,才由两位教授给出了明确答案,而他们既不研究历史,也不研究政治,是货真价实的统计学家。

说来也简单,两位学者分别统计了麦迪逊和汉密尔顿文章中的高频词,再将高频词与12篇文章比对。比如在已确认是麦迪逊的文章中,超过一半使用了“whilst”而“while”从未出现,而汉密尔顿的文章则恰恰相反,三分之一使用了“while”而“whilst”从未出现。类似这样的词,他们选出几十个,逐一对比,最终确认麦迪逊的确是12篇文章的作者。就这样,困惑了历史学家两个世纪的问题,最终被计算机解决了。

沿着这个思路,作者选了9个有趣的话题,对文学作品进行了新的审视。也因此,他才能准确地回答(按照作者统计标准)纳博科夫最喜欢的词是“mauve(淡紫色)”,简奥斯汀最喜欢的三个词是“civility(礼貌)”“fancying(幻想)”和“imprudence(轻率)”,而阿加莎克里斯蒂则是“inquest(审讯)”“alibi(不在场证明)”和“frightful(可怕的)”。

尽管知道了名家最爱用的词、副词使用率、畅销书的性别气质,这样的“文学统计学”也不会在短时间内影响作家的写作和我们对作品的看法,甚至数字人文这个研究领域也存在方法和路径上的争议。但反过来,计算机辅助文本处理技术的发展又的确给我们带来了看待作品的新视角,让我们看见了文本中隐藏的“指纹”。也正是准确无误的数据统计让我们看到了文本背后的无意识,为什么作品会呈现出“这样”的特点,或许值得我们继续思考。