用户登录

中国作家协会主管

作家走走:用大数据为小说做文本分析

来源:澎湃新闻 | 罗昕  2019年10月21日13:39

如何在短时间内速读百万字小说?如何从海量小说中找到最具改编潜力的IP?如何借力人工智能,找到文本阅读或分析时易被忽略的“盲点”?这两年,上海作家走走从未停止过这些思考。

走走的第一份工作在外企,后来写作,进入上海作协,在《收获》杂志做了近十五年的编辑,又在2017年底选择创业。作家、白领、编辑、创业者、产品经理……她的职业标签在不断变化,但也总与“文本”息息相关。

10月18日,走走来到华东师范大学创意写作专业“名家创作谈”系列课程第四期,以“故事曲线与文字密码”为主题,分享了她对文本与写作的理解。华东师范大学中文系副教授项静做主持。

面对一群创意写作专业的学生,走走说:“创意是什么?我觉得不是想象力或者独特的想法,而是你有没有跨界融合的好奇心和野心。”

10月18日,走走来到华东师范大学创意写作专业“名家创作谈”系列课程第四期,以“故事曲线与文字密码”为主题,分享了她对文本与写作的理解。叶杨莉 图

人工智能与大数据,为文本分析带来新可能

刚离开《收获》的时候,不少同行以为走走会从事版权交易。“我从影视切入这行,发现影视公司和我们对文学的认知是不一样的,他们更看重的是网络文学。而我十几年对着纯文学,没看过一部打榜网文。”

接触网络文学后,走走立即发现了一个“痛苦”的地方——网络文学太长了,按她做纯文学编辑时的阅读速度,读完一本长篇网络小说“眼睛都快瞎了”。

这样的“痛苦”对影视公司同样存在,因为他们要从成千上万部网络小说里选出最值得翻拍的作品一二。“我就想,有没有什么办法可以做到可视化的精简,让人迅速掌握小说的情节?”

抱着这样的初衷,走走的创业团队开发了能提炼文本关键元素、计算关键词分布及关系、绘制全文情绪曲线的软件“一叶·故事荟”。有了这一软件,无论是纯文学还是网络文学,无论是多长的小说,读者都可以对小说的戏剧性高潮、故事进度、情绪曲线等一目了然。

去年,走走与复旦大学中文系博士生战玉冰利用软件共同分析了《收获》自1979年复刊以来所刊载的680位作者的1618部小说。通过对小说文本的词频数据分析,他们发现《收获》第一个十年(1979年-1989年)刊载作品的高频词是“我要”,切合“文革”之后个人主体意识的觉醒和自我表达欲望的提升;第二个十年(1990年-1999年)的表达主体从“我”扩展到“我们”,“家庭”伦理关系成为最受关注的话题;在第三个十年中(2000年-2009年),自我表达仍是小说创作的主流,但“我们”“他们”之间的清晰划分体现出社会阶层的分化与固化;到了第四个十年(2010年-2018年),文学创作重新恢复对日常生活的关注、描摹和书写。

“软件是一个工具,帮你观察文本的特征,帮你验证阅读的直觉。有时它甚至可以让你突然发现你在阅读时没有想到的角度。”

借助“一叶·故事荟”软件对《收获》1979-2018年所刊载的1618篇小说文本进行词频数据统计分析。

茅奖作品与网络文学的“高频词”有何不同

在第十届茅盾文学奖公布之后,他们又用软件对48部茅盾文学奖获奖作品的“场景高频词”进行了统计分析,还和2018年中国101部“玄幻与幻想类网络小说”及315部“现代生活与情感类网络小说”的“场景高频词”数据进行了交叉比对。

比对发现,历届茅奖获奖作品中“心里”一词的出现频率明显高于2018年的两大类网络小说。玄幻与幻想类网络小说偏爱“身上”“心中”“心头”等表达,现代生活与情感类网络小说则离不开“家长里短”。

“这是一个很有意思的现象。‘心里’作为茅奖作品高频词,反映了传统作家注重对内心声音的呈现、对人物思想精神的刻画,这也符合我们对 ‘严肃文学’的想象和认知。而‘心中’、‘心头’和‘心里’还不是一个词。网络玄幻多为时空穿越这样的古装故事,所以更常用与古典叙事相近的 ‘心中’或‘心头’。”

历届茅奖获奖作品与2018年两大类网络小说的“场景高频词”TOP15

不过也有特例,比如李洱的《应物兄》。走走说,这部小说“场景高频词TOP15”中都没有“心里”一词,也是48部茅奖获奖作品“场景高频词TOP15”中唯一一部没有“心里”一词的作品。

“这一方面要归因于李洱在小说里采取了一种近乎冰冷的客观叙事态度来取代主观抒情和心理描写,另一方面是因为小说采取了相当复杂的叙事视角,经常在第一、二、三人称之间频繁跳转的写作技巧。”走走提及,《应物兄》常常使用“他问自己”“他听见自己说”这一类表达,将心理描写转化为近乎主客体二者之间的对话。

“这或许可以启示我们创意写作的同学,对用词要有更加精细的把握和打磨。”

借助“一叶·故事荟”软件分析《收获》年度 明快-沉郁 作品比例变化图

通过阅读,看到语言背后的东西

两年的创业,让走走从原本的“舒适圈”跳进和影视平台、制片方、投资人等各方面周旋的世界。她为此写了一部小说《想往火里跳》。

“我一开始用第一人称写,回头看发现会有一股怨气。这种怨气不是技术可以控制的,是忍不住的宣泄表达。”走走说,“为了消解怨气,我又用了第二人称。所以这篇小说一共两个声部,第一个是‘我’,第二个是‘你’。我发现用第二人称写作会有抚慰作用,对自己的理解、关照多一些,但情绪宣泄的部分会减弱。而采用第三人称‘他’的时候,写作者则彻底转向他人立场,与笔下人物保持一定距离。”

有学生提问说,缺乏生活经验的青年写作者如何在网络文学与严肃文学之间寻找出路?走走给出的答案是“看书”——通过阅读经典文本揣摩如何表达生活的细节。

她以佩尔·帕特森的《我抗拒》为例,解读小说的“错位学”。“在小说最后,母亲离家出走了,很多年后客死异国他乡。她的女儿在与牧师的聊天中发现母亲遗留下了一个鞋盒。鞋盒里放了什么?”走走说,“是一个小相框。里面是四个小孩子的照片。女儿看这个照片觉得不对劲,因为照片里的孩子尽管头上的缎带、鞋子的式样都对,但人不对。”

“原来这些照片是母亲从不同的画报上剪下来,最后拼在一起的。”在走走看来,“这种‘错位’叙事非常值得学习和揣摩。如果只是写离家出走时的母亲带走了孩子的照片,就不会有这种感觉。母亲把相似的画像拼贴在相框中,其实是在记忆中重构孩子的形象。这种思念的表达比直接书写更含蓄、也更深刻。”

走走说:“阅读文本,如果没有看到细节,没有看到语言背后的东西,那基本就白看了。我们要看作家如何处理细节,知道为什么这么写,以至于在自己写作时有意识地引入这些东西。”