用户登录

中国作家协会主管

试析“历史化”视野中的电子史料问题

来源:《中国当代文学研究》2019年第5期 | 黄育聪  2019年09月25日14:31

内容提要:当代文学的“历史化”需要依托史料的收集、整理与运用。“史料”的电子化带来保存的方便与搜索的迅捷,但也带来传统史料学之外的新问题。对作家“历史”的研究因电子化而受到冲击,特别是人工智能与辅助写作工具的出现,使作家创作史、阅读史等研究难度增大。在读者接受史研究上,受“算法”与“推送”的影响,平台能精准预测与掌握读者反应,读者则通过付费、审查等反馈机制,限制了作家创新。此外,在数据库建设中,还未出现新的学术思维,规范化论文写作也给人工智能的介入留下空间。这些现象都将对当代学科的“历史化”提出新挑战。

关键词:历史化 电子史料 读者接受 数据库

当代文学的“历史化”不仅涉及到学科建制,作家作品“重评”,同时也是深刻反省自身观念与知识,标志学科走向成熟的主要标志和必然环节。“历史化”与史料的收集、整理、辨析有着紧密联系。学者们注意到“史料”对当代文学影响,陆续涌现出许多研究成果。而电子史料是一个关注较少,讨论也较少的一个问题。

对于“电子史料”,有学者认为是:“电子化史料,是指以数码方式将图、文、声、像等多方位多媒体信息存储在磁光电介质上,通过计算机等设备阅读使用,用以表达思想、普及知识和积累文化的史料,它是史料现代化的基础。”1在《电子化文学史料的内在形态与知识谱系》一文中,研究者初步总结了“电子化史料”的对象、特性与对文学研究的影响。按其定义,“电子化史料”实际上只是反映了“史料”储备与阅读方式的介质发生了变化,即由纸质转变为电子设备。有学者指出应注意“电子化史料”和“史料的电子化”2,即不仅要注意到介质的变化,同时也要注意到由于史料电子化后产生的新史料。而近年来随着科技的发展,许多“电子史料”出现了新变化,更为深入地卷入到文学研究的方方面面。

对于正处“历史化”与兼顾当下批评的当代文学来说,电子史料不仅有着传统史料学在当代面临的问题,如当代作家年谱如何书写,作品版本变化,史料“真实”辨析,历史观的调整与史料观的认知变化等,更为深入地,电子史料还在作家批评、读者接受研究等方面产生了深远的影响,在享受电子化、网络化便利的同时,当代文学应批评注意电子史料通过新技术甚至有可能形成“反历史化”倾向。在本文讨论里,电子史料将是一个泛指,既是史料的电子化,同时也是电子化史料产生的新史料,试图探讨因由技术进步而给文学批评带来的新影响,特别是那些传统史料学之外的新问题。这些问题潜在影响着文学批评,是当代文学研究面临的迫切问题。

一 作家“历史”的消失

19 世纪以来,因为对个性创作的尊重,文学批评关注如作家的心理活动和人生经历等个人“历史”,以期对文本有深入的阐释。后结构主义提出“作者已死”的概念,虽然冲击了作家的“权威”,但作家研究依然是许多批评进入文本的切入点。中国当代文学批评吸收了相关的理论,既反对庸俗、机械的作家创作心理批评,也反对文本中心式的批评模式。正如丁帆在回忆编辑《茅盾全集》时曾说:“‘茅编室’遇到的最大一次危机则是人文社的《新文学史料》发表胡风回忆录时将茅公在1928 年脱党后,也就是写完《蚀》三部曲和短篇集《野蔷薇》后坐轮船去日本,在船上与胡风遭遇的情景描写公布于众了。”但丁帆认为:“其实,今天看来,那段在‘革命加恋爱’的史实当中,正是我们解读茅盾许多作品的钥匙,那‘混合物’的创作之所以能够成为左翼文学的开山巨制,谁说不是和这丰富而具有时代特征的文化心理紧密相连呢?”3确实,倘若没有胡风的回忆,茅盾《蚀》的创作动机与情节来源是如何,依然会是个“谜”,而得益于作家间的互证与“史料”挖掘,才使研究者能理解茅盾当时的创作心理,由此更好地深入文本内部。

在当代,作家因媒体的充分介入,一方面有大量的机会对自己的人生、思想与作品进行阐释,使作家“历史”研究出现新的学术增长点4,另一方面,也因“搜索”引擎强大,使作家生活经历无所遁形,各种“披露”式的“爆料”将会越来越多,各种自传、年谱或研究传记可以轻易获得并得以对照与印证。作家“历史”的研究不再因信息的不对称而产生遮蔽,从而给研究者提供了广大的空间。

但是电脑创作开始后,也开始冲击作家“历史”研究。最直观的体现就是手稿的消失。手稿作为研究作家构想、写作、修改到定稿的重要证据,体现的不仅是作家创作的身体状况、情感状况、思想状况、经济状况和社会交往状况,其修改过程也能略窥其深层心理倾向。然而对于“80 后”“90 后”的作家来说,习惯于电脑创作之后,手稿的消失已然不可避免。倘若将这种改变仅看成是书写工具的变化—晚清至“五四”,书写工具就由毛笔向钢笔等西方硬笔转变,很难发现工具变化背后的冲击。但从史料的角度来看,手稿的消失,不仅意味着一种介质的变化,直接冲击了当代“史料”研究里的私人性文学史料模块。后来的研究者将难以获得其手稿的初样,更难以获得其修改的过程,也因此更难以窥及作家书写时的心理状态与心理变化。手稿的消失意味着作家创作史研究将面临挑战。

电脑写作带来的不仅是手稿的消失,更为深层的影响在于威胁到作家的写作习惯。作家使用电脑写作必须采用“输入法”,而这种输入习惯的改变将是深远的。输入法不管是五笔还是拼音,已不是早年那种呆板只能单个字输入的方式。为了追求打字速度,输入法近年来“进化”得越来越“智能”。如有些输入法提供了两种词库,一为基础词库,即:“基础词库包括:系统词库和用户词库。系统词库是输入法自带的词库,为您的输入提供基本的字词。当您开启学词功能时,输入法将记录您所打过的字词,这些记录下来的字词集合就构成了用户词库。因此,用户词库是个性化的。”5优秀的作家对语词与句子结构都十分敏感,并且会不断挑战自己的写作习惯与组词规律。但“用户词库”通过潜在的学习,将作家习惯用语甚至用句收集、整理,并在电脑输入时直接跳出。它的存在产生了两个效果,一是使作家“固化”自己的词语运用。作家在创作时,看起来是不断创新运用新词语,但实际上是“智能学习”将自以为创新的字、词、句不断重复运用。再则,作家会强烈意识到必须在结构、人物形象、故事情节上的创新,然而词、语组合的创新则因“个性化”输入法,使作家无意识地不断自我重复,这种危害更为深入而且隐蔽。除了基础词库外,输入法还有所谓的“细胞词库”,如以“美的修辞”词库为例,其样例有“暗送秋波、暗香袭人、般般入画、百般难描、薄粉敷面、白璧无暇、步履轻盈、半妆美人、闭月羞花、冰肌莹彻、冰肌玉肤、滑腻似酥、细润如脂、粉光若腻、鬓云乱洒、酥胸半掩、楚楚衣衫、豆蔻华年、春半桃花”。倘若作家安装了这样的词库,以“五笔”输入法为例,随手输入“tttg”,词库就会出现“我行我素、自生自灭、般般入画、片笺片玉、微香冬青”这样的5个词,看似方便了作家的选择,甚至提供了一些偏僻的新鲜的词语,但这种选择背后却将会是思维与表达的限制。作家若非时时刻刻警惕这些陈词带来的影响,否则将不可避免地落入到输入法的圈套中,看似全新的创新式表达,实际上只是由于输入法带来的思维定势。书写工具以“智能学习”抹平了作家的创新冲动,使其陷入陈词滥调之中却丝毫无所察觉。而由于手稿的消失,我们将很难找到输入法对作家产生影响的“实证”,但这种变化将提醒作家创作史研究,不仅要关注作家的语言特点,更应注意其输入法的选择,注意辨析其语言特殊性是由何种原因形成的。

如果说电脑写作、输入法仅是挑战了部分作家研究,但近年来人工智能写作的进入,则全面挑战作家“历史”研究的方方面面。所谓的人工智能写作其实离文学并不远,现在已被大量采用的“机器人记者”,它们能监视各路信息,完整呈现新闻的五要素,以更快的写作速度,更及时的更新与发送速度将信息传达给人们。对于这种“机器人记者”,研究者总是乐观地指出人工智能写作还不能写出创新性、有文艺气息的新闻,认为“未来记者和编辑将会被机器代替”只是一种耸人听闻的说法。从目前“机器人记者”的创作来看,人类的个性化、文艺化的新闻写作还是无法被它们模仿,但它们能实现两点人类所无法企及的效果:第一,“迅速”,无论是信息的收集、整理还是写作,其深度、广度、速度都远远超过人类。第二,“大量”,它并非追求精品,而是在不断学习中,以人类写作平均水平之上的能力大量书写新闻,实现传播的全覆盖。从这两点上看,“机器人记者”完全有可能取代许多平庸的记者。

“机器人记者”因其市场运用较广,得到各类资金支持,开发较为完善。在文学创作领域,人工智能介入较多的是网络小说创作。虽然还没出现“机器人网络小说家”,但有些软件通过云服务和大数据的支持,号称能通过全网的内容抓取,分析读者受欢迎的开头、结构、词语、类型,提供给写作者以创作“规律”并从字、词、句到结构上进行全面“指导”。有些软件号称:“写作的时候因为阅历的问题,想到的场景容易平淡无奇,这个时候就想看看其他人到底是怎么写的,联想启发工具正是基于这一需求而设计。当你想写一个场景,一场打斗,一个剧情没有什么头绪的时候,就可以使用这个工具按照特定关键词联想一番,激发灵感,举一反三。”并配备了一系列“套路化”的工具:如名字生成器、门派势力生成器、地名生成器。通过这些工具,可以随机生成模仿周礼中的谥号等名称,使原本可能需要作者通过较长时间的人生经历、阅读积累才有可能形成的知识,变成随手可得并富有“历史”感的名字。可想而知,在这些软件建议下形成的“网络小说”看似可以形成庞杂的历史空间,实际上从情节、对话、人物描述等均是由辅助创作而来。

许多网络文学批评,常指责网络类型小说没有“真情实感”,出现大量的模仿、粗暴抄袭,然而却没有意识到“人工智能”进入网络小说创作后,“情感”可以被精准调配,抄袭会被有意规避,但模仿却更为普遍。这时,如果没有人力的细致对比与辨析,网络批评可能无法辨别小说到底是人工创作还是智能辅助下生成的产品。更为关键的是,人工智能写作跟新闻写作的目标是一样的,并不试图创作出顶级的小说,而是通过“迅速”写作与大量模仿,抢占读者市场。优秀的网络小说将很难在其包围下脱颖而出。而人工智能也会在“学习”中达到人类平均写作水平之上,甚至有些表现非常抢眼。如2016 的人工智能所写的《电脑写小说的一天》就获得了日本“星新一文学奖”。虽然它的获奖是个案,但这也意味着作家批评必须转向—网络文学批评以后的首要任务可能是追问小说到底是人的创作抑或是机器人写作?看起来很遥远的人工智能,实际上已经降临在“类型化”的通俗小说身上。作家的“历史”也将变得十分可疑。网络小说因其商业化程度较高,驱动了人工智能的相应开发。而人工智能对严肃文学的影响看来还有段距离。但有些写作助手已经可以轻松地实现信息与数据处理上的秒级运算,能挖掘热点,组织相关知识关联,推荐相关内容,还能纠正错误表达,检测重复率。非顶级的严肃作家们如果使用了这些人工智能,那他们的“历史”将与文本创作彻底分离。

电子网络时代的到来,使作家研究更为丰富,但也同时在不断挑战相关的研究范式。手稿的消失,使私人性的史料受到威胁,从“历史化”的观念来看,作家的部分“历史”也消失了。而人工智能的深度卷入,瓦解的不仅是作家对文本拥有的“权威”解释权,也瓦解了社会思潮、人生经历对文本的重要性。文学批评必须重建研究作家的方法:既要注意到作家的生平、心态、“阅读”习惯、思想来源和知识水平,同时也必须考察作家使用的辅助工具、人工智能,通过这两方面的考察,才能更为深入地理解作家与文本之间的关系。电子史料开始展现其强大的“反历史化”倾向。进一步,由于电子网络时代的发表平台使普通人也可以轻易地成为“作者”,也带来一系列问题。数据显示:“我国数字阅读作者数量从2014 年的389 万增长至2017 年的784 万,四年翻了一番。作者数量的不断增加为实现数字阅读行业的内容共享奠定了基础。”6如此庞大的写作者,生产出同样庞大的作品。文学批评应如何从中挑选出“经典”而“优秀”的作品?优秀的作品有可能被无数的平均水准的作品所淹没,优秀的作家也许在刚起步就被无数平庸而带智能辅助的作家所窒息。从网络小说的实践来看,作家要凸显自己,只能以读者的阅读量来检验,但这也产生另一个疑问:网络时代的读者接受研究是否可靠?

二 可疑的读者接受

在接受理论中,读者是个核心概念,研究者提出诸如“虚构的读者”“想象的读者”“理想的读者”等,通过对读者的考察,也引出对作家创作的考察,提出如“隐含的读者”概念,即作家会通过读者的反应而将这些信息整合、筛选、融入到自己的创作里。姚斯在《作为向文学科学挑战的文学史》一文里提出:“文学的历史性和文学的交流特点, 是以作品、读者和新的作品之间一种对话的、同时类似过程的关系为前提的, 这种关系既可以在讲述和接收人的联系中, 也可以在提问与回答、问题与答案的联系中去把握。”7从他的观点看来,读者的阅读反应,读者接受的程度是评价文学作品价值的一个重要尺度,而文学史就是“读者接受史”。

在接受理论的视野下,当代文学批评关注到了作家、文本之外的读者,拓展出读者来信等研究。在网络时代到来后,许多原本在接受理论中,属于猜测性的读者反应、接受状态变成可查证的“史料”。如接受理论的核心概念之一:期待视野8。在接受理论中,文学作品要实现顺利的接受:“只有读者的期待视野与文学文本相融合,才能谈得上接受和理解。”9而读者“期待视野”的形成受制于社会背景、人生经历、生活实践和文化修养等方面。在网络创作里,可以清晰看到读者期待视野对作品的影响。当作家在网络上开始发表作品后,期待视野就以各种方式直接投射到作家身上。据报道:“2018年还诞生了网文历史上第一部评论量超过一百万的作品《大王饶命》,十万以上评论量也已成为爆款作品的标配。”10读者与作者在评论区里相遇,这在传统文学里是不可想象的,除了书评区外,平台还设置了“每段说”“可以实现文字弹幕效果”(即阅读时可以随时弹出其他读者对其评价)。作者创作下一章节前,会收到读者对情节、人物、结构的点评,有些读者还喜欢以“退订”的方式威胁作者的写作方向。读者拥有了更大的主动权,他们的“期待视野”可以通过付费机制和评论机制,直接反馈给作者,使作者明白其创作内容与接受程度,从而决定下一步写什么内容,这样双方应该是实现了完美的“接受和理解”。

文学批评当然是不认可这种“融合”,批评者认为读者日益浅薄而放弃严肃思考,或者指责作家迎合市场而放弃审美创新。但这些看法,其实都未抓住网络时代给予文学的重击:商业网站完全以市场原则,掌握、制定了创作与接受。表面上看,作者可以自由写作,读者可以自由批评,但背后都必须遵循着市场原则,特别是在大数据兴起后,网站已完全有能力将读者视野限制在其可预测的范围内,进而通过付费机制影响作者。如有小说发表网站就推出“智能订阅”功能:“我们从更利于大家‘感知’‘互动’以及满足需求‘多样性’三方面出发,全面革新了核心算法排序,采用‘神经网络’‘NLP自然语言处理’‘机器学习排序’等多项最新技术,来推荐更符合大家口味的书,从而解决你的书荒问题。”11 网站以专业术语隔绝读者对其深入思考,用它的话说是:“你只要进入为你量身定做的专属智能推荐页,就可以看到最新的算法技术为你推荐的好书。”也就是说,读者不用追究为什么会推送这些东西,只要想“书”是不是合意就可以,那么,这个“算法”是基于什么?从目前我所使用的几个APP 看来,特别是跟购物网站相关联的公司所开发的读书APP 来看,它不仅基于读者点开、试看了哪些书或者长期保存、阅读的书目,还基于读者在购物时的特点、兴趣与爱好,甚至读者通过网络购买实体书的相关信息也会被收集,然后反馈到“算法”里,将其相似的内容准确地推送到读者面前。这些推送的“书”不仅有网络小说,也有严肃文学,甚至有哲学类的偏僻少见的著作。倘若读者没有注意—一般读者也不会注意—他们只会发现自己喜欢的内容被不断推送。读者的阅读范围其实被“推送”所严格限制。在“算法”的无边笼罩下,读者只能看到网站所给予的信息,而不是独立自主的选择权。

智能的“推送”限制了读者视野,而市场也由此挑选作者。按数据显示:“2018 年,阅文在线阅读月度活跃用户突破2.14 亿户。”这些读者里年轻读者大量增加,迅速传达到作者身上:“年轻读者去中心化的、多元化的内容需求传导至作家创作,迅速孵化出二次元、现实主义、科幻等新的流行题材。”网站根据读者的需要,迅速调整作者:“据统计,阅文集团2018 年新增作家群体中,‘90 后’作家占比73%,‘95 后’作家占比48%,优秀年轻作者不断涌现。”当文学批评还在讨论“70 后”“80 后”及“90 后”的时候,网络小说世界里已然呈现世代更替。网络小说已然出现“传统网文”概念,作者稍不注意就被读者所抛弃。“隐含的读者”并不是一个虚假的概念,而是实实在在地以“算法”约束下,对作者创作方向提出要求的现实影响。从这个意义上讲,当下的网络文学虽然发展迅速、普及面广,但其实从作者、读者到流通完全被市场所笼罩,加上“算法”横行,很难期待其可能在文学创新上有突破。

网络文学的批评者乐观地指出“类型套路”是一种“集群体智慧的文学发明”12。然而,网站平台的选择服从的不是作家创新套路,也不是读者要求,而是商业化原则,这也造成对“类型套路”的巨大压抑。2019 年5 月,起点中文发布公告:“因站内作品违反《网络安全法》《互联网信息服务管理办法》等相关法律法规,为严格落实监管部门要求,自2019 年5 月21 日15:00 起至2019 年5 月28 日15:00 止,起点中文网‘异术超能’、起点女生网‘N 次元’栏目暂停更新七天,进行全面彻底的自查整改。”13与之配套除了封禁作者,还推出相应的举报功能:“第四:完善举报机制,鼓励用户通过网站7×24 小时举报平台和一键举报功能积极举报违规作品,并将招募资深用户进入网站巡查系统,共同参与内容日常巡查工作。”读者不仅是一个接受个体,摇身一变成一个具有审查功能的主体,其对网络文学的冲击是不言而喻的,从中也可以看出“类型套路”背后被规定的因素。据不完全统计,5 月的这次整改,使玄幻类小说锐减35万本,都市类少了21万本,其他类型各受冲击,如科幻类少了8万本,奇幻类少了8万本,游戏类少了7万本,女生网少了7万本,二次元少了7万本,历史类少了5万本。当然,监管部门出于保护知识产权,同时也是维护社会主义价值观而整顿网络文学,有利于网络文学的长期发展,但市场以更为苛刻的审查制度窄化了作者发表空间与创新冲动,而读者审查机制的确立,也严重地冲击网络文学的创新。

严肃文学创作看来还可以逃脱掉市场的收编,还可以依靠着期刊、批评而争取到一部分的读者。那些成名于1980 年代、1990年代的作家依然在读者中、市场上、批评圈获得大量的关注。网络文学现在遭遇的读者困境看起来还离严肃文学很远。严肃文学依然可以逃开网络酷评,作家依然可以挑战读者习惯,可以反抗商业的收编。但试想一下,以电子阅读为主的“90 后”读者成为文学阅读的接受主体,他们熟悉于“推送”与“去中心化”,习惯于以个人爱好贬斥作者创新时,严肃文学是不是还经得起这样的挑战?严肃文学依然可以保有对陈规的蔑视,依然可以守住学院式批评的空间,但读者群体将会越来越少,读者接受史还如何往下写?

三 文学批评所可能出现的新问题

在作家、读者的“历史”均受到冲击时,文学批评也受到电子史料的影响。陈平原在2012 年谈到“数字人文”的变化时就指出:“现在求知这个层面被检索所取代,只要知道一个书名和人名,检索就行了;而阅读的功能更强调了娱乐功能。原来苦苦追寻、上下求索的状态消失之后,知识有了,但修养没有了。”14电子检索、史料网络共享在文献收集、前人研究整理及避免重复劳动上对研究者有很大的帮助。从现在大量博、硕士论文里,可以清晰地辨别出“搜索”式的论文,文学批评自然也受其影响,出现对上下文语境考察的缺失,原始资料的忽视,以搜索代替问题等现象,有关“搜索”带来的影响近年来已引起学界的重视。

电子史料对文学批评的另一个重要影响是极度“丰富”了文学的“周边”。正如程光炜指出的:“除研究当代文学的审美性之外,还应该去研究它复杂且因为社会思潮经常性膨胀和冷缩而不确定的周边。没有周边的当代文学研究不能说是更完整和更真实的当代文学研究,至少是缺少历史观的当代文学研究。”“这种对周边的注意,这种有意识把周边当作文学史研究的更宽幅的历史视野,作为一种方法和眼光,我们也许能够更有效地进入整个当代文学研究之中。”15这里的“周边”指的是非文学的其他因素,电子化为当代文学批评提供了便利的条件去考察“周边”。除了电子化的期刊带来的便利外,近年来,当代文学批评日益重视媒介研究,这也因“史料”电子化的结果。如研究革命现代京剧,虽然有些剧团还保留着片断演出,但实际上演出场次很少,也不全面,更不用说演员在体型、风格上的不足。通过影视史料,确切地说当VCD 大量普及后,研究者才能再次目睹当时演出的效果,这些戏剧“史料”的电子化,使研究者能较容易地获取并得以反复观看、研究。1980 年代许多文学作品被改编成影视作品,如果没有电子化这些影视作品,特别是通过在网络保存下的这些作品,那么1980、1990 年代的影视媒介与文学的融合研究将难以展开。当然,这类“周边”性质的“史料”电子化后,一样存在着过于琐碎、离文学性太远、不断重复等问题。但这是研究视角与研究方法的问题,而不是由于电子化史料而产生的问题。影视作品改编、作家访谈影像这些资料,对于当代文学批评有着重要作用,这些资料的收集、整理,对未来“历史化”有着很重要的作用。

新科技手段被运用于重新整理“史料”也促使文学批评出现新方法。以国家社科基金项目为例,自2004 年《中国古代诗歌声律数据库的建立及中近古时期诗歌》获立项后,陆续有数据库建设的立项题目。如2011年的《网络文学文献数据库建设》,2015 年的《中国现代文学报刊作品系年及数据库建设》及 2017 年的《“学衡派”年谱长编及文献数据库建设研究》均是试图推动史料的“电子化”。2018 年,在中国文学大科目下,直接以“数据库”建设为题目的基金项目多达5 项,与中国现当代文学有关的有3项,特别是《中国当代文学期刊目录分类编纂及数据库建设》与《宁夏当代作家数据库建设与研究》更是预示着当代文学在史料电子化上的步步推进。除了数据库,基于文学地理学的研究也陆续出现,随着GIS(地理信息系统)的成熟,有学者将其运用到文学研究上,如学者尝试对当代陕西文学进行地理考察与研究16,虽然还未能获得更多的讨论,但研究思路与方法是值得注意的。

但数据库这种史料整理方式还未能引起批评者的警惕,参与数据库讨论的学者主要集中于图书馆学、情报学,基本没有文学批评者的参与。从现存的文学数据库使用情况来看,文学数据库建设者仅将其当成是“史料”存放的便捷方式,而不是一种新的思维方式17。古代文学的数据开发,已有一些成果引起关注。如北京大学中文系李铎主持的“全唐诗分析系统”“全宋诗分析系统”;中南民族大学王兆鹏教授主持开发的“唐宋文学编年地图”。“全唐诗分析系统”除了检索方便外,还具有“诗提取、格律诗标注、字及词组的频率分布统计、用户自作诗的格律分析等带有智能化特点。”18换言之,用户可以利用这个数据库全面统计全唐诗,挖掘其中的关联与相似性,进而生发出新的学术观点。然而对于现当代文学的数据库,从数据库建设、架构与设置来看,未曾有人深入讨论,更未有设想其可能产生的学术新问题。

数据库是电子化史料的集中体现,它通过不同地域、不同领域的数据共享,形成超越地域的共同体性的“史料”,其核心精神是“共享”。但从目前所开发的情况来看,“共享”远未形成。数据库的建设需要花费大量资金,因此建成以后往往是付费使用,而使用的价钱不是个体研究者所能负担。如某网站推出的红色历史文献库,据介绍:“红色历史文献库分为红色大报、红色名刊、红色著作和红色纪实四编,收录自1915 年新文化运动至1949 年全国解放期间,中国共产党及外围组织公开和秘密出版的各类报纸、杂志,中国共产党领导人、共产党员以及党外、国外友好人士公开发表的各类著作、记实文章,总计300 种。各据初印原件或权威复印件,采用独有之数字化技术制作,三窗点选式页面,影像和录文逐页对照,全景和区位自由切换。毫秒级全文检索,配备多功能研读平台。堪称红色征程的全记录,党史研究的好助手。”但按其最便宜的年费版,为1.6万元/年,而所谓的本地版与典藏版,则为16 万元。本应是基本的研究资料,因公司参与开发,成为必须付费的数据库。在该网站上,较便宜的数据库为《申报》数据库个人版:“1.月卡50元,年卡500元,在卡限内可任意检索和浏览。2. 如下载数据则需另外购买下载卡,100 字/0.1 元。”虽然方便了研究、检索,但倘若使用资料较多,也是一个巨大的负担。此外,数据库建设有时还成为图书馆不愿意“共享”的一个借口。许多图书馆出于珍藏的“史料”保存不易与避免对资料的损害,通过扫描建设相关数据库,从好的方面来讲,读者可以借由电子设备接触“原刊”,但从目前情况来看,存在两个违反“共享”的问题:1. 图书馆并不愿意将电子史料在网络上“共享”,读者还是需要到图书馆查阅,并且看不到原刊。2. 图书馆因经费的限制,对于资料的电子化进度推进速度不一。特别是由于对资料的“珍贵”程度判断不一,许多资料一旦进入电子化后,因经费问题常被搁置,这就形成这些资料既不能查阅原刊,也无法从电子路途窥及,读者反而无从接触。

数据库建设的推进,还会引发数据间冗余与混乱。所谓的数据库冗余指数据之间的重复情况。从目前建设成的《四库全书》数据库建设情况来看,因其依托古典文学的清晰分类,较好地解决了数据库内部数据冗余问题。但现当代文学的数据库建设则未见提出鲜明设想,如何分类以解决冗余,至今未曾见数据库建设者提出相应的看法。也许这种架构在他们看来是理工科的问题,但关键的是分类必须基于研究者对“史料”的判断,基于“史料”内部的联系,可以注意到文科的分类方法与理工科的分类存在着巨大差异。数据库的建设者不应简单地认为这些问题是技术问题,而让位给理工科思维的建设架构。而数据库间也存在着冗余现象,从《中国当代文学期刊目录分类编纂及数据库建设》与《宁夏当代作家数据库建设与研究》这两个题目就可以预见内容上会产生冗余。这也应引起学界的警惕。

电子化史料还有另一个值得警惕的是论文发表平台电子化后带来的问题。当代学术型研究论文普遍被收入知网,而知网也形成相应的学术规范,从学术发展看,这样的变化是积极的,但也引起许多争议,特别是期刊杂志以引用率为评价的方法,已使学者注意到其中问题。而有可能引发另一个问题的是由于学术规范带来的论文行文方式的僵化,从而给人工智能的介入提供了机会。2005 年,美国麻省理工学院计算机科学与人工智能实验室的三位研究生开发了论文写作软件SCIgen,它能够自动生成无意义的英文计算机科学研究论文,并且包含图片、表格、流程图和参考文献等。2007 年,伊朗沙里夫科技大学学生使用SCIgen 生成的论文《Cooperative, CompactAlgorithms for Randomized Algorithms》被《应用数学与计算》杂志所录用。德国的学生Herbert Schlangemann 还利用这个软件,虚拟出Schlangemann 教授,用SCIgen 生成的《Towards the Simulation of E-Commerce》通过了同行评审,被CSSE 录用。同样,他还以Schlangemann 教授之名投稿了2008 年和2009 年在中国武汉举办的两个IEEE 国际会议,并被邀请出席。而这个人工智能论文系统还能为学者刷引用率。外国学者曾尝试用SCIgen生成了102篇垃圾论文,使一个虚拟名字为IKE ANTKARE 在谷歌学术中的h指数,一下子飙升到94。可能因为文学领域的人工智能开发并没有那么大的经济价值,也可能因为文学批评还无法模仿,目前中国的文学批评还未被人工智能写作机器人“盯上”。但从目前经常被报道的抄袭现象来看,倘若真有人工智能的“好事者”基于“知网”进行论文写作开发,文学批评是否能逃脱?未来似乎并不乐观。

电子史料带来了便利,也带来挑战,对于当代文学研究来说,电子史料不可避免地参与到历史化的进程中,而且随着技术的进步,这个影响过程将呈现加速状态。从国家基金项目到网络文学的变化,都证明了它对学科建设、作家创作、文学批评等方面有巨大影响,也因此必须加以认真关注。

注释:

1吴秀明、李一帅:《电子化文学史料的内在形态与知识谱系》,《福建论坛》2016 年第1 期。2张广海:《建构中国当代文学史料学的路径和方法刍议》,《创作与评论》2017 年第16 期。3丁帆:《我走过的四十年的文学道路》(上),《文艺争鸣》2019 年第1 期。

4如探讨作家如何在阅读中生成小说,郭洪雷:《毕飞宇小说创作论——以其阅读经验为副线的考察》,《中国文学批评》2018 年第3 期。

5 https://pinyin.sogou.com/dict/.

6 http://top.askci.com/news/20180925/1737451132806.shtml.

7中国艺术研究院马克思主义文艺理论研究所外国文艺理论研究资料丛书编委会编:《读者反应批评》,文化艺术出版社1989 年版,第142 页。

8 9姚斯定义“期待视野”为:“对文学的期待、记忆和预设所组成的、生发意义的视野之总和。”[ 德]H.R. 姚斯:《文学史作为向文学理论的挑战》,《接受美学与接受理论》,周宁、金元浦译,辽宁人民出版社1987 年版,第30—35 页。

10以上数据均引自《阅文发布2018 年全年财报》,http://view.inews.qq.com/a/TEC2019031800760700?openid=o04IBAJUlI8LOPPAFP_ZkQl0I6XQ&key=&version=17000329&devicetype=iOS12.1.4&wuid=oDdoCt1BRH5WApdMSYQOL-IRPxfg&sharer=o04IBAJUlI8LOPPAFP_ZkQl0I6XQ&uid=&shareto=.

11《因为更懂你,我们做了这件事》,https://mp.weixin.qq.com/s?__biz=MzAxMzM1MzU5OQ==&mid=2651113663&idx=1&sn=98bf753bbbbfbfa4fc40828472c4f921&chksm=8053bfafb72436b92ce48bf0c1497b4c7e238b23a3e0617a64f19eff898567a13167e2dedde7&token=881465427&lang=zh_CN#rd.

12 邵燕君:《网络文学的“断代史”与“传统网文”的经典化》,《中国现代文学研究丛刊》2019年第2 期。

13 https://www.qidian.com/news/detail/422817457

14 吴越:《当阅读被检索取代,修养是最大的输家——陈平原谈数字时代的人文困境》,《文汇报》2012 年7 月13 日。

15 程光炜:《文学史二十讲》,东方出版中心2016 年版,第2—4 页。

16 梁璐:《陕西文学地理分异研究》,《地理科学》2008 年第1期。

17据报道“网络文学文献数据库建设”国家项目已结项,成果为4 部书稿:《网络文学编年史》《网络文学研究成果集成》《网络文学词典》和《网络文学生成谱系》,约170 多万字。网络文学文献数据库于2014 年在“中国网络文学研究网”上线运行,但现已查找不到。

18 http://www.chinabooktrading.com/tang/.

[作者单位:福建师范大学文学院]