用户登录投稿

中国作家协会主管

早期全球“数字鲁迅”生产中的文本、媒介与技术 
来源:《中国当代文学研究》2023年第6期 | 王贺  2023年12月04日15:16

内容提要:在“数字鲁迅”的生产、制作实践中,其早期阶段的历史颇为重要,但目前这方面的研究才刚刚开始,有欠深入。本文即以1990年后期海外出现的“新语丝”电子期刊、衍生产品“新语丝电子文库”及其形成的“鲁迅作品”这一“文件树”为讨论对象,试图探究其所代表的早期全球“数字鲁迅”生产实践的基本轮廓、特点及其成因、贡献以及不足,尤其分析在这一过程中早期计算机用户/读者,如何处理鲁迅文本、数字媒介与中文信息处理技术、汉字编码技术之间的互动关系,藉以重建“数字鲁迅”的早期历史及其多元图景,以使学界能在传统的文学研究(批评)和文献学研究之外,从多角度对早期全球“数字鲁迅”生产历史及发生在早期互联网上的数字文化生产、再生产实践形成新的理解,同时亦能由此个案研究逐步迈向对“数字文献学”“数字现代文学”等新领域的探索。

关键词:“数字鲁迅” 新语丝 文件树 中文信息处理 汉字编码

在《追寻“数字鲁迅”:文本、机器与机器人——再思现代文学“数字化”及其相关问题》1一文中,笔者曾讨论自互联网浏览器诞生以来至2021年的“数字鲁迅”生产、制作实践及其相关问题,并区分了“数字化”“电子化”“文本化”“数据化”“电子版”“电子书”等一系列核心概念、术语。不过,对其早期历史、尤其2000年之前历史(以2000年1月出现《鲁迅全集》电子版为分界线,将其分作前后期)的讨论仍嫌简略,有欠深入,并认为,诸如 “新语丝”(1994 年 2 月创立,后发展为网站)、“橄榄树”(1995 年 3 月创立)等数百种电子期刊所制作的“电子化”“数字化”的鲁迅文本,“很难被看作(诸如《鲁迅全集》电子版、电子书、APP、数据库等的)‘史前史’或‘早期历史’的范畴”。本文将致力于修正、补充这一判断,并将其确立为新的、重要的研究对象(即不同于最早的《鲁迅全集》电子版的、新的“数字鲁迅”生产实践)重新予以讨论,特别是结合中文信息处理技术、尤其汉字编码技术的发展历史,来切入这一讨论。在具体的论述过程中,将以“新语丝”电子期刊、衍生产品“新语丝电子文库”(XYS Electronic Library)及其形成的“鲁迅作品”这一“文件树”为讨论对象,并将有关的现象、事件和历史进程放置于全球语境之中进行考察,2分析这些研究对象所代表的早期全球“数字鲁迅”生产实践的基本轮廓、特点及其成因、贡献以及不足,以及在这一过程中鲁迅文本、数字媒介、汉字编码技术与早期计算机用户/读者之间的互动关系等问题,重建早期“数字鲁迅”的生产、制作历史及其多元图景。对上述问题的深入探究,不仅有助于我们在传统的文学研究(批评)和文献学研究之外,从媒介、技术、网络基础设施、数字读写能力等多重角度理解全球范围内早期“数字鲁迅”生产、制作的历史,乃至发生在早期互联网上的数字文化生产、再生产实践,还将帮助我们由此个案研究寻找进入“数字文献学”“数字现代文学”等正在发展中的新领域的路径,进而丰富我们对这些新领域的认识。

一、“新语丝”与“数字鲁迅”早期生产的开端

作为电子期刊的“新语丝”(http://www.xys.org),自1994年2月在美国创立以来,不仅拥有正式的国际期刊刊号(ISSN 1081-9207)和固定的出版日期(每月15日),而且从一开始就表明了其为“文化性综合刊物,登载文学、艺术、史地、哲学等方面的稿件”3的立场,长期开设“牛肆”(随笔、评论)、“丝露集”(诗歌、散文、小说)、“网里乾坤”(文史哲小品)和“网萃”(中文网佳作选)等栏目。其《发刊词》更透露出有意继承1924年在北京创刊,周作人、鲁迅等人编辑的《语丝》周刊的办刊宗旨,但又与之有所不同,这一不同主要由新的媒介——互联网——带来:

几万分布世界各地的汉字使用者,黑白红黄蓝各色人等,通过一张无形的网,紧紧地联系在一起。网里的世界,跟人世间的一切也没有什么太大的不同。喜怒哀乐,人生的百态在网里一一呈现;酸甜苦辣,人生的百味在网上同样尝个够。虽然林子大了什么鸟都有,网大了免不了会有臭鱼烂虾,一个大家庭免不了会有吵吵闹闹;但更多的人,在这里找到了从未见面也许永远无缘见面的朋友,无数沦落天涯的心灵,因此有了些许的慰藉。更有一些默默耕耘的网友,码字输书,传经送宝,让大家大开眼界,大长见识,把这些文字汇集起来,乃是一部无与伦比的百科全书。

因此多少人在此流连忘返,欲罢不能,正所谓“算只有殷勤,画檐蛛网,尽日惹飞絮。”4

也因此,虽然编者(创刊号编辑方舟子,审稿竹人、蠢侠、呆子、古平、台北阿生、小宝、灰人。校对散宜生,其后人员屡有变动,恕不缕述)、作者“之中的大多数人,流落在异国他乡;更有一些人,曾经沧海,心中伤痕累累。丝者,思也,‘春蚕到死丝方尽’,永远不变是对祖国故乡,对亲朋爱人的思念之情,绵绵无尽期。值此春节、情人节之际,思念之情更浓更盛。遥望神州,感慨不已”。但却坚信,“这张网伸到汉字的发源地,让亲人们听到我们的心声的日子不会太远”。“我们今天所努力编织的”,“是未来一张恢恢天网的小小起点”5。换言之,“新语丝”电子期刊不只是一份在网上发行的刊物,或是“几万分布世界各地的汉字使用者”的言论空间,更是联系编者、作者与祖国的纽带,是流动的、跨越国境的文化生产实践,是新的“事物、人群、思想和制度之间的流通和交换”6,其意义因此也就无法被单独放置于当代中国、美国及任何一个国家和地区的界限、语境之内做出内源性的解释,而必须在全球语境中展开分析。不过,饶有意味的是,从1994年2月创刊至1995年末,“新语丝”电子期刊均未发表(转载)任何鲁迅的文本,以及关于鲁迅文学、思想的讨论,直至1996年1月“新语丝”出版增刊“周氏兄弟专辑”,“鲁迅”才正式进入该刊编者、读者的视野当中,这也是该刊“数字鲁迅”早期生产的开端。但是,我们注意到,直至2000年年末,鲁迅文本在该刊(无论正刊、增刊)出现的次数都极其有限(只有1篇,即发表于“周氏兄弟专辑”的鲁迅旧体诗《别诸弟三首(庚子二月)》),讨论鲁迅文学、思想的文章也并不为多(共12篇),最后,即便是将两者合起来看,其体量仍然只占该刊刊发文章当的极少一部分,几乎可以忽略不计。换句话说,从组织出版“周氏兄弟专辑”这一做法来看,编者对阅读、讨论鲁迅应较一般现代、当代作家格外有兴趣,但其后该刊并未出现大量的鲁迅文本和有关的讨论,而且在其内部呈现出一种显著的不平衡性:在这七年间,有关的文本、讨论只出现在1996—1998这三年,而1994、1995、1999、2000年均与“鲁迅”无涉。何以如此呢?原因固然可能很多,但据笔者推测,一个最直接的理由可能是因文献资料的匮乏所导致的阅读、利用的不便:一方面当时海外各大学收藏的鲁迅著作并不算多,另一方面,更重要的是,在互联网上,电子化、数字化的鲁迅文本实在太少。

此外,与“橄榄树”等其他电子期刊不同的是,“新语丝”同人在创办电子期刊一年四个月之后,很快又创建了“新语丝电子文库”(以下简作“文库”)。据该“文库”主页介绍,其“为收藏中文文史资料电子版(国标版)的FTP存档处,以收藏《新语丝》杂志和中国文学经典作品为主,兼收其他资料,是目前收藏中国文学经典作品最为齐全的公共存档点”7。实际上,这一在线产品,除了首先是提供大量数字化的、公众可访问的、免费的中国文学作品的站点,亦是“一个交互式网站、一个超文本存储库,”比“新语丝”电子期刊(以下简作“期刊”“电子期刊”)这部编者眼中的“无与伦比的百科全书”更像“百科全书”,而其优点亦颇近似于目前全球最大的在线百科全书——维基百科(https://www.wikipedia.org),“用户可以用非线性的方式浏览章节,内容可以包含无限数量的插图,可以生成动态可视化的材料,并且可以无限制地更新文本,甚至可以开放编辑”8,更不用说帮助读者超越纸质媒介环境带来的、可能的限制,使之更加顺利地在数字环境中与电子化、数字化的文本进行交互,推进文学与文化生产的进程。当然,官方介绍也透露了“文库”的具体收藏范围:

1.《新语丝》杂志:收藏自《新语丝》创刊(1994年2月)至今的各种版本(GB、HZ、Big5、PS)正刊和增刊。

2.“新语丝之友”张贴:收藏“新语丝之友”通讯网设立以来(1996年2月)的所有张贴。每月张贴存档在一个月后公开。

3.中国经典:该部现有七个分支,分别收藏诸子百家、古典诗歌、古典小说、古文、古典文学评论、古典色情文学和鲁迅著作。

4.电子书籍:该部现有现代文学和文史资料两部分。现代文学收藏现代、当代著名作家、诗人的作品。文史资料收藏哲学、历史、宗教等方面的资料。

5.中文网人作品:收藏活跃在计算机网络上的中文写作者的作品,主要为作者本人的结集和互联网中文新闻组(ACT、ACTB)、中文通讯网(“新语丝之友”“中文诗歌网”)的张贴。收藏的标准是:具有一定的思想性、文学性、知识性或趣味性,并且能够独立成篇。对于创作量较多的作者设立个人专栏,其他张贴则分为闲谈、故事、小说、文史、科普等几类收藏。

6.中文网人照片:收藏活跃在计算机网络上的中文网人的数字化图像(gif或jpg格式),个人照每人限定两幅。9

其下还注明了投稿办法和取阅办法。称“投稿以作者本人自荐为主,别人推荐为辅。投稿方法有二:1.upload到:xys.org/pub/incoming并通知管理员(xys@xys.org)。2.把文件寄到xys@xys.org”。 “取阅办法亦有两种:1. use anonymous FTP: xys.org/pub/xys.注意大多数文件是国标码,必须用binary transfer. 2.use WWW viewer (lynx, netscape, mosaic):http://www.xys.org;http://xys.asianews.com.”10而从这些沿用至今的官方介绍中,我们不仅可以看出“文库”的定位、范围及其特色,更可看出因“文库”的生产、制作(在此体现为“投稿”“取阅”)深受早期互联网文件传输、存储技术的影响与限制,而以提供FTP服务为主、互联网浏览服务为辅(即上述介绍中的“use WWW viewer”),且严格限定了FTP环境下的文件编码格式,乃为“国标码,必须用binary transfer”(对此下文将有深入讨论)。但即便如此,经主办者数十年苦心经营、辛勤耕耘,该“文库”现已汇集大量中国古代典籍及近现代、当代文学的电子化、数字化文本,成为海内外研究中国文学、文化的重要数字资源,例如,美国杜克大学图书馆就将其列为“中国研究”之“语言与文学”类八种重要的数字资源之一。11不过,值得注意的是,“文库”虽系在期刊基础之上建立,但与期刊颇多不同,例如,与期刊拥有众多编校人员不同,“文库”的编辑工作似乎主要由方舟子一人承担。

随后,当我们逐一检查“文库”自创办至2000年末全部发表的文章及其记录(即“新语丝新到资料年月索引”),一个又一个有趣的事实便相继浮出历史地表。首先,“文库”出现与鲁迅有关的文本的时间虽较期刊稍晚一些,但与期刊只发表了1篇鲁迅文本和12篇鲁迅评论不同,“文库”在这一时间段收录了至少162篇与鲁迅有关的文本。可以说,“鲁迅”成为“文库”这一时期最为经常出现的关键词之一;其次,在这162篇与鲁迅有关的文本中,鲁迅本人的文本(数字化文本)有73篇之多,占全部与鲁迅有关的文本的45%,极大地改善了前此电子期刊所凸显的、在网上不便或很少能直接阅读鲁迅文本的现象,而这很可能是因为期刊编者注意到了资料匮乏这一问题,然后开始发力,想要在“文库”中弥补这一缺憾(期刊以体例限制,毕竟发表古代、近现代作家学者作品较少)的缘故;再次,更重要的是,“文库“从一开始采用的做法是 “数字化”(文本化)而非“电子化”。当时,有些网站在“数字化”名家名作之后,为避免其他网站和用户任意转载,又将其转为图像发布,亦即使“数字化”的文本退回到“电子化”的图像阶段,12相形之下,“新语丝”同人,甚至当时不少网民,都直接采用了“数字化”这一做法,以便读者直接查找、复制、粘贴、再创作;最后,这一记录同时也向我们表明,关于鲁迅文本和有关研究、评论的数字化工作,在一开始(1996年9月27日)就被创建为一个独立的网页“鲁迅家页”(Lu Xun Home Page,早期被称作“鲁迅作品”),其后随着架构的不断完善(如创建子网页“鲁迅全集索引”、子目录“有关鲁迅的新闻报道”等)、数字化鲁迅文本的不断增益、汉字编码技术(及其标准)在保持相对稳定的过程中逐渐变化等因素的影响,“文库”不仅迅速发展壮大,其中与鲁迅有关的文本,也成为全球中文互联网上一道独特、重要的风景,远远超出其他的同类型网站、电子期刊。

然而,这仍然并非是“文库”有关鲁迅文本的全部,亦非其所代表的早期全球“数字鲁迅”生产实践的全部。其实未进入“新语丝新到资料年月索引”这一“文库”逐日更新目录(类似于网站“日志”,但在此时仍系人工添加、统计)中的鲁迅文本及其电子化、数字化记录(亦即实际上被收入“文库”及其“鲁迅家页”者),还有不少。今天,虽然因受限于这些资料大多并未公开发布等因素的影响,我们无法全部统计这些逐日更新目录之外的鲁迅文本,但通过部分已经发布且目前尚能公开访问的资料,仍可对此一时期“数字鲁迅”生产的另一面向,做出一定的观察。进而言之,也只有将此一面向,与“文库”逐日更新目录中呈现的鲁迅文本,乃至关于鲁迅的评论、报道等文献资料合而观之,我们才有可能把握“新语丝”同人、尤其“文库”所代表的早期全球“数字鲁迅”生产实践。

二、从文件树看“数字鲁迅”早期历史的一个侧面

这些已经发布且目前尚能公开访问的、有限的文献资料之中的一篇重要资料,乃为用户名为“江南小楼”在谷歌网上论坛(https://groups.google.com)的发帖。该贴名为《〈新语丝〉文库目录》,其正文标题为《“新语丝电子文库”目录(1998.8.1)》,其中的一部分内容即为截至1998年8月1日,由该“文库”已收集的大量的数字化的鲁迅文本而构造的一个“文件树”。 不过,在此首先需要说明两个问题。

第一,这里所谓的“文件树”,并非修辞、譬喻,而是一种计算机科学术语,意为由不同层级的文件所形成的一个树状结构,其在不同的操作系统和编程环境下呈现出不同的面貌。“文件树”与目录学、文献学学术传统中一般所谓的目录、索引,既有联系,又有差异,其联系为共同属于知识(信息)的组织和表现、发现形式,差异在于“文件树”尤其早期的“文件树”时常也包含了完整的不同层级的文件的存储、访问路径信息,而目录、索引却很难做到这一点。但是,即便如此,我们仍可以将“文件树”看作一种特殊的目录、索引。而在此一名为“鲁迅作品”的“文件树”中,我们可以看出,其以“鲁迅作品”为一级目录,再以鲁迅生前出版的作品集及不同的主题建立子目录,其下依据其间收录的具体文本,创立了第三级目录,当然,这些目录本身同时也代表着它们的存储和访问路径。这种特殊的目录、索引,从理论上来说,可以与常见的网站、电子期刊的逐日更新的目录保持一致,但事实上,因为依据不同的标准和原则进行规整,二者往往有所不同:在“文库”中,逐日更新的目录(即“新语丝新到资料年月索引”,类似于人工记录、添加的“网站管理日志”),和这一“文件树”所显示的结果也不尽一致。

第二,这里所谓的“构造”,亦非发帖者“江南小楼”或其他人主观臆造,或是某人据该“文库”所收集的鲁迅文本再度加工、整理而来(如同目录、索引,被视作“二次文献”的原因,就在于其系编纂人员按照一定知识分类标准、规则,对原始文献进行加工、整理,从而形成了一个新的文献),而是由计算机自动生成。甚至,从理论上来说,其创建者(在此同时也扮演着技术人员的角色)可以一直在维持它的原貌的同时,不断地进行更新(加入新的文件和文件层级),“文件树”也能不断地生长,而不破坏它的整体结构。当然,在所有这些“构造”的背后,既有技术(代码、程序),也有知识,体现的是知识的重新组织、表现与发现形式,而就后者而言,任一“文件树”显然并非单纯的、不同文件的关系的体现,恰是阅读史、书籍史研究者达恩顿所谓的“知识树”,是知识变迁、文化脉动、文献体系构造的一种表现形式。13

但本文下述讨论的重点,并非是从“知识树”及其相关角度(如知识史、文化史)来分析这一“文件树”所传递的新的知识生产意涵,相反,更多的是从技术史的角度进行的。为便讨论,以下先照录“文库”所载“鲁迅作品”(截至1998年8月1日)这一“文件树”全景图:

../Lu-Xun/ 鲁迅作品

..../Introduction.gb 鲁迅传略(方舟子输)

..../yecao.gb 散文诗集《野草》(方舟子输)

..../poetry.gb 鲁迅旧体诗集注(座山雕、方舟子输)

..../nahan/ 小说集《呐喊》(不亮输)

..../Panghuang/ 小说集《彷徨》

..../Gushi/ 小说集《故事新编》

..../zhaohua-xishi/ 散文集《朝花夕识》(莲波输)

..../pictures/ 鲁迅照片

....../Lu-Xun1.gif 鲁迅照片(青年)

....../Lu-Xun2.gif 鲁迅照片(1933)

....../Lu-Xun3.gif 鲁迅照片(1930)

....../luxun4.gif 鲁迅照片(1930)

....../luxun5.gif 鲁迅照片(1933)

....../luxun6.gif 鲁迅照片(1936)

....../family.gif 鲁迅合家照(1933)

....../handwriting*.gif 鲁迅手稿

....../poetry*.gif 鲁迅诗稿

..../essays/ 杂文

....../fen/ 杂文集《坟》

......../index.gb 《坟》目录(哈哈输)

......../preface.gb 鲁迅《〈坟〉题记》

......../jielie.gb 鲁迅《我之节烈观》

......../nala.gb 鲁迅《娜拉走后怎样》

......../genius.gb 鲁迅《未有天才之前》

......../being_father.gb 我们怎样做父亲(哈哈输)

......../Leifeng_pagoda.gb 论雷峰塔的倒掉(哈哈输)

......../beard.gb 鲁迅《说胡须》

......../photography.gb 鲁迅《论照相之类》

......../Leifeng_pagoda2.gb 再论雷峰塔的倒掉(哈哈输)

......../mirror.gb 看镜有感(海生输)

......../late_spring.gb 鲁迅《春末闲谈》

......../under_lamp.gb 鲁迅《灯下漫笔》

......../misc_recall.gb 鲁迅《杂亿》

......../tamade.gb鲁迅《论“他妈的!”》

......../teeth.gb 鲁迅《从胡须说到牙齿》

......../jianbi.gb 鲁迅《坚壁清野主义》

......../kuofuism.gb 鲁迅《寡妇主义》

......../fairplay.gb 鲁迅《论“费厄泼赖”应该缓行》

......../open_eyes.gb 论睁了眼看(海生输)

......../postscript.gb 写在“坟”后面(哈哈输)

....../refeng/ 杂文集《热风》

......../preface.gb 鲁迅《〈热风〉题记》

......../essay25.gb 鲁迅《随感录二十五》

......../essay33.gb 鲁迅《随感录三十三》

......../essay35.gb 鲁迅《随感录三十五》

......../essay36.gb 鲁迅《随感录三十六》

......../essay37.gb 鲁迅《随感录三十七》

......../essay38.gb 鲁迅《随感录三十八》

....../er_xin_ji/ 杂文集《二心集》

......../good_goverment.gb 好政府主义(方舟子输)

......../hard_translation.gb 硬译与文学的阶级性(方舟子输)

......../knowing_and_doing.gb 知难行易(方舟子输)

......../running_dog.gb 丧家的资本家的乏走狗(方舟子输)

....../wei_ziyou_shu/ 杂文集《伪自由书》

......../king_way.gb 王道诗话(方舟子输)

......../light_coming.gb 光明所到(方舟子输)

......../sell_soul.gb 出卖灵魂的秘诀(方舟子输)

....../huabian_wenxue/ 杂文集《花边文学》

......./Beijing_and_Shanghai.gb 京派和海派(方舟子输)

......./friends.gb 朋友(方舟子输)

......./new_year.gb 新年(方舟子输)

....../eryi_ji/ 杂文集《而已集》

......../literature_and_sweat.gb 文学与出汗(方舟子输)

......../Wei-Jin_manner.gb 魏晋风度及文章与药及酒之关系(方舟子输)

......../face_of_Chinese.gb 略论中国人的脸(方舟子输)

....../zhun_fengyue_tan/ 杂文集《准风月谈》

......../body_search.gb 《“抄靶子”》(大隶输)

....../huagai_ji/ 杂文集《华盖集》

......../beida.gb 鲁迅《我观北大》(一华输)

..../criticism/ 鲁迅评论

....../Mr.Lu-Xun.gb 张定璜《鲁迅先生》(方舟子输)

....../death_of_Lu-Xun.gb 林语堂《鲁迅之死》

....../Liang-Shiqiu.gb 梁实秋论鲁迅(南山明输)

....../Li-Zehou.gb 李泽厚论鲁迅(方舟子输)

....../Lu_Mei.gb 袁良骏《两位艺术大师为何不相能?——略论鲁迅与梅兰芳》

..../reports/ 有关鲁迅的新闻报导

..../biography/ 鲁迅传记资料

....../zhu-an.gb 鲁迅与朱安

透过这一“文件树”,我们首先可以看到,此时“文库”的数字化对象已涉及至少13种鲁迅作品集单行本。其中,散文诗集《野草》、小说集《呐喊》、小说集《彷徨》、小说集《故事新编》、散文集《朝花夕识》、杂文集《坟》等6部作品集中的绝大部分篇目已数字化。具体情况如下:

(1)《野草》收文(此处及以下篇目之统计,均以各书初版本及1938年版《鲁迅全集》为主,另外也参考了1973年版、1981年版、2005年版《鲁迅全集》,恕不赘述)23篇(不含“题辞”),“文库”则收文24篇(含“题辞”)。另收有《〈野草〉英文译本序》(鲁迅)及《〈野草〉简介》(方舟子)二文。《〈野草〉简介》一文写得颇为用心,除简介该集所收篇目的发表、选入教材及作者的自我表述等方面的情况外,还交代了《题辞》被《野草》各版本及鲁迅作品集时而收入、时而抽去的原因及具体事实。

(2)《呐喊》收文15篇(含“自序”),“文库”亦收文15篇(不计《呐喊》之目录)。这里需要说明的是,目录页,在纸书中虽占一定篇幅、位置重要,但一般并不被看作是一独立文献,而到了电子化、数字化的阶段,则其必须是一个独立文件。但即便如此,若是从内容角度而言,尤其是在进行数字化与原有纸质文献的比较研究、统计,作对齐式的分析时,似可略去。事实上,在“文库”所收《呐喊》集中,除了独立的《〈呐喊〉目录》(尚未归档时输入),还有另外一个目录,亦即包括了《〈呐喊〉目录》及集中诸文的目录(全部文件归档整理时产生)。笔者以为,为避免混乱,在统计分析时有必要剔除这两个目录,当然,这并不是说它们不重要。下同。

(3)《彷徨》收文11篇,“文库”尽收其文。其中有一处明显的误植,即在该书目录界面,错将《弟兄》一文的题目录为《兄弟》,但正文中的标题无误,仍为《弟兄》。

(4)《故事新编》收文9篇(含“序言”),“文库”尽收其文。

(5)《朝花夕拾》收文12篇(含“小引”“后记”),“文库”尽收其文。另有一《〈朝花夕拾〉简介》(方舟子),其特色如《〈野草〉简介》。

(6)《坟》收文25篇,“文库”收文20篇(不计《坟》之目录),未收入的篇什为:《人之历史》《科学史教篇》《文化偏至论》《摩罗诗力说》《宋民间之所谓小说及其后来》。这5篇文章中,除了《宋民间之所谓小说及其后来》是学术论文,前4篇文章均为鲁迅早期的文言论文,它们的意义在当时或许尚未得到充分的认识,因此,也就被遗漏在外了。另外,因为各文的输入者、校对者均非一人,而是成自众人之手(需要指出的是,这里笔者并非暗示相反的情形,即由一人完成全部数字化工作,就能保证其文本质量,详见下文论述),以致各篇目标题是否加书名号、作者鲁迅等,亦未能统一。“文库 ”编者也并未对其统一、对齐,但这并不是由于其未有如此之意识,更多的或是由于FTP环境下文件上传后,根目录文件不仅是对文件的命名,而且包含着指定的存储和访问路径,一旦频繁更名(更名须手动、逐一为之),极易造成混乱这一技术条件造成的。

另一方面,虽然其数字化的鲁迅文本涉及不少鲁迅作品集单行本,在所有这些单行本著作中,又以杂文集为多(共8种,在全部被数字化的鲁迅作品集中占比约62%,这也与鲁迅创作、出版文类数量本身的多寡大概保持一致),但在对这些杂文集所收文章,是否需要全部数字化这一问题上,似乎并未在事先形成明确的、稳定的认识,毋宁说更多地体现出一种主观性、任意性。对于这一点,我们既可以从这一“文件树”所收各种杂文集的顺序中看出,也可以从其具体对每种鲁迅杂文集的数字化过程中所作的选择中发现。事实上,除了《坟》较多被数字化以外,其余各种杂文集的数字化程度并不平衡。当然,即便有这些林林总总的问题,在这一过程中,也体现出“文库”编者一定程度的文献编纂意识:

(1)《热风》收文28篇,而“文库”收文7篇,均为1918年鲁迅所作。但这7篇文章,在不同版本的《鲁迅全集》(以下简作《全集》)中,则被合并为2或4篇,即《随感录二十五》与《随感录三十三至四十三》(1938年版、1973年版);《随感录二十五》与《三十三》《三十五至三十八》《随感录三十九至四十三》(1981年版、2005年版)。显然,“文库”并未采用上述任何一种《全集》的编纂方针,而是将其拆分成了7篇单独的文章。此外,这7篇文章亦未循例注明输入者、校对者,可能是从网上搜集而来,并非“文库”编者输入,校对。

(2)《二心集》收文39篇,而“文库”收文仅4篇,除《知难行易》(应为《知难行难》)系1931年所作外,其余3文均为1930年鲁迅所作杂文。另外,这4篇文章在其初版本、各版本的《全集》中的顺序,亦非如“文库”所示。

(3)《伪自由书》收文45篇(不计附文、“备考”),而“文库”收文仅3篇,均为鲁迅1933年所作。此外,这3篇文章的先后顺序,与原书一致。

(4)《花边文学》收文62篇(不计附文、“备考”),而“文库”收文仅3篇,且其编次与原书不同。

(5)《而已集》收文31篇(不计附文、“备考”),而“文库”收文仅3篇,其编次亦与原书不同。

(6)《准风月谈》收文66篇(不计“备考”),而“文库”收文仅《“抄靶子”》1篇。

(7)《华盖集》收文33篇,而“文库”仅收《我观北大》1篇。而收入此文的原因,或与当时有关北大的新闻事件有关。

当然,所有这些数字化的鲁迅杂文文本,在鲁迅的全部杂文创作中,仍只是少数一部分。且不论各集所遗漏的大量文章,仅在这8部杂文集之外,诸如《华盖集续编》《三闲集》《南腔北调集》《且介亭杂文》《且介亭杂文二集》《且介亭杂文末编》《集外集》《集外集拾遗》(许广平编)《集外集拾遗补编》(1981年版《全集》编入)等9部杂文集,皆尚未引起“文库”编者,乃至其他的计算机用户/读者注意,而被见弃于“文库”,有待以后补充。

但更重要的是,这一“文件树”也显示出,还有一些新的鲁迅文献资料已被数字化,不限于其文学作品,尤其新文学作品,其中包括鲁迅照片、手稿、诗稿及鲁迅旧体诗集注。但对这些文献资料的数字化,似乎与对鲁迅文本的数字化的性质、特点是一样的,因为其经历了一个相当长的过程,而且很可能出自众人之手,因此,其原则并不一致。仅以其照片部分为例,对这些电子化的照片文件本身(皆为.gif文件)的命名,此时已出现两种格式:其一为“Lu-Xun+序号”,其二为“luxun+序号”;而且,全部7张照片并未按照其形成时间先后编次,显得有些混乱(这一问题在其后被纠正,并新增了“上海鲁迅公园鲁迅墓”照片)。不过,对这些照片的出处进行考察,可以帮助我们解决一个重要问题,此即“文库”编者数字化的鲁迅文本(或者至少大多数被收入“文库”的、经由“文库”编者数字化的文本),其母本/纸本文献究竟源于何处?实际上,在“鲁迅家页”主页,在鲁迅照片、诗稿和手稿照片、传记、年谱与全集文本中间,有两条分割线,在分割线的居中位置,就写着“以下作品均据人民文学出版社版校对”一行文字,向读者表明以下的全集文本“均据人民文学出版社版校对”,但我们知道,在此之前,人民文学出版社已出版1973年版和1981年版两个版本的《全集》,那么,究竟人民文学出版社出版的哪一个版本的《全集》,抑或该社出版的某一鲁迅作品集单行本(这一可能性不能说没有,但由于鲁迅的不同的作品集单行本在1949-2000年间拥有太多的版本,而在学界未对这一版本问题做出坚实研究和可靠结论之前,想要讨论这一可能性几乎无从着手,因此,笔者在此只能排除这一可能),何者才是“文库”生产、制作“数字鲁迅”所依据的底本呢?

仔细对照、考察这些收入“文库”及“鲁迅家页”的鲁迅照片的电子版、数字版与纸质文献来源,可得如下结果:

(1)“鲁迅照片(青年)”:实即1903年鲁迅旅日时所摄照片,相继被收入1973年版《全集》第2卷和1981年版《全集》第1卷。

(2)“鲁迅照片(1933)”:摄于1933年5月1日之上海春阳照相馆14(如图1),但“文库”所收该照片的电子化版本(如图2),并非原始照片的复制件,而是将原图进行裁剪、压缩、重新着色的结果。不过,我们并不清楚这一结果是由“文库”编者或“新语丝”同人所为,还是由某一网民自其他纸质文献翻拍,而后予以技术处理得来。此一鲁迅照片电子化版本流传甚广,至今亦可见于网络和多种书刊资料,但若是将此二照片作一对照,便可确认“文库”版本的照片(即网上流行的鲁迅照片)并非原照、原图,恰由对原照进行技术处理而来这一事实。另外,如果不是对照原始照片,我们也很容易将这一“文库”所收鲁迅照片与1981年版《全集》第8卷收入的、鲁迅于1931年5月26日为斯诺著《活的中国——现代中国短篇小说选》一书所摄照片(如图3)混同,将其视作后者翻转的结果,其实二者虽摄制于大约同一时期,照片中鲁迅的神态、发型、衣着等较为近似,但并非同一物。

(3)“鲁迅照片(1930)”:该照片现已无法访问,此处无法讨论。但据笔者推测,此文件[原文件名为“Lu-Xun3.gif”,显示文件名为“鲁迅照片(1930)”]与“文库”所收第4张照片[即本文接下来要讨论的照片,原文件名为“luxun4.gif”,显示文件名同为“鲁迅照片(1930)”]或为同一幅照片,后来“文库”编者发现了这一点,因此将其予以删除。

(4)“鲁迅照片(1930)”:摄于鲁迅五十寿辰之时,相继被收入1973年版《全集》第1卷和1981年版《全集》第4卷。

(5)“鲁迅照片(1933)”:摄于上海大陆新村寓所,相继被收入1973年版《全集》第19卷和1981年版《全集》第4卷。但1973年版《全集》第19卷所收鲁迅译著《竖琴》《一天的工作》并未进入“文库”。

(6)“鲁迅照片(1936)”:系1936年10月8日鲁迅在全国第二回木刻流动展览会上所摄,收入1981年版《全集》第6卷。但“文库”所收电子版的色度失调,难以看出鲁迅当时所坐藤椅的扶手(原照片左下角位置)和其左方的另一椅背(原照片右上角位置)等细节。

(7)“鲁迅合家照(1933)”:实即1933年鲁迅五十三岁寿辰全家合影,被收入1981年版《全集》第5卷。

在此,我们对上述讨论结果作一总结,便可得出以下两点结论:首先,上述6张照片中,共有3张照片被同时收入1973年版和1981年版《全集》,但在1981年版《全集》中,收入了其中5张照片;其次,如上所述,收入了“鲁迅照片(1933)”的1973年版《全集》第19卷所收鲁迅译著《竖琴》《一天的工作》并未进入“文库”,相形之下,收入了多达5张照片的1981年版《全集》的第1、4、5、6、8卷中的鲁迅原创作品集,即《坟》《热风》、《呐喊》(以上收入第1卷)、《三闲集》《二心集》《南腔北调集》(以上第4卷)、《伪自由书》《准风月谈》《花边文学》(以上第5卷)、《且介亭杂文》《且介亭杂文二集》、《且介亭杂文末编》(以上第6卷)、《集外集拾遗补编》(第8卷)中,一半以上的作品集,均进入了“文库”。在这两点结论的基础之上,我们似乎可以得出这样的结论:如果“文库”编者采用人民文学出版社出版的某一版本的《全集》,对鲁迅的照片及其文本进行电子化、数字化的话,只有1981年版《全集》才能满足其绝大多数需要,也就是说,1981年版《全集》而非1973年版甚至更早版本的《全集》,才可能是这一数字化工作的重要纸质文本来源。

但在针对其照片的数字化工作展开分析之外,配合对其创作文本的研究,我们还可以进一步发现,该“文库”及此前问世的“新语丝”电子期刊上出现的鲁迅文本(含创作文本、照片等),可能并非只有一个版本来源(即1981年版《全集》),而是拥有众多的版本和文本来源。举一个小小的例子来说,本节上文曾指出,从这一“文件树”看,当时被“文库”数字化的鲁迅作品集中,并不包括《集外集拾遗补编》(编入 1981年版《全集》,但并非鲁迅生前自定)这一杂文集,但是,在本文第一节论述的、首先出现于“新语丝”电子期刊“周氏兄弟专辑”的鲁迅旧体诗《别诸弟三首(庚子二月)》曾编入1981年版《全集》之《集外集拾遗补编》,然而,无论是期刊编者,还是“文库”编者,显然都并未意识到这一点,因此,并未在当时(甚至以后)建立《集外集拾遗补编》的目录和全文,何以如此呢?一个可能的解释是,他们在数字化这组旧体诗时,很大可能并未参考1981年版《全集》,而采用的是周振甫著《鲁迅诗歌注》这一整理本,而在其后,他们也并没有通检1981年版《全集》,因此并不知道该组诗系《集外集拾遗补编》所收一文,因此,在“文库”中仅仅建立了“鲁迅旧体诗集注”的目录和全文,注明了其注释来源,乃至录入者、注释者,且据《鲁迅诗歌注》将该组诗列为全部鲁迅旧体诗(共六十一首)之首,供读者阅读,但并未为《集外集拾遗补编》创建有关的记录。当然,这与他们在数字化其他的鲁迅文本时,采用1981年版《全集》或是其他纸质书籍(如某一鲁迅作品集的单行本,甚至是某一选本),也并不矛盾。

但是,透过这一“文件树”,我们进一步发现,部分关于鲁迅的评论、当代报道、传记资料,此时也已被数字化并收入“文库”。与大量被数字化的鲁迅文本一样,其中许多作品也标明了输入者,或是在文末加上了校对者的大名,体现出“文库”编者一定程度的文献整理意识(至于哪些未注明输入者、校对者的作品,如上所述,也可能来自于其他用户,是编者从网上搜集而来,而非“新语丝”同人或“文库”编者所为),及愿意将自己视为这些数字文本的作者的新的作者观念。不过,这些意识、观念都不能保证其在文字输入、整理方面不犯错误。在数字化的鲁迅文本(这里不讨论有关鲁迅的报道、评论等类型的文献资料)中,这些错误大致可以分为三类:

(1)文字输入时不慎造成的误植:如《杂亿》应为《杂忆》,《知难行易》应为《知难行难》,《京派和海派》应为《“京派”与“海派”》,《新年》应为《过年》,《文学与出汗》应为《文学和出汗》等。

(2)一些可能是由简括造成的讹误:如《我们怎样做父亲》应为《我们现在怎样做父亲》,《丧家的资本家的乏走狗》应为《“丧家的”“资本家的乏走狗”》,《硬译与文学的阶级性》应为《“硬译”与“文学的阶级性”》,《光明所到》应为《“光明所到……”》等。

(3)在标题之外,具体的正文之中出现的错误:如《野草》中的《求乞者》一文的第三、四段,1981年版《全集》作:

一个孩子向我求乞,也穿着夹衣,也不见得悲戚,而拦着磕头,追着哀呼。

我厌恶他的声调,态度。我憎恶他并不悲哀,近于儿戏;我烦厌他这追着哀呼。15

“文库”则作“一个孩子向我求乞,也穿着夹衣,也不见得悲戚,近于儿戏;我烦腻他这追着哀呼。”16其间不仅刊落了“而拦着磕头,追着哀呼。我厌恶他的声调,态度。我憎恶他并不悲哀”等语句,还将末句“我烦厌他这追着哀呼”中的“烦厌”误植为“烦腻”(这很可能是由于下文鲁迅曾两次使用“烦腻”一词,因而“文库”编者、录入者、校对者便以为此处亦宜统一作“烦腻”造成的,但正如孙用所言,该文最早在《语丝周刊》发表时,此处的“烦厌”一语,原作“烦腻”。17只是不知何故,1981年版 《全集》将其改作“烦厌”)。

显然,这些不同程度的错误,乃至“文库”其他方面的表现,均向我们表明编者的文献整理、编纂意识,抑或其所具有的文献学功力,仍然是相当有限的。还是以上文分析过的、“文库”中的“鲁迅旧体诗集注”为例,实际上,“文库”所谓的“集注”并非古文献学领域所谓的集数家、百家之注而总其成,并附上自家见解的文献整理类著作,或是指代此类整理、研究工作本身,相反,只是据周振甫著《鲁迅诗歌注》对61首鲁迅旧体诗作一 一加注而已。我们很难想象,一个接受过专业的文献学训练的学者,会乱用、误用“集注”这一再基础不过的概念,但话又说回来,又有多少专业学者在此时(甚至此后)“触电”“触网”,且孜孜矻矻,不惮烦劳,从事此类电子化、数字化的工作呢?

三、汉字编码与“数字鲁迅”的早期历史

其实,无论我们站在今天的立场上(一种后见之明?)对早期的“数字鲁迅”生产实践提出多少严苛的批评和质疑,它的开拓性、先锋性,都是不容置疑的。尤其从数字技术的发展角度来看,上举这一“文件树”及其文件命名、格式本身,直接揭示了汉字编码技术对于早期“数字鲁迅”的重要影响,值得深入探究。

这里我们首先注意到,这些作品(作为电子文件)皆以.gb形式命名,而这里的“gb”正是数字化过程中采用国标码汉语编码而制作电子文件时所必须有的特征。那么,为什么在早期的“数字鲁迅”生产实践过程中,被数字化的鲁迅文本及其相关资料,没有采用我们熟悉的.txt、.doc、.pdf、.htm(l)等格式,而是.gb格式?除了“鲁迅作品”(截至1998年8月1日)这一“文件树”,囊括了绝大多数鲁迅文本、研究资料的“鲁迅家页”文件目录,何以也采用了与前者几乎相同的形式(只是未曾显示最底层的根目录文件),大致上仍可视作FTP环境下的“文件树”这一形式呢?这就与计算机操作系统、网络传输技术、中文信息处理技术,尤其汉字编码技术的发展密切相关了。

以下我们先来讨论后一问题,即“鲁迅家页”的文件目录,同样采用FTP环境下的“文件树”这一形式的原因。实际上,与我们熟知的、后来成为主流互联网浏览器的Internet Explorer浏览器,从1995年开始被内置于各个新版本的 Windows 操作系统(此时尚未成为主流操作系统,取代Unix、Linux系统),成为微软 Windows 操作系统的一个组成部分——不同,在Windows 操作系统(及其内置的IE浏览器)未取得统治地位之前,其他的互联网浏览器如Lynx(适用于Unix、Linux系统的纯文字网页浏览器)、Netscape(1994年发布)、Mosaic(1993年发布)等,早已在市场崭露头角,拥有大量用户。因此,在“文库”之前创生的“新语丝”电子期刊,便为用户提供了两个网址(即http://www.xys.org与http://xys.asianews.com),以便其透过互联网浏览器的方式进行访问、获取。但是,仍有不少刚刚“触电”“触网”的用户,对此种上网方式并不熟悉,而是习惯于使用FTP上传、下载、共享、访问文件,也因此,“新语丝”给读者提供的第一种使用方式,就是一个匿名的FTP地址: xys.org/pub/xys,并提醒读者“注意大多数文件是国标码,必须用binary transfer”。虽然FTP可用多种格式传输文件(这通常由操作系统决定),但当时流行的大多数Unix、Linux系统只有两种模式:文本模式和二进制模式。其中,“文本传输器使用ASCII字符,并由回车键和换行符分开,而二进制不用转换或格式化就可传字符,二进制模式比文本模式更快,并且可以传输所有ASCII值,所以系统管理员一般将FTP设置成二进制模式。”而这正是它们为何要求读者“必须用binary transfer”(意为“二进制传输模式”——引者注)的原因所在,也决定了“文库”及“鲁迅作品”“鲁迅家页”继承这一做法,而非另辟蹊径。

但“文库”中这些数字化的鲁迅文本及相关资料,皆采用.gb这一文件格式,从而生成GB版本的文本,与“新语丝”电子期刊采用GB、HZ、Big5、PS多种版本之间,仍形成明显的差异。令我们不禁感到好奇的是,何以后者只有一种格式(后来全部改成.txt格式),而前者需要采用多种格式呢?这或许是由电子期刊的公共性质、同人性质,与“文库”属于编者(同时也可能是最主要的文字录入者、校对者)方舟子的个人兴趣、行为之间的不同性质所决定的。简言之,前者是集体合作的产物,而且定期刊出,希望能够争取更多的读者,因此,为便利读者计,须尽可能多地采用不同的汉字编码技术,因此也就形成了不同的格式和版本;而后者寄托了方舟子本人的爱好、理想,无论是出于节省时间、精力的考虑,还是长期维系这一工作本身的需要,他都有理由采用一种统一的、单一的汉字编码格式。可是,接下来我们需要追问的是,在所有的编码格式中,其何以只选择了GB码,而非其他?

众所周知,20世纪七十年代到九十年代的中文信息处理技术,由于技术限制、数据限制和汉语言文字本身的语言特点,相对较为简单、有限。这些早期的中文信息处理技术,一般包括输入法、文字编码、信息检索等,其中汉字编码技术尤为关键。具体而言,为了在计算机中存储和处理中文字符,需要制定相应的文字编码方案。当时被发明并被普遍使用的编码标准及字符集,就包括GB码、Big5等。这些编码方案,允许计算机以数字形式来表示中文字符,从而实现中文信息在计算机中的传输和处理。其中,在“文库”编辑过程中,被一直采用的、作为汉字编码标准的GB码(全称为GB2312-80编码,亦称GB2312编码,简称GB码、国标码),是一个由国家标准总局于1981年5月1日发布并实施的、针对简体中文字符集的国家标准。其全称为《信息交换用汉字编码字符集——基本集》,共收录6763个汉字,并对所收汉字作了“分区”处理(每区含有94个汉字/符号),这种表示方式也被称为“区位码”。而在此基础上更新的GBK码(亦称HZ编码),由全国信息技术标准化技术委员会于1995年12月1日制订,并于当月15日由国家技术监督局标准化司、电子工业部科技与质量监督司联合颁布。这一新的标准基本上采用了原GB2312-80编码所有的汉字及码位,涵盖了原Unicode(在ASCII码基础上建立,1991年10月发布,1992年6月加进汉字即“中日韩统一表意文字集”)19所有的20902个汉字,总共收录21003个汉字、883个符号,并提供1894个造字码位,可输入简、繁体中文。20两相比较,后者的优势更为明显。

但引人瞩目的是,“文库”并未采用GBK码这一新的、更加优良的编码标准,而是长期维持早已使用中的GB码这一规范。换言之,“文库”从创生到1999年年初的中文文本编辑规范,一直采用GB码而非GBK码,一定并非偶然,实有意致之。极为概括地来说,除了如前述所言,这一生产实践本身具有的个人性、私人性(在这里,其不仅与个人爱好、非功利性联系在一起,而且还意味着一种主观性、偶然性和一定程度上的不可解释性)之外,还与“文库”编者方舟子在网上发帖、发送电子邮件、输入中文文本等的习惯一致,因不仅是他本人,“新语丝”同人大多曾在中国大陆长期接受简体字的教育,需要与其他的简体字用户在网上保持日常、频繁的交流,而GBK码的优势只有在使用生僻字、繁体字时才能见出其优势,一般情况下,GB码已堪其用(当然“文库”编者,对其限制应有一定认识,这表现在:“文库”所收鲁迅文本中的许多古字、生僻字,亦即不被GB码字符集收录的集外字,常不得不被拆分作两个字或是几个独立的偏旁部首的组合,并以此形式表示)。总之,如此种种考虑,决定了“文库”如果选择唯一的汉字编码格式,就一定是GB码,而非其他。

与“文库”不同,“新语丝”电子期刊除了采用GB码,还采用了HZ、Big5、PS等另外三种不同的编码标准,向读者提供多种可供计算机阅读的文件格式和版本。其中,HZ字符编码(亦即GBK编码)是早期为了在只支持7位ASCII(美国信息交换标准代码,基于拉丁字母而设计,主要用于显示英语和常用标点,共128个字符,属于底层的电脑编码系统,其他任何语文的编码皆须与之匹配)系统中显示、传输中文而设计的编码方式;Big5编码(亦称大五码、五大码)兼容ASCII系统,是我国台湾地区推出的繁体中文字符集标准;PS编码则是指GB18030编码标准,来自《信息技术汉字编码字符集 基本集的扩充》这一国家标准,其最新版本是GB18030-2005,最早版本为GB18030-2000,由信息产业部、国家质量技术监督局于2000年3月17日联合发布,并于2001年1月作为一项强制性的国家标准开始实行。21但我们知道,这一编码格式晚于该刊的创刊时间(1994年2月),因此,可以推定,这是该期刊在2000年以后为了适应新的中文处理技术、汉字编码技术而做出的改变,并非一开始就有。易言之,这些不同的编码技术的被采用,虽然是出于期刊需要照顾不同国家和地区、使用不同的计算机操作系统和互联网浏览器用户的考虑,但并没有一开始就被确立为期刊的在线编辑原则之一,而是随着技术的发展不断地扩充,为了最大程度上满足此后读者的需要和期刊内容存档的需要,而并非仅仅是同时代读者的需要。

但“文库”难道就不用考虑早期及以后计算机用户/读者的需要,而不断做出改变吗?实际上,其长期采用GB码生成的、GB版本的文件的可扩展利用的功能,受到它本身的限制颇多。除了使用互联网浏览器,或是 Genome Compiler 等专门的软件,或FTP方式进行访问、阅读,读者若是想对其作进一步的复制、粘贴、编辑等操作,远不如其他格式、版本的文件来得更加便利。在使用了五年多的GB码之后,“文库”全部文件的格式统一改为.txt也正说明了这一不足,及编者因应这一不足的努力。具体来说,随着1990年代中后期不同计算机操作系统之间的充分竞争,尤其是Windows操作系统的不断普及,以及其中集成的“记事本”这一软件的深入人心,越来越多的用户开始希望使用与“记事本”相匹配的(亦尤其生成的).txt格式文件来阅读各种文档、资料,故此,1999年1月31日,“文库”发布了一条通知:“1/31, 应IE用户要求,所有文件名称从.gb改为.txt。”至此全站文件都改为了.txt格式,可以被便捷地阅读、复制、粘贴、编辑,而由“文库”所代表的早期“数字鲁迅”生产实践,由此也走出了GB码编码时代,进入了ANSI(在中文操作系统中指GBK,日文系统中是JIS,英文系统中则是ASCII)和UTF-8、UTF-16编码时代,这些新的编码技术(及其形成的文件)既可兼容中文繁简体,也有更丰富的扩展功能,更方便读者利用。而在这一文件格式的转换过程中,方舟子应该是利用计算机编程语言,开发出了专门的、相应的程序(即包括“代码转换工具”在内的诸多程序),从而能够将GB码文件自动转换为能够阅读GB码的txt、html等纯文本文件,从此延续至今(当然这里头并不包括他后来完全放弃GB码,而采用新的汉字编码标准的文本)。

经由对上述问题的讨论和分析,我们可以更进一步看到,汉字编码技术在早期“数字鲁迅”的生产,其实扮演了一个非常关键、基础的作用。在公共层面,对于“新语丝”同人(尤其是期刊编者)而言,他们希望尝试采用不同的编码标准如GB码、HZ、Big5、PS等,以此生产不同的鲁迅文本及有关文献资料(数量极为有限),但在个人层面,“文库”编者仍更青睐于与自己的教育背景、文化背景、交际需要关系密切的GB码,并根据自己的兴趣、选择和当时能够利用的纸质文献、数据资源,不断对鲁迅文本及有关资料进行数字化,进而创造了一副新的、不同于期刊的“鲁迅像”,这其中既有鲁迅的肖像、照片、手稿、新旧文学文本,也有大量关于他的报道、评论、传记资料等,不啻为另一版本——或是早期数字版本——的“鲁迅全集”,甚至我们或许完全可以将其视作一种新的“鲁迅全集”版本,因为究其本质而言,这一数字化的“鲁迅作品”,并非既有的、任何一种纸质“鲁迅全集”的电子版、数字版或镜像产品,亦非是现成的、某一“鲁迅作品”目录及其全文的复制件,而是一种新的人工创造(artifacts),一种利用新的、自动化的机器和技术对鲁迅文本进行编码(这里我们不是从这一术语的提出者斯图亚特•霍尔的角度来使用它,恰是在其原初的意义上)、解码的文化生产实践,一种“数字鲁迅”生产实践。

当然,在这一中文信息处理技术之外,网络基础设施、数字读写能力等方面的因素,也在不同程度上参与了“数字鲁迅”的早期生产,乃至对早期“数字鲁迅”的接受过程当中。在这一生产过程中,“文库”编者除了无偿付出大量时间和精力,还需要不断解决来自服务器、网络、硬盘存储等与数字文化生产息息相关的、多方面的计算机软硬件问题。例如,1999年12月24日,方舟子在“新语丝”发布了一封写给“两个多月以来投过稿或来信联系的读者”的“通知”,就透露出其所遭受的、来自硬盘存储方面的困扰:

我的PC硬盘在一周前损坏,目前仍然未修复。自10月5日到12月18日之间的新文件和信件有可能全部丢失。如果您在此期间曾经向我投过稿而未见登出,或者来信约稿、商量广告适宜(应为“事宜”之误——引者注)而未见答复,请重寄一遍。多谢!23

而在接受过程中,“新语丝”的用户,一开始较多地集中于海外的中文读者群体,但到了1990年代后期(有研究者认为,“到1998年,互联网抵达了世界各国”24),尤其是2000年以来,已引起越来越多的中国大陆的计算机用户/读者的注意。当然这也与此时中国大陆家庭电脑拥有率、全国上网计算机数和用户数日益增长的趋势相符。据调查,1996-2000年间,中国大陆家庭电脑的拥有率以年均38.2%的速度递增,而不同层次的城市在家庭电脑市场发展中也表现出明显差异,其中,北京、上海和广州等一线城市的家庭电脑拥有率为全国最高,已达到28.1%,而二三线城市则相对发展较缓慢,这当然与一线城市居民的人均收入较高,能够支付当时颇为高昂的电脑安装费用、上网费用等因素直接相关(全部费用一般大约在4000元至5000元甚至更高)。25不过,若是将这一数据放置在全球范围内来看,似仍不够抢眼,因与此同时,美国家庭电脑普及率高达51%,26日本家庭个人电脑普及率也已达到38.6%。27

另一调查则显示,2001年,在北京、上海、广州、大连、成都、西安六大城市,已有40%的家庭拥有电脑,其中58.7%的家庭,是在去年(即2000年——引者注)新购置的电脑,全国大中城市的电脑普及率(含家庭电脑拥有率——引者注)有望在是年年底达到70%。28其中上海的家庭电脑拥有率,在次年(即2002年——引者注)已高达44%,甚至有记者预测道,以此发展速度,到2002年底,平均每2户就将拥有1台电脑,“与1997年平均每10户上海人还分不到1台电脑、普及率只有8%相比,发生这种‘跨世纪’的变化仅仅用了5年”29。

此外,来自官方的调查报告,虽选用了不同的调查指标,但其呈现的互联网发展趋势,与上述两种“民调”结果大致相符。中国互联网络信息中心(CNNIC)自1997年12月1日发布《第一次中国互联网络发展状况调查统计报告》起,以每年1-2次的频率发布的中国互联网络发展状况调查统计报告显示,大约在同一时期,我国上网计算机数和上网用户数均实现了大幅增长(如下表1、图4所示,其中所有原始数据,均抽取自这一官方调查报告,即第1-7次调查统计报告),据此亦可核算出此时我国上网计算机数的年平均增长率为32.24%,上网用户数的年平均增长率为30.2%30:

与这些来自中国大陆各大城市的计算机用户开始经常访问、使用这一网站,阅读这些作品同时,中国大陆作家、学者有关鲁迅的评论、讨论,以及其发表在国内的报章杂志和互联网上的有关报道等,也以急剧增长的速度,被源源不断地加入“文库”当中。简言之,大量的用户,尤其是来自中国大陆、使用简体中文进行日常交流和学术写作的用户,可以利用家庭电脑、个人电脑访问互联网的用户,为期刊、“文库”带来了大量的内容,而且是高质量的内容,而这正是互联网这一数字媒介在当代文化生产中,与它的用户互相成就、得以发挥作用的根本原因之所在。具体到早期“数字鲁迅”的生产、接受过程中,伴随着作为“20世纪90年代全球最重要的事件”的中国经济的飞速增长31、中国大陆网络基础设施的不断改善、计算机用户和上网用户的快速增加及其数字读写能力等方面的变革,在互联网上不仅出现大量的、与鲁迅有关的用户生成内容(User-generated content,简称UGC),提升了“新语丝”电子期刊、“文库”本身的质量,使“数字鲁迅”像变得更加丰富、多元,也使得“新语丝”同人生产的“数字鲁迅”本身产生了更多、更大的影响。尽管这方面的直接证据较少,但一则资料却可以帮助我们间接地证实这一猜想。2000年5月1日,一篇不题撰人的小说《阿Q》在“新语丝”发表,小说正文之前由编者加上的下面这段话,就从侧面显示了“新语丝”当时在国内引起的强烈反响:

(摘自“新语丝•读书论坛”http://www.xys.org/cgi-bin/mainpage.pl新语丝海外站点被中国方面屏蔽,国内网友可从新语丝国内版“新到资料”的链接进入)

质言之,如果说“新语丝”电子期刊、“文库”的“数字鲁迅”生产实践,一开始还只代表了全球范围内少数精通计算机和网络语言,又对中国文学怀有浓厚兴趣的用户的文化生产之举的话,那么,在1990年代后期特别是2000年以来,经由中国大陆家庭电脑拥有率、全国上网计算机数和用户数的日益增长,已使其生产实践发生了不小的改变。这一改变首先体现在生产者的构成上,即由以在海外的中文读者,扩充到在国内的中文读者(尽管他们在大多数时候并非是期刊、“文库”的编者),但更重要的变化则体现为:在此之前、已经出现在网上的、数字化的鲁迅文本,为读者提供了部分可资讨论的、可利用机器读写的文本基础和文献资料,但在此之后,这一未完成的“数字鲁迅”生产实践,反过来又进一步激发了人们对鲁迅文本及相关资料进行电子化、数字化的热情,正是这两个方面的互相影响,交相辉映,构筑了早期(1990年代至新世纪初期)“数字鲁迅”生产的历史图景与“数字鲁迅”像的基本轮廓。

事实上,在无远弗界的互联网世界,苦心孤诣于制作“数字鲁迅”、传播其文学与学术思想者,又何止“新语丝”同人?2000年7月24日,“新语丝”曾发布一则简短的消息,其标题为:【新网站】《鲁迅全集》(1981年版)索引(德语界面)。但这是一条标题新闻,并无其他内容,正文即链接到其所谓的“新网站”的网址。虽然由于原网址已失效、网站至今已荡然无存等因素的影响,此一德语版《鲁迅全集》(1981年版)索引工作,而今我们已不能识得庐山真面,但这一消息本身,恰恰再清楚不过地表明,此时在英语区之外,德语区也有读者不约而同地展开了“数字鲁迅”生产实践。而这些来自不同语言文化区域、不同形式的“数字鲁迅”生产实践,不仅同样构成了全球范围内早期“数字鲁迅”生产历史的一个方面,也再一次预言了鲁迅文学与学术思想在数字时代所具有的不朽魅力。由此,这些丰富的数字文化生产、再生产实践,也再一次向我们提前揭示了(但在当时或许并未引起人们察觉的)一个朴素的真理:“有价值的、藉由纸质媒介传播的人类文明遗产,在数字时代,一定不会黯然失色,相反,仍将会光彩夺目、熠熠生辉。”32

更进一步来说,重新检视这一早期全球“数字鲁迅”生产、制作历程的意义,并不在于帮助我们确认这样一个事实,此即汉字编码等方面的信息处理技术深刻地影响了早期“数字鲁迅”的生产、制作,使之产生了纸质媒介、文献难以创造的成就的同时也具有明显的不足(无论其数量、质量)。更重要的是,也让我们得以发现:在其不足的背面和后面(未来),藉由无数读者、计算机和互联网用户的努力,在海内外中文用户/读者共同以鲁迅作为当代思想文化重要资源和数字文化发展的重要数据资源这一观念的驱动下,早期全球“数字鲁迅”生产实践的局限性也恰以技术之力,被不断地超越、克服。这主要表现在两个方面:一方面,关于鲁迅文本的电子化、数字化版本,在“新语丝”电子期刊、“文库”及其他同类型的网站上,此后被接连不断地生产出来,成为人们利用计算机这一新的工具进行阅读、讨论的对象,纸质文献由此逐渐退出我们的日常阅读、专业阅读和非专业阅读,与纸质媒介有关的、一整套阅读和写作技术、文化由此迎来了它最大的竞争对手;另一方面,关于鲁迅文学与学术思想的对话、交流,也得以跨越时空,跨越国境,跨越族裔、代际和职业分工,跨越太平洋,在互联网上大规模、迅速、即时地展开,而且,对话、交流的结果可以被我们以同样的方式复制、保存、传播、再利用,使交流和互动方式的“持续化”成为了可能(取代了旧的“社会化”的形式)33,由此一开始可能仅仅只是作为文本、文献(或是纸质文献的替代品、补充)而存在的“数字鲁迅”生产实践,逐渐转变成为丰富、多元的数字文化生产、再生产实践,当然,不可否认的是,它们同时也是作为实践的技术(规范性技术?救赎式技术?二者兼具?)本身34,以新的、隐蔽性的、规范性的方式,从原初(当我们获得这些文本的方式、时候)就影响了我们对鲁迅文本的理解,介入了数字时代我们的鲁迅观、文学观、文本观、文献观的建构。

然而,无论是在“新语丝”电子期刊、“文库”中出现的“数字鲁迅”像,还是流传于早期互联网上的诸多电子化、数字化的鲁迅文本,毕竟都只是鲁迅全部创作文本和与之相关的大量文献资料(其中之一部分即为评论、研究资料)、实物资料、口述资料当中的一小部分,兼以其文本质量并非全部可以信任、许多文本并无可靠的版本来源、亦无页码因而不便在学术研究中引用,乃至如何将文本匹配不同的工具、载体和界面,持续优化其阅读效果等问题的长期存在,全球“数字鲁迅”的生产实践其实自始至终,就面临着层出不穷的、新的挑战,而如何回应这些挑战、顺利解决这些大大小小的难题,便成为其后尤其新世纪以来“数字鲁迅”生产实践的重要任务;此后至今的发展路线,因之亦得以大致划定。这仍然体现为两个方面:一方面,数字化、文本化、数据化的鲁迅文本被继续制作,由此产生了《全集》电子书、APP、数据库、机器人鲁迅等不同形式的应用,更加有效地连接起了科学、技术、文学和文化,为鲁迅文本的日常阅读、专业阅读、非专业阅读乃至其他的利用、研究方式(如文本数据挖掘、分析)创造了新的途径;另一方面,随着可便携文件编辑技术(以Adobe公司开发的Portable Document Format文件处理程序、文件格式为代表)等的发明与逐渐普及,依据某一可以信赖的纸质版本的《全集》而对其进行扫描、加工,制作相应的、优良的电子版(亦可有多种格式),逐渐成为许多计算机用户/读者(尤其专业读者)的优先选择。而这一切,无一例外,不仅已经且正在为其后我们通过包括个人电脑、手持终端在内的各种工具、界面所阅读、感知的“数字鲁迅”赋形,也构成了“数字文献学”“数字现代文学”等正在发展中的新领域的重要课题,尚须一探再探。

[本文为国家社科基金重大项目“中国现当代文学思潮中的古典传统重释重构及其互动关系史研究”(项目编号:21&ZD267)、上海市“数字人文资源建设与研究”重点创新团队项目、“上海市人才发展资金资助计划”中期成果]

注释:

1 参见王贺《追寻“数字鲁迅”:文本、机器与机器人——再思现代文学“数字化”及其相关问题》,《文艺争鸣》2021年第11期。

2 6 33[德]S•康拉德:《全球史导论》,陈浩译,商务印书馆2018年版,第3、3、120页。

3 4 5 《新语丝》创刊号,网址为:http://www.xys.org/xys/magazine/GB/1994/xys9402.txt,2023年6月26日检索。

7 9 10 《(新语丝)电子文库简介》,网址为:http://www.xys.org/lib_intro.html,2023年6月26日检索。

8 组论小组:《纸还有未来吗?一部印刷文化史》,傅力译,北京联合出版公司2021年版,第7页。

11惜其简介多所错误。该网站对《新语丝》的简介为:“《新语丝》为文化性综合刊物,登载文学、艺术、史地、哲学、科普等方面的稿件,只刊登创作稿,不登文摘稿。目前设四个栏目:‘牛肆’(随笔、评论)、‘丝露集’(诗歌、散文、小说)、‘网里乾’(文史哲科普小品)和‘网萃’(个人或专题选集)。《新语丝》创刊于一九九四年二月,《新语丝》为月刊,每月十五日出版,并不定期出版专题增刊。自一九九七年一月起《新语丝》开始出版多媒体版。”参见《Language & Literature-Chinese Studies-LibGuides at Duke University》,网址为:https://guides.library.duke.edu/c.php?g=289252&p=1929075,2023年6月27日检索。

方舟子:《网文原来有“中心”》,网址见http://www.xys.org/xys/netters/Fang-Zhouzi/Net/wangwen2.txt,2023年6月27日检索。

13[美]罗伯特•达恩顿:《屠猫记:法国文化史钩沉》,吕健忠译,新星出版社2006年,第202-228页。

14参见黄乔生《毛衣照》,《鲁迅像传》,贵州人民出版社2013年版,第272页。

15鲁迅:《求乞者》,《鲁迅全集》第2卷,人民文学出版社1981年版,第167页。

《野草》,网址见http://www.xys.org/xys/classics/Lu-Xun/yecao.txt,2023年6月30日检索。

17孙用编:《〈鲁迅全集〉校读记》,湖南人民出版社1982年版,第148页。

博客水木:《FTP中Binary二进制与ASCII传输模式的区别》,网址为http://www.4u4v.net/ftp-in-binary-and-ascii-transfer-mode-binary-difference.html,2023年6月27日检索。

参见《The Unicode Standard • Version 1.0》,网址见https://www.unicode.org/versions/Unicode1.0.0,2023年6月27日检索。

计算中心:《GBK编码》,网址见http://jszx.cuit.edu.cn/NewsCont.asp?bm=00&type=1009&id=20567;天使在唱歌7:《字体里面GB和GBK有什么区别?》,网址见https://zhidao.baidu.com/question/568647091.html,2023年6月27日检索。

21此处的有关分析,笔者得到了友人中山大学信息管理学院陈涛副教授的指教,书此谨申谢悃。

《新到资料(1990.01.)》,网址见http://www.xys.org/new9901.html,2023年6月27日检索。

23《【通知】两个多月以来投过稿或来信联系的读者请注意》,网址见http://www.xys.org/doc/crash.txt,2023年6月26日检索。

24[英]詹姆斯•柯兰、娜塔莉•芬顿、德斯•弗里德曼:《互联网的误读》,何道宽译,中国人民大学出版社2014年版,第43页。

25《彻底调查:国内家庭电脑升温普及率15.5%》,网址见http://tech.sina.com.cn/it/e/2002-09-17/1519139139.shtml,2023年6月28日检索。

26竹子译:《报告显示美国家庭电脑普及率达51%》,网址见http://tech.sina.com.cn/hardware/news/2000-10-17/39208.shtml,2023年6月28日检索。

27蒋道鼎:《日本家庭个人电脑普及率达38.6%》,网址见http://tech.sina.com.cn/news/it/2000-04-24/23528.shtml,2023年6月28日检索。

28赵建华:《中国大中城市家用电脑普及率年末可达到70%》,网址见https://tech.sina.com.cn/h/n/69516.shtml,2023年6月28日检索。

29张懿:《上海人数字化升级家庭电脑普及率达44%》,网址见http://tech.sina.com.cn/it/e/2002-08-25/1054134566.shtml,2023年6月28日检索。

30此处的统计分析,得到了我的同事上海师范大学全球城市研究院助理研究员张舒博士的帮助,谨此致谢。

31[英]J.M.罗伯茨:《全球史》,陈恒、黄公夏、黎海波等译,东方出版中心2013年版,第1236页。

32王贺:《人工智能时代人文学的危机与新生——从陈子善文话、书话、乐话及其与学术研究之关系谈起》,《小说评论》2023年第5期。

34对现代技术、尤其传播技术的性质及其对真实世界的影响的讨论,请参考[加]厄休拉•M.富兰克林:《技术的真相》,田奥译,南京大学出版社2019年版,第161-186页。

[作者单位 :上海师范大学中文系 数字人文研究中心]

[本期责编:钟 媛]

[网络编辑:陈泽宇]