用户登录投稿

中国作家协会主管

数字时代文学研究的转型 ——网络文学研究中的“数据”管理
来源:文艺报 | 吴长青  2021年06月25日08:39

网络文学始于数字,风行于数字,可以说是数字让文学在互联网世界中穿越飞扬、一路驰骋,同样也是数字让网络文学成为一种文化工业。由于数字的复制性强,也方便存储,使得网络文学的数字化开一代之风——数字阅读。我们在看到数字化具有超越前代的无比优越性的同时,往往也容易忽略它的另一面——网络文学的数据容易形成数字的叠加和交叉,特别是由于信息来源广泛,不同管理单位在数据的管理无法做到统一管理,容易形成数据的“压沉”。如果不重视网络文学的数据管理,那么就很容易造成“压沉”数据的丢失,造成不可挽回的损失。因此,重视网络文学的“数据”管理,既体现数字时代文学研究的转型,也是尊重媒介文化特征和客观规律的科学实证手段之一。

“数据”采集和保存的原则

网络文学的“数据”采集和保存不但能够获取到第一手的原始资料,还能够有效防止冗余和庞杂资料的不良误导,因此重视“数据”的保存显得尤为重要。“数据”保存应遵循以下原则:

—是区分有限权限和无限权限。网络文学数据除了各大平台的内部系统之外,还有外部的公共空间。虽然平台的内部系统因为受到版权的规约,但有一些评论区的“副文本”和大众评论散落在互联网的缝隙中。研究者可以将这些散落的资料进行归纳,按照专题的方式进行整理、储存。并将相关IP地址截图或复制下来,以便后期的查询和校对。在引用时一定要把相关IP地址作为参考文献或者注释标注出来,否则就会形成一定的侵权行为。

二是能够对数据进行确权甄别。由于网民的知识产权意识薄弱,在评论区有很多评论是复制或者摘抄他人的信息,如果不加甄别,研究者直接引用,就容易出现混乱,由于误用信息,产生不自觉的侵权行为。很多抄袭和洗稿往往就是采用这种所谓的博采众长的手段来实施的。因此,这也是对原创作者知识产权保护的重要保证。

三是杜绝碎片化信息的干扰。互联网相对自由的空间,信息与知识的界限有时分得不是太细,很多信息是以口水式或是碎片化形式存在的。研究者一方面需要甄别来源,同时形成信息渠道的可追溯性。最主要的是要能分辨出在何种语境中出现的信息。其次要能对同类信息进行对比,独立思考,这样对其价值进行综合评估。只有这样才能去伪存真,披沙沥金,寻求到有价值的文献资源。

四是及时纠错,动态管理。网络文学的“数据”由于来源多,复制性强。同一信源由于不同层次的使用者的多次腾挪,“数据”的真实性和原创性都难以保证。因此,需要及时与信源比对,还需要与原创作者进行核对。笔者在研究网络历史类型小说时,采信了互联网上《明》(酒徒著)的创作时间是2004年,后经作者本人提供的确凿证据证实2004年是错的,实际时间创作于2003年。因此,互联网信息的误差确实比较大,而且如果联系不到作者或者当事人,有些信息的准确性就很难保证,这是互联网信息的一个弊端。

五是多方比较,采集范围扩大。由于互联网上的“数据”既庞杂也无序,有时就是一个帖子,连作者都无从知晓。需要充分利用互联网搜索引擎的作用,同时与传统出版物、其他数据库进行比对,确保信息的一致性和准确性,能够明确“数据”的真实性以及来源渠道的合法性。

只有采集到真实、有效的数据才能称得上是有价值的信息,并且还要启动对“数据”的真实性的管理。以确保数据的纯粹性和对原创作者的知识产权的保护。

“数据”保存及使用方法

网络文学研究中的“数据”起到重要的佐证作用。因为互联网作为一种实践科学,遵循科学实证主义的哲学原理。因此,“数据”能够起到客观的证实作用。当然也有人会对“数据”的真实性提出质疑,因此,“数据”的来源以及保存就显得特别重要。

一是采取截屏的方式保留信息。由于互联网信息承载量大,大量信息的叠加使得信息层级频次加大,信息的检索成本大;其次互联网系统的不稳定性会使得“数据”有丢失的可能性,每一次系统更新都有可能使得信息出现丢失的可能,尤其对于人文社科“数据”而言,极易混同于一般性信息,其重要性未必获得必要的重视;再次互联网“数据”受外界的干扰大,“数据”与一般信息在监管时受到同等的物理技术环境影响,客观上也会作为普通信息被“格式化”掉,因此,对于有价值的“数据”必须提前备份或者截屏保存。

二是将中国知网、万方数据、超星、维普等数据库内容进行定期采撷比对,综合运用。这些知名的知识型数据库首先经过了编辑的筛选,其次也经过了使用并正在使用中,有具体的下载量,也起到使用市场频次的检验。笔者在使用中国知网数据时发现,因为有重名以及部分期刊和报纸没有进入中国知网系统,有些信息无法进入互联网的知识系统的检索,因此,需要扩大搜索的半径,同时结合百度、360、搜狗等门户网站的搜索引擎,综合比对和运用,确保数据的全面和完整。

三是同一渠道的数据库,检索有年限的要求。比如某家大报,如果检索近两年的报纸可以在线上看到,但是两年以上的内容就无法检索。因此,研究者需要有意识定期去下载相关内容,个人及时做备份保存。

四是充分使用“数据”资源,因为使用本身就是保存。只有通过不断的使用,提高“数据”的曝光度,让“数据”参与经验世界的建构,在建构的过程中检验“数据”的有效性和准确率。同时,也才有可能不断校正其中有可能出现的错误,降低错误率,否则相互引用,以讹传讹。在使用过程中,尽量采用第一资料,迫不得已采用“数据”二手资料,须注明来源、出处,并提供精确的IP地址。笔者在使用“数据”时撰写研究论文第一稿时互联网上可以采集到相关信息,等到第二稿修改时,第一稿的IP地址的信息已经无法查到。此时只能忍痛割爱删除第一稿相关内容。

互联网界面上的“数据”可取舍性强,复制和删除都很方便。这种特点带来了互联网“数据”的脆弱性和不安全性。需要对互联网“数据”进行强化和“加密”措施。在充分利用数据库和搜索引擎的同时,可以结合私人的数据收藏手段作为辅助。

建立网络文学研究专业“数据库”

网络文学研究除了作家作品之外,网民评论的大量“副文本”、媒体批评、各类机构的研究数据、行业信息、国家职能部门的管理政策以及社会的反馈等等均构成了网络文学研究的“数据库”。因此,网络文学研究远远超出了传统文学研究的范畴和理论边界。需要重视对网络文学研究“数据库”的建设。

一是在《中国网络文学年鉴》的基础上,建立《中国网络文学年鉴》数字版,便于检索和使用。并将其中相关内容授权相关数据库或者单独运营,作为中国网络文学专业数据库进入全国各大图书馆系统。

二是加强非学术类网络文学数据库建设,与学术类的数据库不同的是,非学术类的数据库主要针对互联网界面中网络文学的社会化田野采集方式,通过建立一种采集标准,通过建模的方式,锁定相关信息,进行数据下载保存。

三是打破机构之间的区隔,建立网络文学数据的共享。在监管层,各种数据的保密之外,有一些公共信息可以对相关高校和研究机构开放。在各大平台可将资源数据及时推送到专业数据库,形成一个共建的系统平台。例如中国作家网目前的数据库建设相对完善,无差别地采集网络文学专业咨询和学术成果,未来可以与各省网络作协建立共建共享机制。

四是平台信息共建共享相对滞后。由于平台信息涉及到各自的商业利益,因此,网络文学网站共建资源平台需要强化,建设一个共建共享的资源平台有利于网络文学的发展。

五是研究机构之间的信息互换与交流机制还没有形成。之所以出现网络文学数据出入大,引发社会对机构的数据真实性的怀疑,某种意义上来自各机构的信息不通畅,机构自话自语,机构与机构之间没有形成一定的交流机制,因此,数据的差异显露出行业发展的透明度差。不准确的数据有可能误导监管层和行业的决策。

六是图书馆系统对网络文学行业标准没有建立起来。笔者在安徽大学图书馆系统检索就有过一次遭遇,图书馆系统中居然将流行读物误收入网络文学关键词搜索系统内。这种错误的出现,表面上是图书馆搜索编码出了差错,其实质是网络文学编码数字系统的不完善。

网络文学研究专业“数据库”可以由专业团队建设,也可由相关高校与机构联合组建,实行共建共享机制。同时,将作家作品进行授权,以第三方的形式付费使用或者采用公益性质的专供研究之用。

目前,作家作品在检索之后都需要通过平台的授权,否则容易产生版权纠纷。因此,建立作家作品研究的专业数据库,也是提高研究质量、保护知识产权的重要举措。

总之,我们注重网络文学数字化形态的便捷性和及时性的同时,万万不可忽略网络文学“数据”的脆弱性和欠安全性。因此,加强网络文学数据管理和保存显得尤为重要。在想方设法确保数据的准确性的同时,还要对网络文学数据进行安全保护。加快网络文学研究的专业数据库建设,需要研究机构与高校以及相关平台多方联合,实行共建共享的原则,切实落实数据库的建设工作,使得版权保护与研究质量提升的双维目标得以实现。实行在使用中提高保护意识,在强化安全性的基础上提高数据使用的质量和频次,在运用中提高数据的准确率。让数据为网络文学研究真正起到助力作用。