加快建立人工智能训练数据合理使用制度
近日,中央网信办印发通知,在全国范围内部署开展为期4个月的“清朗·整治AI应用乱象”专项行动。该行动第一阶段重点整治的问题中就包括大模型训练语料安全,如训练语料审核把关不严,模型训练数据存在违法不良信息;训练数据来源合规性存在问题,模型训练过程中使用未经授权的文字、图片、音视频等数据,明确强化AI技术源头治理。
回溯人工智能的发展历程,从最初的文本生成,到如今的图像、音乐、视频等多模态内容生成,每向前迈进一步,对训练数据的广度、深度和复杂性的要求就更高一层。可以说,没有数据,就没有模型;没有高质量数据,就没有高水平模型。今天的大模型竞争,表面上看是算法与算力的竞争,实则是数据供给与数据治理能力的竞争。谁能在合法合规的前提下稳定获得可用数据,建设高质量语料和数据集,谁就能在未来的人工智能竞争中占据主动甚至主导地位。
当前,针对人工智能训练数据的使用,尚缺乏统一的制度规则。实践中主要依靠《生成式人工智能服务管理暂行办法》《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》等规范,再辅之以著作权法中合理使用制度等相关规则加以调节。在整体上,仍须完善与其他各部门法协调统一、内容明确、具有直接针对性的制度规范。由于现实中的模型训练数据往往来源复杂、层级多样、流转频繁,使得大量数据处于权属不明、授权不清、来源难溯的状态。加之算法训练过程高度复杂,模型机制带有明显的“黑箱”属性,进一步导致权利识别难、侵权举证难、责任划分难,成为实践中普遍存在的现实问题。鉴于此,建立人工智能训练数据合理使用的制度规则可谓迫在眉睫。训练数据治理不能只依赖事后个案裁判,还应建立分类分级、授权留痕、来源可溯、风险评估和争议救济等制度机制。尤其要区分训练阶段的数据摄取、模型输出阶段的内容生成,以及平台传播阶段的责任承担,避免将不同环节的法律责任简单混同。
事实上,“十五五”规划纲要已对此作出针对性部署,提出“完善数据标准体系和质量管理体系,加快建设人工智能语料库,面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集,建立人工智能训练数据合理使用制度”。这意味着训练数据治理已不只是技术企业自身的合规问题,而是关系数据资源开发、人工智能产业竞争力和数字中国建设全局的基础性制度问题。构建科学有效的制度规则是人工智能行稳致远的重要保障。让人工智能训练数据合理使用制度立得住、行得通,两方面的问题尤其值得关注。
一方面,应统筹好多元关系。人工智能训练数据从生成、处理、流通到进入模型训练,涉及原始权利人、数据处理者、交易平台、模型开发者、应用企业和最终用户等多类主体。制度设计既不能把数据资源简单视为可任意抓取的公共素材,也不能因权利边界不清而使创新活动陷入过度不确定。关键在于建立清晰、可操作、可预期的规则:对可自由使用、需授权使用、限制使用和禁止使用的数据作出分类安排,对授权、收益分配、来源追溯和责任承担形成明确机制。
另一方面,人工智能训练数据使用天然具有跨境性,涉及版权例外、文本与数据挖掘、跨境数据流动、数字贸易和平台治理等多重议题。这要求我们在制度制定中,既要立足国内产业实践,也要重视与国际通行规则的兼容、对话和转化。尤其在相关国际规则仍处于形成和调整阶段的背景下,应通过知识产权、数字经济和人工智能治理等多边平台,积极提出具有实践基础、制度解释力的中国方案。
面向人工智能快速发展的新阶段,我们应以训练数据合理使用制度建设为重要抓手,加快推动形成分类清晰、授权明确、流通有序、责任可追的治理体系,在保护权利人合法权益的同时释放数据要素价值,在规范市场秩序的同时激发技术创新活力。唯有如此,人工智能产业才能在法治轨道上行稳致远,我们也才能在全球人工智能治理规则塑造中贡献更多“中国智慧”。
(作者:孙晓麒、邓宏光,分别系中国政法大学刑民交叉研究中心特约研究员,西南政法大学民商法学院教授、博士生导师)


