加快建立人工智能训练数据合理使用制度--理论评论--中国作家网

加快建立人工智能训练数据合理使用制度

来源：光明日报　|　孙晓麒邓宏光　　2026年05月27日09:51

近日，中央网信办印发通知，在全国范围内部署开展为期4个月的“清朗·整治AI应用乱象”专项行动。该行动第一阶段重点整治的问题中就包括大模型训练语料安全，如训练语料审核把关不严，模型训练数据存在违法不良信息；训练数据来源合规性存在问题，模型训练过程中使用未经授权的文字、图片、音视频等数据，明确强化AI技术源头治理。

回溯人工智能的发展历程，从最初的文本生成，到如今的图像、音乐、视频等多模态内容生成，每向前迈进一步，对训练数据的广度、深度和复杂性的要求就更高一层。可以说，没有数据，就没有模型；没有高质量数据，就没有高水平模型。今天的大模型竞争，表面上看是算法与算力的竞争，实则是数据供给与数据治理能力的竞争。谁能在合法合规的前提下稳定获得可用数据，建设高质量语料和数据集，谁就能在未来的人工智能竞争中占据主动甚至主导地位。

当前，针对人工智能训练数据的使用，尚缺乏统一的制度规则。实践中主要依靠《生成式人工智能服务管理暂行办法》《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》等规范，再辅之以著作权法中合理使用制度等相关规则加以调节。在整体上，仍须完善与其他各部门法协调统一、内容明确、具有直接针对性的制度规范。由于现实中的模型训练数据往往来源复杂、层级多样、流转频繁，使得大量数据处于权属不明、授权不清、来源难溯的状态。加之算法训练过程高度复杂，模型机制带有明显的“黑箱”属性，进一步导致权利识别难、侵权举证难、责任划分难，成为实践中普遍存在的现实问题。鉴于此，建立人工智能训练数据合理使用的制度规则可谓迫在眉睫。训练数据治理不能只依赖事后个案裁判，还应建立分类分级、授权留痕、来源可溯、风险评估和争议救济等制度机制。尤其要区分训练阶段的数据摄取、模型输出阶段的内容生成，以及平台传播阶段的责任承担，避免将不同环节的法律责任简单混同。

事实上，“十五五”规划纲要已对此作出针对性部署，提出“完善数据标准体系和质量管理体系，加快建设人工智能语料库，面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集，建立人工智能训练数据合理使用制度”。这意味着训练数据治理已不只是技术企业自身的合规问题，而是关系数据资源开发、人工智能产业竞争力和数字中国建设全局的基础性制度问题。构建科学有效的制度规则是人工智能行稳致远的重要保障。让人工智能训练数据合理使用制度立得住、行得通，两方面的问题尤其值得关注。

一方面，应统筹好多元关系。人工智能训练数据从生成、处理、流通到进入模型训练，涉及原始权利人、数据处理者、交易平台、模型开发者、应用企业和最终用户等多类主体。制度设计既不能把数据资源简单视为可任意抓取的公共素材，也不能因权利边界不清而使创新活动陷入过度不确定。关键在于建立清晰、可操作、可预期的规则：对可自由使用、需授权使用、限制使用和禁止使用的数据作出分类安排，对授权、收益分配、来源追溯和责任承担形成明确机制。

另一方面，人工智能训练数据使用天然具有跨境性，涉及版权例外、文本与数据挖掘、跨境数据流动、数字贸易和平台治理等多重议题。这要求我们在制度制定中，既要立足国内产业实践，也要重视与国际通行规则的兼容、对话和转化。尤其在相关国际规则仍处于形成和调整阶段的背景下，应通过知识产权、数字经济和人工智能治理等多边平台，积极提出具有实践基础、制度解释力的中国方案。

面向人工智能快速发展的新阶段，我们应以训练数据合理使用制度建设为重要抓手，加快推动形成分类清晰、授权明确、流通有序、责任可追的治理体系，在保护权利人合法权益的同时释放数据要素价值，在规范市场秩序的同时激发技术创新活力。唯有如此，人工智能产业才能在法治轨道上行稳致远，我们也才能在全球人工智能治理规则塑造中贡献更多“中国智慧”。

（作者：孙晓麒、邓宏光，分别系中国政法大学刑民交叉研究中心特约研究员，西南政法大学民商法学院教授、博士生导师）