生成式人工智能训练数据使用的著作权困境及其破解The Copyright Dilemma in the Use of Training Data for Generative Artificial Intelligence and Its Resolution
谢星辰,宋尧,李可心
Xie Xingchen,Song Yao,Li Kexin
摘要(Abstract):
生成式人工智能训练数据作为技术创新的基础性资源,其合规使用对推动算法优化与产业迭代具有战略意义。然而,传统著作权框架下的授权使用、合理使用、法定许可等规则已捉襟见肘,生成式人工智能的海量数据需求与现行著作权制度形成冲突,并演变为制约人工智能产业创新的法律桎梏。文章通过规范分析与比较,详细阐述了生成式人工智能训练数据使用的著作权困境及原因;基于对美欧日制度实践的批判性考察,提出建构我国生成式人工智能训练数据著作权例外制度的三重路径:一是重构合理使用规则,将“信息分析型使用”纳入豁免范围并确立“无市场冲突”判断标准;二是创新准法定许可制度,通过“公告+异议排除”机制建立弹性授权路径;三是探索著作权集体管理组织路径,构建“默认许可+精准分润”的规模化授权体系。以消解权利保护与产业发展之间的矛盾,避免制度遏制创新,防止创新侵蚀权利。
Training data for generative artificial intelligence(AI) functions as a foundational resource for technological innovation, and its lawful utilization holds strategic significance for algorithmic advancement and industrial transformation. However, traditional copyright frameworks—centered on authorized use, fair use, and statutory licensing—are increasingly inadequate. The enormous data demands of generative AI conflict with existing copyright regimes, resulting in legal constraints that hinder AI-driven innovation. Through normative and comparative analysis, this paper examines in detail the copyright challenges associated with using training data in generative AI and the structural causes underlying these issues. Drawing upon a critical review of practices in the United States, European Union, and Japan, the study proposes a tripartite approach to building a copyright exception framework for generative AI training data in China: first, restructuring fair use by including “analytical use of information” within its scope and establishing a “no market harm”criterion; second, developing a quasi-statutory licensing system through a “public notice plus objection exclusion” mechanism to enable flexible authorization; and third, exploring a collective management approach to establish a scalable system based on “ default licensing plus precise revenue sharing. ” These proposals aim to reconcile the tension between rights protection and industrial development, mitigating the risk of regulatory suppression of innovation while safeguarding copyright interests.
关键词(KeyWords):
生成式人工智能;训练数据;授权使用;合理使用;法定许可
Generative artificial intelligence;Training data;Authorized use;Fair use;Statutory license
基金项目(Foundation): 国家社会科学基金重大项目“总体国家安全观下产业知识产权风险治理现代化研究”(项目编号:21&ZD204)的研究成果之一
作者(Author):
谢星辰,宋尧,李可心
Xie Xingchen,Song Yao,Li Kexin
参考文献(References):
- [1]新华社.习近平:推动我国新一代人工智能健康发展[EB/OL].[2025-02-06]. http://cpc. people. com. cn/n1/2018/1031/c64094-30374719. html? mc_cid=2c65101867&mc_eid=86e1c4303b. [2]关春媛.生成式人工智能训练版权合理使用探究:国际趋势、本土发展与规则构建[J].出版发行研究,2024(12):91-97. [3]张平.人工智能生成内容著作权合法性的制度难题及其解决路径[J].法律科学(西北政法大学学报),2024(3):18-31. [4]刘晓春.生成式人工智能数据训练中的“非作品性使用”及其合法性证成[J].法学论坛,2024(3):67-78. [5]魏远山.生成式人工智能训练数据的著作权法因应:确需设置合理使用规则吗?[J].图书情报知识,2025(1):78-88. [6]张吉豫,汪赛飞.大模型数据训练中的著作权合理使用研究[J].华东政法大学学报,2024(4):20-33. [7]黄玉烨,杨依楠.论生成式人工智能版权侵权“双阶”避风港规则的构建[J].知识产权,2024(11):37-58. [8]吴汉东.人工智能生成作品的著作权法之问[J].中外法学,2020(3):653-673. [9]王迁.论人工智能生成的内容在著作权法中的定性[J].法律科学(西北政法大学学报),2017(5):148-155. [10]张平.人工智能生成内容著作权合法性的制度难题及其解决路径[J].法律科学(西北政法大学学报),2024(3):18-31. [11]马一德,汪婷.人工智能训练数据版权侵权风险规制:欧盟实践、本土困境与解决路径[J].德国研究,2025(1):82-99,150-151. [12]李可心,肖冬梅.日本生成式人工智能训练数据合理使用规则及其启示[J/OL].图书馆论坛,1-9[2025-03-06]. https://link. cnki. net/urlid/44. 1306. g2. 20250224. 1351. 004. [13]包赛君,肖冬梅.生成式人工智能训练数据的著作权法因应:欧盟版权例外规则及其对我国的启示分析[J/OL].图书馆论坛,1-11[2025-02-06]. https://link. cnki. net/urlid/44. 1306.G2. 20250115. 1117. 002. [14]张笑尘.人工智能生成物的可版权性问题———日本经验与中国镜鉴[J].现代日本经济,2025(1):81-94. [15]曹新明,范晔.生成式人工智能数据训练的合理使用规则研究[J].中国版权,2024(4):20-35. [16]郭德忠,张云蔚.生成式人工智能训练数据侵权风险与法律应对[J].湘潭大学学报(哲学社会科学版),2024(5):78-86. [17]焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022(4):128-140. [18]李安.机器学习的版权规则:历史启示与当代方案[J].环球法律评论,2023(6):97-113. [19] United States Copyright Office. Copyright and artificial intelligence part 1:digital replicas[EB/OL].[2025-02-06]. https://www.copyright. gov/ai/Copyright-and-Artificial-Intelligence-Part-1-Digital-Replicas-Report. pdf. [20]王健宇.生成式人工智能版权补偿金制度的原理及建构[J].出版与印刷,2025(1):37-47. [21]王文敏.人工智能对著作权限制与例外规则的挑战与应对[J].法律适用,2022(11):152-162. [22]陈锐,江奕辉.生成式AI的治理研究:以ChatGPT为例[J].科学学研究,2024(1):21-30. [23]孙云霄.版权制度演进与文化产业变革的关系———基于中国电影版权制度的分析[J].重庆社会科学,2022(11):127-139. [24]孙嘉宇.数据产权:生成式人工智能训练行为版权争议的规制路径[J].中国编辑,2024(8):63-71. [25]慕宏举.全国首例AI生成声音侵权案一审宣判[EB/OL].[2025-02-06]. https://www. chinanews. com. cn/sh/2024/04-25/10205621. shtml. [26]刘友华,魏远山.机器学习的著作权侵权问题及其解决[J].华东政法大学学报,2019(2):68-79. [27]高阳,胡丹阳.机器学习对著作权合理使用制度的挑战与应对[J].电子知识产权,2020(10):13-25. [28]张润,李劲松.利益平衡视角下人工智能编创使用行为的法律定性与保护路径研究[J].出版发行研究,2020(11):72-79. [29]熊琦.互联网产业驱动下的著作权规则变革[J].中国法学,2013(6):79-90. [30]刘禹.机器利用数据行为构成著作权合理使用的经济分析[J].知识产权,2024(3):107-126. [31]相靖. Campbell案以来美国著作权合理使用制度的演变[J].知识产权,2016(12):82-90. [32]阮开欣.美国版权法新发展:谷歌数字图书馆构成合理使用———评作家协会诉谷歌公司案判决[J].中国版权,2014(1):58-60. [33]李律编. AI数据训练的“合理使用”———版权&反不正当竞争视角:以Thomson Reuters诉Ross Intelligence案为例[EB/OL].[2025-03-01]. https://mp. weixin. qq. com/s/i Qo_Xa P5IwHK1OXm0ae4jw. [34] Directive(EU)2019/790 of the European parliament and of the council of 17 april 2019[EB/OL].[2025-02-06]. https://eur-lex. europa. eu/legal-content/EN/TXT/PDF/?uri=CELEX:3 2019L0790. [35]王胤嗣.世界首例创建数据集侵犯著作权案:如何适用“文本与数据挖掘”例外条款?[EB/OL].[2025-02-06]. https://mp. weixin. qq. com/s/u VczdzYH3HeKfStd1442Ow. [36]内閣府. Society 5. 0とは[EB/OL].[2025-02-06]. https://www8. cao. go. jp/cstp/society5_0/. [37]郑重.日本著作权法柔性合理使用条款及其启示[J].知识产权,2022(1):112-130. [38]新清士.赤松健氏「画像生成AI、珍しく日本が勝つチャンス」[EB/OL].[2025-02-06]. https://ascii. jp/elem/000/004/122/4122855/. [39]袁帅.数字化背景下作品非表达性使用的著作权法应对[J].知识产权,2024(9):110-126.
- ①广州互联网法院(2024)粤0192民初113号。http://ahsbqj.anhuinews.com/bq/202402/t20240227_7410093.html/。