1、1ChatGPT等生成式人工智能使用作品的合理边界与侵权规制顾男飞,方舟之2023年第19卷第7期摘要:为高效释放作品的数据要素价值,需厘清ChatGPT等生成式人工智能使用作品的边界,以调和产业发展与著作权保护间的冲突。在具体论证中,首先,通过剖析ChatGPT出现智能跃迁的原因,展示数据要素在生成式人工智能发展中的关键作用,但也发现不同使用阶段的侵权风险制约作品获取。其次,在作品合理使用层面,基于产业政策目标,解析相关群体的利益诉求,提出“转换性使用”标准来划定生成式人工智能使用作品的合理边界。最后,在侵权规制层面,结合生成式人工智能在输入阶段和输出阶段的差异性使用目的和技术实现原理,以“
2、转换性使用”和“表达性使用”二分法认定著作权侵权风险;同时,明确作品使用的合规治理路径,通过双向监管来高效规制风险。关键词:生成式人工智能;ChatGPT;合理使用;著作权侵权;转换性使用中图分类号:G923.41 DOI:10.3772/j.issn.1673-2286.2023.07.001引文格式:顾男飞,方舟之.ChatGPT等生成式人工智能使用作品的合理边界与侵权规制J.数字图书馆论坛,2023(7):1-8.顾男飞1 方舟之2(1.吉林大学法学院,长春 130015;2.湘潭大学知识产权学院,湘潭 411105)ChatGPT等生成式人工智能使用作品的合理边界与侵权规制*收稿日期:
3、2023-05-24*本研究得到2021年国家社会科学基金重大项目“总体国家安全观下产业知识产权风险治理现代化研究”(编号:21&ZD204)资助。以ChatGPT为代表的生成式人工智能一经推出便引发全世界激烈讨论1,其强大的学习与拓展能力标志着应用于不同领域的通用人工智能成为可能。在可预见的未来,通用人工智能将成为第四次工业革命的重要驱动力。2023年4月28日召开的中共中央政治局会议明确提出重视通用人工智能发展,营造创新生态,重视防范风险2,从国家战略层面肯定发展生成式人工智能的必要性,但也指出应当注意防范技术的伴生风险,避免冲击社会秩序。与传统人工智能不同,基于大模型技术的生成式人工智能
4、不仅可以通过对数据的学习来提炼信息和预测趋势,而且能生成不同于训练数据的新内容3。但生成式人工智能并不能凭空创造内容,在训练过程中输入数据的质量和规模直接决定生成内容的优劣和应用场景的多寡。然而,高质量数据往往是受保护的作品,囿于较强的版权保护力度和分散的著作权,用户高效且合规地获取大批量作品面临巨大的掣肘。作品使用伴随着侵权风险,因此在生成式人工智能产业发展中,厘清合理使用边界以释放作品的数据要素价值成为关键,并且应明确侵权认定标准,避免过度侵蚀著作权人利益。简言之,需有效回答生成式人工智能“为什么要用,能不能用,怎么用”作品这一关键问题,但现有研究更多聚焦于著作权侵权认定,对作品使用问题关
5、注度较低,论述并不充分。1 生成式人工智能的作品使用需求与侵权风险以ChatGPT为代表的生成式人工智能通过对超大规模作品进行深度学习,有效地提升了生成内容质量,知识产权22023年第19卷第7期而且具备多轮对话能力,能结合用户提问内容和所提供材料进行有针对性的回复,具有十分优异的语言理解能力。ChatGPT出现智能跃迁的原因在于数据规模的扩大有效满足了生成式人工智能的发展需求。随着ChatGPT性能的飞跃,生成式人工智能所伴随的风险也被进一步放大。既有研究对ChatGPT进行了较多讨论,不仅涉及算法歧视和工作替代等社会风险,也涉及技术垄断等经济风险,可讨论更多聚焦于对著作权侵权等知识产权风险
6、的规制。诚然,需重点关注生成式人工智能产业发展中的侵权风险,有效降低新兴技术对社会发展的负面冲击4,但既有研究在一定程度上忽略了人工智能的产业发展需要。在算力和算法水平无代差的国际竞争中,大规模作品的使用是生成式人工智能出现智能跃迁的基石,也是人工智能产业的发展基础。为弥合我国与其他国家间的产业代差,避免再遭遇类似芯片产业的困境,应有效释放作品的数据要素价值。1.1 生成式人工智能的作品使用需求数据之于生成式人工智能,就如字词之于一部名篇巨著,对于算法训练和性能提升不可或缺且影响巨大,其中优质数据更是不可替代的。人工智能的技术发展取决于三要素:数据、算法和算力。在世界范围内,算法大多已经公开,
7、算力需求能通过购买显卡和云服务加以满足,制约产业发展的关键就是数据要素。对生成式人工智能而言,充分且优质的数据是算法进行训练的重要基础,特别是对具有一定独创性且属智力成果的作品,人工智能可通过学习大量作品以创造出更为优质的内容。比如,2017年微软小冰通过学习上百位诗人所创作的现代诗,而后通过10 000次以上的训练逐渐掌握创作现代诗歌的能力,出版了第一部完全由人工智能创作的诗集 阳光失了玻璃窗5。就生成式人工智能训练过程而言,算法会预先对于既有文本语料进行无监督学习,内容包括文本语法、语义、惯用法和上下文信息等,再借助Transformer模型构建高度类似人类表达逻辑和方式的语言算法模型6。
8、从训练过程可发现,数据规模和质量直接影响生成内容的质量,但中文领域的优质数据缺失现象严重。比如就可供直接爬取的网页数据而言,在规模排名世界前100万的互联网网站中,中文网站仅占1.3%,但是英语网站占比为59.3%7。如果能打破版权壁垒,充分利用我国大规模且高质量的作品,将在很大程度上解决我国优质训练数据不足的问题,有效满足人工智能发展的数据需求。1.2 作品使用不同阶段的侵权风险生成式人工智能训练过程中对作品的不同使用方式会产生差异结果,不能一刀切地认定为侵权,需结合作品使用的不同阶段进行综合研判。虽然生成式人工智能具有一定的创造性,但是其创作过程高度依赖输入的数据,对于高质量作品的使用会更
9、为频繁。也基于这一原因,著名语言学家Noam Chomsky直接称ChatGPT基本上是高科技的剽窃8,但这样简单的定性判断并不准确,特别是当前生成式人工智能使用的具体算法与模型较为复杂,用户无法知晓哪部作品以何种方式被使用,甚至开发人员也不能进行清晰说明。虽然上述“剽窃”论断并未得到证成,但就生成式人工智能在收集作品训练的输入阶段和内容生成的输出阶段而言,侵害著作权人署名权、修改权、保护作品完整权、复制权、改编权以及汇编权等风险依旧存在,且这种著作权侵权风险在某种程度上是不可避免的。一方面,在输入阶段,生成式人工智能对需要使用的作品先进行复制,而后通过处理以获得“计算机可读”的标准格式,这属
10、于我国 著作权法 中数字化复制作品的情形,将对复制权产生直接侵害。另一方面,在输出阶段,生成式人工智能会通过对原作品的学习,结合使用者的需求输出对应内容,虽然不会直接输出原始作品,但也会综合诸多作品来进行再创作:可能是截取原作品片段,也可能是结合使用者需求对多份作品进行修改与重新加工,这时著作权人的修改权、汇编权以及改编权受到直接侵害。同时,由于生成式人工智能的输出内容并不会署上原作者姓名,也存在侵害著作权人署名权的风险。2 作品使用的利益冲突与合理边界作品作为重要的数据要素对于生成式人工智能的发展具有重要价值。考虑到社会利益以及产业政策目标,应允许作品的有序使用以满足人工智能产业的发展需求。
11、但有序并非无条件,因此需解析生成式人工智能开发者与著作权人间的利益冲突,以弥合“促进创新和文化繁荣”与“保护作者著作权”的立法目标抵牾。在此基础上对合理使用制度加以改造,明确“转换性使用”标准,划定作品使用的合理边界,有效满足我国3ChatGPT等生成式人工智能使用作品的合理边界与侵权规制顾男飞,方舟之2023年第19卷第7期工智能性能和生成内容价值。缺乏足够的训练作品将会导致生成式人工智能生成内容的同质性和低劣化,并严重制约技术创新与文化繁荣。另一方面,对生成式人工智能开发者而言,成本过高的授权许可和法定许可制度并不适用于大批量的作品授权,而且有悖于市场公平竞争原则。同时,大企业能依托自身业
12、务来收集既有作品,或者通过提供服务来换取作品授权,以规避著作权侵权风险,但是中小企业欠缺获取作品授权的资金,也无法以服务换取授权。由此,两者技术差距越来越大,市场竞争受限,甚至将倒逼中小企业通过侵权行为来获取训练所需的作品,致使双输。著作权法不仅保护原创性内容的生成,也促进作品创作之后的使用,以平衡著作权人的专有权与社会公众使用和享受作品的利益11。考虑到社会利益和人工智能产业的发展需求,作品应有条件地开放给生成式人工智能开发者加以使用,著作权人利益也需得到充分保障,以实现利益的平衡。一方面,人工智能是战略性新兴产业,应基于我国的产业政策目标,营造有利于生成式人工智能产业发展的法治环境,允许作
13、品的有条件开放。国外对人工智能训练规定了较为宽松的使用制度,比如2019年欧盟颁布的 数字单一市场版权指令 增加文本与数据挖掘例外条款12。企业为降低合规成本可能倾向于使用其他国家作品,我国大规模作品所具备的使用价值当然也就无法被充分利用,这进一步制约国内人工智能产业的发展。另一方面,在作品使用过程中应有效保障著作权人的合法利益。特别是要明确原作者的署名权,为后续修改权、保护作品完整权、复制权、改编权和汇编权等权利的行使,及财产利益的分配打下扎实基础。同时,通过明确署名能够有效规制部分开发者为降低侵权风险而隐匿作品来源的行为,避免对著作权人合法权益的进一步侵害。2.3 作品使用的合理边界区分为
14、更好释放作品的数据要素价值,应当调整我国的合理使用制度来有效助推我国生成式人工智能的产业发展。如果说,在人工智能尚不发达的阶段,还有学者认为开放获取仅存在于法律制度之外的伦理层面,那么如今有必要重新考虑这一安排13,以进一步扭转“重保护轻共享”的传统立法范式。有学者指出,人工智能对数据的利用应该建立在合理使用的基础上,适用“合理学习”(Fair Learning)原则14,但合理使用制人工智能产业的作品使用需求。2.1 生成式人工智能产业政策的目标厘定生成式人工智能不止于聊天,还将与工业4.0结合成为智能终端的大脑,共同助推我国产业升级。为此,应发挥我国新型举国体制的优势,以产业政策促进数据开
15、放,其中当然也包括宝贵的作品。习近平总书记指出:“加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。”9就生成式人工智能的数据需求而言,如果对用于人工智能训练的作品都需要获得许可,成本畸高,企业仅凭自身力量难以为继,需要政府的积极介入。作品同样属于数据要素,在生成式人工智能的发展中不可或缺,当然也应有序开放。特别是在对开放数据运动的探索与反思基础上,包括我国在内的不少国家都提出要优先开放高价值数据集10。比如,2022年8月发布的 关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见 明确提出集聚人
16、工智能场景数据资源,在确保数据安全的前提下提供数据开放服务。2023年2月发布的 浙江省人民政府办公厅关于培育发展未来产业的指导意见 更是明确指出应当提升数据要素对未来技术研发、应用场景创新的支撑作用。由此可见,为更好满足社会需求,我国的产业政策鼓励利用高质量数据,以作品的有序开放促进生成式人工智能产业的发展。2.2 相关主体利益诉求的解析与平衡作品的有序使用能高效促进中文领域生成式人工智能的发展,但在我国“保护优先”的著作权制度安排中,此举将严重侵害著作权人权益。为此,应结合著作权法立法目的和公共利益所需,解析相关主体的利益诉求并调和存在的利益冲突,实现产业发展与著作权保护的平衡。一方面,对于社会整体利益而言,作品之所以成为受法律保护的财产,是因为“促进创新和文化繁荣”的公共政策需要。在大数据以及算法的加持下,生成式人工智能的创作能力远远超过人类,其能提高创作效率,降低创作门槛,使更多民众参与创作,有效促进社会主义文化和科学事业的发展。但在训练过程中,作品作为优质数据,在相当程度上将决定生成式人42023年第19卷第7期度变革面临着较大阻碍:由于严重依赖司法裁量权,这一制度的适用结果