生成式人工智能数据获取和利用的著作权法规制研究

申报人：陈添茹申报日期：2024-01-04

基本情况

所属批次:

2024年度大学生创新创业训练计划

项目名称:

生成式人工智能数据获取和利用的著作权法规制研究学生选题

项目类型:

创新训练项目

所属一级学科:

法学

所属二级学科:

法学类

项目来源名称:

教师科研项目选题

项目归属学院:

项目期限:

一年半期

项目简介:

随着科学技术的进步，生成式人工智能应运而生，但其在数据获取与利用方面面临著作权侵权挑战。我国《著作权法》未对此进行规制，需理论研究提供背景支撑。本项目致力于基础理论研究，剖析生成式人工智能创作中数据获取与利用流程，关注前端数据获取与利用阶段的侵权问题。研究采用文献综述法、比较分析法和案例分析，为著作权法规制提供有效出路。

负责人曾经参与科研的情况:

无

指导教师承担科研课题情况:

作为主要研究人员参与国家社科重大、中国工程院咨询项目，英国艺术与人文研究理事会等多个重要研究项目。在《科技与法律》《出版发行研究》《西安交通大学学报（社会科学版）》《大连理工大学学报（社会科学版）》《Chinese Journal of Integrative Medicine》等CSSCI，SCI核心期刊发表论文多篇，相关文章被全国人大复印资料全文转载；获省部级、厅局级表彰十余项；两项决策建言被采纳；参编著作三部。

指导教师对本项目的支持情况:

指导教师全力支持项目的开题、研究事宜。

项目级别:

市级

项目成员

序号	学生	所属学院	专业	年级	项目中的分工	成员类型
1	陈添茹	法学院	法学	2022	组长，组织成员开展研究，完善研究框架，安排项目流程	第一主持人
2	徐嘉欣	法学院	法学	2022	成员，查找资料，阅读文献，完善项目内容，提供技术支持	成员
3	高倩倩	法学院	法学	2022	成员，查找资料，阅读文献，撰写研究背景	成员
4	李国兰	法学院	法学	2022	成员，查找资料，阅读文献，撰写国内外立法现状	成员

指导教师

序号	教师姓名	教师账号	所属学院	是否企业导师	教师类型
1	刘慧	09125	法学院	否	第一指导教师

立项依据

研究目的:

2022年底，美国人工智能实验室OpenAI开发的人工智能聊天机器人ChatGPT发布，引起了公众广泛关注。这是一款基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术的生成式人工智能（Generative Artificial Intelligence，GAI）。在我国，也有类似的生成式人工智能，如中国科学院自动化研究所研发的“紫东太初”；阿里云推出的“通义千问”；百度推出的“文心一言”等。

然而，与人工智能创作不断繁荣的图景相比，当前在解决人工智能在创作前期数据获取与利用著作权方面还面临着诸多困境。如在2023年6月28日，美国就发生了第一起具有代表性的ChatGPT版权侵权之诉。两名作家在美国加州北区法院，对Open AI公司发起了版权集体诉讼，提出指控后者未经授权利用自身享有版权的图书训练ChatGPT，谋取商业利益。原告Paul Tremblay和Mona Awad居住于马萨诸塞州，分别享有涉案作品《The Cabin at theEnd of the World》和《13 Ways of Looking at a Fat Girl andBunny》的版权；被告Open AI创建和运营了生成式人工智能产品ChatGPT，目前主要由GPT-3.5和GPT-4两个底层大语言模型驱动。起诉状中指出，虽然原告没有授权Open AI使用自身享有版权的图书进行模型训练，但ChatGPT却能够根据prompts指令输出图书的摘要，而这只有在被告将涉案图书纳入语料库加以训练才可能发生。说明生成式人工智能在创作作品之前就未经许可获取了他人的作品数据，侵犯了著作权。

对于当前人工智能创作中获取与利用数据的著作权侵权问题，国家对此十分重视，根据国家互联网信息办公室近日发布的《生成式人工智能服务管理暂行办法》（下称《办法》）第七条规定：“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型；不得侵害他人依法享有的知识产权；涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；……”该条款的主要目的是规范生成式人工智能服务提供者获取数据的合法性问题。然而，在我国《著作权法》方面关于著作权限制与例外的条款并未就人工智能在数据获取与利用前端侵犯著作权问题做出明确回应，使得这一问题在现行立法框架下如何解决仍缺乏规范依据。

生成式人工智能技术的高速发展是必然的现实境况，我们应当以积极和审慎的态度面对新技术的迭代带来的数据风险，降低生成式人工智能给社会带来的负面影响。使数据要素充分发挥价值并为社会所用，在实现生成式人工智能技术的创新与进步的同时，保障我国的数据安全与数字经济的发展。立足于此，我们团队旨在探究人工智能数据获取面临的著作权侵权问题，剖析生成式人工智能获取和利用数据的运行模式，结合我国行业发展与最新立法实践，探索适合生成式人工智能技术特性和产业链的特点的数据治理方案，提供一种可实施的创新型解决策略，最终的研究目的是通过本项目产生的研究成果，让生成式人工智能创作的创作物在后续的传播与使用过程中更加规范，希冀有助于深化人工智能创作的知识产权问题研究，并借此推动人工智能技术应用和文化产业繁荣发展。

研究内容:

本课题的主要研究内容，基于生成式人工智能创作前端的运行模式，且《著作权法》并为对其系统规制的背景下，重点研究其在数据获取与利用过程中可能导致的著作权侵权问题，从而针对性地利用著作权法进行规制。

（一）研究对象

本项目的研究对象为，“生成式人工智能创作的前端数据获取”的运行模式的是整个项目的起点。数据获取与利用贯穿人工智能创作的全过程，但是当前在解决人工智能创作中获取与使用数据的合法性问题上面临诸多困境，生成式人工智能前端的运行模式包括三个环节。第一，数据的获取与输入，即“机器阅读”。生成式人工智能创作需要的素材不是传统的文本、图像、语音、视频等，而是以数据集表现的数值化作品，故从外部收集和提取数据并输入人工智能系统，形成体系庞大的数据库以供人工智能学习。第二，数据的处理与分析，即“机器学习”。生成式人工智能系统地对大量已有数据作品进行分类与整理，分析这些作品表达的思想感情与特有的语言风格特征，抽象与提炼其中的规则与模式，将其应用到具体创作场景中。第三，数据的生成与传播，即“机器输出”。通过上述数据输入和自主学习两个环节后，生成式人工智能系统能够构建出解决不同任务的模型算法，只要人工智能使用者向系统发出要求和指示，人工智能经过处理，就会生成相应的学习结果并予以输出。人工智能创作的数据获取的运行模式与本项目关系密切，对生成式人工智能数据获取与利用的著作权法规制研究的探讨，不可避免地会涉及生成式人工智能获取数据地运行模式地研究，基于清楚了解上述模式地情况下，本项目将围绕以下三个核心内容开展研究。

（二）核心研究内容

首先对人工智能“获取与利用”行为的前端技术基本运行原理进行概述，进而对人工智能在数据采集阶段和在数据分析阶段分别对著作权中的复制权和演绎权的侵犯进行分析，本项目对三个著作权法方面的核心内容进行研究，分析人工智能“创作”行为的技术特征，为后文对人工智能“创作”行为是否构成侵权打下坚实的技术基础。

⒈生成式人工智能在数据采集阶段如何造成复制权侵权

此项核心内容，是对生成式人工智能在前端数据的获取与挖掘的方式是否侵犯复制权进行研究。首先，本项目需要对人工智能数据获取和数据库建设两个阶段的行为属性予以界定，分析其复制行为能否进入复制权的专有保护范围中；然后，需要结合数据获取阶段人工智能获取挖掘数据的方式分析是否侵犯复制权，并且结合转换性使用与合理使用的构成要素进行分析人工智能生成物未经许可获取复制他人现有作品的行为，是否可以将其进入合理使用及转换性使用范畴之中予以分析；最后，对数据采集行为是否侵犯复制权得出结论。

⒉生成式人工智能在数据分析阶段如何造成演绎权侵权

此项核心内容，是对生成式人工智能在前端数据的分析阶段产生的对他人作品的改编权与汇编权。首先，本项目需要对人工智能在数据分析阶段的基本运行原理进行概述，将其分为深度学习及狭义数据分析两个过程；然后，需要对深度学习过程中产生的数据集与演绎作品进行对比分析，并探究其行为是否侵犯侵犯他人现有作品的改编权与汇编权；最后得出数据分析是否侵犯他人演绎权结论。

⒊我国著作权法对生成式人工智能在创作前期中带来的侵权问题应当如何规制

此项核心内容，是生成式人工智能在前端数据获取阶段会产生复制权和演绎权的侵权问题，如何充分评估人工智能创作中获取与利用数据的风险类型，在此基础上借鉴国际立法并结合中国国情探寻化解之道。

国、内外研究现状和发展动态:

（一） 国内研究现状

关于人工智能数据获取与利用的著作权侵权问题，国内相关研究主要涉及以下方面：

1. 人工智能数据获取与利用之侵权风险

对于人工智能“数据获取与利用”行为是否构成侵权以及侵犯何种权利，国内学者有不同的观点。

在人工智能数据获取阶段，刘霜教授提出，生成式人工智能数据获取的手段可以分为自行采集数据、获取公共数据、购买第三方数据、爬取数据、数据创造，而生成式人工智能利用这些手段可以爬取拥有著作权的出版物内容，或通过其他网站获取侵犯他人知识产权的信息，会造成著作权侵权风险。购买第三方数据时，因为服务商本身并不对数据库或者其中的数据享有著作权或者不享有完整的著作权。

在生成式人工智能数据训练阶段，学者邓建鹏，朱怿成认为：由于生成式人工智能输出内容是基于前期投喂的数据库的自主学习训练过程，不受人工监督，获取的信息难以经过实质性筛选和过滤，数据在源头可能存在内容不合法不合规、内容虚假或完全错误的风险，致使人工智能生成物刚开始就带上了“原罪”的标签。

对于人工智能获取和利用数据时可能会侵害的权利类型，我国学界主要关注复制权和演绎权两个方面。焦和平教授认为在数据获取和利用环节可能会存在复制权的侵权风险。原因在于，人工智能进行深度自主学习之前，需要将作为创作素材的作品进行数字化处理并转换为适合“机器阅读”的标准数据格式。该过程是对已有作品在不改变内容情形下所进行的全文复制和原样再现，并且存储在机器中形成永久复制件，王迁教授认为，构成著作权法意义上的“复制行为”须满足两个条件，即应在有形物质载体上再现作品，而且作品应“固定”在有形载体上，因此该行为构成著作权法上的复制权侵权行为。若所生成式人工智能在前端采集的样本受著作权保护，马治国教授提出研究者或创作者利用扫描数字化等技术手段将样本复制在服务器的过程中，即使是多样性、间接性或短时性再现作品内容的样本采集行为，也存在侵犯作品复制权的风险。并且我国著作权法还规定了保护著作权的技术措施，在数据的获取阶段，可能会侵犯“控制接触型”技术措施和“控制利用型”技术措施，“控制利用型”技术措施是为了防止他人未经许可下载、传播作品，规避“控制利用型”技术措施可能造成对著作权人复制权的侵权。如果人工智能在数据分析阶段，没有直接使用原作品进行训练，则不侵犯原作品的演绎权；若是在原作品的基础上，进行一定形式的改编或者汇编，在未经许可的前提下，则可能侵犯著作权人的演绎权。同时，许可教授提出在生成式人工智能在通过网页爬取数据时，数据经过集合和汇总，可能成为编辑物、汇编物、集合作品或合成作品，受到著作权保护，可能会导致演绎权侵权风险。

2. 学界对于豁免其侵权风险的解答

学界对人工智能在数据获取和利用阶段复制权和演绎权的侵权问题现存在几种抗辩方法：合理使用一般情形，法定许可，及《著作权法》新增的“其他情形”。

首先，对于传统著作权的先授权后使用方法，彭飞荣教授认为生成式人工智能颠覆了传统的模式，“授权许可”难以实行。传统著作权法的规定并不能机械或简单的套用于算法创作的侵权处理中：一方面，算法的“学习”方式有别于人类的学习，无法机械适用传统规定；另一方面从经济成本角度考虑，机械适用会使得人工智能公司承担海量的著作权许可及相应的巨额费用，这不利于科学技术的总体进步与社会福祉的整体增加，甚至公司完全可能为了获取训练数据而转向“隐性侵害”，利用其他技术手段攫取他人作品数据这与著作权法规定的初衷相违背，无法有效保护著作权人的利益。其次对于合理使用，目前学界认为对于合理使用的几种情形均不适用于生成式人工智能，并且合理使用的司法解释仍须遵循“三步检验法”之限制。从法律适用角度来看，“三步检验法”首先要求其适用于“特定且特殊情形”，其次应符合“正常使用”，最后“应不得不合理损害著作权人合法利益”。但是从立法目的来说，“三步检验法”作为《伯尔尼公约》的宣示条款，旨在为各国立法做出原则化指示，而无统一明确法律内涵之目的。因此，“三步检验法”的三要件缺乏明确可直接适用的法定内核。学者张陈果认为要达成对著作权边界上各方利益公允、精准的平衡，就必须明确著作权限制与例外的一般条款-“三步检验法”的具体内涵,尤其第二步(“是否与作品的正常使用相冲突”)和第三步(“是否不合理的损害作者的合法权益”,其制度内涵和利益平准则，更是有待明确。目前，国内学者多认为“特定”“特殊”的指代情形以《著作权法》第二十四条所列举的情形作为特定法源。对于“特定”“特殊”的理解适用，司法者只能“找法”不能“造法”。同时，彭飞荣教授通过深入探究发现，在“思想表达二分法”规则之下，生成式人工智能模型对于他人作品思想、风格层面的“学习训练行为”实际难以落入既有著作权法专有权利的规制范畴，既然目前上述作品利用行为本身不受著作权法规制、不构成著作权侵权，合理使用的责任豁免便无从谈起。

再次，《著作权法》规定了四种法定许可制度，分别为第25 条第1款“编写教科书法定许可”、第35 条第2款“报刊转载法定许可”、第42 条第 2款“制作录音制品法定许可”以及第46 条第2款“播放作品法定许可”，除此之外在《信息网络传播权保护条例》中，规定了“制作和提供课件的法定许可” 以及第9条“向农村提供特定作品”这一准法定许可制度。法定许可制度与合理使用一样，均是法律对于著作权的限制性规定，因此均设置了严格的适用要件，并且法定许可制度仍需要向著作权人支付报酬。熊琦教授认为目前我国法定许可、强制许可付费的方式被批评为过于繁琐且对技术和市场变化的反应不足。学者王楷文认为，合理使用仍是人工智能数据输入最理想的制度选择，将数据输入纳入合理使用、在合理使用条款下仓设单独的数据输入例外，不仅具备充分的可行性，也具备充分的正当性。相比之下，法定许可集体管理模式有些纸上谈兵的意味，并不具备可行性。

最后关于我国著作权法新增的“其他情形”。在著作权法修法过程中,理论界和司法界有李琛、冯镇波、李扬等众学者主张引入合理使用一般条款，实现开放式立法。在此思想影响下，我国《著作权法修订草案送审稿》第 43 条第1款增加了“（十三）其他情形”。基于此稿规定,学者詹启智认为该规定不符合国情等建议删除,学者孙山也认为兜底款项欠缺正当性,与法理、实践均不合,纯属多余。在我国《著作权法修正案(草案)》中,并未给“其他情形”留下空间。此阶段的修正案从形式上采纳了詹启智、孙山等封闭式立法建议，看似给司法者留下了空间，实际上却牢牢限制住了灵活适用的空间，原因在于权威释义指出只有法律、行政法规规定的其他情形，才能构成合理使用。

因此，将国内对于人工智能数据获取与利用的著作权侵权问题整合研究后可以看出，国内对于人工智能侵权数据获取与利用的著作权问题争议较大。并且国内对于在人工智能数据获取与利用阶段使用他人已有作品是否构成侵权，对于现有权利的侵犯是否仅包含在复制权的范围之内，是否会构成演绎权的侵犯，国内现有立法及研究及研究且并未作出明确的规定，因此，本项目将通过了解人工智能前端数据获取与利用的运行原理，旨在准确理解与把握人工智能在该阶段著作权侵权问题，在此基础上借鉴国际立法并结合中国实际，探求科学、合理的化解之道，从而提出创新性解决方案。

（二） 国外研究现状

在大数据时代，文本与数据挖掘（Text and Data Mining，TDM）这一创新技术采用文本分析的方法处理海量信息，是推动生成式人工智能发展的重要工具。在生成式人工智能前端数据的接触和采集阶段，也就是数据获取阶段发生的著作权侵权行为该如何规制，以及如何寻求创新发展与著作权保护的平衡点是一个亟待解决的课题。对此，我们以欧盟、美国、日本为例，探究国外立法现状。

1. 美国

美国没有从立法角度解决 TDM面临的著作权困境，而是在判例中通过概括性适用合理使用条款认可了TDM 的合法性。针对数据集合的技术措施，美国《数字千年版权法案》虽然规定未经授权严禁规避技术措施，但是在行政执法、图书馆保存等七种例外情形下排除适用。然而，TDM 既不属于现行美国《著作权法》明定的七种例外情况，也未落入美国国会图书馆颁布的第七次审查中，排除适用禁止规避条款例外情形的范畴，故只能依据“四要素分析法”判断 TDM 是否成立合理使用。

对于第一要素，美国法院主要考察作品利用行为的营利性和“转换性利用”。在 Authors Guild v.Google， Inc.案中，法院认为扫描大量图书以建立电子数据库的“谷歌数字图书计划”属于“转换性利用”的情形。可见大规模扫描图书全文建立电子图书数据库的复制行为成立合理使用，那么接近这类情形的 TDM 也较易成立合理使用。

针对第二要素，美国法院重点考察所利用作品是否具有著作权法意义上的原创性。在 Campbell案中，联邦最高法院认为作品的原创性越高越易获得保护，则利用原创性越高的作品越难以成立合理使用。在 TDM 样本中，可能存在原创性较低的作品而较易成立合理使用，但也可能存在原创性较高的作品而较难成立合理使用，故 TDM 在这一要素中是否成立合理使用存在不确定性。

第三要素可归纳为分析使用作品的“量”与“质”是否合理。在原作品被利用的“量”方面考察原作品被复制的范围是否超出利用目的所必要的范围。在原作品被利用的“质”方面，考察原作品被利用的程度以及用途，即考察利用内容对原作品整体的重要性。基于“全数据采样”的技术特性，TDM从“量”方面较难成立合理使用。但 TDM 的本质是分析数据而不是使用原作品的表达，因此 TDM 从“质”方面较易成立合理使用。综合“量”与“质”方面的影响，这一要素难谓全然有利或不利于 TDM成立合理使用。

对于第四要素，分析合理使用的关键是作品利用行为是否会减损原作品的市场价值或潜在价值。因此，在 Harper &.Row， Publishers， Inc.v.Nation Enterprises 案中，杂志社未经授权从即将出版的福特总统回忆录中摘录最具新闻价值的内容不仅会产生替代效应，而且已损害作者的发表权不能成立合理使用。由于 TDM 侧重于分析而非表达，原作品的市场需求不仅不会因为TDM而受损，反而可能因TDM而促进原作品的再次传播通常不会发生替代原作品市场价值或潜在价值的情形。此外，TDM 不是原作品的创作目的，故TDM 市场不属于原作品的潜在市场，这一要素有利于TDM成立合理使用。

综上，在文本与数据挖掘著作权例外方面，美国司法实践通过转换性使用这一著作权合理使用的情形，甚至将商业性文本与数据挖掘著作权例外纳入著作权合理使用范畴，可见美国司法实践对于文本与数据挖掘技术的发展，无疑具有深远意义。

2. 欧盟

在制定《数字化单一市场版权指令》之前，欧盟限制规避技术措施的规定主要是《欧盟信息社会版权指令》。该指令优先鼓励权利人自愿达成排除适用禁止规避技术措施条款的协议；在双方没有约定的情况下法律才介入要求各成员国采取适当措施确保使用人的规避行为享有指令第5条的例外规定，同时这些例外规定也是当事人自愿达成协议的最低标准。虽然 TDM可能因为符合科学研究或教学目的条款而不构成侵权，但是能否适用这些法律规定具有不确定性。为了解决 TDM 法律适用的不确定性，欧盟起草并颁行了《数字化单一市场版权指令》。

该指令允许有条件地执行TDM 行为，但前提条件均为利用人必须通过订阅数据库、签订使用协议或在线开放等方式合法获取作品，即若研究者或创作者合法获取了数据集合的作品内容，则阅读该作品内容的权利应包含TDM的权利。欧盟要求成员国立法允许研究机构和公共文化遗产机构以科学研究为目的对其合法获取的作品进行复制、提取等 TDM行为；制定一般性TDM 限制规定，允许以 TDM 为目的对合法获取的作品进行复制与提取的行为。此外，为了进行TDM而临时复制的数据可能需要留存一定期间，要求应将临时复制的作品内容储存在可靠第三方管理的安全环境中，并且规定成员国应鼓励权利人和研究机构、公共文化遗产机构达成实行上述储存管理和技术措施的通用做法。

综上，可以得知欧盟认为在特定情形下，文本与数据挖掘包含被著作权保护的行为，例如对于作品的复制，从数据库中提炼内容等。在没有文本与数据挖掘著作权例外的情形下，文本与数据挖掘行为需要获得权利人的授权。

3. 日本

日本《著作权法》对文本数据与挖掘，即TDM采取比较开放包容的态度，认为运用TDM的过程中对作品的使用属于“非表达使用”，即认为生成式人工智能通过TMD技术来生成作品是一种“辅助工具”，而不是一项“创意作品”。原因在于，日本认为在TDM处理过程中，计算机利用函数来解析数据集合内作品内容并生成分析结果，无法像人类阅读时那样欣赏作品内容，难以威胁到著作权人的权利。因此，日本一方面通过《著作权法》和《不正当竞争防止法》制度规范禁止规避技术措施的行为，另一方面通过修订多项著作权限制性规定以放宽TDM情形下的作品使用例外规定。

日本《著作权法》第 2 条第 20 项对技术措施做出严格定义，即技术措施是防止或限制侵害著作权的技术，仅处分针对“控制利用型”技术措施的规避或准备规避行为，而不涉及“控制接触型”技术措施。这种制度规范禁止规避技术措施的条款，减少了技术措施对社会公共利益的负面影响。可见，多数以TDM为目的而规避“控制接触型”技术措施的行为不受日本《著作权法》的限制。

2018 年日本修订《著作权法》，新法不仅新增了不以欣赏作品表达为目的的要件，而且在必要使用限度的应用情形中增加了信息解析情形，而信息解析正是 TDM的处理方式。并且规定服务提供商在利用计算机处理信息产生新信息并将其结果提供给受众的过程中，允许轻度利用他人作品。即，若利用部分占整个作品的比例较低，且对作品市场收益影响轻微，那么在符合初始行为目的的前提下，可以在利用计算机处理信息产出以及提供分析结果的 TDM过程中利用作品。

综上，日本对TDM采取比较开放包容的态度，设置了许多例外情形，对人工智能发展起到了极大地推动作用。

创新点与项目特色:

1. 研究角度新

本项目直面近几年生成式人工智能产业的著作权纠纷热点问题，有较强的针对性。

2. 研究思路新

本项目以生成式人工智能前端在数据获取与利用的技术为理论依据，分析生成式人工智能前端技术的运行机制，从生成式人工智能在数据获取与利用的著作权法规制进行研究，厘清其中复杂的法律关系。

3. 创新型解决方案

本项目着重为生成式人工智能通过被“投喂”的数据进行创作的著作权法纠纷解决提供创新性解决思路，并引导生成式人工智能产业正当发展。

技术路线、拟解决的问题及预期成果:

技术路线：

拟解决的问题：

⒈生成式人工智能在数据采集阶段如何造成复制权侵权

⒉生成式人工智能在数据分析阶段如何造成演绎权侵权

⒊我国著作权法对生成式人工智能在创作前期中带来的侵权问题应当如何规制

预期成果：

1、参与科创竞赛：参加“挑战杯”全国大学生课外学术科技作品竞赛、上海市“知行杯”课题比赛等。

2、在期刊上发表学术论文或专利。

项目研究进度安排:

1.项目申报准备（2023年11月-2024年1月）

通过建立学习小组的方式，自学和小组讨论相结合，提高学习效率，构建对相关知识体系的初步认识，并结合小组成员的兴趣和知识背景，着重学习了著作权体系；查阅文献确定选题范围，通过与老师沟通，结合初期选题的兴趣，获得了初步的选题想法进行相关领域文献查找和学习，在不断的摸索学习中，遴选大创主题；基于初步遴选的主题，与老师进行沟通，综合考虑时间、能力、问题难度确定具体的研究方向；研究方向确定后，进行深入地分析讨论研究。结合前期的准备，完成学校预立项。

2.项目登记立项（2024年2月-2024年4月）

通过对已查阅的资料进行整理、分析之后，根据团队成员内讨论、团队与老师沟通确定此次研究的重难点内容以及整个课题的详细研究方案，确定人员分工；对此次研究的知识体系进行划分，在老师帮助下对必要掌握的知识划分模块，并分配时间进行学习，如区块链人工智能算法、登记制度实际的运行有关知识；巩固著作权法有关的知识，以巩固研究的理论基础；进一步完善项目的研究目标、实行计划、实际意义，准备学校内升级答辩；

确定是否参加“互联网+”“挑战杯”，如果参加准备参赛材料确定参赛方向以及其他具体的问题。

3.知识提升、深入了解、实践调查（2024年5月-2024年7月）

进一步完善与选题有关的知识体系；搜集文献、整理研究现状、观点、发展趋势。把握问题的关键点；把握问题的关键点后，结合具体问题结合老师意见，实际探索有关问题。如深入了解人工智能生成物的运作模式，实际体验登记制度的运转等，避免理论脱离实际。

4.实践调查结果分析、理论研究、成果初步总结（2024年8月-2024年10月）

在老师的帮助下对实际调查结果进行理论的分析，总结核心的观点，并与理论中存在的问题进行对比，紧紧联系实践；基于实践经验，进行理论上探究，以解决这些问题；

将成果初步汇总，撰写相关材料（如果准备参赛，按照参赛的标准准备）。

5.准备期中检查相关材料、完善初步成果不足（2024年11月-2025年1月）

将初步汇总的成果按照期中检查的模式整理；与老师讨论，确定初步成果中存在的可以解决的问题；做好接下来的规划。

6.进一步总结成果，撰写论文（2025年2月-2025年4月）

在项目后期，对小组成员的理论分析研究成果进行整理、总结，结合社会实践调研活动的分析结果完成本课题，并在指导老师的指导下完成本课题的研究论文和总结报告。

7.准备答辩材料、进行总结报告（2025年4月-2025年5月）

在具体的成果形成之后，根据安排参加结题答辩，以展示整个项目的研究成果。采取主题演讲汇报的形式将我们的研究活动以及研究成果进行展示给同学；此外，将本团队形成的研究成果提交。

已有基础:

与本项目有关的研究积累和已取得的成绩:

1. 自学著作权法整体内容

由于团队成员均是大二学生，还未系统学习知识产权法及著作权法相关内容，在选题范围确定在著作权法向下后，首先通过《著作权法》教材配合指导老师课件自学著作权法的整体框架内容，在此基础上结合实时热点，首先把课题确定在“生成式人工智能”、“数据利用与著作权”这个大范围内。

2. 阅读大量文献

在课题方向大致确定之后，团队根据课题内容，着眼于课题关键点“人工智能创作”“著作权法”“数据获取与利用”“生成式人工智能技术运行机制”等，借助知网、中国裁判文书网等数据库收集相关文献（主要为核心期刊、专著、司法判例等）并进行大量阅读。同时，团队积极寻找有关人工智能著作权的法律法规，将实践存在的问题与法律法规联结。最后，团队就阅读结果完成文献综述。

3. 设计明确的研究方案

团队根据研究课题设计研究方案，合理规划主要研究内容、研究重点和难点、研究思路和方法等内容，科学安排后续的研究计划，合理安排各个环节的时间进展。

已具备的条件，尚缺少的条件及解决方法:

已具备的条件：

1. 学校图书资源优势

学校图书馆、学院资料专业相关书籍丰富，本项目开展期间可通过学校指定方式免费下载相关学术网站资源，如中国知网上的论文可免费下载学习。

2. 上海市地域优势

上海市是全国人工智能产业发展的先锋城市，学校位于上海，可以依托其丰富的知识产权研究资源进行实践调研。

3. 学院专业指导优势

学院知识产权研究中心为应用研究类机构，现有多名优秀研究人员和导师，同时中心与业界联系密切，分别与国内多家法院、著名律师事务所、专利代理所等建立了合作关系可以为项目的实施提供专业指导及实践支持。

4. 经验丰富的指导教师

本课题项目指导老师是法学院主攻知识产权法理论与实务的刘慧老师，指导老师曾作为主要研究人员参与多个重要研究项目，在CSSCI、SCI核心期刊发表了多篇论文，可以为本课题的开展提供专业的指导。

尚缺少的条件：

1. 可供参考的内容较少，内容局限，进行数据分析难

一方面，由于国内对人工智能数据获取与利用的理论研究尚处于起步发展阶段，与人工智能数据获取与利用的著作权法规制研究相关资料内容较少，且大部分是对国外已有理论和实践的借鉴；如果想获得一手的国外相关研究的前沿资料，则存在获取和阅读理解的双重困难。另一方面，依据OpenAI介绍的ChatGPT的工作机制，可知该模型需要预先对既有文本和数据进行学习训练，但OpenAI未公开其语料来源，并且当今网络传播速度快、信息量大，具有显著的复杂性特征，生成式人工智能主要是在互联网上进行数据抓取，难以收集已经被复制的数据进行数据分析。

2. 把握生成式人工智能前端运行的规律性进行理论分析难

解决方法：

线下实地考察、调研；向有关知产法院、律所咨询相关研究问题。

经费预算

开支科目	预算经费（元）	主要用途	阶段下达经费计划（元）
开支科目	预算经费（元）	主要用途	前半阶段	后半阶段
预算经费总额	12000.00	资料购置、打印、复印、印刷等费用；会议、差旅费；文献检索费；论文出版费	2500.00	9500.00
1. 业务费	11000.00	无	2000.00	9000.00
（1）计算、分析、测试费	0.00	无	0.00	0.00
（2）能源动力费	0.00	无	0.00	0.00
（3）会议、差旅费	2000.00	团队成员将会在相关律所、法院等地进行实践调查，需要一定的交通费用。	1000.00	1000.00
（4）文献检索费	2000.00	国内相关研究较少，获取国外研究资源有一定困难，且课题涉及理论较广，需要大量阅读相关书籍与国内外文献资料。	1000.00	1000.00
（5）论文出版费	7000.00	项目研究过程中或结束后，将会在相关学术期刊上发表一篇或多篇论文。	0.00	7000.00
2. 仪器设备购置费	0.00	无	0.00	0.00
3. 实验装置试制费	0.00	无	0.00	0.00
4. 材料费	1000.00	国内相关研究较少，获取国外研究资源有一定困难，且课题涉及理论较广，需要大量阅读相关书籍与国内外文献资料。	500.00	500.00

项目附件

生成式人工智能数据获取与利用的著作权法规制研究项目申报书-创新训练类.doc

下载

结束

大学生创新创业训练计划管理系统

创新创业管理系统

详情