AI版权侵权诉讼增多

AI版权侵权诉讼的兴起

《纽约时报》已对OpenAI提起版权侵权诉讼，称该公司的大型语言模型（LLMs）在未经许可的情况下使用了时报的内容。该诉讼只是众多案例中的最新一起，凸显了人们对AI训练数据的担忧。

时报称，OpenAI的LLMs，包括GPT-4，都在一个名为Common Crawl的数据集上进行训练，该数据集至少包含1600万条时报内容的独特记录。该诉讼引用了GPT-4及其Browse with Bing功能直接重复时报文章内容的实例。

对于关注生成式AI兴起的人来说，该诉讼并不令人意外。消费者和媒体关注的是物理技术产品的制造，但现在我们必须向AI公司询问其训练数据。答案很可能是”否”，它不是在伦理上获取的。

今天使用生成式AI就像从一个可疑的典当店购买商品一样。商品，即训练数据，可能是合法的销售商品，也可能是从精品店偷来的高质量商品，或者是从一个充满仿制品的仓库中偷来的低质量商品。

AI训练数据的不透明性具有重大影响。当像谷歌和必应这样的公司在未经许可的情况下使用内容提供商的内容替换搜索结果时，新闻业很难继续下去。这引发了人们对内容创作的未来和AI在其中的作用的疑问。

##先例和影响

美国最高法院对Cox电缆公司的判决可能会帮助所有技术提供商，而不仅仅是互联网服务提供商，抵御版权诉讼。佛罗里达州的司法部长也已就类似理由对ChatGPT展开调查。

AI版权侵权的影响已经对内容创作者造成了毁灭性的打击。由AI驱动的搜索结果和内容生成的兴起导致许多媒体机构的流量和收入下降。这可能对整个媒体行业产生深远影响。

##版权侵权诉讼史

近年来，针对科技公司的版权侵权诉讼案件频发。例如，一起针对Meta的诉讼称该公司”故意和蓄意”侵犯了”至少2396部电影”，作为下载数太字节数据的策略。另一项针对Meta的诉讼称该公司可能向未成年人提供了色情内容，同时为AI训练隐藏了盗版内容。

这些案例凸显了在AI开发中需要明确的版权侵权和合理使用指南。当前缺乏监管和监督，创造了一个公司可以实验AI模型而无需承担后果的环境。

##技术机制

像GPT-4这样的大型语言模型是在大规模数据集上进行训练的，通常来源于网络。这引发了人们对数据所有权和使用权，特别是涉及版权材料时的担忧。这些模型的训练过程涉及从各种来源抓取数据，包括书籍、文章和网站。然后，这些数据被用来教模型生成类似人类的文本。

AI训练数据的技术机制很复杂，但基本思想是AI模型从其训练数据中的模式中学习。这意味着如果训练数据存在偏差、不完整或不准确，AI模型将反映这些缺陷。

##行业背景

生成式AI的迅速发展引发了人们对训练数据伦理的疑问。随着AI模型变得更加普遍，明确的版权侵权和合理使用指南的需求将变得越来越重要。该行业仍处于初期阶段，在训练数据方面缺乏标准化。

当前AI训练数据的状况类似于互联网早期，当时公司仍在摸索如何使用和监管在线内容。然而，现在的风险要高得多，因为AI模型有可能影响舆论和决策。

##下游影响

这些诉讼的结果将影响AI开发和版权法。AI版权侵权的影响已经对内容创作者造成了影响。如果AI公司不对其训练数据负责，可能会导致整个行业信任的丧失。

AI版权侵权的下游影响深远。如果AI模型在未经许可的情况下使用版权材料进行训练，可能会导致创造力和创新性的下降。这可能对内容创作的未来和AI在其中的作用产生重大影响。

##接下来会发生什么

《纽约时报》和Strike 3 Holdings分别对OpenAI和Meta提起的诉讼可能会为未来的案件树立先例。随着行业的不断发展，解决AI训练数据和版权侵权问题的迫切性日益增加。

在AI开发中，需要透明度和问责制的迫切性从未如此迫切。随着生成式AI的使用越来越广泛，确保这些模型是在伦理来源的数据上进行训练的至关重要。

AI开发的未来取决于它。

##前进的道路

前进的道路需要AI开发者、内容创作者和监管机构之间的合作。我们需要建立明确的AI开发中版权侵权和合理使用指南。我们还需要确保AI公司对其训练数据保持透明，并对其版权侵权行为负责。

最终目标是创建一个未来，在那里AI模型是在伦理来源的数据上进行训练的，内容创作者因其工作而获得公平的报酬。这将需要在我们如何看待AI开发和内容创作者在其中的角色方面进行根本性的转变。