反过来看，复刻90%哈利波特，洗无可洗的Meta居然赢了？

发表评论

A+

所属分类：科技

摘要

再这么下去，大模型真要成免费电子书城了。用大模型，就能让 AI 吐出 90% 以上的《哈利波特》全文，你敢信吗？

根据公开数据显示，

再这么下去，大模型真要成免费电子书城了。

用大模型，就能让 AI 吐出 90% 以上的《哈利波特》全文，朋友们敢信吗？

前段时间，斯坦福的团队在 arXiv 上发表了一篇论文，名为《从开源大模型中提取（受版权保护的）书籍的记忆片段》。

根据公开数据显示，

在这篇文稿里，Meta 的 Llama 被重点点名，而被复刻的对象，是大伙儿都知道的《哈利波特与魔法石》。

反过来看，

复刻的过程非常轻松，主打一个古诗词默写，朋友们给上半句，Llama 接下半句。而且判定很严格，要一字不差才行。

说到底，

只有中间一行是成功案例

IC外汇报导：

这么一来一回，实验结果表示，《哈利波特与魔法石》有 91.14% 的资料都能被 Llama 记住，再给朋友们原封不动地背出来。

但说实话，这数据有点过于保守了。毕竟大部分人看书，多个字少个字也不影响理解，加上这部分容错率，Llama 能背出来的比例绝对不止 91.14%。

有分析指出，

再结合下面这张图，更是锤上加锤。它不仅记得多，还记得全呢。从小说开头到结尾，均匀分布，无一幸免。

从左到右代表小说的实行到结束。

根据公开数据显示，

竖线越密，可复刻资料越多，颜色越深，成功概率越高。

容易被误解的是，

小编翻遍全文，发现哈利波特不是唯一一本被记住的，Llama 也不是唯一一个会背书的，大家或多或少都沾点。

与其相反的是，

除了 Llama，Pythia、Gemma、Phi 也在这不恰当的时刻展示出了它们惊人的记忆力。文稿里只列出来了 100 本被记住的书，实际上它们背得更多。

本来拿版权方的东西去做训练都忍不了，现在居然还能背出来？要不是现在大模型有上下文长度限制，岂不是一键输出全文了？

有分析指出，

咱认真研究了一下这个事，发现锅一部分在科技公司头上，另一部分在一个叫 Books3 的数据集上。

据业内人士透露，

Books3 是一个包含 196640 本 txt 的数据集，里面偷了不少盗版书。蓝莓外汇代理几乎所有大模型都用它做训练，不过数据集明面上很早就被下架，变成了不能说的秘密。

不妨想一想，

Paperwithcode 网站上留存的 Book3 悼词

站在用户角度来说，

很显然，大家都用了 Books3 搞训练，只不过有些大模型没做好稳妥防御机制，才被抓住了把柄。

于是，经常被 gank 的 Meta 又一次被 13 位作家送上了法庭。

没经小编允许，就拿小编的作品去训练大模型。这回证据确凿，还能一字不差吐出来，朋友们认不认？

不妨想一想，

连一向讨厌 JK 罗琳的吃瓜群众也纷纷觉得，拿盗版书训练模型就是侵权，没啥可洗的。

然而，

出乎所有人意料的是，Meta 居然赢了官司。看完了前因后果，小编觉得版权方纯粹是输在了智商。。。

版权方提出的举证，是 Llama 把书背出来，损害到了他们真书的销量。

尤其值得一提的是，

但要说现在，有人用大模型生成哈利波特直接当成电子书看，那也太高难了，不可能在市场上和真书产生竞争关系。

不可忽视的是，

再看看 Meta 方的辩词：美国版权法 “允许未经授权，复制作品并将其转化为新作品”，并且聊天机器人产生的人工智能表达，与训练用的书籍有着根本的不同。