之前Sam Altman在国会山舌战参议员,帮OpenAI搞定了监管层。
6月28号,位于北加州的Clarkson律所对OpenAI提起了集体诉讼。
指控OpenAI在训练大模型时从网上抓取的数据,严重侵犯了16名原告的著作权和隐私,要求赔偿30亿美金。
「律所代表那些信息被窃取,用来创造了这项强大技术的真实存在的普通人主张自己的合法权利。」
「在未经知情同意或不知情的情况下,使用从数亿互联网用户(包括各个年龄段的儿童)窃取的私人信息(包括个人身份信息)来创建其产品。」
简单来说,大部分的诉讼,原告的个数是有限而且明确的,而集体诉讼,是一大群人提起的诉讼。
集体诉讼制度是因为某个事件的受害人太多,而且往往单个受害人的受到的损害太小,不适合单独起诉,所以就可以由原告组成集体,集体起诉被告。
比较典型的是环保类的案件,比如某个公司排污影响了周围的居民,居民集体起诉公司。
但是集体诉讼和普通诉讼有一个很大的不同之处在于,发起者往往不是原告人,而是代理律师。
因为在集体诉讼中,代理律师会要求很高的代理费,可能会超过赔偿额的50%,有个别夸张的案件甚至会达到80%。
而原告方,很多时候是被发起诉讼的律师主动找上家门,签个字同意律师代理,如果打赢了,能拿到一些赔偿金。
律师在获得了一大批原告的授权之后,就以「原告集体」的名义向法院提起诉讼,要求被告赔偿。
而律师因为在这类案件中占有主导地位,会有很高的律师费抽成比例,往往会比受害者获得更多的经济利益。
比如苹果公司前不久,就因为下班对员工搜宝检查的制度,最后在集体诉讼中和员工达成和解,向员工支付了3050万美元,平均每个员工能获得1328美元的赔偿。
而律师或者律所本身,也会因为集体诉讼案件广泛的影响力,在业界获得更高的名声。
某种程度上,很多美国集体诉讼案件真正的「原告」,往往是能获得更多经济收入的律师,而非真实的受害「原告」。
而这起针对OpenAI的集体诉讼,代理律所Clarkson LLP,就是一家成立于2014年,几乎只从事集体诉讼业务的律所。
这次对于OpenAI的起诉也是由律所的冠名合伙人Ryan Clarkson本人亲自办理。
看得出来,这次他们是要「All in OpenAI」,打响「大模型侵权案件的第一枪」。
而在国会立法程序给出明确规定之前,法官很有可能会参考已经有的隐私权和著作权的案例,在这个案件中做出对原告有利的认定。
在没有明确法律规则的背景之下,案件很有可能会朝着不利于OpenAI的方向发展。
原告律所也会因为代理这个可能具有划时代意义的案件而继续巩固自己在业界的地位。
而除了上面提到的律所集体诉讼,个人因为被侵权而直接起诉OpenAI的例子也不少。
最近,两位曾获过奖的作者就起诉了OpenAI,指控他们在未经同意的情况下使用他们出版的书籍来训练 ChatGPT,违反了版权法。
该诉讼于6月底提起,两位作家表示,ChatGPT的底层LLM直接拿来就用了原告作者Mona Awad和Paul Tremblay的受版权保护的作品。
他们认为,ChatGPT能够生成其作品的详细摘要,这就表明他们的书籍肯定已经包含在了用于训练的数据集中。
美国一所大学的法学教授Daniel Gervais在接受Insider采访时表示,作家的诉讼是全国范围内针对生成式AI的少数版权案件之一。
Gervais预计,随着这些AI在复制作家和艺术家风格方面的能力不断得到发展和改进,更多的作者将加入起诉开发LLM和AI公司的行列。
他认为,全国范围内,针对ChatGPT等生成式AI工具的一法律挑战即将到来。
投诉中写道,想要证明该案的作者因OpenAI的数据收集行为而遭受了金钱损失这一点,可能具有一定的挑战性。
他告诉Insider,即使这些书籍在OpenAI的训练数据集里,OpenAI其实也可以是通过合法途径来得到这些作品的。
美国作家协会是一个支持作家工作权利的倡导组织,上周他们发表了一封公开信,呼吁大型科技和AI公司的CEO能去获得「作家的许可」,再使用他们的受版权保护的作品来训练LLM。
这些诉讼称,OpenAI的ChatGPT和Meta的LLaMA都有用非法获取的数据集进行训练的行为,而这些数据集中就包含他们的作品。
他们表示,这些数据kaiyun 开云 官方网站集是从Bibliotik、Library Genesis、Z-Library等网站获取的,并指出这些书可以批量获取。
在针对OpenAI的诉讼中,三人提供的证据表明,当出现相关的prompt时,ChatGPT会总结他们的书籍,他们认为,这是对他们作品版权的侵犯。
至于针对Meta的单独诉讼,情况也差不多。Meta用于训练LLaMA模型的数据集中也能访问该作者的书籍。
而在该投诉,详细的分步阐述了原告为何认为这些数据集的来源是非法的——在一篇有关LLaMA的论文中,Meta指出了其训练数据集的来源,其中一个名为「ThePile」。
诉状指kaiyun 开云 官方网站出,EleutherAI的一篇论文将「ThePile」描述为由Bibliotik内容的副本拼凑而成的,而Bibliotik本身就不合法。
在这两项声明中,参与的作者均表示,他们不同意AI公司使用其受版权保护的书籍作为LLM的训练内容。
他们的诉讼均包含六项不同类型的侵犯版权、疏忽、不当得利和不正当竞争罪名。
除了书圈,Getty Images还提起了一项诉讼,指控创建Stable Diffusion的Stability AI在「数百万张受版权保护的图像」上训练其模型。