4月7日,据美国科技媒体The Verge报道,本周早些时候,《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。
今天,《纽约时报》详细介绍了一些公司处理这一问题的方法,不出所料,这涉及到AI版权法的灰色地带。
报道称,由于OpenAI 迫切需要训练数据,他们开发了 Whisper 音频转录模型来克服困难。OpenAI转录了超过一百万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。该公司知道这样做在法律层面上有问题,但认为这是合理使用。据悉,OpenAI 总裁 Greg Brockman亲自参与了所使用视频的收集。
OpenAI 发言人Lindsay Held在一封电子邮件中告诉The Verge,该公司为其每个模型策划了“独特的”数据集,以“帮助他们了解世界”,并在全球研究中保持竞争力。Lindsay Held补充说,该公司使用了许多来源,包括公开数据和合作伙伴的非公开数据,而且他们正在研究生成自己的合成数据。
《纽约时报》透露,该公司在2021年耗尽了所有有用的数据,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物等相关问题。那时候,该公司已经在 Github 的计算机代码、国际象棋棋谱数据库和 Quizlet 的学校作业内容等数据上训练了自己的模型。
谷歌发言人Matt Bryant在一封电子邮件中告诉The Verge,该公司“看到了有关OpenAI活动的未经证实的报道”,并补充说“我们的robots.txt文件和服务条款都禁止未经授权抓取或下载YouTube内容”。
YouTube的首席执行官Neal Mohan本周表示,OpenAI可能会使用YouTube来训练sora视频生成模型。Matt Bryant说,“当我们有明确的证据时”,谷歌会采取“技术和法律措施”来防止这种未经授权的使用。
值得一提的是,Meta 同样遇到了训练数据不够用的问题。《纽约时报》报道,其AI团队讨论了在努力追赶 OpenAI 的过程中使用数据的版权问题。在翻阅了“互联网上几乎所有的英文书籍、散文、诗歌和新闻文章”之后,该公司显然考虑过采取一些措施,比如付费购买图书授权,甚至直接收购一家大型出版商等。
编辑 孔盼成 审读 郭建华 二审 张玉洁 三审 刘思敏