“偷偷”训练GPT-4？OpenAI给它看了超100万小时的YouTube

摘要

4月7日，据美国科技媒体The Verge报道，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。

4月7日，据美国科技媒体The Verge报道，本周早些时候，《华尔街日报》报道称AI公司在收集高质量训练数据方面遇到了困难。

今天，《纽约时报》详细介绍了一些公司处理这一问题的方法，不出所料，这涉及到AI版权法的灰色地带。

报道称，由于OpenAI 迫切需要训练数据，他们开发了 Whisper 音频转录模型来克服困难。OpenAI转录了超过一百万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。该公司知道这样做在法律层面上有问题，但认为这是合理使用。据悉，OpenAI 总裁 Greg Brockman亲自参与了所使用视频的收集。

OpenAI 发言人Lindsay Held在一封电子邮件中告诉The Verge，该公司为其每个模型策划了“独特的”数据集，以“帮助他们了解世界”，并在全球研究中保持竞争力。Lindsay Held补充说，该公司使用了许多来源，包括公开数据和合作伙伴的非公开数据，而且他们正在研究生成自己的合成数据。

《纽约时报》透露，该公司在2021年耗尽了所有有用的数据，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物等相关问题。那时候，该公司已经在 Github 的计算机代码、国际象棋棋谱数据库和 Quizlet 的学校作业内容等数据上训练了自己的模型。

谷歌发言人Matt Bryant在一封电子邮件中告诉The Verge，该公司“看到了有关OpenAI活动的未经证实的报道”，并补充说“我们的robots.txt文件和服务条款都禁止未经授权抓取或下载YouTube内容”。

YouTube的首席执行官Neal Mohan本周表示，OpenAI可能会使用YouTube来训练sora视频生成模型。Matt Bryant说，“当我们有明确的证据时”，谷歌会采取“技术和法律措施”来防止这种未经授权的使用。

值得一提的是，Meta 同样遇到了训练数据不够用的问题。《纽约时报》报道，其AI团队讨论了在努力追赶 OpenAI 的过程中使用数据的版权问题。在翻阅了“互联网上几乎所有的英文书籍、散文、诗歌和新闻文章”之后，该公司显然考虑过采取一些措施，比如付费购买图书授权，甚至直接收购一家大型出版商等。

编辑孔盼成审读郭建华二审张玉洁三审刘思敏