推特网讯:在马斯克的指挥下,X 公司(前推特)近期又整出了新的花活。他们在日前悄然更新了服务条款,其中显示未经其事先的书面许可,无论出于何种目的,哪怕是用于学术研究,任何第三方都不得在 X 上抓取数据来训练 AI 大模型。这也就意味着,X 已经对 AI 大模型关闭了大门。
就在 7 月初,马斯克还搞出了一个 ” 神操作 “,宣布限制 X 用户每日可浏览的推文数量,其中已认证账户、未认证老账户、未认证新账户每日分别最多可浏览 10000 条、1000 条、500 条推文。并且在未注册的用户想要查看一条推文时,平台还会提示他们登录或是注册账户。
那么训练 ChatGPT 的语料是哪里来的呢?抓取包括 Twitter 在内、一切互联网平台上用户的交互内容,这就是 OpenAI 方面一直在干的事情。所以某种意义上来说,ChatGPT 的军功章里除了有 OpenAI 的一半外,也有 Twitter 的一份。可现实是,OpenAI 在今年 4 月完成了一笔 103 亿美元的新一轮融资,估值达到 270 亿 -290 亿美元,反观 X 的估值在马斯克眼中,已经从收购时的 440 亿美元变成了 200 亿美元。
由于诸如论文、书籍、新闻、代码等高质量的语料毕竟有限,有统计数据显示,高质量语料数据的存量只剩下约 4.6 × 10^12 至 1.7 × 10^13 个单词,相比当前最大的文本数据集大了不到一个数量级。而 X 等互联网内容平台上的低质量语料却可谓是取之不尽用之不竭,所以他们也已经是 AI 厂商为数不多的选择了,就等于说现在已经是卖方市场。
既然如此,为什么 X 突然修改了服务条款、拒绝第三方抓取数据呢,毕竟这意味着他们将无法通过这一行为向后者收费。原因当然是因为 AI 的魅力太大,以至于马斯克要让 X 亲自下场来做 AI,而不是只只做 AI 大模型的数据供应商。就在不久前,X 公司突然修改了隐私政策,并新增了如下内容,” 我们可能会使用收集到的信息和公开可用的信息,来帮助训练我们的机器学习或人工智能模型。”
既然已经有了属于自己的 AI 公司,X 上的数据显然也就有了更有价值的去处,通过对数据的垄断来为 x.AI 的 AI 大模型或 AGI 提供差异化的竞争力,这并不难理解。所以不得不说马斯克的钞能力真的很好用,未来或许 OpenAI、微软、谷歌等公司就要头疼了。