推特官网 - 推特 - 推特账号注册

推特网讯：在马斯克的指挥下，X 公司(前推特)近期又整出了新的花活。他们在日前悄然更新了服务条款，其中显示未经其事先的书面许可，无论出于何种目的，哪怕是用于学术研究，任何第三方都不得在 X 上抓取数据来训练 AI 大模型。这也就意味着，X 已经对 AI 大模型关闭了大门。

　　事实上，马斯克几乎从未掩饰对于第三方 AI 大模型的恶意。早在今年 3 月，彼时还叫 Twitter 的 X 方面就修改了 API 接口的订阅价格，对于第三方访问的价格进行了大幅上调。紧接着到了 4 月，马斯克更是威胁要起诉微软，原因是他认为后者非法使用了 Twitter 的数据来训练 Bing Chat 的人工智能模型。当时间来到 7 月，马斯克指挥 X 方面用法律武器对四家实体提起了诉讼，指控它们从事数据抓取活动，导致其服务器资源严重紧张。

就在 7 月初，马斯克还搞出了一个 ” 神操作 “，宣布限制 X 用户每日可浏览的推文数量，其中已认证账户、未认证老账户、未认证新账户每日分别最多可浏览 10000 条、1000 条、500 条推文。并且在未注册的用户想要查看一条推文时，平台还会提示他们登录或是注册账户。

　　其实这一连串操作背后的原因很简单，因为如今数据几乎成为了互联网行业的 ” 石油 “，也有着极高的价值。例如 ChatGPT 为什么会表现得比 Siri 等上一代人工智能产品更聪明、更接近人类呢?单纯就是因为 ” 力大砖飞 “，而规模更大的语料库则是其中的关键。例如 GPT-3 就拥有的 1750 亿的参数量、45TB 的训练数据，GPT-4 的参数规模更是达到了惊人的 1.8 万亿。也就是说，GPT-4 的数据规模是 GPT-3 的 10 倍以上。

那么训练 ChatGPT 的语料是哪里来的呢?抓取包括 Twitter 在内、一切互联网平台上用户的交互内容，这就是 OpenAI 方面一直在干的事情。所以某种意义上来说，ChatGPT 的军功章里除了有 OpenAI 的一半外，也有 Twitter 的一份。可现实是，OpenAI 在今年 4 月完成了一笔 103 亿美元的新一轮融资，估值达到 270 亿 -290 亿美元，反观 X 的估值在马斯克眼中，已经从收购时的 440 亿美元变成了 200 亿美元。

　　此消彼长之下，马斯克感到心里不平衡简直再正常不过。通过这一系列的措施，X 平台所蕴含的数据甚至还变得更有价值了，因为它更难以被获取。更为重要的问题是，如今已没有更多的高质量语料可供大模型进行训练了。此前 AI 研究团队 Epoch 在今年年初发表的论文中就表明，综合目前人类语言数据的增长率，AI 不出 5 年就会把人类所有的高质量语料用光。

由于诸如论文、书籍、新闻、代码等高质量的语料毕竟有限，有统计数据显示，高质量语料数据的存量只剩下约 4.6 × 10^12 至 1.7 × 10^13 个单词，相比当前最大的文本数据集大了不到一个数量级。而 X 等互联网内容平台上的低质量语料却可谓是取之不尽用之不竭，所以他们也已经是 AI 厂商为数不多的选择了，就等于说现在已经是卖方市场。

　　虽然马斯克此前的打算是将 X 上的这些数据卖个好价钱，毕竟一个新的营收来源对于风雨飘摇中的 X 来说算得上是久旱逢甘霖。事实上，限制第三方 AI 公司抓取数据对 X 的流量其实没多少影响。比如同样是因为对 AI 公司抓取数据收 ” 保护费 “，Reddit 被用户抵制，但最终用户的抗议活动并未对该网站的流量造成重大影响。并且在 Meta 的 Threads 诞生前，X 在海外社交平台中也具有不可替代性。

既然如此，为什么 X 突然修改了服务条款、拒绝第三方抓取数据呢，毕竟这意味着他们将无法通过这一行为向后者收费。原因当然是因为 AI 的魅力太大，以至于马斯克要让 X 亲自下场来做 AI，而不是只只做 AI 大模型的数据供应商。就在不久前，X 公司突然修改了隐私政策，并新增了如下内容，” 我们可能会使用收集到的信息和公开可用的信息，来帮助训练我们的机器学习或人工智能模型。”

　　此前在今年 7 月，马斯克还成立了一家号称利用 AI 了解宇宙真实本质的新公司 x.AI，并谷歌挖来了 Christian Szegedy、Jimmy Ba 等多位人工智能领域的科学家。彼时马斯克的说法，是 x.AI 的成立将与 OpenAI、谷歌等公司竞争，试图打造一个 ” 好的通用人工智能(AGI)”，以防止某个公司垄断 AI 领域。

既然已经有了属于自己的 AI 公司，X 上的数据显然也就有了更有价值的去处，通过对数据的垄断来为 x.AI 的 AI 大模型或 AGI 提供差异化的竞争力，这并不难理解。所以不得不说马斯克的钞能力真的很好用，未来或许 OpenAI、微软、谷歌等公司就要头疼了。