OpenAI的疯狂数据中心，芯片猜想

砍柴网 • 1年前扫码分享

《The Information》在上周五复活节假期开始时报道了有关微软和OpenAI合作的Stargate（星际之门）的报道，该报告与超以太网联盟（微软是其创始成员）设定的100 万个互连端点的可扩展性未来以太网目标一致。

星际之门系统也从此引起了人们的议论。 Altman 似乎无法决定 OpenAI 是否应该完全依赖微软，但谁能责怪他呢？这就是为什么还有传言称OpenAI 正在设计自己的用于人工智能训练和推理的芯片，以及关于Altman试图带头投资 7 万亿美元芯片制造但随后又放弃的令人愤慨的评论。

你不能责怪Altman乱扔了他正在盯着的大数字。训练人工智能模型非常昂贵，并且运行推理——主要是生成tokern——也不便宜。正如 Nvidia 联合创始人兼首席执行官黄仁勋最近在 GTC 2024 会议上的主题演讲中指出的那样——他们是不可持续的昂贵。这就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已经创建或正在创建自己的 CPU 和 XPU 的原因。

随着参数数量的增加以及数据从文本格式转变为其他格式，如果目前的趋势持续下去并且铁可以扩展，那么LLM只会变得越来越大——在未来几年内将增长 100 倍到 1,000 倍。

因此，我们听到有关《星际之门》的讨论，这表明人工智能训练的上层毫无疑问是富人的游戏。

根据您在最初的《星际之门》传闻后的报告中所读到的内容，《星际之门》是一个项目的第五阶段，该项目将耗资 1000 亿至 1150 亿美元，星际之门将于 2028 年交付，并在 2030 年及以后运营。微软目前显然正处于扩建的第三阶段。据推测，这些资金数字涵盖了机器的所有五个阶段，目前尚不清楚该数字是否涵盖了数据中心、内部机械以及电力成本。微软和 OpenAI 可能不会采取太多行动来解决这个问题。

目前还没有讨论 Stargate 系统将基于什么技术，但我们认为它不会基于 Nvidia GPU 和互连。它将基于未来几代的 Cobalt Arm 服务器处理器和 Maia XPU，以太网可扩展到单台机器中数十万到 100 万个 XPU。

我们还认为，微软收购了 DPU 制造商 Fungible 来创建可扩展的以太网网络，并且可能让Juniper Networks 和 Fungible 的创始人Pradeep Sindhu创建匹配的以太网交换机 ASIC，以便微软可以控制其整个硬件堆栈。

当然，这只是一个猜想。

无论 Microsoft 使用哪种以太网网络，我们都相当确定在某个时候 100 万个端点是目标，而我们也相当确定 InfiniBand 不是答案。

我们还认为，假设的这款 XPU 将与未来的 Nvidia X100/X200 GPU 或其后继产品（我们不知道其名称）一样强大是不太可能的。微软和 OpenAI 更有可能尝试大规模扩展更便宜的设备网络，并从根本上降低人工智能训练和推理的总体成本。

他们的商业模式取决于这种情况的发生。

而且我们还可以合理地假设，在某个时候 Nvidia 将不得不创建一个挤满矩阵数学单元的 XPU，并舍弃让该公司在数据中心计算领域起步的矢量和着色器单元。如果微软为 OpenAI 打造了一个更好的mousetrap，那么 Nvidia 将不得不效仿。

Stargate 肯定代表了人工智能支出的阶梯函数，也许还有两个阶梯函数，具体取决于你想要如何解释数据。

在数据中心预算方面，微软迄今为止公开表示的全部内容是，它将在 2024 年和 2025 年在数据中心上花费超过 100 亿美元，我们推测其中大部分支出用于支付 AI 服务器的成本。那些 1000 亿美元或 1150 亿美元的数字太模糊，无法代表任何具体内容，因此目前这只是一些大话。我们要提醒您的是，在过去的十年中，微软至少保留了 1000 亿美元的现金和等价物，并在 2023 年 9 月的季度达到了接近 1440 亿美元的峰值。截至 2023 日历年（微软 2024 财年第二季度），该数字下降至 810 亿美元。

因此，微软现在没有足够的资金来一次性完成 Stargate 项目，但其软件和云业务在过去 12 个月的销售额总计达到 825 亿美元，而销售额约为 2276 亿美元。未来六年，如果软件和云业务保持原样，微软将带来 1.37 万亿美元的收入，净利润约为 5000 亿美元。它可以承担星际之门的努力。微软也有能力购买 OpenAI，然后就可以结束它了。

不管怎样，我们为微软可能已经构建的集群以及未来可能为 OpenAI 构建的集群制定了预算，展示了它们的组成和规模如何随着时间的推移而变化。看一下：

OpenAI的疯狂数据中心，芯片猜想

我们认为，随着时间的推移，分配给 OpenAI 的 AI 集群数量将会减少，而这些集群的规模将会增加。

我们还认为 OpenAI 集群中 GPU 的份额将会下降，而 XPU 的份额（很可能在 Maia 系列中，但也可能使用 OpenAI 设计）将会上升。随着时间的推移，自研XPU 的数量将与 GPU 的数量相匹配，我们进一步估计这些 XPU 的成本将不到数据中心 GPU 成本的一半。此外，我们认为从 InfiniBand 转向以太网也将降低成本，特别是如果微软使用自主研发的以太网 ASIC 和内置人工智能功能和集体操作功能的自主研发的 NIC。（就像 Nvidia 的 InfiniBand 的 SHARP 功能一样。）

我们还强制采用支出模型，以便在 2028 年有两个拥有 100 万个端点的集群——一个由 GPU 组成，一个由自研 XPU 组成，或者两个集群各占一半。我们想要估计未来的集群性能，但这很难做到。每年可能会有更多的 XPU 获得适度的性能提升，但性价比却要高得多。

需要记住的是，微软可以保留当前一代的 GPU 或 XPU 供 OpenAI 内部使用（因此也是其自己的），并在未来许多年内向用户出售N-1和N-2代，很可能会获得很多收益其投资诱饵再次回到 OpenAI 上。因此，这些投资本身并不是沉没成本。这更像是一个汽车经销商驾驶着一大堆挂有经销商牌照的不同汽车，但在出售它们之前并没有将里程数提高得太高。

问题是：微软会继续在 OpenAI 上投入巨资，以便扭亏为盈并租用这些产能吗，还是会停止在 OpenAI 上花费 1000 亿美元（两个月前该公司的估值为 800 亿美元）？另外还要花费 1100 亿美元左右的基础设施建设，以完全控制其人工智能堆栈。

即使对于微软来说，这些数字也是相当大的。但是，正如我们所说，如果你看看 2024 年至 2028 年，微软可能有大约 5000 亿美元的净利润可供使用。很少有其他公司这样做。

微软从一个 BASIC 编译器和一个从第三方拼凑出来的垃圾 DOS 操作系统开始，为一个不理解它的绝望的蓝色巨人做装饰，这简直是在放弃糖果店。

也许这也是奥特曼的噩梦。但考虑到将人工智能推向新的高度需要巨额资金，现在可能为时已晚。

【来源：半导体行业观察】