OpenAI的疯狂数据中心,芯片猜想

砍柴网  •  扫码分享
我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

《The Information》在上周五复活节假期开始时报道了有关微软和OpenAI合作的Stargate(星际之门)的报道,该报告与超以太网联盟(微软是其创始成员)设定的100 万个互连端点的可扩展性未来以太网目标一致。

星际之门系统也从此引起了人们的议论。 Altman 似乎无法决定 OpenAI 是否应该完全依赖微软,但谁能责怪他呢?这就是为什么还有传言称OpenAI 正在设计自己的用于人工智能训练和推理的芯片,以及关于Altman试图带头 投资 7 万亿美元芯片制造但随后又放弃的令人愤慨的评论。

你不能责怪Altman乱扔了他正在盯着的大数字。训练人工智能模型非常昂贵,并且运行推理——主要是生成tokern——也不便宜。正如 Nvidia 联合创始人兼首席执行官黄仁勋最近在 GTC 2024 会议上的主题演讲中指出的那样——他们是不可持续的昂贵。这就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已经创建或正在创建自己的 CPU 和 XPU 的原因。

随着参数数量的增加以及数据从文本格式转变为其他格式,如果目前的趋势持续下去并且铁可以扩展,那么LLM只会变得越来越大——在未来几年内将增长 100 倍到 1,000 倍。

因此,我们听到有关《星际之门》的讨论,这表明人工智能训练的上层毫无疑问是富人的 游戏 。

根据您在最初的《星际之门》传闻后的报告中所读到的内容,《星际之门》是一个项目的第五阶段,该项目将耗资 1000 亿至 1150 亿美元,星际之门将于 2028 年交付,并在 2030 年及以后运营。微软目前显然正处于扩建的第三阶段。据推测,这些资金数字涵盖了机器的所有五个阶段,目前尚不清楚该数字是否涵盖了数据中心、内部机械以及电力成本。微软和 OpenAI 可能不会采取太多行动来解决这个问题。

目前还没有讨论 Stargate 系统将基于什么技术,但我们认为它不会基于 Nvidia GPU 和互连。它将基于未来几代的 Cobalt Arm 服务器处理器和 Maia XPU,以太网可扩展到单台机器中数十万到 100 万个 XPU。

我们还认为,微软收购了 DPU 制造商 Fungible 来创建可扩展的以太网网络,并且可能让Juniper Networks 和 Fungible 的创始人Pradeep Sindhu创建匹配的以太网交换机 ASIC,以便微软可以控制其整个硬件堆栈。

当然,这只是一个猜想。

无论 Microsoft 使用哪种以太网网络,我们都相当确定在某个时候 100 万个端点是目标,而我们也相当确定 InfiniBand 不是答案。

我们还认为,假设的这款 XPU 将与未来的 Nvidia X100/X200 GPU 或其后继产品(我们不知道其名称)一样强大是不太可能的。微软和 OpenAI 更有可能尝试大规模扩展更便宜的设备网络,并从根本上降低人工智能训练和推理的总体成本。

他们的 商业 模式取决于这种情况的发生。

而且我们还可以合理地假设,在某个时候 Nvidia 将不得不创建一个挤满矩阵数学单元的 XPU,并舍弃让该公司在数据中心计算领域起步的矢量和着色器单元。如果微软为 OpenAI 打造了一个更好的mousetrap,那么 Nvidia 将不得不效仿。

Stargate 肯定代表了人工智能支出的阶梯函数,也许还有两个阶梯函数,具体取决于你想要如何解释数据。

在数据中心预算方面,微软迄今为止公开表示的全部内容是,它将在 2024 年和 2025 年在数据中心上花费超过 100 亿美元,我们推测其中大部分支出用于支付 AI 服务器的成本。那些 1000 亿美元或 1150 亿美元的数字太模糊,无法代表任何具体内容,因此目前这只是一些大话。我们要提醒您的是,在过去的十年中,微软至少保留了 1000 亿美元的现金和等价物,并在 2023 年 9 月的季度达到了接近 1440 亿美元的峰值。截至 2023 日历年(微软 2024 财年第二季度),该数字下降至 810 亿美元。

因此,微软现在没有足够的资金来一次性完成 Stargate 项目,但其软件和云业务在过去 12 个月的销售额总计达到 825 亿美元,而销售额约为 2276 亿美元。未来六年,如果软件和云业务保持原样,微软将带来 1.37 万亿美元的收入,净利润约为 5000 亿美元。它可以承担星际之门的努力。微软也有能力购买 OpenAI,然后就可以结束它了。

不管怎样,我们为微软可能已经构建的集群以及未来可能为 OpenAI 构建的集群制定了预算,展示了它们的组成和规模如何随着时间的推移而变化。看一下:

OpenAI的疯狂数据中心,芯片猜想

我们认为,随着时间的推移,分配给 OpenAI 的 AI 集群数量将会减少,而这些集群的规模将会增加。

我们还认为 OpenAI 集群中 GPU 的份额将会下降,而 XPU 的份额(很可能在 Maia 系列中,但也可能使用 OpenAI 设计)将会上升。随着时间的推移,自研XPU 的数量将与 GPU 的数量相匹配,我们进一步估计这些 XPU 的成本将不到数据中心 GPU 成本的一半。此外,我们认为从 InfiniBand 转向以太网也将降低成本,特别是如果微软使用自主研发的以太网 ASIC 和内置人工智能功能和集体操作功能的自主研发的 NIC。 (就像 Nvidia 的 InfiniBand 的 SHARP 功能一样。)

我们还强制采用支出模型,以便在 2028 年有两个拥有 100 万个端点的集群——一个由 GPU 组成,一个由自研 XPU 组成,或者两个集群各占一半。我们想要估计未来的集群性能,但这很难做到。每年可能会有更多的 XPU 获得适度的性能提升,但性价比却要高得多。

需要记住的是,微软可以保留当前一代的 GPU 或 XPU 供 OpenAI 内部使用(因此也是其自己的),并在未来许多年内向用户出售N-1和N-2代,很可能会获得很多收益其投资诱饵再次回到 OpenAI 上。因此,这些投资本身并不是沉没成本。这更像是一个 汽车 经销商驾驶着一大堆挂有经销商牌照的不同汽车,但在出售它们之前并没有将里程数提高得太高。

问题是:微软会继续在 OpenAI 上投入巨资,以便扭亏为盈并租用这些产能吗,还是会停止在 OpenAI 上花费 1000 亿美元(两个月前该公司的估值为 800 亿美元)?另外还要花费 1100 亿美元左右的基础设施建设,以完全控制其人工智能堆栈。

即使对于微软来说,这些数字也是相当大的。但是,正如我们所说,如果你看看 2024 年至 2028 年,微软可能有大约 5000 亿美元的净利润可供使用。很少有其他公司这样做。

微软从一个 BASIC 编译器和一个从第三方拼凑出来的垃圾 DOS 操作系统开始,为一个不理解它的绝望的蓝色巨人做装饰,这简直是在放弃糖果店。

也许这也是奥特曼的噩梦。但考虑到将人工智能推向新的高度需要巨额资金,现在可能为时已晚。

【来源: 半导体行业观察 】

随意打赏

提交建议
微信扫一扫,分享给好友吧。