无独有偶,2023 年从 Nvidia 获得最多 “Hopper ”H100 分配的公司也是超大规模公司和云计算构建商,它们在很多情况下都身兼两职,既有兴趣出租 GPU 容量供他人构建人工智能模型,也有兴趣在大型语言模型开发方面进行创新。显然,Nvidia 非常希望在竞争对手开始蚕食其在 LLM 加速计算方面的近乎垄断地位之前,能够在生成式人工智能浪潮中榨取每一分钱。2022 年夏天,OpenAI 的 ChatGPT 作为 API 推出,改变了数据中心计算的本质。但是,GenAI 彩虹尽头的聚宝盆并没有因为 Nvidia 而结束。随着这些 GPU 的容量被出租,数以万计的企业正试图获得 GPU 时钟周期来训练自己的模型,并希望以此来改变自己的业务,因此,钱袋子还在不断增加。其中包括微软Azure(15万)、Meta Platforms(15万)、亚马逊网络服务(5万)、谷歌云(5万)、甲骨文云基础架构(5万)、腾讯(5万)、百度(3万)和阿里巴巴(2.5万)创建的大规模GPU综合体,根据Omdia的数据,这些综合体是根据它们的Nvidia H100分配来排名的,但其中也包括像CoreWeave(4万)和Lambda(2万)这样的纯GPU云玩家。此外,还有两张外卡:ByteDance(2 万)和 Tesla(1.5 万),它们是自己的东西,正在做自己的 LLM。就本分析而言,CoreWeave 和 Lambda(前身为 Lambda Labs)是最有趣的两家公司,因为它们在 GPU 分配和如何筹集风险资本方面大做文章。华尔街也希望它们能在今年或明年进行两次大规模的首次公开募股。我们理解所有的喧嚣,但我们怀疑华尔街是否已经计算清楚。至于这些首次公开募股前公司的估值是否合理,我们留给你们自己去计算。我们认为,从基本面来看,全球股市整体估值过高,而且几十年来估值越来越高。但我们不会因此而影响我们的分析,因为价值是一个相对而非绝对的指标。任何拥有 401(k) 账户的人都需要这些热气来证明自己的真实价值。(等等,也包括我们)。我们来找点乐子。我们一直保存着这张迷人的图表,它被埋藏在 2023 年 10 月的同一份财务报告中,其中包括 Nvidia 的路线图,我们对其进行了编辑,使其更加准确,以备不时之需。至少从 Nvidia 高层的角度来看,它解释了 GPU 骗局的经济学原理:左边的饼图很容易理解。如果你想成为 GPU 云计算领域的佼佼者,那么就从 10 亿美元开始吧。有了这笔钱,你就可以花 4 亿美元购买总共 16,000 台 H100 的人工智能服务器,再花 1 亿美元购买 Nvidia 的 InfiniBand 网络将它们连接起来。在这四年里,你还需要花费 5 亿美元来建造一个数据中心,并对其进行运营、供电和制冷。Nvidia 没有对数据中心的成本或其中的铁件进行折旧,但显然你会这样做。我们不知道 Nvidia 是如何计算出 GPU 计算价格的,但按照 Nvidia 八路 DGX H100 的克隆版配置 GPU 服务器最低 40 万美元左右的价格计算,2000 台服务器的成本就是 8 亿美元,而不是 4 亿美元。我们认为,考虑到对 H100 的巨大需求,超大规模用户和云计算构建者不会得到 46.7% 的折扣。现在,请看右边。Nvidia 表示,以每 GPU 小时 4 美元计算,四年内的租金机会约为 25 亿美元。我们必须施展一定的巫术才能得出这个数字,下面我们就来解释一下。首先,如果以 16,000 个 GPU 为例,乘以四年内每小时 4 美元(按每年 365.25 天,每天 24 小时计算),那么租金收入流为 22.4 亿美元。而不是 25 亿美元。右边的饼图似乎暗示,通过使用更昂贵的 InfiniBand 网络而不是以太网,可以将 GPU 的利用率提高 15%,四年内价值 3.5 亿美元,并将 GPU 集群的吞吐量提高 25%,价值 6 亿美元。如果假设总性能提高 43.8%,意味着只需要 11,130 个 H100 GPU,而不是 16,000 个,再乘以 11,130 个 GPU 四年内每 GPU 小时 4 美元的成本,就可以得到 25.1 亿美元的租金收入。啊,但是等等,通过分析亚马逊网络服务的 p5 GPU 实例价格(我们在去年七月做了详细分析),我们知道八路 H100 系统实例的按需实例价格为每小时 98.32 美元,即每 GPU 小时 12.29 美元。我们估计保留一年的实例价格为每小时 57.63 美元,即每 GPU 小时 7.20 美元,我们知道保留三年的实例公布价格为 43.16 美元,即每 GPU 小时 5.40 美元。我们认为 GPU 租金不会因为使用 InfiniBand 带来的性能提升或利用率提高而改变。(我们知道 AWS 在这些 p5 实例中使用的不是 InfiniBand,而是其自己的 400 Gb/sec 以太网 EFAv2 实现)。因此,情况是这样的:如果您有 16,000 个 GPU,并且您有按需实例(50%)、一年实例(30%)和三年实例(20%)的混合平均值,那么四年的 GPU 租金收入为 52.7 亿美元,H100 GPU 的平均成本为每小时 9.40 美元。使用 InfiniBand 提高了效率,这意味着云计算可以更快地让更多客户使用这些 GPU,但这并不会改变每小时的租赁成本。这只是意味着客户可以更快地完成工作,更多客户可以使用它,但一年只有 35,064 个小时,365.25 天。因此,假设 H100 GPU 的价格更准确,InfiniBand 升级到 800 Gb/秒,AWS 上的 p5 实例条款组合定价更准确,我们将如何编辑 Nvidia 制作的图表:你需要知道:你为 Nvidia GPU 投入 8 亿美元,为数据中心和网络再投入 7 亿美元,如果你拥有按需和预留实例客户的合理组合,你将再次获得 5270 美元的收入。我们认为,AWS、微软 Azure 和谷歌云基础架构之间的数字不会有太大差别,而且我们怀疑,只要 GPU 仍然稀缺,CoreWeave 或 Lambda 等公司的 GPU 价格(以及收入)最终会不会低得多。一些值得思考的问题:长期租用较少数量的 GPU 总比短期租用较多数量的 GPU 便宜,这必须与任何给定规模的 LLM 的 GPU 内存容量和 GPU 内存带宽需求相比较。客户可能需要大量的 GPU 来存储,而不是计算,但无论如何,他们都要为计算付费。正是考虑到这一点,我们才考虑了最近对 CoreWeave 和 Lambda 的投资。CoreWeave 是一家比特币挖矿公司,成立于纽约市郊区的新泽西州罗斯兰德(Roseland),目前已转向人工智能处理领域,该公司今天宣布获得了来自 Coatue 的 11 亿美元 C 轮融资,Magnetar(领投 B 轮融资)以及 Altimeter Capital、Fidelity Management 和 Lykos Global Management 也参与了本轮融资。2023 年 12 月的 B 轮融资达到了 6.42 亿美元,而在此之前,2023 年 4 月的 A 轮融资也达到了 4.2 亿美元。去年 8 月,CoreWeave 还从 Magnetar 和黑石集团获得了 23 亿美元的债务融资。正是这笔资金让 CoreWeave 在过去一年里从三个数据中心发展到十四个数据中心。这就是 21.6 亿美元的风险投资和 23 亿美元的贷款,总计 44.6 亿美元。这听起来似乎很多,直到你意识到这是数据中心和 GPU 系统的成本,而这些数据中心和 GPU 系统总共拥有约 47,600 个 GPU。这听起来似乎很多。但有趣的是。如果将这个 GPU 数量与我们上面的对比进行计算,四年的租金收入将达到 156.8 亿美元。也就是说,44.6 亿美元的投入,换回了 156.8 亿美元的收入。假设 CoreWeave 能够从其基础设施中获得 65% 至 70% 的营业收入,就像我们认为 AWS 多年来能够从其 GPU 实例中获得的收入一样,然后再支付销售、营销和其他费用,那么这可能是一项相当不错的投资业务。显而易见的是,在 GPU 分配方面,组织的规模和速度对 Nvidia 来说非常重要,因为 Nvidia 希望尽快将 GPU 周期交到人们手中,以便将 Jensen Way 传播得更远更广。CoreWeave 发现自己可以成为一个利基市场的参与者,但要与超大规模企业和最大的云计算建设者竞争,就必须做大。CoreWeave 的估值从上一轮融资到本轮融资的 190 亿美元增加了两倍,你必须自己判断 CoreWeave 的估值是否合理。还有一个等式:44.6 亿美元进账,190 亿美元或更多 IPO 出账。CoreWeave 创始人发财了,每个人都有不同的方式赶上 Nvidia 浪潮。在这里,Lambda 不得不迎头赶上。去年 12 月,Lambda 获得了 3.2 亿美元的注资,在 2017 年到 2023 年期间,Lambda 在种子前、种子轮、风险轮和债务融资方面共获得了 9.322 亿美元的融资。Lambda 以服务 AI 工作负载的云起家,转型成为 AI 系统制造商,现在更专注于做 GPU 云。再说一遍:CoreWeave 和 Lambda 都在说,它们能以比大型云更低的成本提供 GPU 访问,但仔细想想,这只会损害它们的事业。在 GPU 容量稀缺的情况下,他们应该尝试收取和 AWS 一样高的价格,直到无法收取为止,或者是 AWS 的价格减去 SageMaker 和 Bedrock 带来的所有价值。毕竟,你不会看到 AMD 赠送其 MI300 GPU;它对每单位计算和每单位内存的收费与 Nvidia 对 H100 和 H200 的收费差不多。云计算公司没有理由以低于 AWS 的价格出售 GPU 容量,至少现在还没有。当 GPU 容量过剩时,情况就会不同了--届时,世界上的高性能计算中心就能一拥而上,以低廉的价格完成大量科学工作。也许吧。
来源:半导体行业观察
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。