新闻  |   论坛  |   博客  |   在线研讨会
国产GPU距离“平替”英伟达还有多远?
旺材芯片 | 2024-08-16 21:50:26    阅读:975   发布文章

图片


2024年7月的上海是沉闷的雨季,但对于国内AI行业来说,却迎来了堪比摇滚集会的WAIC(世界人工智能大会)。


会上,阿里巴巴的通义千问、智谱AI基座大模型、商汤科技的Vimi可控人物视频生成模型等“镇馆之宝”充分发挥,展示了其强大的AGI能力。引人注目的效果。但除了在观众面前展示AI前端效果的大型模型外,国产AI的基地:国产算力也集中亮相。国内一大批AI芯片企业密集展示产品线。这些产品线涵盖训练到推理,包括设备端和云端,无论是通用GPU还是搭载各种场景的AI加速卡,可以说给英伟达带来了“小小的中国震撼”。


当观众徜徉在国内算力博物馆,观察完整的产品线和出色的单卡性能时,直观的感受就是这个行业“百花齐放”、“生机勃勃”。与大洋彼岸相比,并不逊色多少。但当我每天打开新闻看到对方不断收紧的制裁时,似乎很难支持“国产AI芯片”正处于行业爆发期的结论。那么我们今天必须面对的问题是:眼前的“繁荣”可能吗?基础扎实吗?



图片

国产大模型的蓬勃发展遭遇国外芯片制裁。就像割下一块纯钠扔进水池里一样,瞬间引爆了国内GPU市场。


如果纵观中国芯片自主化的紧迫历史,从早期的龙芯、飞腾冲击Wintel联盟,到松山湖的麒麟芯片之战,业界的注意力一直集中在设备的核心处理器上,所以CPU类型的核心从政府和投资者的角度来看是一个更核心的突破点。已获得政府新创订单及大量资金投入。2023年底麒麟的回归,是对国产芯片外部封锁的一个强力反击。


但在处理器前端取得突破的同时,曾经的侧翼战场GPU却突然转战主战场。随着2023年大型AI模型的出现,作为大模型引擎的GPU的需求急剧增加。英伟达2023年营收增长125%,2024年第一季度报告将增长262%,速度无与伦比。将其他芯片巨头抛在了后面。


相比之下,计算机时代的芯片王者英特尔和移动互联网时代的王者高通,合计市值刚刚超过3000亿美元,不到英伟达的1/8。新国王们面临着人工智能培训的旺盛需求。英伟达登上了王位。


但尴尬的是,美国人并不打算在这次人工智能热潮中给中国留一张头等舱机票。在美国政府的要求下,英伟达和AMD只能切断A100、H100等高端GPU型号的供应,转而向中国提供H20等“中国特别版”产品。“特别版”相对于“正版”来说有点鸡肋。在一些科技媒体的评测中,H20的综合算力仅相当于H100的20%,而且由于其他硬件配置的加入,算力成本大幅增加。


在这种半卡顿的局面下,国产大模型与国产AI芯片的协同自然就成了理所应当的事情。此外,中国对算力中心的强劲需求也给国产GPU带来了巨大的市场。要知道,截至2023年底,我国数据中心机架总规模已超过810万个,算力总规模达到惊人的230EFlops,成为仅次于美国的算力第一大国。


所以我们也可以看到国产芯片在数据中心落地的非常实际的案例:


壁仞科技成为中国电信算力合作伙伴,配备必利系列通用GPU算力。该产品的中国移动智能计算中心(呼和浩特)已于近日成功上线。该智能计算中心属于国家N节点万卡训练场,单机算力达到6.7EFLOPS(FP16)。也验证了壁仞声称的产品可以应用于千卡集群建设方案,并可以扩展到万卡规模。 


摩尔线程还为其AI旗舰产品KUAE推出了一整套解决方案,包括KUAE集群管理平台(KUAE Platform)和KUAE大模型服务平台(KUAE ModelStudio)。这是针对万卡数据中心在这么多计算卡高速连接的情况下如何保持稳定运行和高效计算资源分配的问题。同时还签约了青海零碳产业园万卡集群项目、青海高原库阿埃万卡集群项目、广西东盟万卡集群项目。


除了云端之外,客户端能够匹配大型AI模型的需求也是很多AI芯片公司的切入点。另外不可忽视的一点是,国内资本市场也为GPU行业的发展带来了巨大的支持。


可以说,国产计算中心、国产大机型正在从硬件配套和软件生态两个方向支撑国产。这是国内GPU玩家敢于与国际巨头周旋的底气。但是,一切真的有那么合乎逻辑吗?


图片
喧嚣的新闻稿背后,计算中心和大型模型公司都在想方设法抢夺Nvidia GPU的一席之地。仅2023年,英伟达中国营收就高达806亿元,而同期国产GPU的成绩可谓是屈指可数。


A股GPU第一股:景嘉微2024年第一季度实现营收1.08亿元,尽管同比增长66.27%。据新闻报道和券商研报显示,算力头部公司寒武纪一季度营收为2500万。从人工智能应用端转型开发人工智能芯片的云天励飞,2023年芯片营收将达到2400万元。


芯片企业在一级市场的收入不透明。有的公司估值达数十亿甚至数百亿。在每天发布的合作和订单协议的背景下,实际交付的收入只有几千万。。


可以说,热闹之下,大多数“战略合作”和“战略签约”更像是示范而不是实际执行。


我不得不承认一个现实。单纯用纸面参数去PK NVIDIA 并没有多大意义。千亿参数的大模型及其背后的万卡数据中心稳定、持续、高效的运行从来都不是单点。维度问题从来都不是一朝一夕就能完成的事情。


事实上,即使是最简单的大模型评估维度也至少包含5个方面:


对于每一款国产GPU来说,可能都有一个亮点。比如,华为的单卡性能可能并不弱于NVIDIA,百度的昆仑芯片在支持自家文心一言等大型模型的训练效率上有着显着的优势。不过,只有NVIDIA能做到五边形勇士,其他人如果五边形缺了一个角,就很难落地。。


例如,CUDA生态系统被认为是Nvidia的护城河之一。可以说,如果没有CUDA,大多数程序员都不知道如何在GPU硬件平台上进行开发。其软件生态已渗透到人工智能、科研等领域的方方面面。百度前首席科学家吴恩达评论道:在CUDA出现之前,全球会用GPU编程的人可能不超过100人,但目前全球有数百万CUDA开发者。


这一切都得益于NVIDIA早在2006年就大力支持CUDA系统在AI领域的研发和推广。当时,NVIDIA每年投入5亿美元的研发资金来不断更新和维护CUDA,而其同期营收仅为30亿美元。同时,NVIDIA还允许美国大学和科研机构免费使用CUDA系统,让CUDA系统在AI和通用计算领域迅速开花结果。


在支持大型机型领域,NVIDIA很早就走在了大家的前列。很少人知道的是,NVIDIA在2016年斥巨资打造了全球首台AI超级计算机DGX-1后,首先将其捐赠给了尚处于起步阶段的Open AI,并且还与大模型生态系统形成了早期联盟。它有着深厚的渊源。


在高功率芯片互连领域,NVlink也领先于竞争对手,就连美国显卡巨头AMD也不得不落后。一个常识是,GPU的计算能力不会简单叠加。无论单笔数据交易有多高,如果没有好的连接技术,1+1从一开始就小于2。10+10能否达到15还有一个问号。


当其他厂商还仅限于传统的 PCIe 时,NVIDIA 也已经布局了 10 多年。早在2014年,NVIDIA就发布了NVLink 1.0,并在P100 GPU芯片之间实现,已经是当时PCle 3传输速度的5倍;2020年,NVIDIA完成了对Mellanox的收购,获得了InfiniBand、Ethernet、SmartNIC、DPU和LinkX的互联能力,更加强大;现在,NVlink可以在每个GPU之间实现高达每秒600GB的带宽,比PCIe 4.0高出十倍。


因此,在一些评论家眼中,英伟达是一条“三头龙”。其强大的GPU算力、丰富的软件生态、高速广连接使其构筑了攻守兼备、难以突破的产品防线。。一旦你试图规避它的生态,你可能会面临购买万卡却只能摆脱千卡算力数据封锁的困境。你在编程开发过程中也可能会遇到没有合适的应用程序开发工具的问题。这种损失对于投入巨资的AI算力中心来说无疑是难以接受的,对于工程量极大、优化工作繁重的大型模型开发者来说也是难以承受的。


更显着的差距是,英伟达仍在急于为客户降低成本。


图片
黄仁勋对他的顾客有一句名言:“买得越多,省得越多。”被誉为黄氏数学。切换到现在的AI大模型视角就是如何在硬件层面降低大模型训练和token生成的成本。今年6月,基于Blackwell架构的GB100芯片将成本和能耗较H100降低至1/25。在参数1750亿的GPT-3 LLM基准测试中,GB200的性能达到了H100的7倍。倍,训练速度达到H100的4倍,这使得这款售价7万美元的芯片性价比高了不少。
可以说,在软件生态和通信互联未经时间和案例验证的硬件上构建千亿参数的大模型和万卡数据中心,无异于没有摸清地基底下的地形而自行其是。。的摩天大楼。直接全面使用国产GPU来支持国产大模型的代币生成,也将把国内大模型公司的成本推向难以承受的水平。
因此,雷声多、执行少,成为行业的无奈之举。

图片
“速胜论”不可取,我们也不会陷入“速败论”。尽管Nvidia如此强大,但它也无法赢得每场战斗。
刚刚过去的 7 月 30 日,苹果发布研究论文显示,苹果在谷歌开发的 TPU 芯片人工智能系统“Apple Intelligence”中使用了 AI 模型 Apple Foundation Model(AFM)。据报道,苹果此次采购了超过 10,000 颗谷歌 TPUv5p 和 TPUv4 芯片,以取代 Nvidia GPU。
为什么苹果和谷歌有信心开始部分取代英伟达?

图片

 一方面,谷歌产品无需太多参数训练就可以贴合苹果本地模型,而谷歌的TPUv5e性价比优势显着,特别适合训练中小型模型,从而让谷歌在这一细分市场站稳了脚跟。可以预见的是,随着苹果的成功,谷歌将继续寻找新的侧翼战场来挑战英伟达,而不是直接对抗这个“六边形”战士。
另一方面,由于苹果是全球领先的消费电子公司,采购数万块TPU只是研发投入的九牛一毛。用它们来布置防卡脖子的情况并不罕见。
因此,只有耐心先行掌握终端市场,利用庞大的终端市场带来的巨额现金流来维持研发投入,不断培养和测试有特殊需求的市场,才能面对先发对手的绝佳战术。优势太明显。
在这方面,华为的麒麟芯片就是一个很好的实证案例。中国PC时代,出现了“贸工技”与“技工贸”的对立。最终,单攻芯片的企业缺乏资金,单攻市场的企业缺乏后劲。这也给柳传志和倪光南留下了终生的遗憾。。
不过,华为并没有反对这两条道路。它首先使用高通。同时,利用中国的制造能力和软件迭代优势,持续占领市场。同时,它坚持自己的芯片。投资研发。当一个价值千亿的市场和数千家适配供应商掌握在手中时,我们自己的芯片就开始占据主导地位。这种两条腿走路,最终实现双向冲刺的策略取得了真正的成功。 
我们需要认识到一件事:一家成功的芯片公司也必须是一家成功的企业,而一家成功的企业必须拥有源源不断的现金流。
我们还需要明白,芯片并不是那么小的一块硅片,而是无数的软件厂商、硬件适配器厂商和无数的供应商。这需要资金作为集结点。
因此,在当前情况下,我们的首要任务不是立即打击Nvidia,而是利用市场环境和中国人的习惯,首先在Open AI、Anthropic和LLama上建立一个不能落后的大型模型市场。另一边。差异,否则到了那个时候,大众就很难支持国产大车型了。而当国产大型机型稳定了13亿人口的市场,甚至可以凭借强大的国产消费电子硬件出海时,国产芯片也能有航母支撑,无法单独对抗海外巨头。
此外,在生存的同时,国产芯片企业仍然可以在时间维度上继续蚕食英伟达的护城河。软件生态不够,可以依靠国内开发商和各大厂商不断弥补。如果连接能力不够,它可以与您的数据中心一起优化。事实上,这也正是国内芯片企业正在做的事情。
在连接方面,由于NVlink是NVIDIA独有的,因此不仅国产GPU,海外芯片厂商也开始尝试联合攻克这条护城河。2024年3月,AMD、博通、思科、谷歌、惠普、英特尔、Meta、微软等八家巨头宣布将开发用于人工智能数据中心网络的全新互连技术UALink。行业共同解决链路问题也是大势所趋。
可以说,填补英伟达的护城河并不是国内芯片企业的强项。英特尔CEO基辛格曾公开批评CUDA,称护城河又浅又窄。整个行业都想消灭它。Nvidia 在过去的几十年里打造了它。中国的生态确实很糟糕,但当一家公司垄断了整个行业的利润时,时间就站在了一边。
毫无疑问,虽然国产芯片的产品端已经在WAIC上蓄势待发,但从点亮芯片到客户适配再到稳定运营和生态建设还有很长的路要走。如果我们仅仅看到令人眼花缭乱的介绍就认为自己已经具备了“优势”,那么“教训英伟达”甚至主动脱钩无疑是一种鲁莽之举。但远离国产芯片,不给试错和验证的机会,也是一个错误的做法。
产业发展的难点恰恰在于如何平衡外力与内力、成本与创新、独立与全球化。这是一个需要不断审视策略的策略,也是一个需要在独木桥上不断保持平衡的策略。到达彼岸的唯一可行的方法。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客