"); //-->
会上,阿里巴巴的通义千问、智谱AI基座大模型、商汤科技的Vimi可控人物视频生成模型等“镇馆之宝”充分发挥,展示了其强大的AGI能力。引人注目的效果。但除了在观众面前展示AI前端效果的大型模型外,国产AI的基地:国产算力也集中亮相。国内一大批AI芯片企业密集展示产品线。这些产品线涵盖训练到推理,包括设备端和云端,无论是通用GPU还是搭载各种场景的AI加速卡,可以说给英伟达带来了“小小的中国震撼”。
当观众徜徉在国内算力博物馆,观察完整的产品线和出色的单卡性能时,直观的感受就是这个行业“百花齐放”、“生机勃勃”。与大洋彼岸相比,并不逊色多少。但当我每天打开新闻看到对方不断收紧的制裁时,似乎很难支持“国产AI芯片”正处于行业爆发期的结论。那么我们今天必须面对的问题是:眼前的“繁荣”可能吗?基础扎实吗?
国产大模型的蓬勃发展遭遇国外芯片制裁。就像割下一块纯钠扔进水池里一样,瞬间引爆了国内GPU市场。
如果纵观中国芯片自主化的紧迫历史,从早期的龙芯、飞腾冲击Wintel联盟,到松山湖的麒麟芯片之战,业界的注意力一直集中在设备的核心处理器上,所以CPU类型的核心从政府和投资者的角度来看是一个更核心的突破点。已获得政府新创订单及大量资金投入。2023年底麒麟的回归,是对国产芯片外部封锁的一个强力反击。
但在处理器前端取得突破的同时,曾经的侧翼战场GPU却突然转战主战场。随着2023年大型AI模型的出现,作为大模型引擎的GPU的需求急剧增加。英伟达2023年营收增长125%,2024年第一季度报告将增长262%,速度无与伦比。将其他芯片巨头抛在了后面。
相比之下,计算机时代的芯片王者英特尔和移动互联网时代的王者高通,合计市值刚刚超过3000亿美元,不到英伟达的1/8。新国王们面临着人工智能培训的旺盛需求。英伟达登上了王位。
但尴尬的是,美国人并不打算在这次人工智能热潮中给中国留一张头等舱机票。在美国政府的要求下,英伟达和AMD只能切断A100、H100等高端GPU型号的供应,转而向中国提供H20等“中国特别版”产品。“特别版”相对于“正版”来说有点鸡肋。在一些科技媒体的评测中,H20的综合算力仅相当于H100的20%,而且由于其他硬件配置的加入,算力成本大幅增加。
在这种半卡顿的局面下,国产大模型与国产AI芯片的协同自然就成了理所应当的事情。此外,中国对算力中心的强劲需求也给国产GPU带来了巨大的市场。要知道,截至2023年底,我国数据中心机架总规模已超过810万个,算力总规模达到惊人的230EFlops,成为仅次于美国的算力第一大国。
所以我们也可以看到国产芯片在数据中心落地的非常实际的案例:
壁仞科技成为中国电信算力合作伙伴,配备必利系列通用GPU算力。该产品的中国移动智能计算中心(呼和浩特)已于近日成功上线。该智能计算中心属于国家N节点万卡训练场,单机算力达到6.7EFLOPS(FP16)。也验证了壁仞声称的产品可以应用于千卡集群建设方案,并可以扩展到万卡规模。
摩尔线程还为其AI旗舰产品KUAE推出了一整套解决方案,包括KUAE集群管理平台(KUAE Platform)和KUAE大模型服务平台(KUAE ModelStudio)。这是针对万卡数据中心在这么多计算卡高速连接的情况下如何保持稳定运行和高效计算资源分配的问题。同时还签约了青海零碳产业园万卡集群项目、青海高原库阿埃万卡集群项目、广西东盟万卡集群项目。
除了云端之外,客户端能够匹配大型AI模型的需求也是很多AI芯片公司的切入点。另外不可忽视的一点是,国内资本市场也为GPU行业的发展带来了巨大的支持。
可以说,国产计算中心、国产大机型正在从硬件配套和软件生态两个方向支撑国产。这是国内GPU玩家敢于与国际巨头周旋的底气。但是,一切真的有那么合乎逻辑吗?
A股GPU第一股:景嘉微2024年第一季度实现营收1.08亿元,尽管同比增长66.27%。据新闻报道和券商研报显示,算力头部公司寒武纪一季度营收为2500万。从人工智能应用端转型开发人工智能芯片的云天励飞,2023年芯片营收将达到2400万元。
芯片企业在一级市场的收入不透明。有的公司估值达数十亿甚至数百亿。在每天发布的合作和订单协议的背景下,实际交付的收入只有几千万。。
可以说,热闹之下,大多数“战略合作”和“战略签约”更像是示范而不是实际执行。
我不得不承认一个现实。单纯用纸面参数去PK NVIDIA 并没有多大意义。千亿参数的大模型及其背后的万卡数据中心稳定、持续、高效的运行从来都不是单点。维度问题从来都不是一朝一夕就能完成的事情。
事实上,即使是最简单的大模型评估维度也至少包含5个方面:
对于每一款国产GPU来说,可能都有一个亮点。比如,华为的单卡性能可能并不弱于NVIDIA,百度的昆仑芯片在支持自家文心一言等大型模型的训练效率上有着显着的优势。不过,只有NVIDIA能做到五边形勇士,其他人如果五边形缺了一个角,就很难落地。。
例如,CUDA生态系统被认为是Nvidia的护城河之一。可以说,如果没有CUDA,大多数程序员都不知道如何在GPU硬件平台上进行开发。其软件生态已渗透到人工智能、科研等领域的方方面面。百度前首席科学家吴恩达评论道:在CUDA出现之前,全球会用GPU编程的人可能不超过100人,但目前全球有数百万CUDA开发者。
这一切都得益于NVIDIA早在2006年就大力支持CUDA系统在AI领域的研发和推广。当时,NVIDIA每年投入5亿美元的研发资金来不断更新和维护CUDA,而其同期营收仅为30亿美元。同时,NVIDIA还允许美国大学和科研机构免费使用CUDA系统,让CUDA系统在AI和通用计算领域迅速开花结果。
在支持大型机型领域,NVIDIA很早就走在了大家的前列。很少人知道的是,NVIDIA在2016年斥巨资打造了全球首台AI超级计算机DGX-1后,首先将其捐赠给了尚处于起步阶段的Open AI,并且还与大模型生态系统形成了早期联盟。它有着深厚的渊源。
在高功率芯片互连领域,NVlink也领先于竞争对手,就连美国显卡巨头AMD也不得不落后。一个常识是,GPU的计算能力不会简单叠加。无论单笔数据交易有多高,如果没有好的连接技术,1+1从一开始就小于2。10+10能否达到15还有一个问号。
当其他厂商还仅限于传统的 PCIe 时,NVIDIA 也已经布局了 10 多年。早在2014年,NVIDIA就发布了NVLink 1.0,并在P100 GPU芯片之间实现,已经是当时PCle 3传输速度的5倍;2020年,NVIDIA完成了对Mellanox的收购,获得了InfiniBand、Ethernet、SmartNIC、DPU和LinkX的互联能力,更加强大;现在,NVlink可以在每个GPU之间实现高达每秒600GB的带宽,比PCIe 4.0高出十倍。
因此,在一些评论家眼中,英伟达是一条“三头龙”。其强大的GPU算力、丰富的软件生态、高速广连接使其构筑了攻守兼备、难以突破的产品防线。。一旦你试图规避它的生态,你可能会面临购买万卡却只能摆脱千卡算力数据封锁的困境。你在编程开发过程中也可能会遇到没有合适的应用程序开发工具的问题。这种损失对于投入巨资的AI算力中心来说无疑是难以接受的,对于工程量极大、优化工作繁重的大型模型开发者来说也是难以承受的。
更显着的差距是,英伟达仍在急于为客户降低成本。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。