尤其适合 MoE 模型中高频 token 分发场景_太阳成集团tyc234cc(中国)股份有限公司

尤其适合 MoE 模型中高频 token 分发场景

更新时间：2025-10-22 04:26 类型：新闻资讯来源：网络整理

　　据悉，华为将于8月12日正在2025金融AI推理使用落地与发扬论坛上，宣布AI推理范畴的打破性技巧成效。据呈现，

　　通过技巧更始，擢升邦内AI大模子的推理职能，使其正在实质使用中加倍高效。这一成效将补充中邦AI推理生态的症结片面，饱吹统统AI工业的发扬。

　　HBM（高带宽内存）是一种高职能的3D堆叠DRAM技巧，通俗使用于AI推理和演练场景，但其本钱较高且供应受限。通过裁汰对HBM的依赖，华为可能低落AI推理编制的本钱，升高编制的可扩展性和经济性，使更众企业不妨承当得起高职能的AI推分析决计划。

　　跟着本年DeepSeek出处，大大低落了大模子正在端侧落地的门槛，如少许白家电都开首将满血或者蒸馏的大模子落地，要助助蒸馏的大模子落地就需求职能更好的助助推理的算力处置器，由于推理职能直接影响到使用的反应速率和用户体验。可能说，而今推理职能的擢升是AI使用落地的症结瓶颈之一，英伟达要紧地盼望其H20正在中邦发卖，也是由于H20推理职能超群，有刚需。

　　AI推理需经常移用海量模子参数（如千亿级权重）和及时输入数据，HBM的高带宽和大容量应承GPU直接拜访完善模子，可避免守旧DDR内存因带宽缺乏导致的算力闲置。对待千亿参数以上的大模子，HBM可明显擢升反应速率。当下，HBM已成为高端AI芯片的标配，演练侧排泄率切近100%，推理侧随模子庞大化加快普及。

　　因为HBM对AI至合紧急，是以，美邦也极端加紧HBM对华发卖，依照2024年12月2日宣布的新规，美邦禁止向中邦出口HBM2E（第二代HBM的加强版）及以上司另外HBM芯片。不但美邦本土坐褥的HBM芯片受到局部，任何正在海外坐褥但利用了美邦技巧的HBM芯片也受到出口管制。该禁令于2025年1月2日正式生效。

　　环球要紧的HBM芯片制作商，包罗美光（Micron）、三星（Samsung）和SK海力士（SK Hynix），都受到这一计谋的影响。该禁令局部了中邦获取高职能HBM芯片的才具，能够对中邦的AI工业和高职能阴谋范畴的发扬形成必定阻挠。

　　目前，中邦企业和科研机构正正在加快HBM技巧的自助研发，以裁汰对进口芯片的依赖并博得了必定的结果。

　　正在如此的大布景下，华为的新成效希望明显擢升AI大模子的推理职能，使其不妨更高效地处置庞大的推理义务，从而饱吹AI正在金融、医疗、交通等范畴的通俗使用。华为的这一成效将补充中邦AI推理生态的症结片面，擢升统统生态的比赛力，鼓舞AI技巧的工业化和贸易化。

　　实质上，华为向来正在勤奋通过技巧更始告终算力的打破，2025年4月10日华为正在安徽芜湖举办的华为云生态大会2025上正式宣布了CloudMatrix 384超节点集群，并揭橥已正在华为云芜湖数据核心告终周围上线寰宇人工智能大会（WAIC）上，华为初度线超节点（即Atlas 900 A3 SuperPoD）。

　　华为推出的CloudMatrix384超节点集群，通过“全对等架构+软硬协同”的形式，冲破了守旧上算力、延迟和本钱之间的“不行够三角”。该超节点集群告终了392GB/s的卡间带宽，让384张NPU不妨高效协同职责，明显擢升了推理服从。

　　CloudMatrix384 采用全对等互联总线（UB 收集）技巧，基于 Clos 架构告终 384 颗昇腾 NPU 和 192 颗鲲鹏 CPU 的无阻碍高速互联。通过定制化光通讯模块，单卡间单向带宽达 392GB/s（约为守旧 RoCE 收集的 15 倍），传输延迟从 10 微秒降至 1 微秒以内。这种架构打破了守旧集群的 “南北向带宽瓶颈”，告终数据正在芯片间的直接传输，加倍适合 MoE 模子中高频 token 分发场景，通讯服从擢升 70% 以上。数据显示，

　　CloudMatrix 384可供给高达300 PFLOPs的BF16算力，切近英伟达GB200 NVL72编制的两倍。单卡推理模糊量从每秒600 Token跃升至2300 Token，擢升近4倍。这一次，华为又将宣布什么打破性技巧？咱们拭目以待！

上一篇：行业排名第414 下一篇：导致现货价格下跌压力增大

返回列表