Arm加速端侧AI普及的「妙招」,把Lumex CPU的AI性能提升5倍
生成式AI的浪潮,正从云端走向端侧,而端侧AI是生成式AI普及的关键。
然而,端侧设备普遍对功耗更为敏感,如何在提供足够AI性能的同时保证低功耗?
Arm的妙招是将专用的矩阵加速单元直接嵌入CPU。Arm终端事业部产品管理副总裁 James McNiven说, “它使端侧AI推理可以直接在CPU上完成,从而大幅减少数据在 CPU、NPU或GPU之间的传输延迟。”
今年9月,Arm发布了集成第二代Arm可伸缩矩阵扩展 (SME2) 新技术的 Arm Lumex CSS 平台, 相比前代CPU AI性能提升高达五倍,能效也优化了三倍。
在近日举行的Arm Unlocked 2025 AI 技术峰会深圳站,Arm终端事业部产品管理副总裁 James McNiven进一步解析了Arm全新的Lumex CSS 平台,集成了基于 Armv9.3 架构的 CPU 集群、搭载第二代可伸缩矩阵扩展 (SME2) 技术的处理器、Mali G1-Ultra GPU、先进的系统 IP,以及针对 3 纳米工艺节点优化的量产级物理实现方案。
可以看到,Arm全新平台的升级都是为了加速端侧AI的爆发。可以预见,凭借着Arm正在推进的“平台优先”战略,Arm依旧会是生成式AI浪潮里,消费电子、汽车及基础设施等关键领域的领导者。
Arm启用全新命名体系Lumex,CPU用「妙招」大幅提升AI性能
Arm今年发布新一代产品不再延续此前的命名方式,而是 启用了Arm Lumex的新命名方式。
“Lumex源自拉丁语,意为世界之光,象征着引领人们前行,促进光与人之间更深层的互动,与移动终端作为我们生活中关键且主要的互动设备概念相似。”James McNiven告诉雷峰网 (公众号:雷峰网) ,“我们也广泛听取了包括来自中国市场的生态伙伴反馈,其中包括过往的命名方式确实较为复杂,产品迭代的辨识度不高。因此,我们希望通过此次更名,让品牌体系更加清晰易懂。”
James强调, Arm Lumex CSS 平台再次实现了两位数的每时钟周期指令数 (IPC) 性能提升,这是Arm连续第六年实现两位数增长 ,意味着在相同功耗下可获得显著的性能提升。
与连续六年实现IPC两位数同样值得关注的是,在CPU中直接嵌入了专用的矩阵加速单元第二代可伸缩矩阵扩展 (SME2),在进一步解析SME2之前,先介绍全新的CPU。
新一代计算平台更名为Lumex之后,CPU也不再延续此前Cortex的命名方式,而是采用更简明的C1 命名体系。 C1 CPU 集群均基于 Armv9.3 架构而设计,根据不同客户、市场需求有Arm C1-Ultra、Arm C1-Premium、Arm C1-Pro、Arm C1-Nano四个层级。
Arm C1-Ultra能提供最高的旗舰级设备峰值性能,可实现最高 25% 的单线程性能提升;Arm C1-Premium专为次旗舰市场打造,它的性能在接近C1-Ultra 的同时,整体面积缩减约 35%。
“当任一设备采用了C1-Ultra或者是C1-Premium,该设备就可以被称为Lumex设备。”James表示。
Arm C1-Pro是新一代的Cortex-A700 系列,Arm C1-Nano是新一代的Cortex-A500系列。
虽然Arm C1 CPU的性能层级不同,但都深度集成了SME2, 这是专为加速矩阵运算和相关负载而设计,非常适合移动设备等对功耗和响应速度要求极高的场景。
相比SME1,SME2的性能提升达5倍,能效提升3倍,在低延迟、高实时性应用场景中展现出独特优势。
那 为什么在CPU中增加矩阵加速是一个在端侧满足AI计算需求的“妙招”? James对雷峰网说,“首先,对延迟极为敏感的场景而言,在CPU内实现矩阵加速,可以显著提升应用的计算效率,特别是在快速 AI 推理场景中,无需再将任务回传至NPU,避免了可能导致的内存访问延迟。其次,几乎所有设备都会搭载CPU,且Arm CPU 被广泛采用在绝大多数的移动设备上,这为开发者带来了极大的便利性。他们无需针对不同的 NPU 架构进行适配,也无需为不同设备重新设计计算逻辑(因为某些终端甚至并不具备 NPU),更可免除考虑安全模型等其他因素。”
当然, 为CPU增加矩阵加速的能力大幅提升其AI性能,目的并非要替代GPU或者NPU在处理AI负载时的作用, 而是可以根据负载的类型选择最合适的计算单元,为用户提供最佳的AI体验。
语音识别就非常适合使用SME2进行加速,这类任务对响应速度要求极高、数据量相对较小,在 CPU 上直接执行不仅能显著提升流畅度。
目前,Arm已经与包括支付宝、淘宝等移动应用伙伴合作,基于SME2的集成,优化用户体验。vivo与OPPO也推出支持SME2的设备。Arm也与腾讯GiiNEX针对SME2展开游戏方面的合作。腾讯的初步测试结果显示,启用SME2后性能提升达2.5倍。Google也确认未来将在Android 系统版本中支持 SME2。
不过,为CPU增加矩阵加速能力并非Arm独有的妙招, RISC-V也在采用这样的方式满足生成式AI的需求,那Arm的优势是什么?
James表示,“Arm 的最大优势在于,我们的CPU架构已应用于全球约99%的智能手机之中。对于开发人员来说非常容易统一目标,直接可以部署。”
GPU性能双位数提升,神经技术明年商用
与CPU性能持续两位数提升一样, Arm的GPU也已经连续四年实现了双位数的性能与能效提升。 与C1 GPU命名体系对应,Arm GPU的命名为“Mali G1”。
Mali G1-Ultra是旗舰级GPU,能够在更低功耗下完成包括照片、视频在内的大多数推理任务。在各类图形基准测试中,Mali G1-Ultra 较前代产品实现了20%的性能提升,并引入第二代光线追踪单元,在跨平台光线追踪性能测试 Solar Bay Extreme 上,Arm最新的光线追踪单元将实现两倍性能提升。
Arm将光线追踪性能实现两倍提升的最终目标,是能够在游戏中实现更加全面、自然的光照效果——从局部光照逐步迈向全场景光照。 这将为游戏团队带来更大的创作空间,使他们能够在同一款游戏中整合更多的光线追踪组件,从而实现更高质量、更具沉浸感的照明表现。
在GPU层面更值得期待的是Arm在今年8月发布的“神经技术”,这一新技术将被用于明年面世的终端设备。
James介绍,神经技术是Arm未来的重要发展方向。这项技术能帮助开发者更充分地将 AI 能力应用于图形处理,无论是图像放大、去噪还是新内容生成,都将带来更加真实与沉浸的视觉体验。目前,已有多个开发者社区和游戏工作室在与Arm共同推进这一方向。
当然,Arm面向Vulkan的开放Arm ML扩展能让开发者更轻易地将AI作为图形管线的原生部分整合到移动端渲染。
加速端侧AI爆发的关键——开发者友好
Arm全新的Lumex CSS 平台在CPU与GPU层面都实现了两位数性能提升,也带来了显著的AI性能增强。
要让这些性能被充分释放,开发者友好的生态至关重要,Arm对此投入巨大。
“为了让开发者更好地发挥 SME2 的潜能,自去年起,我们在 KleidiAI 软件库的基础上,进一步扩大其功能范围。 KleidiAI专为加速AI应用而设计,已与业界主流的AI框架实现深度集成。 这意味着无论是旧架构还是最新支持 SME2 的架构,开发者都能获得一致的性能加速体验。”James表示。
面向GPU,Arm推出了全球首个全面开放的神经图形开发套件,旨在将AI渲染集成到现有的工作流程中,使得开发者能够在硬件面世前一年就能着手进行开发。这一开发套件在今年八月的发布时就已得到六家主要游戏工作室的支持,最近又有一家新的游戏工作室完成了集成测试。
除了更好的性能和开发者友好的生态, 端侧AI的爆发也面临其它技术挑战。 James认为,在系统级 IT 设计中,必须确保 CPU 与 GPU 之间,以及它们与存储系统之间的高效互连。优化数据互连以实现更高效的数据流,是当前面临的主要挑战之一。Arm通过优化互连架构,进一步降低数据传输过程中的延迟,实现更快速的内部内存访问。
另一个突出的挑战在于,AI应用几乎每隔数月甚至是数周就会出现新的应用形态,涉及不同的数据类型、运算符与指令集。Arm新推出的C1 CPU提供了高度灵活的计算引擎,可以生成并执行几乎任意类型的运算符,处理各种类型的数据。
另外,和所有AI参与者一样,Arm也要面对各种不同的场景。 Arm的策略是通过微架构来实现不同细分市场的差异化需求。 比如Arm C1 CPU的四个层级的产品,既能为客户提供丰富的选择,也能让他们更方便地为目标市场“定制”适配方案。
在消费电子领域之外,Arm还有面向汽车行业的 Arm Zena CSS 计算平台、面向基础设施的Arm Neoverse CSS计算平台,还有即将发布的面向PC市场的Arm Niva平台。
Arm正通过从云端到边缘再到端侧的全线计算平台,加速生成式AI的普及。
雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。