Arm发布全新Lumex CSS平台, 实现两位数性能提升

C1 CPU集群内置新一代SME2指令集。

Arm今日发布其全新的专用计算子系统（Compute Subsystem, CSS）平台——Arm Lumex。该平台通过将最新一代的Armv9.3 CPU、Mali GPU、系统IP与生产就绪的3纳米物理实现进行整合，旨在应对旗舰智能手机和PC市场对设备端人工智能（AI）体验日益增长的严苛需求，帮助芯片合作伙伴和OEM厂商在加速的产品周期内，更快速、更低风险地推出具备业界领先性能的创新产品。

应对AI时代的产业挑战

当前，移动设备正从功能驱动的工具，迅速演进为由AI驱动、能够主动调适、预测并优化用户体验的智能伴侣。随着设备端AI模型日趋复杂和成熟，其对底层移动芯片的算力、能效和散热能力提出了前所未有的挑战。

同时，智能手机行业正面临着不断加速的产品迭代周期，这要求芯片供应商和OEM厂商必须在极其紧迫的时间内完成技术创新，几乎不容有失。在移动设备有限的物理面积和散热预算下，要实现支持AI性能所需的先进封装技术，并向3纳米等更精密的制程节点迈进，已成为一项极其复杂的系统级设计难题。

Arm公司高级副总裁兼终端事业部总经理Chris Bergey表示：“移动计算正迈入一个由AI定义的全新时代。智慧的构建、扩展与提供方式正在重塑我们的数字生活。为应对这一趋势，我们不能再孤立地看待IP，而是需要一个协同设计、协同优化的集成平台。Arm Lumex正是基于这一未来愿景而设计的解决方案，它将帮助我们的生态系统伙伴，更轻松地打造差异化的AI优先平台与体验，以更智能的性能实现更快速的大规模部署。”

为AI优先时代重新设计的计算核心

Arm Lumex是一个模块化、高度可配置的平台，其核心是经过协同优化的最新Arm计算IP，专为加速AI工作负载而设计。

全新Armv9.3 C1 CPU集群：作为Lumex的大脑，C1 CPU集群提供了业界领先的单核每时钟周期指令数（IPC）性能。其关键创新在于内置了可扩展矩阵扩展指令集2（SME2）单元。结合Arm KleidiAI软件库的原生支持，SME2使得CPU集群能够高效处理矩阵运算，在机器学习推理、语音识别和生成式AI等广泛负载中，与前代产品相比，实现了高达5倍的AI性能提升和3倍的能效优化。这意味着用户在日常使用中将享受到更流畅的AI互动，同时设备的续航时间也得以延长。除了AI能力的飞跃，C1 CPU集群的微架构也经过深度优化，在六项业界领先的性能基准测试中，平均性能提升了30%；在游戏和视频流媒体等主流应用中，速度提升了15%；而在日常移动任务中，功耗则平均降低了12%。其中，旗舰核心Arm C1-Ultra CPU相较于前代Cortex-X925，实现了双位数的IPC性能增长。

全新Arm Mali G1-Ultra GPU：为满足AI应用和高端移动游戏的需求，Mali G1-Ultra在图形和计算方面均实现了重大突破。在AI性能上，其推理速度相比前代Immortalis-G925 GPU加快了20%。在游戏体验上，得益于全新的第二代光线追踪单元（RTUv2），其光线追踪性能提升了两倍，将高端桌面级的电影级视觉效果首次带到移动端。在《暗区突围》、《原神》和《崩坏：星穹铁道》等主流游戏和基准测试中，Mali G1-Ultra实现了20%的综合图像性能提升。

可扩展系统主干：消除AI数据瓶颈

卓越的AI体验不仅依赖于强大的CPU和GPU，更需要高效的系统架构来确保数据流畅传输。Lumex平台引入了全新的系统IP，构建了能够应对严苛AI工作负载的系统主干。

新的可扩展系统互连SI L1专为满足高带宽、低延迟的需求而优化，确保在运行AI应用时系统响应迅速，不会出现性能瓶颈。其配备的系统级缓存（SLC）采用了先进工艺，面积效率极高，且泄漏功耗相比标准编译RAM降低了71%，显著减少了设备的待机功耗。此外，该互连技术还支持Arm内存标签扩展（MTE）特性，提供一流的硬件级安全保护。

加速上市进程：生产就绪的3纳米物理实现

为了帮助合作伙伴应对向3纳米等先进节点过渡时的复杂性和风险，Lumex平台提供了一套经过多家晶圆代工厂验证、生产就绪的CPU和GPU物理实现。这些经过优化的实现方案能够帮助芯片设计团队：

降低设计风险：作为灵活的构建模块，让合作伙伴能够专注于顶层设计的差异化，而无需担忧底层实现的复杂性。

实现卓越PPA：确保在最新的3纳米制程上达到卓越的频率、功耗和面积表现。

加速产品上市：显著缩短设计周期，帮助合作伙伴实现“一次流片成功”（First-time Tape-out Success）。

赋能开发者生态：即刻释放Lumex潜能

为确保开发者能充分利用Lumex的强大性能，Arm推出了一系列全新的软件与工具，使他们能够在硬件设备上市前就着手应用的开发与优化。这包括一个完整的、Android 16就绪的软件堆栈，从底层可信任固件到应用层；一个完整且免费、支持SME2的KleidiAI软件函数库；以及一套全新的遥测和可观测性工具，如RenderDoc、Streamline和Perfetto的联合支持，帮助开发者实时分析工作负载、精准调校性能与功耗。

随着基于Lumex平台的设备在未来数月内陆续上市，得益于这些先行的软件支持，广大应用将能即刻在AI工作负载上实现显著的性能和效率提升。

*声明：本文系原作者创作。文章内容系其个人观点，我方转载仅为分享与讨论，不代表我方赞成或认同，如有异议，请联系后台。

想要获取半导体产业的前沿洞见、技术速递、趋势解析，关注我们！