热搜词: 河南思皓 思皓

Arm发布全新Lumex CSS平台, 实现两位数性能提升

C1 CPU集群内置新一代SME2指令集。

Arm今日发布其全新的专用计算子系统(Compute Subsystem, CSS)平台——Arm Lumex。该平台通过将最新一代的Armv9.3 CPU、Mali GPU、系统IP与生产就绪的3纳米物理实现进行整合,旨在应对旗舰智能手机和PC市场对设备端人工智能(AI)体验日益增长的严苛需求,帮助芯片合作伙伴和OEM厂商在加速的产品周期内,更快速、更低风险地推出具备业界领先性能的创新产品。

应对AI时代的产业挑战

当前,移动设备正从功能驱动的工具,迅速演进为由AI驱动、能够主动调适、预测并优化用户体验的智能伴侣。随着设备端AI模型日趋复杂和成熟,其对底层移动芯片的算力、能效和散热能力提出了前所未有的挑战。

同时,智能手机行业正面临着不断加速的产品迭代周期,这要求芯片供应商和OEM厂商必须在极其紧迫的时间内完成技术创新,几乎不容有失。在移动设备有限的物理面积和散热预算下,要实现支持AI性能所需的先进封装技术,并向3纳米等更精密的制程节点迈进,已成为一项极其复杂的系统级设计难题。

Arm公司高级副总裁兼终端事业部总经理Chris Bergey表示:“移动计算正迈入一个由AI定义的全新时代。智慧的构建、扩展与提供方式正在重塑我们的数字生活。为应对这一趋势,我们不能再孤立地看待IP,而是需要一个协同设计、协同优化的集成平台。Arm Lumex正是基于这一未来愿景而设计的解决方案,它将帮助我们的生态系统伙伴,更轻松地打造差异化的AI优先平台与体验,以更智能的性能实现更快速的大规模部署。”

为AI优先时代重新设计的计算核心

Arm Lumex是一个模块化、高度可配置的平台,其核心是经过协同优化的最新Arm计算IP,专为加速AI工作负载而设计。

全新Armv9.3 C1 CPU集群:作为Lumex的大脑,C1 CPU集群提供了业界领先的单核每时钟周期指令数(IPC)性能。其关键创新在于内置了可扩展矩阵扩展指令集2(SME2)单元。结合Arm KleidiAI软件库的原生支持,SME2使得CPU集群能够高效处理矩阵运算,在机器学习推理、语音识别和生成式AI等广泛负载中,与前代产品相比,实现了高达5倍的AI性能提升和3倍的能效优化。这意味着用户在日常使用中将享受到更流畅的AI互动,同时设备的续航时间也得以延长。 除了AI能力的飞跃,C1 CPU集群的微架构也经过深度优化,在六项业界领先的性能基准测试中,平均性能提升了30%;在游戏和视频流媒体等主流应用中,速度提升了15%;而在日常移动任务中,功耗则平均降低了12%。其中,旗舰核心Arm C1-Ultra CPU相较于前代Cortex-X925,实现了双位数的IPC性能增长。

全新Arm Mali G1-Ultra GPU:为满足AI应用和高端移动游戏的需求,Mali G1-Ultra在图形和计算方面均实现了重大突破。在AI性能上,其推理速度相比前代Immortalis-G925 GPU加快了20%。在游戏体验上,得益于全新的第二代光线追踪单元(RTUv2),其光线追踪性能提升了两倍,将高端桌面级的电影级视觉效果首次带到移动端。在《暗区突围》、《原神》和《崩坏:星穹铁道》等主流游戏和基准测试中,Mali G1-Ultra实现了20%的综合图像性能提升。

可扩展系统主干:消除AI数据瓶颈

卓越的AI体验不仅依赖于强大的CPU和GPU,更需要高效的系统架构来确保数据流畅传输。Lumex平台引入了全新的系统IP,构建了能够应对严苛AI工作负载的系统主干。

新的可扩展系统互连SI L1专为满足高带宽、低延迟的需求而优化,确保在运行AI应用时系统响应迅速,不会出现性能瓶颈。其配备的系统级缓存(SLC)采用了先进工艺,面积效率极高,且泄漏功耗相比标准编译RAM降低了71%,显著减少了设备的待机功耗。此外,该互连技术还支持Arm内存标签扩展(MTE)特性,提供一流的硬件级安全保护。

加速上市进程:生产就绪的3纳米物理实现

为了帮助合作伙伴应对向3纳米等先进节点过渡时的复杂性和风险,Lumex平台提供了一套经过多家晶圆代工厂验证、生产就绪的CPU和GPU物理实现。这些经过优化的实现方案能够帮助芯片设计团队:

降低设计风险:作为灵活的构建模块,让合作伙伴能够专注于顶层设计的差异化,而无需担忧底层实现的复杂性。

实现卓越PPA:确保在最新的3纳米制程上达到卓越的频率、功耗和面积表现。

加速产品上市:显著缩短设计周期,帮助合作伙伴实现“一次流片成功”(First-time Tape-out Success)。

赋能开发者生态:即刻释放Lumex潜能

为确保开发者能充分利用Lumex的强大性能,Arm推出了一系列全新的软件与工具,使他们能够在硬件设备上市前就着手应用的开发与优化。这包括一个完整的、Android 16就绪的软件堆栈,从底层可信任固件到应用层;一个完整且免费、支持SME2的KleidiAI软件函数库;以及一套全新的遥测和可观测性工具,如RenderDoc、Streamline和Perfetto的联合支持,帮助开发者实时分析工作负载、精准调校性能与功耗。

随着基于Lumex平台的设备在未来数月内陆续上市,得益于这些先行的软件支持,广大应用将能即刻在AI工作负载上实现显著的性能和效率提升。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!