全新 Arm Lumex CSS 平臺加速開發(fā)周期，實現可擴展的高性能端側 AI

發(fā)布時間：2025-9-12 20:27 發(fā)布者：eechina

關鍵詞： Lumex , 端側AI

全新平臺緊密集成硬件與軟件，不僅加速產品上市時間，同時滿足整個生態(tài)系統(tǒng)日益增長的端側 AI 體驗需求

作者：Arm 終端事業(yè)部產品管理高級總監(jiān) Kinjal Dave

移動設備正逐步演進為由人工智能 (AI) 所驅動的工具，能夠適配、預測并提升人們與世界互動的方式。而隨著端側 AI 變得更加先進和成熟，移動芯片所面臨的壓力也在不斷加劇。

加速產品周期（即每新一代旗艦移動設備的推出速度都快于上一代）意味著芯片供應商和 OEM 廠商必須在更緊迫的時間內實現創(chuàng)新，幾乎沒有出錯余地。在面積和散熱受限的移動設備尺寸條件下，要實現為保持 AI 性能而采用的先進封裝技術，是一項極具挑戰(zhàn)的任務。與此同時，向 3 納米等更小工藝節(jié)點的發(fā)展也帶來了復雜的設計難題。

這正是 Arm 推出集成平臺的原因，通過將 Arm CPU 和 GPU IP，與物理實現和部署就緒的軟件棧相結合，從而加快產品上市進程，并在最新的先進工藝節(jié)點上實現業(yè)界領先的性能。而 Arm Lumex 就是Arm 新的專用計算子系統(tǒng) (Compute Subsystem, CSS) 平臺，旨在滿足旗艦移動設備和 PC 上持續(xù)增長的端側 AI 體驗需求。

為 AI 優(yōu)先時代重新設計

Lumex 為模塊化且高度可配置的平臺提供最新的協(xié)同設計、協(xié)同優(yōu)化的 Arm 計算 IP 和先進特性：
• 新的 Armv9.3 C1 CPU 集群：提供領先的每時鐘周期指令數 (IPC) 性能，并內建第二代 Arm 可伸縮矩陣擴展 (SME2) 單元，在 CPU 集群上帶來響應更迅速的加速 AI 體驗。
• 新的 Arm Mali G1-Ultra：在實現更快的 AI 推理能力的同時，通過新一代的光線追蹤功能，帶來桌面級別的視覺效果與更豐富的游戲體驗。
• 新的系統(tǒng) IP 包含 Arm SI L1 系統(tǒng)互連與 Arm MMU L1 系統(tǒng)內存管理單元：旨在消除系統(tǒng)性能瓶頸，以及降低推理密集型和計算密集型工作負載中的延遲。
• 3 納米就緒的 CPU 和 GPU 物理實現：專為實現業(yè)界領先的功耗、性能與面積 (PPA) 而打造，并加速在芯片上實現旗艦級性能的進程。

跨 CPU 和 GPU 技術加速實際場景的 AI 性能

在 CPU 方面，啟用 SME2 技術的 Armv9.3 C1 CPU 集群結合了 Arm KleidiAI 對主流框架和運行時庫的原生支持，在包括典型機器學習 (ML) 推理、語音及生成式 AI 等在內的廣泛 AI 工作負載中，相較于上一代 CPU 集群，在相同條件下實現了顯著的速度提升。同時帶來了五倍的 AI 性能提升，以及三倍的能效優(yōu)化。這些基于 SME2 的改進使得用戶能在其常用的消費類電子設備上享受更流暢的 AI 交互體驗，并獲得更長的續(xù)航時間。

此外，得益于微架構優(yōu)化和核心間更緊密的集成，Arm C1 CPU 集群在性能與能效方面樹立了新標桿，具體表現為：
• 在六項行業(yè)領先性能基準測試中，相較于上一代 CPU 集群，在相同條件下的性能水平，平均提升 30%；
• 在主流應用（包括游戲和視頻流媒體）中，相較于上一代 CPU 集群，在相同條件下平均速度提升了 15%；
• 在視頻播放、社交媒體和網頁瀏覽等日常移動工作負載中，相較于上一代 CPU 集群，在相同條件下的功耗，平均降低 12%；
• 相較于上一代 Arm Cortex-X925 CPU，Arm C1-Ultra CPU 帶來兩位數的 IPC 性能提升。

Mali G1-Ultra 進一步提升了 AI 性能與效率，相較于上一代 Arm Immortalis-G925 GPU，其在 AI 和 ML 網絡中的推理速度加快了 20%。

在游戲方面，得益于新的 Arm 光線追蹤單元 v2 (Ray Tracing Unit v2, RTUv2)，Mali G1-Ultra 將光線追蹤性能提升了兩倍，為移動設備帶來了高端桌面級視覺效果；在主流行業(yè)基準測試與游戲應用（包括《暗區(qū)突圍》、《堡壘之夜》、《原神》、《崩壞：星穹鐵道》等）中，Mali G1-Ultra 實現了 20% 的圖形性能增長。

Lumex 的可擴展系統(tǒng)主干

要支持 AI 優(yōu)先體驗，不能只局限于計算 IP 的迭代，移動系統(tǒng)級芯片 (SoC) 必須在整個互連和內存架構層面持續(xù)演進。

正因如此，Arm 推出新的可擴展系統(tǒng)互連，專為滿足高要求 AI 和其他計算密集型工作負載的帶寬與延遲需求而優(yōu)化，可確保在 Lumex 上保持性能領先，同時不影響系統(tǒng)響應速度。新的 SI L1 系統(tǒng)互連配備業(yè)內先進的，且具有出色面積效率的系統(tǒng)級緩存 (SLC) ，相比標準編譯的 RAM，其泄漏功耗降低了 71%，大幅減少了待機功耗。

對于合作伙伴而言，該系統(tǒng)互連技術提供高度靈活的可擴展解決方案，可針對各類手機和消費類電子設備優(yōu)化 PPA 需求。SI L1 系統(tǒng)互連面向旗艦移動設備，具備完全集成的可選 SLC 并支持 Arm 內存標記擴展 (Memory Tagging Extension, MTE) 特性，可提供一流的安全性；而 Arm NoC S3 片上網絡互連則面向注重成本且非一致性的移動系統(tǒng)。

除新的互連技術外，Arm 還推出了新一代 Arm MMU L1 系統(tǒng)內存管理單元，該技術可在各類手機及消費類電子設備上實現安全，且成本高效的可擴展虛擬化。

通過物理實現成就業(yè)界領先的 PPA

Lumex 提供針對 3 納米工藝優(yōu)化、生產就緒的 CPU 和 GPU 實現，已為多家晶圓代工廠所支持，如此一來，Arm 的芯片合作伙伴和 OEM 廠商能夠：
• 將這些實現作為靈活的構建模塊，以便專注于 CPU 和 GPU 集群層面的差異化設計；
• 實現卓越的頻率和 PPA；
• 在向最新 3 納米工藝節(jié)點過渡時，助力確保芯片一次流片成功。

開發(fā)者即刻暢享 Lumex 優(yōu)勢

為充分釋放 Lumex 性能潛力，開發(fā)者需在實際設備上市前提前獲取其功能。為此 Arm 推出全新系列的軟件與工具，助力開發(fā)者即刻著手原型設計、構建 AI 工作負載，以及利用 Lumex CSS 平臺的完整 AI 功能。具體包括：
• 完整的 Android 16 就緒軟件棧，涵蓋可信固件至應用程序層；
• 完整且免費的啟用 SME2 的 KleidiAI 軟件庫；
• 全新的自頂向下的遙測解決方案，用于分析應用性能、識別瓶頸并優(yōu)化算法。

KleidiAI 在推出的第一年便大獲成功，現已集成至所有主流的 AI 框架，并廣泛應用于各類應用程序、設備，以及安卓等系統(tǒng)服務。這為接下來開展工作夯實根基，當基于 Lumex 的設備在未來數月上市時，應用程序即刻就能在其 AI 工作負載上實現性能和效率提升。

在圖形處理方面，隨著未來的安卓版本將支持 RenderDoc，以及通過 Lumex 提供 Vulkan計數器、Streamline 和 Perfetto 等統(tǒng)一可觀測性工具，開發(fā)者能夠實時分析工作負載、調優(yōu)延遲，并精確平衡電池續(xù)航與視覺效果。

為新一代移動智能奠定基礎

移動計算正邁入一個全新的時代，而智能的構建、擴展與交付方式正在定義這個新時代。隨著 AI 成為所有體驗的基礎，平臺必須具備預測、適配、擴展和加速未來發(fā)展的能力。

Lumex 正是基于這一未來愿景而設計，讓整個生態(tài)系統(tǒng)全面受惠。無論是打造、擴展創(chuàng)新設備的 OEM 廠商，還是構建新一代應用的開發(fā)者，Lumex 都能助力 Arm 生態(tài)系統(tǒng)更輕松地交付差異化的 AI 優(yōu)先平臺與體驗——以更智能的性能實現更快速的大規(guī)模部署。

本文地址：http://m.54549.cn/thread-893098-1-1.html 【打印本頁】

本站部分文章為轉載或網友發(fā)布，目的在于傳遞和分享信息，并不代表本網贊同其觀點和對其真實性負責；文章版權歸原作者及原出處所有，如涉及作品內容、版權和其它問題，我們將根據著作權人的要求，第一時間更正或刪除。

網友評論

貿澤電子有獎問答視頻，答對領10元微信紅包

廠商推薦

快速回復 返回頂部 返回列表

色偷偷偷久久伊人大杳蕉,色爽交视频免费观看,欧美扒开腿做爽爽爽a片,欧美孕交alscan巨交xxx,日日碰狠狠躁久久躁蜜桃

全新 Arm Lumex CSS 平臺加速開發(fā)周期，實現可擴展的高性能端側 AI

相關文章

網友評論

廠商推薦

色偷偷偷久久伊人大杳蕉,色爽交视频免费观看,欧美扒开腿做爽爽爽a片,欧美孕交alscan巨交xxx,日日碰狠狠躁久久躁蜜桃

全新 Arm Lumex CSS 平臺加速開發(fā)周期，實現可擴展的高性能端側 AI

相關文章

網友評論

廠商推薦

全新 Arm Lumex CSS 平臺加速開發(fā)周期，實現可擴展的高性能端側 AI