全新平臺緊密集成硬件與軟件,不僅加速產品上市時間,同時滿足整個生態(tài)系統(tǒng)日益增長的端側 AI 體驗需求 作者:Arm 終端事業(yè)部產品管理高級總監(jiān) Kinjal Dave ![]() 移動設備正逐步演進為由人工智能 (AI) 所驅動的工具,能夠適配、預測并提升人們與世界互動的方式。而隨著端側 AI 變得更加先進和成熟,移動芯片所面臨的壓力也在不斷加劇。 加速產品周期(即每新一代旗艦移動設備的推出速度都快于上一代)意味著芯片供應商和 OEM 廠商必須在更緊迫的時間內實現創(chuàng)新,幾乎沒有出錯余地。在面積和散熱受限的移動設備尺寸條件下,要實現為保持 AI 性能而采用的先進封裝技術,是一項極具挑戰(zhàn)的任務。與此同時,向 3 納米等更小工藝節(jié)點的發(fā)展也帶來了復雜的設計難題。 這正是 Arm 推出集成平臺的原因,通過將 Arm CPU 和 GPU IP,與物理實現和部署就緒的軟件棧相結合,從而加快產品上市進程,并在最新的先進工藝節(jié)點上實現業(yè)界領先的性能。而 Arm Lumex 就是Arm 新的專用計算子系統(tǒng) (Compute Subsystem, CSS) 平臺,旨在滿足旗艦移動設備和 PC 上持續(xù)增長的端側 AI 體驗需求。 為 AI 優(yōu)先時代重新設計 Lumex 為模塊化且高度可配置的平臺提供最新的協(xié)同設計、協(xié)同優(yōu)化的 Arm 計算 IP 和先進特性: • 新的 Armv9.3 C1 CPU 集群:提供領先的每時鐘周期指令數 (IPC) 性能,并內建第二代 Arm 可伸縮矩陣擴展 (SME2) 單元,在 CPU 集群上帶來響應更迅速的加速 AI 體驗。 • 新的 Arm Mali G1-Ultra:在實現更快的 AI 推理能力的同時,通過新一代的光線追蹤功能,帶來桌面級別的視覺效果與更豐富的游戲體驗。 • 新的系統(tǒng) IP 包含 Arm SI L1 系統(tǒng)互連與 Arm MMU L1 系統(tǒng)內存管理單元:旨在消除系統(tǒng)性能瓶頸,以及降低推理密集型和計算密集型工作負載中的延遲。 • 3 納米就緒的 CPU 和 GPU 物理實現:專為實現業(yè)界領先的功耗、性能與面積 (PPA) 而打造,并加速在芯片上實現旗艦級性能的進程。 ![]() 跨 CPU 和 GPU 技術加速實際場景的 AI 性能 在 CPU 方面,啟用 SME2 技術的 Armv9.3 C1 CPU 集群結合了 Arm KleidiAI 對主流框架和運行時庫的原生支持,在包括典型機器學習 (ML) 推理、語音及生成式 AI 等在內的廣泛 AI 工作負載中,相較于上一代 CPU 集群,在相同條件下實現了顯著的速度提升。同時帶來了五倍的 AI 性能提升,以及三倍的能效優(yōu)化。這些基于 SME2 的改進使得用戶能在其常用的消費類電子設備上享受更流暢的 AI 交互體驗,并獲得更長的續(xù)航時間。 ![]() 此外,得益于微架構優(yōu)化和核心間更緊密的集成,Arm C1 CPU 集群在性能與能效方面樹立了新標桿,具體表現為: • 在六項行業(yè)領先性能基準測試中,相較于上一代 CPU 集群,在相同條件下的性能水平,平均提升 30%; • 在主流應用(包括游戲和視頻流媒體)中,相較于上一代 CPU 集群,在相同條件下平均速度提升了 15%; • 在視頻播放、社交媒體和網頁瀏覽等日常移動工作負載中,相較于上一代 CPU 集群,在相同條件下的功耗,平均降低 12%; • 相較于上一代 Arm Cortex-X925 CPU,Arm C1-Ultra CPU 帶來兩位數的 IPC 性能提升。 Mali G1-Ultra 進一步提升了 AI 性能與效率,相較于上一代 Arm Immortalis-G925 GPU,其在 AI 和 ML 網絡中的推理速度加快了 20%。 在游戲方面,得益于新的 Arm 光線追蹤單元 v2 (Ray Tracing Unit v2, RTUv2),Mali G1-Ultra 將光線追蹤性能提升了兩倍,為移動設備帶來了高端桌面級視覺效果;在主流行業(yè)基準測試與游戲應用(包括《暗區(qū)突圍》、《堡壘之夜》、《原神》、《崩壞:星穹鐵道》等)中,Mali G1-Ultra 實現了 20% 的圖形性能增長。 Lumex 的可擴展系統(tǒng)主干 要支持 AI 優(yōu)先體驗,不能只局限于計算 IP 的迭代,移動系統(tǒng)級芯片 (SoC) 必須在整個互連和內存架構層面持續(xù)演進。 正因如此,Arm 推出新的可擴展系統(tǒng)互連,專為滿足高要求 AI 和其他計算密集型工作負載的帶寬與延遲需求而優(yōu)化,可確保在 Lumex 上保持性能領先,同時不影響系統(tǒng)響應速度。新的 SI L1 系統(tǒng)互連配備業(yè)內先進的,且具有出色面積效率的系統(tǒng)級緩存 (SLC) ,相比標準編譯的 RAM,其泄漏功耗降低了 71%,大幅減少了待機功耗。 對于合作伙伴而言,該系統(tǒng)互連技術提供高度靈活的可擴展解決方案,可針對各類手機和消費類電子設備優(yōu)化 PPA 需求。SI L1 系統(tǒng)互連面向旗艦移動設備,具備完全集成的可選 SLC 并支持 Arm 內存標記擴展 (Memory Tagging Extension, MTE) 特性,可提供一流的安全性;而 Arm NoC S3 片上網絡互連則面向注重成本且非一致性的移動系統(tǒng)。 ![]() 除新的互連技術外,Arm 還推出了新一代 Arm MMU L1 系統(tǒng)內存管理單元,該技術可在各類手機及消費類電子設備上實現安全,且成本高效的可擴展虛擬化。 通過物理實現成就業(yè)界領先的 PPA Lumex 提供針對 3 納米工藝優(yōu)化、生產就緒的 CPU 和 GPU 實現,已為多家晶圓代工廠所支持,如此一來,Arm 的芯片合作伙伴和 OEM 廠商能夠: • 將這些實現作為靈活的構建模塊,以便專注于 CPU 和 GPU 集群層面的差異化設計; • 實現卓越的頻率和 PPA; • 在向最新 3 納米工藝節(jié)點過渡時,助力確保芯片一次流片成功。 開發(fā)者即刻暢享 Lumex 優(yōu)勢 為充分釋放 Lumex 性能潛力,開發(fā)者需在實際設備上市前提前獲取其功能。為此 Arm 推出全新系列的軟件與工具,助力開發(fā)者即刻著手原型設計、構建 AI 工作負載,以及利用 Lumex CSS 平臺的完整 AI 功能。具體包括: • 完整的 Android 16 就緒軟件棧,涵蓋可信固件至應用程序層; • 完整且免費的啟用 SME2 的 KleidiAI 軟件庫; • 全新的自頂向下的遙測解決方案,用于分析應用性能、識別瓶頸并優(yōu)化算法。 KleidiAI 在推出的第一年便大獲成功,現已集成至所有主流的 AI 框架,并廣泛應用于各類應用程序、設備,以及安卓等系統(tǒng)服務。這為接下來開展工作夯實根基,當基于 Lumex 的設備在未來數月上市時,應用程序即刻就能在其 AI 工作負載上實現性能和效率提升。 在圖形處理方面,隨著未來的安卓版本將支持 RenderDoc,以及通過 Lumex 提供 Vulkan計數器、Streamline 和 Perfetto 等統(tǒng)一可觀測性工具,開發(fā)者能夠實時分析工作負載、調優(yōu)延遲,并精確平衡電池續(xù)航與視覺效果。 ![]() 為新一代移動智能奠定基礎 移動計算正邁入一個全新的時代,而智能的構建、擴展與交付方式正在定義這個新時代。隨著 AI 成為所有體驗的基礎,平臺必須具備預測、適配、擴展和加速未來發(fā)展的能力。 Lumex 正是基于這一未來愿景而設計,讓整個生態(tài)系統(tǒng)全面受惠。無論是打造、擴展創(chuàng)新設備的 OEM 廠商,還是構建新一代應用的開發(fā)者,Lumex 都能助力 Arm 生態(tài)系統(tǒng)更輕松地交付差異化的 AI 優(yōu)先平臺與體驗——以更智能的性能實現更快速的大規(guī)模部署。 |