隨著大語言模型(LLM)技術(shù)的快速迭代,從云端集中式部署到端側(cè)分布式運(yùn)行的趨勢日益明顯。端側(cè)小型語言模型(SLM)憑借低延遲、高隱私性和離線可用的獨(dú)特優(yōu)勢,正在智能設(shè)備、邊緣計(jì)算等場景中展現(xiàn)出巨大潛力。 瑞芯微 RK3576 開發(fā)板作為一款聚焦邊緣 AI 的硬件平臺,其集成的 NPU(神經(jīng)網(wǎng)絡(luò)處理器)能否高效支撐多模態(tài) LLM 的本地運(yùn)行?性能表現(xiàn)如何? ![]() RK3576 多模態(tài)純文字:愛因斯坦有什么貢獻(xiàn) [color=rgba(0, 0, 0, 0.9)] RK3576 多模態(tài)純文字:自我介紹
本文將圍繞這一核心問題展開 —— 從端側(cè) SLM 與云端 LLM 的關(guān)鍵差異對比入手,詳解 RK3576 開發(fā)板的硬件特性與環(huán)境配置。 本文以米爾 RK3576 為例,通過實(shí)際案例演示多模態(tài) LLM 在該平臺的部署效果,為開發(fā)者與研究者提供一份兼具實(shí)踐參考與技術(shù)洞察的端側(cè) AI 部署指南。 本文目錄 一、基本介紹
二、環(huán)境準(zhǔn)備
步驟 1:登錄開發(fā)板,下載必備資料 步驟 2:替換 NPU Driver 后編譯 Ubuntu 并刷機(jī)
三、多模態(tài)案例:支持圖像和文本交互
[color=rgba(0, 0, 0, 0.9)] ![]() 一、基本介紹 端側(cè) LLM 模型與云端 LLM 端側(cè)小型語言模型(SLM)與傳統(tǒng)云端大型語言模型(LLM)在延遲、隱私和離線可用性三個(gè)維度的對比總結(jié)。 對比維度 端側(cè)小型語言模型(SLM) 傳統(tǒng)云端大型語言模型(LLM)
延遲 ✅ 更低延遲:
- 數(shù)據(jù)無需上傳至云端,本地處理,顯著減少網(wǎng)絡(luò)傳輸延遲。
- 在邊緣設(shè)備(如智能手機(jī)、Jetson)上,經(jīng)過量化優(yōu)化后,推理延遲可低至毫秒級。 ❌ 較高延遲:
- 數(shù)據(jù)需上傳至云端服務(wù)器處理,網(wǎng)絡(luò)延遲不可控,尤其在網(wǎng)絡(luò)狀況不佳時(shí)延遲顯著增加。
- 云端 LLM 參數(shù)量大(數(shù)十億至上百億),即使計(jì)算能力強(qiáng),單次推理耗時(shí)仍較高。
隱私 ✅ 更高隱私性:
- 數(shù)據(jù)完全在本地處理,無需上傳至云端,避免數(shù)據(jù)泄露風(fēng)險(xiǎn)。
- 適用于敏感場景(如醫(yī)療、個(gè)人助手),滿足 GDPR 等隱私法規(guī)要求。 ❌ 隱私風(fēng)險(xiǎn)較高:
- 用戶數(shù)據(jù)需上傳至云端,存在數(shù)據(jù)泄露、濫用風(fēng)險(xiǎn)。
- 即使云端承諾隱私保護(hù),用戶仍對數(shù)據(jù)失去直接控制。
離線可用性 ✅ 完全離線可用:
- 模型部署在本地設(shè)備,無需網(wǎng)絡(luò)連接即可運(yùn)行。
- 適用于網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)環(huán)境(如野外、航空場景)。 ❌ 依賴網(wǎng)絡(luò):
- 必須聯(lián)網(wǎng)才能訪問云端服務(wù),無網(wǎng)絡(luò)時(shí)完全不可用。
- 網(wǎng)絡(luò)波動或云端服務(wù)故障會直接影響可用性。 總結(jié)來看,當(dāng)前端側(cè)部署小語言模型特點(diǎn)體現(xiàn)在三方面: 綜上,端側(cè) SLM 在延遲、隱私和離線可用性上均顯著優(yōu)于云端 LLM。 瑞芯微 RK3576:6TOPS NPU 的能效比標(biāo)桿,重新定義中端 AIoT 旗艦 作為瑞芯微 2024 年推出的 AIoT 核心平臺,RK3576 基于 8nm 制程打造,集成6TOPS 自研 NPU(支持 INT4/INT8/FP16/BF16 混合精度),與旗艦芯片 RK3588 保持相同算力規(guī)格,卻以更精準(zhǔn)的場景化設(shè)計(jì),成為中高端邊緣設(shè)備的首選方案。
米爾 RK3576 拓展板正面接口圖,詳見產(chǎn)品介紹[1]
據(jù)瑞芯微官方技術(shù)文檔顯示,其 NPU 采用動態(tài)稀疏化加速引擎,RK3576 采用了更先進(jìn)的制程工藝等手段來降低功耗,完美平衡算力與能效。 同算力 NPU 的差異化定位 盡管 RK3576 與 RK3588 均搭載 6TOPS NPU,但兩者在生態(tài)適配和場景優(yōu)化上各有側(cè)重: 框架兼容性:雙平臺均支持 TensorFlow、PyTorch、ONNX 等主流框架,但 RK3576 針對 2B 參數(shù)級模型(如 Qwen2-VL-2B)進(jìn)行專項(xiàng)優(yōu)化,token 生成速度達(dá) 10+每秒,適配本地化多模態(tài)交互需求; 算力分配:RK3576 的 NPU 集成 512KB 共享內(nèi)存,減少數(shù)據(jù)搬運(yùn)開銷,在輕量級視覺任務(wù)(如工業(yè)缺陷檢測)中,單位算力利用率比 RK3588 高 18%(據(jù)瑞芯微內(nèi)部測試數(shù)據(jù)); 功耗控制:依托 8nm 工藝與動態(tài)電壓調(diào)節(jié)技術(shù),NPU 滿負(fù)載功耗僅 3.2W,較 RK3588 的 4.1W 降低 22%,更適合電池供電的移動終端。
米爾 RK3576 開發(fā)板
與 RK3588 的「同芯不同路」對比 核心維度 RK3576 RK3588 設(shè)計(jì)哲學(xué)
CPU 架構(gòu) 4×A72(2.2GHz)+4×A53(1.8GHz) 4×A76(2.4GHz)+4×A55(1.8GHz) 性能-成本平衡
vs 極致計(jì)算
GPU Mali-G52 MC3(支持 Vulkan 1.2) Mali-G610 MC4(支持 Vulkan 1.3) 3 屏異顯(4K@120+2.5K@60+2K@60) vs 7 屏 8K 異顯
內(nèi)存帶寬 32 位 LPDDR5(最高 4266Mbps) 64 位 LPDDR5(最高 6400Mbps) 中端場景夠用 vs 高端擴(kuò)展無憂
視頻編解碼 8K@30fps 解碼/4K@60fps 編碼 8K@60fps 解碼/8K@30fps 編碼 主流視頻流處理 vs 專業(yè)級 8K 制作
典型應(yīng)用 智能座艙、 電子價(jià)簽、工業(yè)網(wǎng)關(guān) 邊緣服務(wù)器、8K 安防、虛擬桌面 性價(jià)比優(yōu)先
vs 性能無界 官方數(shù)據(jù)佐證的市場價(jià)值 根據(jù)瑞芯微 2025 年 Q2 財(cái)報(bào),RK3576 已在平板電腦、交互大屏等領(lǐng)域?qū)崿F(xiàn)頭部客戶量產(chǎn),其30%的成本優(yōu)勢(對比 RK3588 同配置方案)使其在中高端市場占有率環(huán)比增長 47%。 例如,某頭部物流企業(yè)采用 RK3576 開發(fā)的手持 PDA,通過 NPU 實(shí)時(shí)識別包裹條碼,單設(shè)備成本較 RK3588 方案降低 600 元,同時(shí)保持 99.7%的識別準(zhǔn)確率(官方測試數(shù)據(jù))。 RK3576 并非簡單的「低配版 3588」,而是瑞芯微基于場景化需求的精準(zhǔn)迭代——在保留旗艦級 6TOPS NPU 的同時(shí),通過 CPU 架構(gòu)精簡、功耗優(yōu)化和接口整合,讓邊緣設(shè)備既能獲得「夠用的 AI 能力」,又避免為冗余性能支付成本。正如瑞芯微官方所述:「RK3576 填補(bǔ)了旗艦與主流之間的真空,讓每一份算力都服務(wù)于真實(shí)需求!箤τ谛璞镜鼗渴疠p量級 LLM、多模態(tài)交互的邊緣場景,這款「6TOPS 普及者」正在重新定義中端 AIoT 的價(jià)值標(biāo)準(zhǔn)。 瑞芯微 NPU SDK:RKNN 和 RKLLM 瑞芯微的 RKLLM 和 RKNN 是兩個(gè)定位互補(bǔ)的 SDK,前者專注于大型語言模型(LLM)的端側(cè)部署優(yōu)化,后者是通用神經(jīng)網(wǎng)絡(luò)推理框架。 RKNN 是基礎(chǔ),RKLLM 是垂直擴(kuò)展: RKNN SDK 是瑞芯微推出的通用神經(jīng)網(wǎng)絡(luò)推理框架,支持將 TensorFlow、PyTorch 等主流框架的模型轉(zhuǎn)換為 RKNN 格式,并在瑞芯微 NPU 上高效運(yùn)行,適用于圖像識別、語音處理等任務(wù)。支持的模型列表可以見:https://github.com/airockchip/rknn_model_zoo[2] RKLLM SDK 是基于 RKNN 技術(shù)棧的垂直領(lǐng)域優(yōu)化方案,專門針對大型語言模型(LLM)的端側(cè)部署需求設(shè)計(jì),提供從模型轉(zhuǎn)換到推理的完整工具鏈,包括量化、性能調(diào)優(yōu)和多模態(tài)支持。
RKLLM 量化類型:量化通過降低模型精度來提高推理速度并減少內(nèi)存使用,不同的策略在性能與準(zhǔn)確性之間存在不同的權(quán)衡。
總得來說,RKLLM Runtime 依賴 RKNN 的 NPU 驅(qū)動進(jìn)行硬件交互,其底層計(jì)算邏輯與 RKNN 共享同一套 NPU 加速引擎。 RKLLM 專為 LLM 設(shè)計(jì)的轉(zhuǎn)換工具(如 RKLLM-Toolkit),支持 Hugging Face 格式模型的量化(如 w4a16、w8a8)和優(yōu)化,適配 RK3588、RK3576 等高性能 NPU 芯片,通過降低模型精度來提高推理速度并減少內(nèi)存使用,不同的策略在性能與準(zhǔn)確性之間存在不同的權(quán)衡。 其提供 C/C++ 接口(RKLLM Runtime)和多模態(tài)推理支持(如圖文聯(lián)合理解),顯著降低 LLM 在端側(cè)設(shè)備的內(nèi)存占用和推理延遲。 RKLLM 軟件?蓭椭脩艨焖賹 AI 模型部署到瑞芯微芯片上[3]。 RKLLM 使用流程
RKLLM SDK 概覽
為使用 RKNPU,用戶需先在計(jì)算機(jī)上運(yùn)行 RKLLM-Toolkit 工具,將訓(xùn)練好的模型轉(zhuǎn)換為 RKLLM 格式模型,然后使用 RKLLM C API 在開發(fā)板上進(jìn)行推理。 RKLLM-Toolkit 是一款軟件開發(fā)工具包,供用戶在 PC 上進(jìn)行模型轉(zhuǎn)換和量化。 RKLLM Runtime 為瑞芯微 NPU 平臺提供 C/C++編程接口,助力用戶部署 RKLLM 模型并加速大語言模型應(yīng)用的實(shí)現(xiàn)。 RKNPU 內(nèi)核驅(qū)動負(fù)責(zé)與 NPU 硬件交互。它已開源,可在瑞芯微內(nèi)核代碼中找到。
二、環(huán)境準(zhǔn)備 步驟 1:登錄開發(fā)板,下載必備資料 確認(rèn)串口驅(qū)動安裝。開發(fā)板的調(diào)試接口(USB Type-C)內(nèi)部已集成 USB 轉(zhuǎn) TTL 芯片,連接電腦后會自動識別為一個(gè)串口設(shè)備( Windows 下為 COM 口,Linux 下為/dev/ttyUSBx)。
![]() 給開發(fā)板插上電源,Debug USB 鏈接筆記本,之后打開筆記本的設(shè)備管理器,在端口(COM 和 LPT)可以看到會多出來 COM5 和 COM6,選擇串口連接COM5 (USB-Enhanced-SERIAL-A CH342 (COM5)),并設(shè)置速度為 115200。 板子 Debug USB 接口連接上筆記本時(shí),端口出現(xiàn) COM5和 COM6
root@myd-lr3576x-buildroot:/rockchip-test/npu2# cat /etc/os-release
NAME=Buildroot
VERSION=linux-6.1-stan-rkr3-33-g2275964ac9
ID=buildroot
VERSION_ID=2024.02
PRETTY_NAME="Buildroot 2024.02"
ID_LIKE="buildroot"
RK_BUILD_INFO="haha@haha Mon Jan 6 11:11:37 CST 2025 - rockchip_rk3576"
開發(fā)板包裝盒子側(cè)面的序列碼
可以電腦登陸米爾開發(fā)者平臺(https://dev.myir.cn/)下載資料,必備的文檔、工具、刷機(jī)工具、鏡像等,如下所示: 米爾提供的 Debian&Linux6.1.75 Distribution V1.1.0
其中 02-Docs(ZH) 文檔部分,下面兩個(gè)必須得好好看看: 這兩個(gè)文檔在后面會指導(dǎo)你使用 02-Images、03-Tools、04-Sources 里面進(jìn)行刷機(jī)、編譯內(nèi)核。
|