基于米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

發(fā)布時(shí)間：2025-9-5 17:31 發(fā)布者：swiftman

關(guān)鍵詞：瑞芯微 , NPU , RK3576 , 多模態(tài)LLM , 開發(fā)板

當(dāng) GPT-4o 用毫秒級(jí)響應(yīng)處理圖文混合指令、Gemini-1.5-Pro 以百萬 token 上下文 “消化” 長(zhǎng)文檔時(shí)，行業(yè)的目光正從云端算力競(jìng)賽轉(zhuǎn)向一個(gè)更實(shí)際的命題：如何讓智能 “落地”？—— 擺脫網(wǎng)絡(luò)依賴、保護(hù)本地隱私、控制硬件成本，讓設(shè)備真正具備 “看見并對(duì)話” 的離線智能，成為邊緣 AI 突破的核心卡點(diǎn)。

如今，“端側(cè)能否獨(dú)立運(yùn)行圖文多輪對(duì)話” 已不再是技術(shù)疑問，而是工程實(shí)現(xiàn)問題。RK3576 通過硬件算力優(yōu)化與軟件棧協(xié)同，將視覺編碼、語言推理、對(duì)話管理三大核心能力封裝為可落地的工程方案，而本文將聚焦其多輪對(duì)話的部署全流程，拆解從模型加載到交互推理的每一個(gè)關(guān)鍵環(huán)節(jié)。

RK3576 多輪對(duì)話：基于歷史回答圖中女孩頭發(fā)和衣服分別是什么顏色

一、引言1.1 什么是多輪對(duì)話？

這種交互模式與單輪問答的區(qū)別在于：

上下文依賴性：每輪對(duì)話需關(guān)聯(lián)歷史信息（如用戶偏好、已確認(rèn)的細(xì)節(jié)）。
狀態(tài)維護(hù)：系統(tǒng)需跟蹤對(duì)話狀態(tài)（如未完成的信息補(bǔ)全），避免重復(fù)詢問或信息遺漏。
動(dòng)態(tài)意圖調(diào)整：用戶可能在對(duì)話中修正或細(xì)化需求，系統(tǒng)需實(shí)時(shí)調(diào)整響應(yīng)策略

1.2 多輪對(duì)話系統(tǒng)鳥瞰：三顆“核心”協(xié)同驅(qū)動(dòng)

基于純 C++實(shí)現(xiàn)，采用單線程事件循環(huán)機(jī)制，承擔(dān)著對(duì)話流程的統(tǒng)籌調(diào)度工作，具體職責(zé)包括：

多輪對(duì)話的 KV-Cache 維護(hù)與手動(dòng)清除；
Prompt 模板的動(dòng)態(tài)渲染；
用戶輸入的解析處理與推理結(jié)果的回顯展示。

1.3 核心邏輯：多輪對(duì)話的處理流程

該方案的多模態(tài)多輪對(duì)話 demo，整體遵循“模型加載 → 圖片預(yù)處理 → 用戶交互 → 推理輸出”的核心流程，支持圖文一體的多模態(tài)對(duì)話，適配多輪問答、視覺問答等典型場(chǎng)景。

首先加載大語言模型（LLM），并配置模型路徑、max_new_tokens（生成內(nèi)容最大 token 數(shù)）、max_context_len（最大上下文長(zhǎng)度）、top_k、特殊 token 等關(guān)鍵參數(shù)；隨后加載視覺編碼模型（imgenc），為后續(xù)圖片處理做好準(zhǔn)備。

RK3576 平臺(tái)運(yùn)行多模態(tài)對(duì)話 Demo 的終端日志，顯示視覺與語言模型成功加載，包含模型版本、硬件配置及張量信息，完成多模態(tài)交互前的初始化。

2. 圖片處理與特征提取

程序會(huì)提供預(yù)設(shè)問題供用戶選擇（官方案例中也有輸入序號(hào)，可以快速提問），同時(shí)支持用戶自定義輸入，核心交互邏輯通過以下機(jī)制實(shí)現(xiàn)：

上下文記憶
- 通過設(shè)置rkllm_infer_params.keep_history = 1，開啟上下文記憶功能，KV-Cache 在顯存中持續(xù)追加存儲(chǔ)，每輪對(duì)話僅計(jì)算新增 token，大幅提升推理效率。使模型能關(guān)聯(lián)多輪對(duì)話內(nèi)容；
- 若設(shè)為 0，則每輪對(duì)話獨(dú)立，不保留歷史信息，詳見src/main.cpp。
歷史緩存清空：當(dāng)用戶輸入“clear”時(shí)，系統(tǒng)調(diào)用rkllm_clear_kv_cache(llmHandle, 1, nullptr, nullptr)，清空模型的 KV 緩存，重置對(duì)話上下文。
Prompt 工程：動(dòng)態(tài)定義模型“人設(shè)”：采用三段式 Prompt 模板，通過rkllm_set_chat_template()動(dòng)態(tài)注入模型，無需重新訓(xùn)練即可切換人設(shè)，支持中英文雙語系統(tǒng)提示。

用戶輸入后，系統(tǒng)先判斷輸入中是否包含標(biāo)簽：若包含，則將文本與圖片 embedding 結(jié)合，啟動(dòng)多模態(tài)推理；若不包含，則進(jìn)行純文本推理。組裝輸入結(jié)構(gòu)體并傳遞給模型后，推理結(jié)果將實(shí)時(shí)打印輸出。

5. 退出與資源釋放

由于先前我們已經(jīng)講過環(huán)境的部署，如刷機(jī)、文件準(zhǔn)備等，這里步驟只提出比較關(guān)鍵的。工程位于：rknn-llm/examples/Multimodal_Interactive_Dialogue_Demo，下面我們來逐步看下操作步驟。

2.1 依賴環(huán)境

針對(duì)不同操作系統(tǒng)提供便捷的編譯腳本，我們是 Linux 系統(tǒng)執(zhí)行./build-linux.sh，編譯結(jié)果如下：

通過 U 盤或者手機(jī)將編譯好的產(chǎn)物文件、模型、圖片上傳到開發(fā)板上，然后在多輪對(duì)話的實(shí)例的目錄下，執(zhí)行以下命令：

cd /data/demo_Linux_aarch64
export LD_LIBRARY_PATH=./lib
./demo demo.jpg vision.rknn llm.rkllm 128 512

以下面這張圖片作為測(cè)試圖片，選擇下面這張圖是因?yàn)椋腥宋�、文字、物體、背景等。

測(cè)試圖片2：圖片背景是賽博風(fēng)格

每輪對(duì)話我都有截動(dòng)態(tài)圖，可以感受下體感速度。

rkllm 模型加載 6.7 秒

視覺編碼 rknn 模型進(jìn)行處理，生成圖片的 embedding 向量，完成圖像特征的提取，4.5 秒

方案具備良好的可擴(kuò)展性，便于開發(fā)者根據(jù)需求進(jìn)行二次開發(fā)：

替換視覺骨干：修改image_enc.cc文件，將輸入分辨率調(diào)整為與模型匹配的大小，原因是這些參數(shù)與模型的固有結(jié)構(gòu)設(shè)計(jì)和輸入處理邏輯強(qiáng)綁定，直接影響特征提取的正確性和數(shù)據(jù)傳遞的一致性。不同的 Qwen2-VL 模型（2B 和 7B）需要代碼中指定IMAGE_HEIGHT、IMAGE_WIDTH及EMBED_SIZE；
微調(diào) LLM 模型：借助 RKLLM 工具鏈的 LoRA-INT4 量化支持，在 24 GB 顯存的 PC 上，30 分鐘內(nèi)可完成 2 億參數(shù)模型的增量訓(xùn)練；
接入語音能力：在main.cpp中集成 VAD（語音活動(dòng)檢測(cè)）+ ASR（語音識(shí)別，如 Whisper-Tiny INT8）模塊，將語音轉(zhuǎn)換為文本后接入現(xiàn)有推理流水線，實(shí)現(xiàn)“看圖說話+語音問答”的融合交互。

五、結(jié)論與未來發(fā)展方向

如果說 “大模型上云” 是 AI 的 “星辰大�！保敲� “多模態(tài)落地端側(cè)” 就是 AI 的 “柴米油鹽”—— 后者決定了智能技術(shù)能否真正滲透到智能家居、工業(yè)質(zhì)檢、穿戴設(shè)備等千萬級(jí)場(chǎng)景中。RK3576 的多模態(tài)交互對(duì)話方案，其價(jià)值遠(yuǎn)不止 “實(shí)現(xiàn)了一項(xiàng)技術(shù)”，更在于提供了一套 “算力適配 - 工程封裝 - 二次拓展” 的端側(cè) AI 落地范式。

展望未來，這套方案的演進(jìn)將圍繞三個(gè)方向深化：

其一，算力效率再突破—— 通過異步模型加載、NPU 與 CPU 協(xié)同調(diào)度，進(jìn)一步壓縮首輪推理延遲，適配對(duì)響應(yīng)速度敏感的車載、醫(yī)療等場(chǎng)景；
其二，多模態(tài)融合再升級(jí)—— 在圖文基礎(chǔ)上集成語音、傳感器數(shù)據(jù)，實(shí)現(xiàn) “看 + 聽 + 感知” 的跨模態(tài)對(duì)話；
其三，生態(tài)適配再拓展—— 支持更多開源多模態(tài)模型的快速移植，形成 “芯片 - 工具鏈 - 模型” 的協(xié)同生態(tài)。

參考資料

[1]airockchip/rknn-llm: 'https://github.com/airockchip/rknn-llm'

本文地址：http://m.54549.cn/thread-892747-1-1.html 【打印本頁】

本站部分文章為轉(zhuǎn)載或網(wǎng)友發(fā)布，目的在于傳遞和分享信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)；文章版權(quán)歸原作者及原出處所有，如涉及作品內(nèi)容、版權(quán)和其它問題，我們將根據(jù)著作權(quán)人的要求，第一時(shí)間更正或刪除。

網(wǎng)友評(píng)論

貿(mào)澤電子有獎(jiǎng)問答視頻，答對(duì)領(lǐng)10元微信紅包

色偷偷偷久久伊人大杳蕉,色爽交视频免费观看,欧美扒开腿做爽爽爽a片,欧美孕交alscan巨交xxx,日日碰狠狠躁久久躁蜜桃

基于米爾RK3576部署端側(cè)多模態(tài)多輪對(duì)話,6TOPS算力驅(qū)動(dòng)30億參數(shù)LLM

相關(guān)文章

網(wǎng)友評(píng)論

廠商推薦

相關(guān)視頻