色偷偷偷久久伊人大杳蕉,色爽交视频免费观看,欧美扒开腿做爽爽爽a片,欧美孕交alscan巨交xxx,日日碰狠狠躁久久躁蜜桃

x
x

智能體已經能像人一樣刷視頻了?國內聯匯科技OmAgent智能體試用!

發(fā)布時間:2024-11-22 15:16    發(fā)布者:Qingkr

智能體已經能像人一樣刷視頻了?國內知名大模型獨角獸級別公司,資深AI玩家聯匯科技退出了OmAgent智能體,已經開啟試用。


當你正在觀看一部緊張刺激的動作電影,忽然好奇:

“那個角色到底是在哪一集說的那句話?”

“這里的背景音樂是什么?”

又或者在一場足球比賽中,你錯過了那個決定性的進球,卻又想再次回放。諸如此類的需求,如果僅憑人力尋找,無疑存在極大的工作量。

但是 AI 能夠為機器配置雙眼與大腦,讓它們能夠看懂視頻、理解劇情,對于普通人來說,這不僅是提高了搜索效率,更是擴展我們與數字世界的互動方式。

英偉達最新發(fā)布的 NVIDIA AI Blueprint 希望幫助人們解決這一問題。這是一種預訓練的、可自定義 AI 工作流,他為開發(fā)者構建和部署用于典型用例的生成式 AI 應用程序提供了一套完整的解決方案。

比如在英偉達提供的試用界面中,你可以選擇三個視頻片段中的一個進行內容問答。

在幾輪測試過后,我們發(fā)現 Blueprint 對視頻問答還是有不錯的效果的。你可以提問某個事件發(fā)生的時間,也可以提問某個對象的狀態(tài)。
例如當我們提問 “工人在什么時候掉落了箱子”,Blueprint 可以正確的回答出時間區(qū)間。二類似于 “叉車往哪個方向開” 這種基于連續(xù)過程的問題,Blueprint 也可以輕松應答。
不過對于某些細節(jié),例如 “誰撿起了掉在地上的箱子”,Blueprint 則給出了錯誤的答案。

尤其令人遺憾的是,在試用過程中我們不斷遇到流量限制,無限驗證等問題,試用體驗可以說一言難盡。并且目前 Blueprint 仍然處于早期申請使用制階段,沒有辦法快速進行使用。

Blueprint 之外,我們還有什么選擇?

經過一番搜索和調研,我們在 Github 上發(fā)現了 OmAgent 這個項目,這是一個多模態(tài)智能體框架,提供了同樣強大的視頻問答功能。

項目地址:https://github.com/om-ai-lab/OmAgent

OmAgent 是什么

OmAgent 是一個開源的智能體框架,支持簡單快速地面向設備進行智能體系統(tǒng)的開發(fā),為智能手機、智能可穿戴設備、智能攝像頭乃至機器人等各類硬件設備賦能。OmAgent 為各種類型的設備創(chuàng)建了一個抽象概念,并大大簡化了將這些設備與最先進的多模態(tài)基礎模型和智能體算法相結合的過程,使每個人都能基于設備建立最有趣的 AI 應用。

OmAgent 的設計架構遵循三個基本原則:
1. 基于圖的工作流編排,支持分支、循環(huán)、并行等復雜邏輯操作;2. 原生多模態(tài),提供對音視圖文等多種模態(tài)數據的支持;3. 設備中心化,提供便捷的設備連接和交互方法。
簡單來說,開發(fā)者可以基于 OmAgent 設計開發(fā)基于圖工作流編排的面向設備的原生多模態(tài)智能體。這里的設備不光包含智能手機,智能可穿戴設備(智能眼鏡等),智能家居,還包括命令行以及 web 端,開發(fā)者只需要專注于智能體本身,而不用分神處理設備。
OmAgent 項目里提供了 6 個示例項目,由淺入深展示了如何搭建一個智能體的完整過程,其中視頻理解智能體工作流被 EMNLP 2024 主會收錄,實現了和 Blueprint Demo 相似的功能。


OmAgent 表現如何?


根據項目文檔只需要進行簡單的配置就可以將 OmAgent 部署運行在本地環(huán)境。我們首先對 Blueprint 提供的測試視頻進行預處理,在這個階段視頻會被分解為若干個片段,每個片段會被大模型進行總結,并向量化存儲在數據庫中。接下來使用之前的問題對 OmAgent 進行測試,可以看到智能體可以正確定位事件以及發(fā)生的時間。
Q: When did the worker drop the box?

A:

Q: Which direction did the forklift go?

A:


Q: Who picked up the box that fell on the ground?

A:

接下來我們進行更復雜的測試,OmAgent 可以支持音頻信息以及超長視頻索引。我們選取了最近大火的劇集《雙城之戰(zhàn)》第二季第一集作為素材,基于其中的畫面和劇情進行提問。
Q: 凱特琳收到的鑰匙代表了什么?

A:


Q: 凱特琳和蔚在爭執(zhí)些什么?

A:

Q: 視頻最后幾個議員在討論什么?

A:


Q: 議員開會的時候誰闖入了進來?

A:

可以看到,即使面對如此復雜的視頻素材,OmAgent 依然可以游刃有余。
除了視頻問答之外,OmAgent 的最大特點是可以將智能體直接應用在硬件設備上,我們也對此進行了測試。使用項目提供的 app,我們可以運行示例項目中的穿衣搭配推薦智能體。智能體會根據你的需求,以及你已有的衣櫥信息,為你推薦合適的穿衣建議。在這個過程中智能體會和用戶進行多輪溝通以確定用戶需求,并最終返回最合適的搭配。

如果想了解更多OmAgent智能體技術信息,可以通過聯匯科技官網聯系!


本文地址:http://m.54549.cn/thread-877127-1-1.html     【打印本頁】

本站部分文章為轉載或網友發(fā)布,目的在于傳遞和分享信息,并不代表本網贊同其觀點和對其真實性負責;文章版權歸原作者及原出處所有,如涉及作品內容、版權和其它問題,我們將根據著作權人的要求,第一時間更正或刪除。
您需要登錄后才可以發(fā)表評論 登錄 | 立即注冊

關于我們  -  服務條款  -  使用指南  -  站點地圖  -  友情鏈接  -  聯系我們
電子工程網 © 版權所有   京ICP備16069177號 | 京公網安備11010502021702
快速回復 返回頂部 返回列表