2025/5/13 13:38

蘋果攜手復(fù)旦大學(xué)推 StreamBridge 端側(cè)視頻大語言模型框架，AI 可實時響應(yīng)視頻流

IT之家故淵

科技媒體 marktechpost 今天（5 月 13 日）發(fā)布博文，報道稱蘋果公司聯(lián)合復(fù)旦大學(xué)，推出 StreamBridge 端側(cè)視頻大語言模型（Video-LLMs）框架，助力 AI 理解直播流視頻。

直播流視頻理解的挑戰(zhàn)與需求

傳統(tǒng)視頻大語言模型擅長處理靜態(tài)視頻，但無法適應(yīng)機(jī)器人技術(shù)和自動駕駛等需要實時感知的場景，在這些場景下，要求模型能快速理解直播視頻流內(nèi)容，并做出反應(yīng)。

現(xiàn)有的模型面臨兩大難題：一是多輪實時理解，即在處理最新視頻片段時需保留歷史視覺和對話上下文；二是主動響應(yīng)，要求模型像人類一樣主動監(jiān)控視頻流，并在無明確指令的情況下及時輸出反饋。

StreamBridge 框架與創(chuàng)新技術(shù)

為解決上述問題，蘋果公司與復(fù)旦大學(xué)的研究者開發(fā)了 StreamBridge 框架。該框架通過內(nèi)存緩沖區(qū)和輪次衰減壓縮策略，支持長上下文交互。

該框架還引入了一個輕量化的獨立激活模型，無縫集成現(xiàn)有視頻大語言模型，實現(xiàn)主動響應(yīng)功能。研究團(tuán)隊還推出了 Stream-IT 數(shù)據(jù)集，包含約 60 萬個樣本，融合了視頻與文本序列，支持多樣化的指令格式，旨在提升流式視頻理解能力。

StreamBridge 在主流離線模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上進(jìn)行了測試。結(jié)果顯示，Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分別提升至 71.30 和 77.04，超越了 GPT-4o 和 Gemini 1.5 Pro 等專有模型。

Oryx-1.5 也取得了顯著進(jìn)步，而 LLaVA-OV 性能略有下降。Stream-IT 數(shù)據(jù)集的微調(diào)進(jìn)一步提升了所有模型的表現(xiàn)，證明了 StreamBridge 在流式視頻理解領(lǐng)域的強(qiáng)大潛力。

給作者點贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

相關(guān)鏈接

蘋果 AI 融合測試

消息稱 OpenAI 計劃今夏初發(fā)布開源語言模型，力爭推理能力超越同類
IT之家遠(yuǎn)洋4-24
字節(jié) Seed 開源 UI-TARS-1.5：基于視覺-語言模型構(gòu)建的多模態(tài)智能體
IT之家清源4-18
基于大語言模型命名實體識別的AI智能問答優(yōu)化
郵電設(shè)計技術(shù) 施志雄，段該甲，馬龍軒，吳婕4-14
OpenAI 官宣將發(fā)布自 GPT-2 以來的首個開放權(quán)重語言模型，并具有推理功能
IT之家汪淼4-1

蘋果攜手復(fù)旦大學(xué)推 StreamBridge 端側(cè)視頻大語言模型框架，AI 可實時響應(yīng)視頻流

蘋果攜手復(fù)旦大學(xué)推 StreamBridge 端側(cè)視頻大語言模型框架，AI 可實時響應(yīng)視頻流