欢迎来到證券網市場財經网首页

英伟达推全新视觉AI语音模型 可以直接看图聊天

来源:时间:2025-05-03 18:36:53

如今AI大時代,英伟语音世界各大巨頭都有自己的达推特色AI產品計劃,日前據英偉達官方消息,全新英偉達聯合 Georgia Tech、视觉UMD 和 HKPU 的模型研究團隊推出了全新的視覺語言模型 ——NVEagle。

據悉,可直NVEagle 能夠理解複雜的图聊天現實場景,通過視覺輸入進行更好的英伟语音解讀和回應。它的达推設計核心在於將圖像轉化為視覺標記,再與文本嵌入相結合,全新進而提升了對視覺信息的视觉理解。

NVEagle包括了三個版本:Eagle-X5-7B、模型Eagle-X5-13B 以及 Eagle-X5-13B-Chat。可直其中,图聊天7B 和13B 版本主要用於一般的英伟语音視覺語言任務,而13B-Chat 版本則專門針對對話式 AI 進行了微調,能夠更好地進行基於視覺輸入的互動。

NVEagle 的一個亮點在於采用了混合專家(MoE)機製,能夠根據不同任務動態選擇最合適的視覺編碼器,這極大提升了對複雜視覺信息的處理能力。該模型已在 Hugging Face 上發布,方便研究人員和開發者使用。

热点文章
精彩图文