科技媒體 TechCrunch 昨日(9 月 11 日)報道,法國 AI 初創(chuàng)公司 Mistral 發(fā)布 Pixtral 12B,是該公司首款能夠同時處理圖像和文本的多模態(tài) AI 大語音模型。
Pixtral 12B 模型擁有 120 億參數(shù),大小約為 24GB,參數(shù)大致對應(yīng)于模型的解題能力,擁有更多參數(shù)的模型通常比參數(shù)較少的模型表現(xiàn)更優(yōu)。
Pixtral 12B 模型基于文本模型 Nemo 12B 構(gòu)建,能夠回答關(guān)于任意數(shù)量、任意尺寸圖像的問題。
與 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模態(tài)模型類似,Pixtral 12B 理論上應(yīng)能執(zhí)行諸如為圖像添加描述和統(tǒng)計照片中物體數(shù)量等任務(wù)。
用戶可以下載、微調(diào) Pixtral 12B 模型,并能依據(jù) Apache 2.0 許可證使用。
Mistral 開發(fā)者關(guān)系負責人 Sophia Yang 在 X 平臺的一篇帖子中表示,Pixtral 12B 很快將在 Mistral 的聊天機器人和 API 服務(wù)平臺 Le Chat 及 Le Plateforme 上開放測試。
附上相關(guān)跑分情況如下: