本周早些時候,人工智能開發(fā)平臺 Hugging Face 發(fā)布了一款名為 SmolVLA 的開源機(jī)器人 AI 模型。據(jù) Hugging Face 稱,SmolVLA 在虛擬和現(xiàn)實環(huán)境中均優(yōu)于許多規(guī)模更大的機(jī)器人模型。
IT之家注意到,Hugging Face 在其博客文章中表示:“SmolVLA 致力于普及視覺 - 語言 - 行動(VLA)模型的使用,并加速通用機(jī)器人智能體的研究進(jìn)程。”SmolVLA 不僅是一個輕量級但功能強(qiáng)大的模型,更是一種用于訓(xùn)練和評估通用機(jī)器人技術(shù)的方法。
SmolVLA 是 Hugging Face 迅速拓展的低成本機(jī)器人軟硬件生態(tài)系統(tǒng)的一部分。去年,該公司推出了 LeRobot,這是一套專注于機(jī)器人的模型、數(shù)據(jù)集和工具。近期,Hugging Face 收購了總部位于法國的機(jī)器人初創(chuàng)公司 Pollen Robotics,并推出了一系列可供購買的廉價機(jī)器人系統(tǒng),包括人形機(jī)器人。
SmolVLA 擁有 4.5 億個參數(shù),這些參數(shù)有時也被稱為“權(quán)重”,是模型內(nèi)部決定其行為的組件。該模型是基于 Hugging Face AI 開發(fā)平臺上共享的 LeRobot 社區(qū)數(shù)據(jù)集(專門標(biāo)記的機(jī)器人數(shù)據(jù)集)進(jìn)行訓(xùn)練的。Hugging Face 表示,SmolVLA 的規(guī)模小到可以在單個消費級 GPU 上運行,甚至可以在 MacBook 上運行,并且可以在包括該公司自身機(jī)器人系統(tǒng)在內(nèi)的“經(jīng)濟(jì)實惠”的硬件上進(jìn)行測試和部署。
有趣的是,SmolVLA 還支持“異步推理堆棧”,Hugging Face 稱這一功能可以使模型將機(jī)器人行動的處理與視覺和聽覺的處理分離。正如該公司在博客中解釋的那樣:“由于這種分離,機(jī)器人能夠在快速變化的環(huán)境中更快地做出響應(yīng)。”
SmolVLA 已可在 Hugging Face 官方網(wǎng)站上下載。已經(jīng)有用戶在社交平臺 X 上聲稱,他們利用該模型控制了第三方機(jī)械臂。
值得注意的是,Hugging Face 并非開放機(jī)器人領(lǐng)域唯一的參與者。英偉達(dá)擁有一套用于開放機(jī)器人的工具集,而初創(chuàng)公司 K-Scale Labs 正在開發(fā)其所謂的“開源人形機(jī)器人”組件。此外,該領(lǐng)域的其他實力強(qiáng)勁的公司包括 Dyna Robotics、杰夫 貝索斯支持的 Physical Intelligence,以及 RLWRLD。