擁抱臉稱其新的AI模型是同類中最小的

AI開發平台擁抱臉的團隊發布了他們聲稱是最小的AI模型,可以分析圖像、短視頻和文本。

這些模型,SmolVLM-256M和SmolVLM-500M,旨在在像內存約1GB以下的筆記本電腦等“受限設備”上發揮良好作用。團隊表示,這些模型也非常適合嘗試以非常便宜的方式處理大量數據的開發人員。

SmolVLM-256M和SmolVLM-500M分別僅有2.56億參數和5億參數的大小。(參數大致對應於模型的解決問題能力,例如其在數學測試中的表現。)這兩個模型都可以執行描述圖像或視頻剪輯並回答有關PDF和其中元素的問題,包括掃描的文本和圖表等任務。

為了訓練SmolVLM-256M和SmolVLM-500M,擁抱臉團隊使用了50個“高質量”圖像和文本數據集的集合The Cauldron以及一組與詳細標題配對的文件掃描Docmatix。這兩者都是由擁抱臉的M4團隊創建的,該團隊開發多模態AI技術。

將新的SmolVLM模型與其他多模態模型進行比較的基準。 圖片來源: SmolVLM

團隊聲稱,SmolVLM-256M和SmolVLM-500M在包括AI2D在內的基準測試中表現超越了一個更大的模型Idefics 80B,AI2D測試模型分析小學科學圖表的能力。 SmolVLM-256M和SmolVLM-500M在網絡上可用,也可以通過Apache 2.0許可證從Hugging Face下載,這意味著它們可以無限制地使用。

像SmolVLM-256M和SmolVLM-500M這樣的小型模型可能便宜且多功能,但它們也可能存在在更大模型中沒有那麼明顯的缺陷。 Google DeepMind、微軟研究和魁北克的Mila研究所最近的一項研究發現,許多小型模型在複雜的推理任務上表現不如預期。 研究人員推測這可能是因為小型模型識別數據中的表面模式,但在新的情境中難以應用這些知識。