
Pruna AI是一家歐洲初創公司,致力於為AI模型開發壓縮算法,並將其優化框架於本週四公開源碼。
Pruna AI一直在創建一個框架,應用多種效率方法,如緩存、修剪、量化和精煉,到給定的AI模型。
「我們還標準化了保存和加載壓縮模型的方法,應用這些壓縮方法的組合,以及在您對模型進行壓縮後評估您的壓縮模型,」Pruna AI的聯合創始人兼CTO約翰·拉赫文告訴TechCrunch。
Pruna AI的框架特別可以評估在壓縮模型後是否存在重大質量損失以及您可以獲得的性能提升。
「如果要打個比方,我們類似於 Hugging Face 為變壓器和散射器標準化的方式——如何命名、保存和加載它們等。我們正在做同樣的事情,但是針對效率方法,」他補充道。
大型AI實驗室已經在使用各種壓縮方法。例如,OpenAI一直在依賴精煉技術來創建其旗艦模型的更快版本。這很可能就是OpenAI開發GPT-4 Turbo的方式,一個比GPT-4更快的版本。同樣地,Flux.1-schnell影像生成模型是Black Forest Labs的Flux.1模型的一個簡化版本。
精煉是一種從大型AI模型中提取知識的技術,通過一個「師生」模型。開發人員向師父模型發送請求並記錄輸出。有時會將答案與數據集進行比較,查看其準確程度。然後這些輸出用於訓練學生模型,該模型被訓練以近似模仿老師的行為。
拉赫文表示:「對於大公司,他們通常是在內部打造這些東西。而你在開源世界中找到的通常都是基於單一方法的。例如,假設一個對LLM的量化方法,或一個對擴散模型的緩存方法。但你無法找到一個結合所有方法,使它們都易於使用並組合在一起的工具。這就是Pruna目前帶來的巨大價值。」

雖然Pruna AI支持任何種類的模型,從大型語言模型到擴散模型、語音轉文字模型和計算機視覺模型,但公司目前更專注於圖像和視頻生成模型。
Pruna AI的現有用戶包括Scenario和PhotoRoom。除了開源版本外,Pruna AI還推出了一個具有高級優化功能,包括優化代理的企業版。
拉赫文表示:「我們即將推出的最令人興奮的功能將是一個壓縮代理,基本上你給它你的模型,你說: '我想要更快但是不要讓我的準確度降低超過2%。' 然後,代理將自行操作。它將為您找到最佳組合,返回給您。作為開發人員,您什麼都不需要做。」
Pruna AI的專業版本是按小時收費的。拉赫文表示:「這與您在AWS或任何雲服務上租用GPU時的方式相似。」
如果您的模型是AI基礘設施的重要部分,您將通過優化模型在推斷上節省大量費用。例如,Pruna AI使用其壓縮框架,使Llama模型的大小縮小了八倍,而且損失不大。Pruna AI希望其客戶將其壓縮框架視為一筆自我回報的投資。
Pruna AI幾個月前完成了650萬美元的種子輪融資。該初創公司的投資者包括EQT Ventures、Daphni、Motier Ventures和Kima Ventures。