DeepSeek聲稱其'推理'模型在某些基準上戰勝了OpenAI的o1

南方資訊

Thursday, April 17 2025

中國人工智能實驗室DeepSeek推出了其所謂的推理模型DeepSeek-R1的開源版本，它聲稱在某些人工智能基準上與OpenAI的o1表現一樣出色。

R1可在AI開發平台Hugging Face上以MIT許可證提供，這意味著可以商業使用而沒有限制。根據DeepSeek的說法，R1在AIME、MATH-500和SWE-bench Verified等基準上擊敗了o1。AIME使用其他模型來評估模型的性能，而MATH-500是一系列文字問題。而SWE-bench Verified則專注於編程任務。

作為一個推理模型，R1能夠有效地對自己進行事實檢查，這有助於避免一些通常會使模型失敗的陷阱。與典型的非推理模型相比，推理模型通常需要更長的時間 - 通常比較多秒到幾分鐘 - 得出解決方案。好處是，在物理學、科學和數學等領域，它們往往更可靠。

DeepSeek在一份技術報告中透露，R1包含6710億個參數。參數大致對應於模型的解決問題能力，而具有更多參數的模型通常比具有較少參數的模型表現更好。

6710億參數是巨大的，但DeepSeek還釋出了R1的“提煉”版本，包括從15億參數到700億參數的各種大小。最小的版本可以在筆記本電腦上運行。至於完整的R1，它需要更強大的硬件，但通過DeepSeek的API以比OpenAI的o1便宜90%-95%的價格提供。

R1的一個缺點是作為一個中國模型，它需接受中國網絡監管機構的基準測試，以確保其回應“體現核心社會主義價值觀”。例如，R1不會回答關於天安門廣場或台灣自治的問題。

許多中國人工智能系統，包括其他推理模型，都拒絕回答可能激怒國內監管機構的話題，例如對習近平政權的猜測。

R1在拜登政府提出加強出口規則和對中國企業的人工智能技術限制後幾天到來。中國公司已被禁止購買先進的人工智能芯片，但如果新規則按照原文生效，公司將面臨更嚴格的限制，限制範圍包括半導體技術和啟動複雜人工智能系統所需的模型。

在上周的一份政策文件中，OpenAI敦促美國政府支持美國人工智能的發展，以免中國模型在能力上匹敵或超越它們。在接受《信息》雜誌採訪時，OpenAI的政策副總裁克里斯·萊哈尼將DeepSeek的母公司High Flyer Capital Management點名為特別關注的組織。

迄今為止，至少有三個中國實驗室 - DeepSeek、阿里巴巴和蜜蜜，蜜蜜是由中國獨角獸Moonshot AI擁有 - 生產的模型聲稱與o1匹敵。值得注意的是，DeepSeek是第一家 - 它在去年十一月底宣布了R1的預覽。喬治梅森大學的人工智能研究員迪恩·鮑爾在《X》上發表的一篇文章中表示，這一趨勢表明中國人工智能實驗室將繼續是“快速追隨者”。

“DeepSeek的提煉模型的出色表現[...]意味著非常有能力的推理者將繼續廣泛擴散，在本地硬件上運行，遠離任何自上而下的控制制度的眼睛，”鮑爾寫道。

南方資訊

DeepSeek聲稱其'推理'模型在某些基準上戰勝了OpenAI的o1

Recent Posts

音樂評論：Tate McRae的《So Close to What》以後Britney Spears，卑鄙、喚醒的流行音樂為引

Telegram 發佈了改進貼圖搜索和影片觀賞功能

『魔咒』与『角鬥士』引领重力挑战的戏剧首秀

LeBron James 打算與湖人簽訂新合同，AP消息來源表示

Phillies’ J.T. Realmuto第四局离场，受伤左膝后两局