
關於OpenAI的o3 AI模型在第一方和第三方基準測試結果之間的差異引起了對公司透明度和模型測試實踐的質疑。
當OpenAI在十二月宣布o3時,該公司聲稱這個模型可以回答FrontierMath上大約四分之一的問題,這是一組具有挑戰性的數學問題。這個得分遠遠超越了其他競爭對手 - 下一個最好的模型只能回答FrontierMath問題的大約2%。
“今天,市面上的所有產品在FrontierMath上的表現都低於2%,”OpenAI首席研究官陳馬克在一次直播中說道。“我們在o3上使用了激烈的測試時計算設置,我們能夠超過25%。”
事實證明,這個數字很可能是一個上限,是由一個比OpenAI上周公開推出的o3模型更多計算資源的版本所實現的。
Epoch AI,FrontierMath背後的研究機構,在上周五發布了對o3的獨立基準測試結果。Epoch發現,o3的得分大約是10%,遠低於OpenAI宣稱的最高得分。
OpenAI已經推出了o3,他們高度期待的推理模型,還有o4-mini,這是o3-mini之後更新且更便宜的模型。
我們在我們的一套數學和科學測試基準上評估了這些新模型。結果如下! pic.twitter.com/5gbtzkEy1B
- Epoch AI (@EpochAIResearch) 2025年4月18日
這並不意味著OpenAI有意欺騙。公司在十二月發佈的基準測試結果顯示了一個下限得分,與Epoch觀察到的得分相匹配。Epoch還指出,他們的測試設置可能與OpenAI有所不同,並且他們使用了更新的版本FrontierMath進行評估。
“我們的結果與OpenAI的結果之間的差異可能是因為OpenAI使用了更強大的内部框架進行評估,使用了更多的測試時間[計算],或者因為這些結果是在FrontierMath的不同子集上運行的(FrontierMath-2024-11-26中的180個問題與FrontierMath-2025-02 -28-private中的290個問題),”Epoch寫道。
根據ARC Prize Foundation在X上的一篇文章,該機構測試了o3的一個預發行版本,公開的o3模型“是一種不同的模型[…]調整以進行聊天/產品使用”,與Epoch的報告相符。
“所有发布的o3計算層級均低於我們[基準測試]的版本,”ARC Prize寫道。一般來說,更大的計算層級可以期望在基準測試中取得更好的成績。
重新在ARC-AGI-1上測試已發行的o3將需要一兩天。由於今天的發布是一個實質上不同的系統,我們將我們過去報告的結果標為“預覽”:
o3-preview(低):75.7%,$200/任務
o3-preview(高):87.5%,$34.4k/任務以上使用o1專業定價…
- Mike Knoop (@mikeknoop) 2025年4月16日
OpenAI自家技術人員周文達在上周的一次直播中表示,生產中的o3“更優化用於實際應用案例”的版本遠遠優於去年十二月演示的o3版本。因此,他補充說,它可能在基準測試中顯示出“差異”。
周文達說:“我們已經做了[優化],使這個[模型]更具成本效益[而且]更普遍有用。”“我們仍然希望 - 我們仍然認為 - 這是一個更好的模型[…]當你要求答案時,不必等那麼長的時間,這是這些[類型的]模型的真實情況。”
當然,o3的公開版本未能達到OpenAI的測試承諾,這有點無意義,因為OpenAI的o3-mini-high和o4-mini模型在FrontierMath上的表現優於o3,而且OpenAI計劃在未來幾周推出更強大的o3變種o3-pro。
然而,這是另一個提醒,AI基準測試最好不要僅僅按面值接受 - 特別是當信息來源是一家有服務出售的公司時。
AI行業中基準測試的“爭議”正變得越來越普遍,各家供應商競相發布新模型以吸引頭條和市場份額。
在一月份,Epoch因在OpenAI宣布o3之後才披露從OpenAI那裡獲得資金而受到批評。許多參與FrontierMath的學者在OpenAI的參與被公開之前都沒有得到通知。
最近,埃隆·馬斯克的xAI被指責因為為其最新AI模型Grok 3發布了具有誤導性的基準測試圖表。就在這個月,Meta承認為模型的一個版本吹捧基準分數與公司提供給開發人員的版本不同。
更新時間為太平洋時間下午4:21:添加了OpenAI技術人員周文達在上周直播中的評論。
。