AI基准组织因延迟披露OpenAI资助而受到批评

南方資訊

Monday, April 21 2025

一家开发AI数学基准的组织直到最近才披露其收到了来自OpenAI的资助，引起了部分AI社区人士的不当行为指控。

Epoch AI是一个主要由研究和资助基金Open Philanthropy资助的非盈利机构，直到12月20日才透露OpenAI支持了FrontierMath的创建。FrontierMath是一个专家级问题设计的测试，旨在衡量AI的数学能力，是OpenAI用来展示其即将推出的旗舰AI o3 的基准之一。

在LessWrong论坛上，一位使用用户名“Meemi”的Epoch AI承包商表示，直到公开之前，许多FrontierMath基准的贡献者都没有被告知OpenAI的参与。

“关于此事的沟通是不透明的，”Meemi写道。“在我看来，Epoch AI应该披露OpenAI的资助，承包商在选择是否参与基准时，应该明确了解其工作可能被用于的能力。”

一些社交媒体用户表达了对这种秘密可能会损害FrontierMath作为客观基准的声誉的担忧。除了支持FrontierMath外，OpenAI还了解了基准中许多问题和解决方案的情况 — Epoch AI在12月20日宣布o3之前没有透露的事实。

斯坦福大学数学博士生Carina Hong在X上发表的一篇文章中声称，由于OpenAI与Epoch AI的安排，OpenAI对FrontierMath拥有特权访问权，而这并没有使一些贡献者满意。

Epoch AI副董事长之一及该组织创始人Tamay Besiroglu在回复Meemi的帖子时表示，FrontierMath的完整性没有受到损害，但承认Epoch AI在透明方面“犯了一个错误”。

“我们受限于直到o3推出时才披露伙伴关系，回过头看，我们应该更加坚决地争取尽快向基准贡献者透明。我们的数学家们应该知道谁可能会访问他们的作品。尽管在合同上我们受到限制，但我们应该使透明与我们的贡献者成为与OpenAI协议的不可谈判的一部分。”Besiroglu写道。

Besiroglu补充说，虽然OpenAI可以访问FrontierMath，但与Epoch AI有一个“口头协议”，不使用FrontierMath的问题集来训练其AI。（在FrontierMath上训练AI就像是在教考试。）Besiroglu表示，Epoch AI还有一个“独立保留集”，可作为对FrontierMath基准结果进行独立验证的额外保障。

“OpenAI已经充分支持我们决定保留一个独立、不可见的保留集，”Besiroglu写道。

然而，Epoch AI首席数学家Ellot Glazer在Reddit上的一篇帖子中指出，Epoch AI尚未能够独立验证OpenAI的FrontierMath o3结果。

“我个人认为[OpenAI]的得分是合法的（即，他们没有在数据集上训练），而且他们没有动机在内部基准表现上撒谎，”Glazer说。“不过，在我们独立评估完成之前，我们不能为他们担保。”

这一事件再次说明了开发用于评估AI的经验基准的挑战，并且需要确保基准开发所需的资源，而不会造成利益冲突的印象。

南方資訊

AI基准组织因延迟披露OpenAI资助而受到批评

Recent Posts

Pantaloon通過免費資源中心幫助獨立開發者

Nichushkin的私人生活在前往Avalanche-Stars季后赛系列之前处于良好状态，教练表示

Zuckerberg 表示 TikTok 減緩了 Meta 的增長

西咸的卢卡斯·帕奎塔被指控在英超比赛中故意接受黄牌

今日股市: 华尔街持稳但仍跌至上周暴跌后