AI基准组织因延迟披露OpenAI资助而受到批评

一家开发AI数学基准的组织直到最近才披露其收到了来自OpenAI的资助,引起了部分AI社区人士的不当行为指控。

Epoch AI是一个主要由研究和资助基金Open Philanthropy资助的非盈利机构,直到12月20日才透露OpenAI支持了FrontierMath的创建。FrontierMath是一个专家级问题设计的测试,旨在衡量AI的数学能力,是OpenAI用来展示其即将推出的旗舰AI o3 的基准之一。

在LessWrong论坛上,一位使用用户名“Meemi”的Epoch AI承包商表示,直到公开之前,许多FrontierMath基准的贡献者都没有被告知OpenAI的参与。

“关于此事的沟通是不透明的,”Meemi写道。“在我看来,Epoch AI应该披露OpenAI的资助,承包商在选择是否参与基准时,应该明确了解其工作可能被用于的能力。”

一些社交媒体用户表达了对这种秘密可能会损害FrontierMath作为客观基准的声誉的担忧。除了支持FrontierMath外,OpenAI还了解了基准中许多问题和解决方案的情况 — Epoch AI在12月20日宣布o3之前没有透露的事实。

斯坦福大学数学博士生Carina Hong在X上发表的一篇文章中声称,由于OpenAI与Epoch AI的安排,OpenAI对FrontierMath拥有特权访问权,而这并没有使一些贡献者满意。

Epoch AI副董事长之一及该组织创始人Tamay Besiroglu在回复Meemi的帖子时表示,FrontierMath的完整性没有受到损害,但承认Epoch AI在透明方面“犯了一个错误”。

“我们受限于直到o3推出时才披露伙伴关系,回过头看,我们应该更加坚决地争取尽快向基准贡献者透明。我们的数学家们应该知道谁可能会访问他们的作品。尽管在合同上我们受到限制,但我们应该使透明与我们的贡献者成为与OpenAI协议的不可谈判的一部分。”Besiroglu写道。

Besiroglu补充说,虽然OpenAI可以访问FrontierMath,但与Epoch AI有一个“口头协议”,不使用FrontierMath的问题集来训练其AI。(在FrontierMath上训练AI就像是在教考试。)Besiroglu表示,Epoch AI还有一个“独立保留集”,可作为对FrontierMath基准结果进行独立验证的额外保障。

“OpenAI已经充分支持我们决定保留一个独立、不可见的保留集,”Besiroglu写道。

然而,Epoch AI首席数学家Ellot Glazer在Reddit上的一篇帖子中指出,Epoch AI尚未能够独立验证OpenAI的FrontierMath o3结果。

“我个人认为[OpenAI]的得分是合法的(即,他们没有在数据集上训练),而且他们没有动机在内部基准表现上撒谎,”Glazer说。“不过,在我们独立评估完成之前,我们不能为他们担保。”

这一事件再次说明了开发用于评估AI的经验基准的挑战,并且需要确保基准开发所需的资源,而不会造成利益冲突的印象。