OpenAI的o3 AI模型的第一方和第三方基准测试结果之间的差异引发了人们对该公司透明度和模型测试实践的质疑。OpenAI于12月发布o3时,声称该模型能够解答FrontierMath(一组颇具挑战性的数学问题)中略高于四分之一的题目。这一成绩远远超出了竞争对手——排名第二的模型也只能正确解答FrontierMath题目的2%左右。
/lS5B6NU
_C3O^/<n4V OpenAI首席研究官Mark Chen在直播中表示:“目前,所有产品在FrontierMath上的得分都不到2%。我们内部看到,在激进的测试时间计算设置下,o3的得分能够超过25%。”
kBeYl+*pk 3\ {?L 事实证明,这个数字很可能是一个上限,由o3的一个版本实现,其背后的计算能力比OpenAI上周公开发布的模型更强。
|)65y
&[z<p FrontierMath背后的研究机构Epoch AI周五公布了其对o3的独立基准测试结果。Epoch发现o3的得分约为10%,远低于OpenAI宣称的最高得分。
r_hs_n!6 8-"D.b4 这并不意味着OpenAI本身撒了谎。该公司12月发布的基准测试结果显示,其得分下限与Epoch观察到的得分一致。Epoch还指出,其测试设置可能与OpenAI不同,并且其评估使用的是FrontierMath的更新版本。
QJy1j~9x 6r.#/' " Epoch写道:“我们的结果与OpenAI的结果之间的差异可能是由于OpenAI使用更强大的内部支架进行评估,使用了更多的测试时间[计算],或者因为这些结果是在FrontierMath的不同子集上运行的(frontiermath-2024-11-26中的180个问题与
8F
K%7\V 6z5wFzJv?q frontiermath-2025-02-28-private中的290个问题),”
g#q7~#9 Itz[%Dbiq9 根据ARC奖基金会(一个测试过o3预发布版本的组织)在X上的一篇文章,公共o3模型“是一个针对聊天/产品使用进行调整的不同模型”,证实了Epoch的报道。
JT! Cb$! K!,9qH ARC Prize写道:“所有已发布的o3计算层都比我们[基准测试]的版本要小。”一般来说,更大的计算层有望获得更好的基准测试分数。
M%YxhuT0 YB1Jv[ OpenAI的技术人员周文达(Wenda Zhou)在上周的直播中表示,与12月演示的o3版本相比,生产版o3“针对实际用例进行了更优化”,速度也更快。因此,它可能会表现出基准测试的“差异”,他补充道。
l*
z"wA- USg,=YM “我们已经做了一些优化,使这个模型更具成本效益,并且总体上更有用,”周说道。“我们仍然希望——我们仍然认为——这是一个更好的模型[…]当你需要答案时不必等待太久,而这些[类型的]模型确实做到了这一点。”
jf.WmiDC jcp6-XM 诚然,o3的公开发布未能达到OpenAI的测试承诺这一事实有点无意义,因为该公司的o3-mini-high和o4-mini模型在FrontierMath上的表现优于o3,而且OpenAI计划在未来几周推出更强大的o3变体o3-pro。
tM|/OJ7 BJt]k7ku+ 然而,这再次提醒我们,最好不要只看表面价值来理解人工智能基准——尤其是当其来源是一家出售服务的公司时。
'=`af>Nc zZW5M^z8 随着供应商竞相利用新模型吸引眼球并抢占市场份额,基准测试“争议”正在成为人工智能行业的常见现象。今年1月,Epoch因迟迟未披露OpenAI的资助而受到批评,直到OpenAI宣布o3项目后才披露。许多为FrontierMath做出贡献的学者直到OpenAI公开宣布后才得知此事。
P(.XB` {%\@Z-9%q, 最近,埃隆·马斯克的xAI被指发布了其最新AI模型Grok 3的误导性基准图表。就在本月,Meta承认其吹捧的模型版本基准分数与该公司向开发人员提供的版本不同。
n/{ pQ&B