o1 Pro挑战最难本科数学考试,36分钟16秒交卷

o1 Pro挑战最难本科数学考试,36分钟16秒交卷

2024-12-0915:18:42 来源:量子位

一共12道题,比赛规定用时6小时

o1 Pro挑战最难本科数学考试,人类要考6小时,AI半小时交卷!

普特南数学竞赛(The Putnam exam),今年刚刚举行,卷子新鲜出炉就被拿来测试AI了。

这个比赛有多难呢?看了一下历年成绩,只能说令人咂舌——

通常由数学专业的本科生参加,满分120分,但平均分通常是0分或1分。

自1938年举办以来,截至2021年只有5人满分。

再看一组2003年的数据,在3615名参赛学生中,有1024人(28%)得分10分或以上,42分就能进入前1%。

最终,个人得分前五名的学生获得普特南学者称号。而经过这种难度的“磨炼”,普特南学者中后来诞生了3位菲尔兹奖得主以及两位诺贝尔物理学奖得主。

总之一句话,即使对美国顶尖大学的顶尖数学学生来说,这个比赛的难度都堪称地狱级。

所以,o1 Pro具体表现如何呢??

o1 Pro挑战最难本科数学考试

普特南数学竞赛于每年12月的第一个周六举行,总共上下两场(每场3小时),每场6道题,每题10分,考查范围覆盖了本科数学中的高级概念,包括群论、集合论、图论、格论和数论等。

由于刚考完,官方还未正式公布今年的参考答案,所以下面我们先整体感受一下。

从时间来看,Pro完成12道题用时36分钟16秒,交卷速度非常快,平均每道用时2~3分钟。

完成的题也很复杂,随机挑一道康康。

比如这道A6,需要考生通过序列所生成的函数,来构建矩阵,并最终计算出这个矩阵的行列式。

这是一个典型的组合数学和线性代数的交叉问题。

最终,Pro给出了一大堆让人头疼的数学公式进行解答。(非专业选手两眼一黑的程度)

为了进一步了解Pro的答题过程,我们再挑一道网友们都在cue的题——A1

原题及Dan Hendrycks博士输入的提示词如下:

大意为,确定所有正整数????,使得存在正整数????,????和????满足下列方程。

Pro的作答过程如下,并得出答案为1:

结合网友们给出的评价,均提到Pro漏掉了n=2这种情况。

总之,从大家对Pro的打分来看,其回答质量仍有待进一步完善。

由于目前还没有标准答案,因此AI究竟做对了多少还要等等结果。

除此之外,首位全职提示词工程师Riley Goodside也对o1 Pro模式进行了其他诸多测试。

挑战指令跟随的极限

比如用它设计一个7×7的网格,网格的外围一圈填入7个字母的单词,这些单词代表Fantastic Four(神奇四侠)中每个成员的昵称。每个单词的首尾字母需要重叠,以便可以顺时针方向连续阅读,形成闭环。

PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隐形女(Invisible Woman)、霹雳火(Human Torch) 、石头人(The Thing)。

看完这个测试,有网友借机许愿:

是否能够根据每个玩家剩余的棋子列表,创建一个checkmate(指另一方无法解围的情况,也称“将死”)的棋盘。

受此启发,Riley Goodside转头就测上了。

他用Pro摆出了一个“将军”格局——每位玩家只剩下两个兵和一个车,棋盘上其他格子都是空的。(布局是人为设计的)

就这,还是他一番努力尝试后的结果。他一开始用了两个兵、两个象和一个车的棋局,但在多次尝试中,Pro出现了错误,或者返回了不符合的棋局。

不过他也提到,在5分45秒的时间内,Pro生成了与答案大致一致的COT思维链解释。

总之,要问定价200美元的Pro到底值不值?

还是参考奥特曼的回答,绝大多数人用免费版或20美元版就足够了,Pro版只适合很小一部分人,他们想要大量使用,且愿意为解决真正困难的问题付更多钱。

One More Thing

不过,如果你也心痒想要玩一玩,现在有个省钱的方法。根据网友提醒——

月底买Pro,只需按比例支付了。

具体来说,如果你之前订阅了ChatGPT Plus,如果在订阅接近结束时升级到Pro版,就可以在剩余时间内按照200美元的百分比支付。

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。