如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-26 02:55:10

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
最后一刻的停火:三星与工会如何拆除“AI时代的炸弹引线”_奖金_员工_谈判

最后一刻的停火:三星与工会如何拆除“AI时代的炸弹引线”_奖金_员工_谈判

对于芯片工程师而言,他们赢下了至关重要的一役——在这一全新的激励机制下,过去奖金为基本工资50%的天花板被打破。如果底层的普通员工认为工会高层在最后一刻向管理层妥协、在从15%退让到10.5%的过程中让渡了底…...

2026-05-24
三星与微软正式宣布:OneDrive Gallery 同步功能将于2026年9月30日终止

三星与微软正式宣布:OneDrive Gallery 同步功能将于2026年9月30日终止

【环球网科技综合报道】5月26日消息,三星与微软宣布,OneDrive Gallery 同步功能将正式走向终结,截止日期锁定为2026年9月30日...

2026-05-26
雷军喊话,大家快换手机_产能_存储_价格

雷军喊话,大家快换手机_产能_存储_价格

单台AI服务器DRAM用量是传统服务器的8-10倍,2026年全球服务器端DRAM需求增速达39%,三大存储巨头(三星、SK海力士、美光)将70%-80%先进产能转向HBM(高带宽内存)和高端DDR5,直接挤…...

2026-05-24
马斯克造芯片,黄仁勋“反对”_特斯拉_Terafab_制造

马斯克造芯片,黄仁勋“反对”_特斯拉_Terafab_制造

一周前,他就在社交媒体预热此次发布会,核心信息是他决定建造芯片工厂,预算为200亿-250亿美元,这是一笔巨资。 班农是特斯拉定制芯片部门的负责人,他于2025年8月离职,而同一个月,马斯克取消了整个Doj…...

2026-03-27
“吴妈”口中的战略支柱还是蒋凡_阿里_零售_App

“吴妈”口中的战略支柱还是蒋凡_阿里_零售_App

如果一切顺利,对话式购物将首次在大促级别的流量压力下完成验证,千问有望在淘宝的交易链路上真正建立起用户心智;如果不尽如人意,这次打通可能退化为又一个“淘宝问问”,在财报电话会上被一笔带过,然后在下一轮组织调…...

2026-05-24