如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

2025-06-20 05:15:09

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
广告位810*200
相关阅读
Flutter 为什么没有一款好用的UI框架?

Flutter 为什么没有一款好用的UI框架?

有, 而且很高质量! (辛苦整理全是收藏,没有关注点赞和评论...

2025-06-29
阿里京东美团烧了800亿 马化腾:腾讯抗不住 已从美团京东投资中退出_竞争_零售_大战

阿里京东美团烧了800亿 马化腾:腾讯抗不住 已从美团京东投资中退出_竞争_零售_大战

阿里京东美团烧了800亿 马化腾:腾讯抗不住 已从美团京东投资中退出_竞争_零售_大战...

2026-01-27
日常办公中,选24寸2K分辨率的显示器好还是27寸4K的好?

日常办公中,选24寸2K分辨率的显示器好还是27寸4K的好?

题主你问问题前,有调查过市场吗? 24寸4k比27寸4k贵,...

2025-06-29
中国科学家全球首创“纤维芯片”,对现有芯片有何影响_集成电路_器件_应用

中国科学家全球首创“纤维芯片”,对现有芯片有何影响_集成电路_器件_应用

如何在纤维上实现高效信息处理功能,但又不影响纤维器件柔软、适应复杂形变、可编织等本征特性,复旦大学团队的最新成果为纤维器件实现规模应用提供可能。 研究团队介绍,未来围绕“纤维芯片”研究,仍然还有很多工作要做,…...

2026-01-22
华为破了vivo的金身_市场_系列_影像

华为破了vivo的金身_市场_系列_影像

近年来,中国智能手机市场呈现出两个特点:一是高端化,600美元或4000元人民币以上的手机市场份额提升到了31.1%(截至2025年第三季度),二是从增量时代迈入存量时代,2025年中国出货量同比下降0.6…...

2026-01-23