先问鸭宝们一个数学问题:9.9和9.11谁大?
![](http://p0.img.360kuai.com/t110df81bbcc576197d5a1caaca.jpg)
号称可以取代大部分打工人的大模型,居然搞不定小学数学吗?咱们直接上手测试一波。
![](http://p1.img.360kuai.com/t110df81bbca99260117aed8d4c.jpg)
率先出场的是GPT-4o,结果成功辜负了鸭鸭的期待。
先是一口咬死9.11比9.9大。
![](http://p1.img.360kuai.com/t110df81bbc8329e781ad1adc6f.jpg)
在被鸭鸭质疑后,还是坚持自己看法,并给出了一个离谱的解释。
![](http://p2.img.360kuai.com/t110df81bbcadae55bea2a745e5.jpg)
该说不说,鸭鸭突然理解了说9.9比9.11小的脑回路。
即使在鸭鸭指出他的错误后,GPT重新给出了正确的过程,然后依旧报了一个错误的答案……
![](http://p2.img.360kuai.com/t110df81bbc0e08542ab91bd5d4.jpg)
最后鸭鸭表示“你去小学深造一下吧”,GPT还挺有礼貌的道歉了,但就是死不认错,主打一个头铁到底,嘴是真的硬。
![](http://p2.img.360kuai.com/t110df81bbc65b3a711949fc3db.jpg)
看到GPT这个症状,基本上可以弃疗了。
以后说人数学不是很好:
低情商:你数学是体育老师教的吧?
高情商:你的数学水平比肩GPT!
![](http://p2.img.360kuai.com/t110df81bbc98f51c9e7bd2b3f6.jpg)
测完GPT,鸭鸭顺手测试了一波其他国产大模型,基本上都能给到正确答案。
![](http://p2.img.360kuai.com/t110df81bbc1e5e4ad7bbcbc47e.jpg)
从上到下依次为:天工大模型、讯飞星火、豆包、
通义、元宝、文心一言。
这个正确率就算是看了热搜紧急修复的,那也可以说是迭代速度很快了。
只有Kimi先是给出了一个错误答案。
![](http://p0.img.360kuai.com/t110df81bbc8a8441782abe5a2e.jpg)
给出的解释也很离谱:
![](http://p1.img.360kuai.com/t110df81bbc4f22ea30a246dff2.jpg)
在被鸭鸭质疑之后,光速道歉然后修改了答案。
![](http://p2.img.360kuai.com/t110df81bbcc68941025069a77a.jpg)
然而就当鸭鸭想着再质疑一次,结果Kimi又立刻修改了答案。
![](http://p2.img.360kuai.com/t110df81bbc8cc698748d56aa03.jpg)
主打一个灵活多变,你说啥就是啥
![](http://p2.img.360kuai.com/t110df81bbc9467825b691d34b5.jpg)
不过这也比GPT-4o头铁到底,死不认错好多了。
![](http://p0.img.360kuai.com/t110df81bbce9bbaf75c8612c30.jpg)
说到底为啥GPT的数学能力这么拉呢?
这个咱们就要分情况来说了,GPT-4o可以说是面对小学数学我唯唯诺诺,面对高数积分我重拳出击。
先算一道定积分来证明一下实力。
![](http://p0.img.360kuai.com/t110df81bbc5a67a801084c1683.jpg)
GPT的数学能力属于是介于好与差之间,呈现“拉胯二象性”。
对此GPT-4o给出的解释是:
![](http://p0.img.360kuai.com/t110df81bbc429354f77c723e14.jpg)
实际感受也符合GPT的说法,一般情况下GPT可以提供一个大概的解题思路,但一到数字的具体运算上就拉胯了。
![](http://p2.img.360kuai.com/t110df81bbcba0d71105e8b7b3a.jpg)
至于为啥好不好的大家都开始拿这个数学题来折磨AI了呢?
据说是《歌手》的第十期演出排名出来后,网友最大的关注点反而在孙楠13.8%的成绩在外国歌手13.11%之上。
有网友发出了灵魂拷问“13.8%比13.11%高?我请问呢?”
![](http://p2.img.360kuai.com/t110df81bbcbad7bdbdae721889.jpg)
图片来源:抖音(下同)
这个问题直接给广大网友CPU干烧了,各种反串浑水摸鱼的满天飞。
![](http://p0.img.360kuai.com/t110df81bbcaa95306b980f1758.jpg)
然后就有人想到了,可以去问问AI。
不过真要鸭鸭说,这些大模型给出的解释都弱爆了。
这张微信支付余额截图,直接杀死比赛堪称最直接的证明
![](http://p1.img.360kuai.com/t110df81bbce7570dd6d1245702.jpg)
![](http://p2.img.360kuai.com/t110df81bbc16672f311d07e3d7.jpg)
你早这么教,鸭鸭不就会了吗?
![](http://p0.img.360kuai.com/t110df81bbcb30fb432027eb800.jpg)
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com