本文来自:APPSO (ID:appsolution),作者:APPSO,原文标题:《GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI》人不能同时踩两个坑,但OpenAI做到了。GPT-5发布会上,OpenAI因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。表面上看,GPT-5在SWE-bench Verified测试中拿下74.9%的成绩,似乎压了Claude一头,但知名分析机构SemiAnalysis却发现这图表里还藏着别的猫腻。(左为新版图表,右为旧版出错图表)给吃瓜的朋友先科普一下,SWE-bench Verified是什么?简单说,这是个专门测试AI写代码能力的考卷,里面有500道实战题。每道题都来自GitHub上的真实bug,主要是Python项目——Django、matplotlib、scikit-learn等。AI要像真正的开发者一样提交Pull Request来修复bug,还得通过所有测试用例。尽管模型可能存在只是「记住」了仓库代码的情况,而不是真的具备广泛的编程推理能力,但业内仍普遍认为,这是最接近真实开发场景的AI测试之一。Anthropic很实诚。8月6日发布Claude Opus 4.1时,他们明确表示:所有Claude 4系列的成绩都是老老实实做完500道题算出来的,Claude Opus 4.1得了74.5%。OpenAI呢?74.9%的成绩看着更高,但仔细一瞧——他们只做了477道题。少了整整23道。于是,SemiAnalysis直接开始算账:500道题考74.9%,大概答对了374.5道。但OpenAI在标注里白纸黑字写着——他们只跑了477道题。那23道哪儿去了?OpenAI的解释是:「这些题在我们现有的基础设施上无法运行。」有意思的是,OpenAI很敞亮,至少说了是477道题。但又不是很敞亮——别家都是500道题的标准套餐,你少做23道,还把分数挂在最显眼的地方比较,这就有点微妙了。而这已经不是OpenAI第一次这么干了。今年4月发布GPT-4.1时,OpenAI就承认过这事儿。他们还做了个「保守估算」:如果把那23道没做的题都算0分,GPT-4.1的成绩会从54.6%跌到52.1%。那问题来了,这23道题到底是题目本身有问题,还是技术上确实搞不定?更关键的是,这些题难不难?如果恰好都是难度较高或者能拉低整体表现的题目,那GPT-5和Claude Opus 4.1的对比就没那么公平了。值得一提的是,SWE-bench Verified这个测试集本身是由OpenAI在2024年推出。OpenAI说,原始的SWE-bench数据集里有些题实在太难,几乎无法解决,会让AI的真实能力被低估。为了让测试更合理,OpenAI大手笔请了93名程序员,给1699道题目打分。评分标准是0到3:0分:题目清晰,AI能直接理解1分:需要额外解释2分:题目模糊,有多种理解方式3分:没有额外信息基本做不了然后,OpenAI把所有2分和3分题都扔了,只留下0、1分的题目。然后从中随机抽了500道,这就是SWE-bench Verified——一个经过「净化」的测试集。这也就导致OpenAI既是裁判又是选手。他们制定规则,然后用自己定的规则来比赛。如果去swebench.com看原版排行榜,我们可能反而更清楚。这里的测试环境更加「原汁原味」,此外,这个榜单对模型能用的外部工具有限制——只能用bash命令行,不能调用更多开发工具或额外服务;测试框架也都是公开的。而在这个榜单上,5月14日版本的Claude 4 Opus反而领先于GPT-5。说到「内部版本」和「公开版本」的差距,今天OpenAI又秀了一把肌肉。他们的内部推理模型在IOI 2025(国际信息学奥林匹克竞赛)上拿到AI组第一、人类总排名第6。并且,这个模型跟上次拿IMO金牌的是同一个版本,没有专门针对IOI做额外训练。成绩确实很强——5小时、50次提交、不联网的限制下还能拿金牌,算法推理和代码生成能力相当可怕。但问题又来了:这不是你能用到的GPT-5,而是OpenAI内部的「实验室版本」,可能更大、更强、成本也更高。所以你看,OpenAI在营销上确实很会玩——SWE-bench上少做23道题,但把分数放在最显眼的地方;IOI上用内部模型拿金牌,但很容易让大家以为这就是ChatGPT的实力。在AI竞赛白热化的今天,零点几个百分点的差距都能成为营销亮点。测试范围、题目选择、计分方式,每个细节都可能被放大镜审视。当然,也有网友指出,为了一个基准测试上2%的差异吵得不可开交没啥意义,GPT-5的价格比Opus便宜10倍,比Sonnet也便宜近2倍。或许对大多数用户来说,这才是真正的「硬指标」。
- 关于AEB什么时候不能用我们翻遍了各家的说明书
- 早报小米辟谣雷军致用户和公众的一封信6月发售任天堂Switch2发布蔚来乐道总裁艾铁成离任
- 高通发布第四代骁龙8s移动平台专为轻旗舰设计
- 预计售价维持2099万元极氪007GT想守住猎装车的擂台
- Meta新款智能眼镜曝光摄像头大升级支持隔空操作价格比肩顶配iPhone
- 早报华为营收时隔4年再破8000亿元小米武汉汽车工厂更多细节公布iOS184更新苹果AI中文版回归
- 1398万元比亚迪钛3开启预售方程豹这次不玩越野了
- 小米SU7高速事故后起火导致3人死亡官方回应
- 29米轴距只卖1398万元长安启源Q07要做20万以内最好的SUV
- 任天堂Switch2最全汇总不锁区版3200元支持4K游戏还有这些升级你要知道
- 不再满足于追赶光学OPPO的凝光影像正在以计算重新发明光学
- 小鹏和蔚来给出了新势力生存战的两种答案
- 在国内最重要的电动汽车大会上雷军和何小鹏各有自己的算盘
- 换电救不了的乐道准备转投增程
- iOS18迄今最大更新推送实测苹果的55G有什么不同
- 售价下探至40万硬派越野Jeep威利斯即将上市
- lululemon这件运动T恤为何连F1冠军也爱穿
- 早报曝iPhone17Pro长焦大升级上线表情包语音引用回复美团为骑手补贴养老保险
- 早报雷军回应小米SU7高速碰撞事故官方发文回答相关疑点携程正式启动3天陪娃假OPPO发布首个影像品牌
- 宝马绝不背叛驾驶
- 早报曝iOS19将采用圆形图标奥迪等多家车企暂停对美出口汽车灭绝超万年的恐狼被成功复活
- 最贵的一辆五菱宝骏享境预售1328万元起
- AI圈今年最大丑闻曝光Llama4被揭训练作弊实测惨遭滑铁卢核心骨干愤然离职
- Switch2首批真机试玩来了画质玩法有亮点但我不建议你今年买
- 他们把宇树的网红机器狗剥皮拆骨发现了它倒立行走的秘密
- 早报在美制造iPhone可行性遭多方质疑坚决不会开通已读功能vivoX200Ultra配备全新影像套装
- Midjourney重磅更新又一个言出法随的AI生图神器附10场景演示缺陷整理
- 早报曝iPhone19Pro外观将有重大变化微软否认退出中国市场小米辟谣保险公司拒绝投保传闻
- 曾售80万一辆现代集团还没放弃氢能源汽车的梦想
- 东风纳米06首秀小车大空间10万元级就有天地门
- 1798万元起售北汽BJ40e正面迎战坦克300Hi4T
- 在美国造iPhone根本不现实
- AI不是来当员工而是来当老板的46个AI金句
- 早报iPhone在美价格最高或涨至16万元雷军谈小米15周年这只是开始天津社保卡支持坐高铁
- 实测超火的AI浏览器Dia我看到了浏览器未来的iPhone时刻
- 智能手表的鼻祖不再智能了但它战胜了时间明日标本
- 未来你买到的iPhone将完全由可再生材料制成
- 3598万元起问界M8正式开售余承东要创造一个新奇迹
- 50颗传感器700线激光雷达岚图首款L3级别MPV将在年内推出
- 豆包深度思考模型正式发布和o3一样能看图思考还有一个Agent大招
- 早报黄仁勋希望继续与中国合作豆包15深度思考模型发布小米回应博主质疑车辆已安排过生产未提车已构成违约
- 吉利银河E5成功通过严苛碰撞测试中国品牌首获双五星
- iPhone在干掉USB接口之前苹果要先发明下一个AirPods
- 全球首位机器人马拉松冠军诞生那些翻车名场面才是这场比赛最有价值的收获
- 早报首个AI助手上线曝马斯克对汽车没兴趣Model2被取消小米YU7确认缺席上海车展
- 刚刚OpenAI最强推理模型o3发布首次能用图片思考奥特曼天才水平附实测细节
- 早报全球首场机器人马拉松开跑曝苹果专利将改善iPhone拍照鬼影认养一头牛争议广告暂不考虑撤掉
- 1338万元起方程豹钛3正式上市前脸还能自己改
- 地平线发布征程6P智驾芯片20万元车型可获得超1000Tops算力
- 智己L6开启预售2199万元起就有AIAgent和四轮转向
- 1318万元起二代哈弗枭龙MAX全系标配Hi4四驱系统
- 1999万元的广汽本田P7说服自己可以但说服市场够呛
- 直降16万479万元起全新沃尔沃XC90大降价新增6座车型
- 三排六座混动大SUV2025年中国汽车市场的版本答案
- 2998万元智界R7增程版上新能跑近1700公里
- 华为智驾鸿蒙座舱广汽传祺向往M8乾崑亮相
- 更运动的3系更锐利的X5和重塑的1系新世代的宝马依旧想让你开起来
- 专访帝瓦雷CEOJacquesDemontAI不仅对我们的产品重要对公司每一个方面都是
- 8英寸的小平板很好但我看不到它的未来
- 告别复古内饰奥迪新Q5LA5LA5LSportback亮相并将搭载华为智驾
- 制糖工厂推出小电拼Core玲珑其表硬核其中重塑新世代数字生活电能体验
- 实测文心45TX1双Turbo模型百度砍一刀把DeepSeek也卷飞了
- MINI的高性能车也进入了纯电时代
- 尊界S800内饰公布劳斯莱斯同款星空顶这次真的很尊
- 早报猿辅导回应武汉员工公司内猝死iPhone17或标配12GB内存京东外卖辟谣要求商家承担50补贴
- 早报英特尔本周或将宣布裁员超2万人曝苹果Siri团队大换血董明珠点名小米汽车格力电车跑了十几年从未起火
- 起售价或低于9万元零跑B01已经预定了下一个爆款
- 早报小红书取消大小周官方介入调查猿辅导员工猝死事件京东外卖日单量破千万
- 柴油也是新能源长城汽车自研40TV8发动机亮相
- 新一代雷克萨斯ES发布还有一辆用了鸿蒙座舱的丰田铂智7
- 我在小红书上发现了这些脑洞的AI应用附产品推荐
- 日产发布纯电轿车N7和一辆插混皮卡2年内还会推出9款新能源车
- 制糖工厂小电拼App今日启动公测进一步提升用户体验
- 腾势Z跑车加长仰望U8L王朝海洋概念车比亚迪来了一场新车轰炸
- 告别一眼假这下数字人终于会思考和能协同
- 国补到手价是今年最值得警惕的五个字附国补攻略
- 五一出行我劝你别用机场火车站的免费充电线
- ROG魔霸9X游戏电脑体验强悍的游戏性能只为打造情绪价值机器
- 早报小米开源首个推理大模型苹果AirPlay漏洞曝光影响百万设备扎克伯格回应Llama4造假质疑
- 上海车展最便宜的旗舰轿车是这辆1258万元的宝骏享境
- 限时2899万元起领克900正式上市还送碎屏险
- 终于跳出油改电日产N71199万元起售
- 中杯LYRIQ大杯VISTIQ超大杯ESCLADEIQ凯迪拉克电动化主打以不变应万变
- ChatGPT突变赛博舔狗百万网友炸锅奥特曼紧急修复这才是AI最危险的一面
- 早报iPhone20周年纪念版或继续中国生产保时捷CEO未将小米当对手ChatGPT支持购物功能
- 早报华为Q1中国智能手机市场份额第一贾跃亭将用股权收益还债QQ支持小程序
- 体验了美图这个AI修图工具我发现它会是商业人像摄影师的新同事
- 天地门大空间东风纳米06预售899万元起
- 我在通义APP体验了全球最强开源模型Qwen3它改变了我对国产AI的期待
- 早报雷军谈小米时隔十年重夺第一京东外卖将招聘十万名全职骑手华为牵头提出智能辅助驾驶安全倡议
- 上海车展里的广汽本田烨GT展示了华为光场屏的新用法
- 持续投入九年这项服务如何打造出城市避风港
- 早报曝iPhone17部分机型完成工程测试魅族高管回应新机被指抄袭华为瑞幸不会出现不同手机价格不同
- 117度电800V架构路虎揽胜纯电版姗姗来迟
- 雷军内部讲话再谈三月交通事故15岁的小米不再是行业的新人
- 早报苹果今年或实现脑机接口操控iPhone京东美团饿了么被约谈小米车主喊话雷军保持真诚
- 早报雷军小米自研芯片玄戒O1五月见苹果CarPlayUltra上线华为官宣鸿蒙折叠屏电脑
- 早报曝iOS19将用AI提升续航特斯拉副总谈家长控制奇瑞高管称吉利新车是烂车双方回应
- 鸿蒙电脑靠国产软件能用起来吗
- 没人再说理想落后了
- 早报成立电商产品部京东回应外卖系统崩溃国内首家破产5A景区获游客点赞
- 加量不加价蔚来新ES6EC6338万元起售能力向ET9看齐
- 坦克碾碎特斯拉员工逼宫马斯克提出问题的人已被解决
- 1227万元起零跑C10焕新上市细数四大进阶
- OpenAICEO最新访谈20岁和35岁的人用ChatGPT的方式完全不同
- 3098万元起售魏牌全新高山上市说要让每位乘员都舒服
- 索尼WH1000XM6首发评测一款迟到三年的索尼旗舰降噪耳机
- 苹果CarPlayUltra正式发布可控制车辆功能阿斯顿马丁首发搭载
- 卷王吉利再发力新博越L售价下探至929万元
- 136匹马力卖40万新一代奔驰GLB大幅升级
- 投入16年仍未见回报Robotaxi离自动驾驶的终极梦想依旧遥远
- 苹果提前公布iOS19功能为13亿少数人群而来
- 华为鸿蒙电脑要抓住可能性也要抓住确定性
- 早报雷军内部演讲再谈小米SU7事故曝英伟达或在上海设立研究中心Manus上线图像生成功能附体验实测
- 早报小米YU7登场自研芯片惊喜亮相曝苹果智能眼镜明年推出高合汽车获一亿美元成立新公司
- iQOOPad5Pro专注打游戏也当生产力新品画报
- 小米YU7正式亮相天际屏首秀雷军的豪华高性能SUV来了
- 双鸿蒙齐上车深蓝S092399万元起售还有一年价保期
- 国产浏览器终于放下门户网站的残念彻底拥抱AI
- 马斯克我将继续执掌特斯拉除非死去
- 1159万元起售东风奕派007的续命策略是加量降价
- 实测小米自研玄戒芯片能打得过高通骁龙8Elite吗
- 早报OpenAI与苹果前首席设计官宣布合作小米卢伟冰玄戒芯片不止一款钟睒睒农夫山泉所有产品都无法代工
- 小米YU7明日发布官宣搭载天际屏还有一个全新车漆
- OPPOReno14Pro全5000万像素四摄将LivePhoto拉进4KHDR时代新品画报
- 雷军发布自研大芯片小米手机告别组装厂
- 卷完供应链中国企业开始卷起了全球云和AI
- 极限测试豆包视频通话聊了一天一夜后我发现事情并不简单
- 影石X5体验影石最全能的旗舰征服夜拍的全景相机
- 正在复读的乐道能考上清华北大吗
- iQOONeo10Pro性能旗舰的超大杯性能顶级续航全能新品画报
- 欧盟的这张小贴纸将改变未来手机的设计方式
- 车企为什么抢着给用户当爹
- 长安东风重组按下暂停键第三家汽车央企或将到来
- 极飞发布的新农业无人车可以让你在空调房里远程种地
- 苹果发布全新CarPlay体验全面革新还有一个Ultra版本
- 不是o3Pro但ChatGPT刚刚发布的新功能成了打工人最靠谱的第二大脑
- iPhone系统最激进更新来了iOS26变玻璃iPad迎史诗级升级苹果AI明年再说
- 前苹果设计师无意曝光了iPhone的新软件设计
- 加量又降价26款零跑C16开启预售大满配维持1898万元
- 早报多地国补出现暂停申领华为Pura80外观亮相特斯拉市值蒸发超万亿
- 专访德国高仪鲍海峰我们不仅塑造水的形态更创造与水相关的体验
- 大模型token太贵了苹果直接给开发者费用全免
- 早报前苹果设计师发布iOS26概念图白象食品就多半是商标道歉三星官宣Ultra大折叠
- 小米SU7Ultra入驻GT赛车是中国汽车最成功的一次文化出海
- 任天堂Switch2开箱上手画质有惊喜但续航是大问题
- 移动影像的下半场需要什么样的引路人
- 吉利开火怒怼比亚迪王传福我们就这样做人也是这样做事
- 小鹏联手华为最强车道级HUD发布小鹏G7首发搭载
- 早报苹果iOS26正式发布曝马斯克的星链卫星大批坠落胖东来员工人格尊严受损最高补偿10万元
- 早报全球首位满级QQ用户诞生曝iPhoneXSXR或无缘iOS26员工高烧请假被辱骂CEO回应
- 早报曝iOS26为20周年版iPhone打造泡泡玛特创始人成河南新首富吉利副总痛批以卷为荣
- 刚刚11个AI鲁迅大战2025高考作文谁能得满分
- 小米YU7首测当一台性能猛兽开启了顾家模式
- 头文字D上映20周年AE86土屋圭市与青春酷尽
- 支付宝这个新的AI应用终于让我妈不再转发奇怪的养生文了
- Fairphone6发布能换电池的手机找到了模块化设计的新方向
- 早报高考成绩出炉宇树王兴兴报考建议火了雷军预计小米YU7会和SU7一样火爆苹果官网上线国补
- 发布不到1天就翻车Google这个免费AI编程产品不是又一个换皮Claude
- 小米AI眼镜全汇总年轻人的第一幅智能眼镜终于要上头了
- 小米YU7是真正的ModelY杀手
- 小米YU7明日上市雷军的ModelY杀手比SU7贵了不止两三万
- 黑莓Passport秽土转生1999元你会买吗
- 直降14万改款沃尔沃XC60降至2549万元起内外安全再强化
- 早报小米YU7一小时大定破289万台民航局禁止携带这类充电宝坐飞机宾利回应槟榔联名未授权未认可
- 早报小米AI眼镜新功能亮相2099元起英伟达发布RTX5050顺丰回应禁寄充电宝
- 预售2299万元岚图FREE想靠鸿蒙座舱和华为智驾月销2万
- 3分钟大定破20万台小米YU7创造了世界汽车史的新纪录
- 小米MIXFlip2首发体验是性能最强小折叠也是小米拍立得
- 早报小米YU7锁单量破24万台雷军远超预期上海机场辟谣禁带相机电池曝M5iPadPro十月发布
- vivo发布的这台折叠屏是送给iPhone用户的特洛伊木马
- 断网都没用机器人终于摆脱人类控制Google首发离线AI大脑一句话让它干活
- 病毒为何选择定制的昆虫便车科学家尝试乱点鸳鸯谱有了新发现
- 90后辍学生16个月收入翻20倍的秘密AI原生100
- AI开始重组互联网大厂了
- 量子产业化日本下血本了
- 没有博士学位也不是科班出身他的跨界作业却赢了圈内高赞
- JackClark美国AI政策的隐形推手时代的良心还是囚徒
- AI版的OnlyFans要抢走福利姬饭碗了
- 人造太阳有多难
- 不要拿AI造工具要建设新关系
- 年薪1亿美元的AI研究员何许人也
- 香港特斯拉降价狙击内地电动车
- 特斯拉英伟达机器人背后的卖水人
- 一句隐藏提示词引爆学术圈明星教授被曝骚操作让AI给好评刚刚发文反思
- 地球在变暖这群人却用冰做硬盘
- 这款AI浏览器让我惊喜又有点后怕
- 聊聊扎克伯格疯狂的天价抢人
- 专访爱德华威滕我是个幸运的离经叛道者
- 被AI霸凌失去连接词自由后我找到了AI写作最大的秘密
- 牧师政客与性服务者AI取代不了的人
- MIT如何做硬科技技术转化
- 小扎1亿美金挖角OpenAI天才华人工程师身价为何能媲美C罗
- AI分身24小时营业OnlyFans网红躺赚百万
- 猫怎么成了大模型天敌
- 没有电池就没有AGI
- 上手Lovart国内版星流Agent细节满满找到了最大公约数
- 大批科研经费被砍美国教授无奈搞众筹
- AI产品定价指南
- GPT5测试被质疑作弊故意避开难题刷高分
- Agent狂欢下的冷思考为什么说DataAI数据基础设施才是AI时代Infra新范式
- OpenAI旧版回归年度最失望AI留下了什么
- 半导体公司各寻出路
- 如果机器人够可爱你会愿意把它放家里吗
- 马斯克痛失xAI大将Grok4缔造者突然离职
- Perplexity可能只想恶心一下谷歌
- GPT5不是技术新范式是OpenAI加速产品化的战略拐点
- 在30万亿细胞中造纳米火箭85后化学博士猛攻癌症
- 中国AI破局
- GPT5的拙劣发布戳破了AI取代公关的谎言
- 日本巨头为何纷纷用上中国机器人
- AI顶会模式出了问题不发表就出局的恶性循环正在压垮整个AI学界
- 从相亲到基因测序硅谷精英正在造神童后代
- 人类会被困在1nm吗深度解析光刻机与芯片制程的未来
- GitHub告别独立运营替代平台都有啥
- 写在GPT5风波之后为什么AI的智商和情商不可兼得
- AI时代最大陷阱是外包了思考
- 独家丨对话王小川我没觉得委屈
- 马斯克起诉苹果偏袒OpenAI却被网友用DeepSeek打脸
- 从狂热到清醒我对AI医疗泼点冷水