很多业内人士已经注意到,似乎DeepSeek-R1等开源模型,在回答问题时往往缺乏“节制”。尤其是简单问题,它想得过于复杂了。它的单位token成本的API价格优势,最终将可能被不受制约的“冗长思考”所侵蚀。NousResearch团队一项研究,就是想搞清楚,开源权重模型在完成相同任务时,是否系统性地需要比闭源模型更多的token?当将token消耗数量纳入考量后,这种差异如何影响总体推理成本?这种效率差异在不同的任务类型中是否更加显著?该研究发现,对于不需要复杂推理就可直答的知识题(Knowledge questions),开源模型的“浪费”最为明显,DeepSeek-R1-0528完成任务消耗的token数量(completion tokens)——它既包括向用户呈现的输出结果,也包括思维链(CoT),并与实际计费的token数量相匹配——要比基准水平高出4倍。不过,到了需要推理数学题(Math problems)以及更复杂的逻辑谜题(Logic puzzles),DeepSeek-R1-0528消耗的token数量,高出基准水平缩小至2倍左右。看来实际工作中,向合适的模型询问合适的问题是一大学问。事实上,AI招聘独角兽公司Mercor的另一项独立研究也注意到了这一现象。在它提出的衡量大模型的AI生产力指数的APEX-v1.0基准上,Qwen-3-235B和DeepSeek-R1的输出长度都超过了其他前沿模型。它们思考得更久,可以弥补一些不足,提升了平均成绩,代价就是更多的token消耗。但这也是“慢思考”刚推出时的魅力,不是吗?在预训练扩展边际放缓后,测试时扩展越来越重要,是提升解题能力的关键。回到NousResearch团队的研究上,DeepSeek-R1在各类逻辑谜题的准确率,也明显胜出一筹。也许它慢了一些,用的token也多了一些,但答对了题!所以,开源模型相比前沿闭源模型,究竟经济不经济?如果有一个最简易的统计公式,那么token经济可以归纳为:AI完成一项任务的收益=token兑现的价值-单位token成本×消耗token数量。Token兑现的价值,一方面取决于模型能不能最终解决现实问题,另一方面则取决于它所解决的问题有多值钱。它下围棋战胜世界冠军,值多少钱?获得奥数金牌,又值多少钱?但更重要的是,在实际工作场景中创造出经济价值,而这些价值由市场来决定。单位token成本也决定着模型的经济性。黄仁勋一直鼓吹“买得越多,省得越多”,就是从硬件与基础设施层面优化能效,降低运营成本的逻辑。这是美国的强项。目前,美国几乎所有AI云巨头与前沿大模型厂商,都在探索与部署AI定制芯片以降低推理成本。英伟达计划自研HBM基础裸片(Base Die),OpenAI则找上了SK海力士与三星合作;闪迪甚至预见了数年后高带宽闪存HBF的颠覆性。中国开源社区的贡献,主要在于算法和架构的改进,对MOE推理与注意力机制的探索层出不穷。阿里巴巴的Qwen3-Next架构,总参数80B,却只需激活3B,即可媲美旗舰版Qwen3-235B性能,效率大幅提升。DeepSeek最新发布的V3.2-Exp引入了DSA机制,能在成本更低的同时几乎不影响模型的输出效果。这些都体现为每百万token的输入和输出成本在持续下降。微软近期一篇为自己的碳足迹“洗白”的论文中,驳斥过往的纸面研究,往往忽略了实际部署环境中的规模效应与软硬件优化措施。论文提到,就每次AI查询而言,实际能耗要比预估低8-20倍。其中,硬件改进带来1.5至2倍降幅,模型改进带来3至4倍降幅,工作负载优化带来2至3倍降幅。这里的工作负载优化,既包括KV缓存管理与批大小管理等提升单位token生成效率的手段,也包括用户手动设置token预算上限,或自动触发智能路由调用合适模型等降低token消耗数量的技术。OpenAI坚持让实时路由系统,根据对话类型、复杂度、所需工具和明确意图快速决定调用哪个模型。字节跳动的Knapsack RL也是类似的预算分配策略探索。这些都是出于性价比的考虑。很长一段时间以来,在讨论token经济学时,完成任务的token消耗数量,往往被人们所忽视。这一指标缺乏前述各类测评token价值的基准,也不在大模型API定价中直接标识出来。但它无疑越来越重要,它决定着AI的经济性。实际工作不同于刷榜(有的刷榜也有算力成本上限),往往存在明显的成本约束。前述微软论文也担心,随着多模型与智能体的广泛落地,更多的推理次数和更长的推理时间将带来更高的能耗。不仅如此,要输出更多token,通常也意味着更长的响应时间,用户体验下降;对于部分必须高速精准响应的场景,这甚至是生死问题;单次任务越来越多的token消耗,也可能耗尽模型的上下文窗口,限制它处理复杂长任务的能力。受限于各自的技术储备、供应链体系与电力供给条件,中国与美国在token经济学上已经各自分岔。中国开源模型的首要目标是在国产替代的现实中逼近前沿水平,用较多的token换取较高的价值;美国闭源模型则要开始想法设法去降低token的消耗,并提升token的价值。从DeepSeek的R1到R1-0528,或者,从Qwen3-235B-A22B-thinking到Qwen-235B-A22B-thinking-2507,中国领先的开源模型的迭代,往往伴随着总token消耗的上升。而Anthropic、OpenAI与xAI的模型迭代,则伴随着总token消耗的降低。到目前为止,NousResearch团队的研究认为,综合token消耗数量与单位token成本(基于海外第三方的API价格,因工作负载不同,定价区间差别较大),DeepSeek等开源模型仍具备整体成本优势,但在最高API定价时(即以更大的上下文或更高的吞吐速度交付结果等),它的整体成本优势已经不再显著,尤其是在回答简单问题时。结合中国的AI算力生态,token消耗过多的短板会进一步放大。有一项研究,专门就基础设施的框架,量化了前沿模型的硬件配置与环境乘数,对能耗、水与碳足迹的影响。在其设定场景下,DeepSeek-R1成为了碳排放量最高的前沿模型,且远高于其他模型。除了与o3类似,它大量依赖CoT深度思考,还因为该研究为它“分配”了H800等更低能效的芯片,以及更高PUE的数据中心。当下对性能的追求压倒了一切。最终,起作用的将是AI的经济性,用尽可能少的token解决尽可能有价值的问题。参考:https://doi.org/10.48550/arXiv.2505.09598https://doi.org/10.48550/arXiv.2509.20241https://arxiv.org/html/2509.25721v2https://github.com/cpldcpu/LRMTokenEconomy/
- 和AI这道正餐相比前几十年的科技总和只是前菜
- 起底全球估值NO1机器人公司创始人被称作下一个马斯克
- 70名员工估值70亿
- 英特尔还不能急着开心
- 英伟达50亿美元战投英特尔芯片双英历史性牵手
- OpenAI想杀入苹果腹地
- 当AI开始闹情绪打工人反向共情
- 微软Windows再次被指暗藏后门区别对待中国用户
- OpenAI首批智能硬件传出新消息
- AI短视频正在打败人类主播
- 对话董本洪企业AI依然存在认知偏差
- Figure向真实世界挤了挤
- 从看图识鸟到生态建模的硬科学
- 英特尔联姻英伟达是自救还是颠覆
- 即将到来的智能战争不可避免的未来
- 黄仁勋50亿美元入股英特尔英伟达一统GPUx86生态
- 芯片圈最离谱的CP即将改写行业规则
- 把上万个AI丢在一个小镇里打工会发生什么
- 官宣特斯拉OptimusAI团队负责人离职
- 2025年2nm芯片为何集体跳票
- 朱啸虎搬离中国假装不是中国AI创业公司是没有用的
- 宝可梦游戏成了AI的最佳训练场
- 让出门问问盈利的一场内部革命裁员降薪取消中层
- AI正在建立自己的经济体人类准备好被降维打击了吗
- 微软广告终于找到了接盘侠
- AI叙事逐渐离谱
- 一颗18纳米芯片成了英特尔最后的救赎
- 泰勒斯威夫特再次陷入AI风波但这次粉丝倒戈了
- 姚顺宇离职背后国产大模型已经上桌了
- 智能体崛起
- 史上最强打工人老板布置的杂活被他干成了诺贝尔奖
- DeepSeek等开源模型更浪费token吗
- 2025年诺贝尔物理学奖发得合理吗
- 番茄小说的AI难题
- 固态电池再受吹捧这次不是狼来了
- 投资马斯克20亿英伟达构建AI资本帝国只用了一个月
- 当AI开始设计芯片
- 别整天喊科学没突破了今年诺奖全是高手
- Arduino被收购天堂还是地狱
- ChatGPT做电商了
- 日入2千的飞手为何集体逃离
- 湿件登场生物混合机器人开辟第二赛道
- 20个30岁以下敢把世界掀翻的疯子正在集结
- 华人AI大神霸气离职一篇博客挑明中美大模型暗战
- 当AI恐慌席卷硅谷这位管理2000人的CEO却说AI不会抢你的工作
- 最后的学术净土也脏了顶尖数学家虚假论文数量正在惊人增长
- 30年前被评审嫌弃无用的材料为何能赢得诺贝尔化学奖
- 智元原力无限双双拿下亿元大单具身智能落地时刻到了
- 把12个AI凑到一起打工它们竟然搞起小团体
- 杨振宁的32项科学贡献
- 海内外众学者发声痛别杨振宁他仍在塑造物理的未来
- 李飞飞世界模型大更新实时生成3D世界只要一块GPU
- 新凯来的高端示波器是什么水平
- 电磁弹射技术如何让航母战力惊人飞跃
- 300多个APP想让我和AI谈感情
- 黄仁勋英伟达在中国的市场份额从95变成了0
- 一枚戒指估值777亿
- 张鹏对谈朱啸虎储瑞松傅盛AgenticAI时代不要什么东西都自己闷头做
- 霸气台积电才是AI时代最强王者
- 哈佛新研究追踪6200万人AI冲击下这些985211反而比二本更难找工作
- 如果我死了请不要用Sora复活我
- 着急上市的智谱和六小龙得证明自己能赚钱
- 被困住的日本数据中心在AI梦电老虎与扰民噩梦中挣扎
- 英伟达Blackwell芯片在美量产下线
- 阿里字节腾讯集体重仓新风口
- 阿布扎比重投AI
- 你骂AI越狠它反而越聪明
- ChatGPT欧洲付费用户增长停滞
- 杨振宁走了物理学的黄金时代落幕了
- 吉利战略收缩李书福的儿子也不能例外
- 仅需一块GPU李飞飞最新世界模型来了
- AI应用概念龙头回来了
- 5位专家用10案例讲清工业大模型落地难点
- 在中国哪家互联网平台真把社会责任当回事
- 这只年底睁开的超级眼睛为何是我国科技自立自强的利器
- 世界进入新瓦特时代
- AI交易大赛结果出炉只有中国AI赚钱跟GPT5反着买别墅靠大海
- 氮化镓GaN要变天了
- 中国AI赢下第一场金融实测
- AI漫剧比短剧更短剧
- 存储系统如何用好SSD
- 小鹏机器人里面是不是真人全球网友吵翻了CEO现场扒开衣服自证
- 中国最活跃AI基金的闭门会上10条关键思考
- 马斯克万亿薪酬包特斯拉股东批准了
- 逆袭的中国铁锂从过剩产能到反制西方的战略核弹
- 我把DeepSeek装进毛绒玩具年入过亿
- 人形机器人逼近产业化关口谁在买
- 一篇文章告诉你国产GPU背后的技术和商业路线异同
- 没人想成为北宇树了
- 4个金融男搞音乐1年赚超1亿美元
- 对话马修科布AI不具备创造性我们为什么会信任机器
- 打破信息茧房可能是个伪命题
- 地球快养不起AI了上太空后又便宜了马斯克
- 从智能客服到数字伙伴小赢科技用户体验全面升级
- 全球半导体产业陷入材料资源困局
- OpenAI和微软的关系没那么糟跟英伟达也没那么好
- 人工智能被频繁写进裁员理由AI真的在大规模取代人类工作吗
- 黄瑜人工智能对脑力劳动的取代已迅速铺开2025年终特辑14
- AI玩具赛道打响发令枪
- 有消息称月之暗面将借壳上市知情人士予以否认
- 罗振宇2026时间的朋友跨年演讲全文稿
- 一年从0到300万美元ARR非典型AI创业者斩获千万融资
- 围裙AI与万元学费2025教育的冰与火I年度盘点
- 不再造硬件的罗永浩办了一场硬件发布会
- 迈向无限企业AI智能体打开创新想象新边界
- 从明天起关心粮食蔬菜算法和老己
- 罗永浩为什么要吃力不讨好的搞这场科技春晚
- 你好2026青年站在这里
- 在滴水湖畔我们把宇宙搬到了路边
- CityReadsin11YearsAnotherBeadontheString
- Kimi账上100亿杨植麟我们不着急上市
- OpenAI人均股权薪酬超千万
- 这个真相有点颠覆为什么假装成功比努力成功更容易
- ClaudeCodeCursor都过时了硅谷顶流大牛炸场暴论AI编程练满2000小时才算会用荒废一年世界级大神也成实习生水平
- 谷歌三年逆袭草蛇灰线伏脉千里
- 2025年最挣钱的副业是养一只机器人
- 华人掌舵MetaAI的格局已经初步形成了
- 中国人的精神状态藏在这10个隐形冠军背后
- 胡翌霖大问题在当下重新变得充满争议2025年终特辑09
- CES2026的科技年会上我们要赌一个怎样的未来