谷歌首款混合推理Gemini 2.5成本暴降!思考模式一开,直追o4-mini
zhezhongyun 2025-05-16 17:58 52 浏览
编辑:桃子 好困
【新智元导读】谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
刚刚,谷歌重磅发布首个混合推理模型——Gemini 2.5 Flash。
与Claude类似,新模型的「思考预算」可以自定义,即可开启/关闭Gemini 2.5的思考模式。
值得一提的是,关闭思考的成本直接暴降600%,而且性能还不输Gemini 2.0 Flash。
具体来说,Gemini 2.5 Flash关闭思考输出价格0.6美元/百万token,开启思考输出价格3.5美元/百万token。
当然了,思考越久,模型性能也会随之提升。
在GPQA知识问答中,新模型24k思考预算,性能提升了6%;对于代码任务(LiveCodeBench),16k思考预算性能最佳。
在多项基准测试中,Gemini 2.5 Flash再次刷新SOTA。在大模型排行榜中,Flash预览版以1392 ELO高分位居第二,与GPT-4.5-preview、Grok 3并驾齐驱。
在数学(AIME 2025/2024)、多模态推理(MMMU)、知识问答(GPQA)等基准上,Gemini 2.5 Flash完全碾压Claude 3.7 Sonnet,足以与最新o4-mini相媲美。
就模型每百万token输入/输出价格来看,Gemini 2.5 Flash更具性价比。
在人类最后一次考试中,Gemini 2.5 Flash拿下12.1%高分,仅次于o4-mini
目前,Flash预览版可以在Gemini中使用,API同时向开发者开放。
首款混合推理Gemini登场
击败Claude 3.7
混合推理模型,就是专为需要在性能、成本、延迟之间找到完美平衡的开发者而设计。
Gemini 2.5 Flash不仅继承了2.0 Flash的高速响应特点,还引入了革命性的「思考模式」——可根据任务需求灵活调整推理深度。
Gemini 2.5系是「思考模型」,能够在回答前先行推理。
模型不会立即输出结果,而是先执行「思考」流程,更好地理解提示词,拆解复杂任务并规划回答。
如下图所示,相较于2.0 Flash,Gemini 2.5 Flash在复杂任务,如数学推理、科研分析中表现更优异。
在LMArena其他评估中,比如Hard Prompts、编码、长查询,Gemini 2.5 Flash全部拿下第一。
另外从下图中可看出,在同类模型中,2.5 Flash以超高性价比领跑,兼具最优性能和极低成本的优势。
网友实测
在网友的实测中,2.5 Flash物理模拟能力足够惊艳,小球会随着多边形变化精准运动。
而且,2.5 Flash还轻轻松松通过了4o-mini/o3无法通过的Galton Board(高尔顿板)测试。
它还能根据精灵图,创建出自定义游戏城房间。
另一位网友用了最大24k预算,让2.5 Flash设计出了一个《创:战纪》风格的游戏。
提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other
如今Claude 3.7已经完全没有优势了,在设计登录界面时,Gemini 2.5 Flash用时最短速度最快。
思考预算
智能控制
不同使用场景在质量、成本与延迟之间各有取舍。
为给开发者更大灵活性,2.5 Flash新增了「思考预算」功能。开发者可以通过设置预算(0 – 24576 Token),来控制模型在思考阶段的推理深度。
- 低预算(甚至为0):适合简单查询,保持2.0 Flash超低延迟和成本,性能更强
- 高预算:模型会进行更深入的推理,生成更准确、全面的答案。
需要强调的是,预算只是设定了2.5 Flash的思考上限;若prompt并不复杂,模型不会用满全部预算。
开发者也可通过API参数,或在Google AI Studio与Vertex AI控制台的滑块控件,为思考阶段指定具体的Token预算
更智能的是,模型会根据prompt复杂度,自动判断所需推理量和思考时间,避免了预算的浪费。
以下示例中,展示了2.5 Flash在默认模式下,可能使用的推理量。
· 需要低推理量的提示词:
示例1:
「Thank you」的西班牙语表达
示例2:
加拿大有多少个省?
· 需要中等推理量的提示词:
示例1:
掷两枚骰子,点数之和为7的概率是多少?
示例2:
我的健身房在周一、三、五9-15点以及周二、周六14-20点开放篮球自由场地。如果我每周工作5天、时间为9-18点,但想在工作日打5小时篮球,请为我制定一份可行的日程表。
· 需要高推理量的提示词:
示例1:
一根悬臂梁,长度L=3 m,矩形截面宽b=0.1 m、高h=0.2 m,材质钢 (E=200 GPa)。梁全长受均布载荷w=5 kN/m,且自由端承受集中载荷P=10 kN。请计算最大弯曲应力σ_max。
示例 2:
编写函数evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用于计算电子表格单元格的数值。
每个单元格的内容可能为:
· 一个数字(如 「3」),或
· 一个公式,例如「=A1 + B1 * 2」,可使用「+、-、*、/」运算符并引用其他单元格。
要求:
1. 解析并解决单元格间的依赖关系。
2. 处理运算符优先级(*/高于+-)。
3. 检测循环依赖并抛出 ValueError("Cycle detected at <cell>")。
4. 不得使用eval(),只可使用Python内置库。
Gemini 2.5 Flash正式上线
当前,Gemini 2.5 Flash预览版API在Google AI Studio和Vertex AI中上线,可通过Gemini应用专用下拉菜单找到它。
谷歌强烈建议尝试thinking_budget(思考预算)参数,看看可控推理如何去解决更复杂的问题。
相关推荐
- Python入门学习记录之一:变量_python怎么用变量
-
写这个,主要是对自己学习python知识的一个总结,也是加深自己的印象。变量(英文:variable),也叫标识符。在python中,变量的命名规则有以下三点:>变量名只能包含字母、数字和下划线...
- python变量命名规则——来自小白的总结
-
python是一个动态编译类编程语言,所以程序在运行前不需要如C语言的先行编译动作,因此也只有在程序运行过程中才能发现程序的问题。基于此,python的变量就有一定的命名规范。python作为当前热门...
- Python入门学习教程:第 2 章 变量与数据类型
-
2.1什么是变量?在编程中,变量就像一个存放数据的容器,它可以存储各种信息,并且这些信息可以被读取和修改。想象一下,变量就如同我们生活中的盒子,你可以把东西放进去,也可以随时拿出来看看,甚至可以换成...
- 绘制学术论文中的“三线表”具体指导
-
在科研过程中,大家用到最多的可能就是“三线表”。“三线表”,一般主要由三条横线构成,当然在变量名栏里也可以拆分单元格,出现更多的线。更重要的是,“三线表”也是一种数据记录规范,以“三线表”形式记录的数...
- Python基础语法知识--变量和数据类型
-
学习Python中的变量和数据类型至关重要,因为它们构成了Python编程的基石。以下是帮助您了解Python中的变量和数据类型的分步指南:1.变量:变量在Python中用于存储数据值。它们充...
- 一文搞懂 Python 中的所有标点符号
-
反引号`无任何作用。传说Python3中它被移除是因为和单引号字符'太相似。波浪号~(按位取反符号)~被称为取反或补码运算符。它放在我们想要取反的对象前面。如果放在一个整数n...
- Python变量类型和运算符_python中变量的含义
-
别再被小名词坑哭了:Python新手常犯的那些隐蔽错误,我用同事的真实bug拆给你看我记得有一次和同事张姐一起追查一个看似随机崩溃的脚本,最后发现罪魁祸首竟然是她把变量命名成了list。说实话...
- 从零开始:深入剖析 Spring Boot3 中配置文件的加载顺序
-
在当今的互联网软件开发领域,SpringBoot无疑是最为热门和广泛应用的框架之一。它以其强大的功能、便捷的开发体验,极大地提升了开发效率,成为众多开发者构建Web应用程序的首选。而在Spr...
- Python中下划线 ‘_’ 的用法,你知道几种
-
Python中下划线()是一个有特殊含义和用途的符号,它可以用来表示以下几种情况:1在解释器中,下划线(_)表示上一个表达式的值,可以用来进行快速计算或测试。例如:>>>2+...
- 解锁Shell编程:变量_shell $变量
-
引言:开启Shell编程大门Shell作为用户与Linux内核之间的桥梁,为我们提供了强大的命令行交互方式。它不仅能执行简单的文件操作、进程管理,还能通过编写脚本实现复杂的自动化任务。无论是...
- 一文学会Python的变量命名规则!_python的变量命名有哪些要求
-
目录1.变量的命名原则3.内置函数尽量不要做变量4.删除变量和垃圾回收机制5.结语1.变量的命名原则①由英文字母、_(下划线)、或中文开头②变量名称只能由英文字母、数字、下画线或中文字所组成。③英文字...
- 更可靠的Rust-语法篇-区分语句/表达式,略览if/loop/while/for
-
src/main.rs://函数定义fnadd(a:i32,b:i32)->i32{a+b//末尾表达式}fnmain(){leta:i3...
- C++第五课:变量的命名规则_c++中变量的命名规则
-
变量的命名不是想怎么起就怎么起的,而是有一套固定的规则的。具体规则:1.名字要合法:变量名必须是由字母、数字或下划线组成。例如:a,a1,a_1。2.开头不能是数字。例如:可以a1,但不能起1a。3....
- Rust编程-核心篇-不安全编程_rust安全性
-
Unsafe的必要性Rust的所有权系统和类型系统为我们提供了强大的安全保障,但在某些情况下,我们需要突破这些限制来:与C代码交互实现底层系统编程优化性能关键代码实现某些编译器无法验证的安全操作Rus...
- 探秘 Python 内存管理:背后的神奇机制
-
在编程的世界里,内存管理就如同幕后的精密操控者,确保程序的高效运行。Python作为一种广泛使用的编程语言,其内存管理机制既巧妙又复杂,为开发者们提供了便利的同时,也展现了强大的底层控制能力。一、P...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- opacity 属性 (32)
- transition 属性 (33)
- 1-1. 变量声明 (31)
