Gemini 3.5 Flash 是什么
Gemini 3.5 Flash 是 Google 推出的 Gemini 3.5 家族首发模型,核心设计目标是将前沿级智能与 Agent 执行能力统一到 Flash 效率层。该模型在编程与 Agent 类 benchmark(Terminal-Bench 2.1、MCP Atlas、Finance Agent v2 等)上全面超越上代 Gemini 3.1 Pro,同时保持 Flash 系列的速度与成本优势,输出速度达同级前沿模型的约 4 倍。支持文本、图像、音频、视频、PDF 多模态输入,100 万 token 上下文窗口,动态思考默认开启。已在 Gemini App、Google Search AI Mode、Gemini API、Google AI Studio、Google Antigravity、Vertex AI 等全线产品中即日可用。
Gemini 3.5 Flash 官网链接:https://deepmind.google/models/gemini/flash/

Gemini 3.5 Flash 的主要特性
- 编程与 Agent 能力跃升: 在 Terminal-Bench 2.1(76.2%)、MCP Atlas(83.6%)、Finance Agent v2(57.9%)、Toolathlon(56.5%)等编程与 Agent 类 benchmark 上全面超越上代 Gemini 3.1 Pro,是 Flash 系列首次在核心能力维度超越同家族 Pro 级模型。
- 前沿级多模态理解: CharXiv Reasoning 84.2%、MMMU-Pro 83.6%,支持文本、图像、音频、视频、PDF 输入,多模态理解能力达到前沿水平。
- 4 倍速度优势: Google 官方声明输出速度约为同级前沿模型的 4 倍(以 output tokens per second 计),在 Antigravity 中速度提升达 12 倍。
- 100 万 token 上下文窗口: 1,048,576 输入 tokens / 65,536 输出 tokens,在 100 万 token 长上下文检索(MRCR v2)上表现为 Google 公布表格中的最高分。
- 动态思考机制: 默认开启动态思考,通过
thinking_level参数(minimal / low / medium / high)控制推理深度与响应速度的平衡,替代此前的整数 thinking_budget 机制。 - 完整工具链支持: 支持 function calling、structured output、search-as-a-tool、code execution、context caching、grounding with Google Maps、URL context 等企业级功能。
- 成本优势: API 定价 $1.50 / $9.00 per 1M tokens(输入 / 输出),缓存输入 $0.15 per 1M tokens,较 Gemini 3.1 Pro 降低约 40%。
Gemini 3.5 Flash 的应用场景
- Agent 工作流执行: 作为 Gemini Spark、Antigravity 等 Agent 产品的核心驱动模型,执行多步骤、长链条的自主任务。
- 编程辅助与代码生成: 在 Antigravity 2.0 中作为默认模型,支持大规模代码生成、调试、重构等编程任务。
- 企业级文档处理: 利用 100 万 token 上下文窗口处理超大文本、长视频、大型代码库的理解与分析。
- 多模态内容理解: 处理包含图像、音频、视频、PDF 的复杂输入,适用于内容审核、知识抽取、视觉问答等场景。
- 搜索增强: 在 Google Search AI Mode 中作为默认模型,驱动智能搜索与结构化回答。
- 开发者 API 集成: 通过 Gemini API / Vertex AI 集成到第三方应用中,适合需要高速、低成本、强 Agent 能力的生产环境部署。
Gemini 3.5 Flash 的产品定价
| 维度 | 价格 |
|---|---|
| 输入 tokens | $1.50 / 1M tokens |
| 输出 tokens | $9.00 / 1M tokens |
| 缓存输入 tokens | $0.15 / 1M tokens |
| 非全球区域 | $1.65 / $9.90 / 1M tokens |
| Gemini App / Search AI Mode | 免费使用 |
超过 200K tokens 的长上下文查询按长上下文费率计费。以 Google 官方定价页 为准。
如何使用 Gemini 3.5 Flash
- Gemini App 直接使用: 打开 https://gemini.google.com,Gemini 3.5 Flash 已作为默认模型上线,免费可用。
- Google Search AI Mode: 在 Google 搜索中切换到 AI Mode,即由 Gemini 3.5 Flash 驱动。
- Gemini API 开发者调用: 访问 https://ai.google.dev,使用模型 ID
gemini-3.5-flash调用 API。 - Google AI Studio: 访问 https://aistudio.google.com,在模型选择器中选择 Gemini 3.5 Flash 进行交互测试。
- Google Antigravity: 在 Antigravity 2.0 桌面应用或 CLI 中,Gemini 3.5 Flash 为默认模型。
- Vertex AI(企业级): 通过 Vertex AI Agent Platform 接入,继承 Google Cloud 企业级安全与合规体系。
常见问题
Q:Gemini 3.5 Flash 和 Gemini 3.1 Pro 相比如何?
A:Gemini 3.5 Flash 在编程与 Agent 类 benchmark 上全面超越 3.1 Pro(如 Terminal-Bench 76.2% vs 70.3%、MCP Atlas 83.6% vs 78.2%),同时速度约为后者的 4 倍、成本降低约 40%。3.1 Pro 仍在长上下文和纯知识类任务(如 Humanity's Last Exam)上有优势。
Q:Gemini 3.5 Pro 什么时候发布?
A:Google 官方表示 Gemini 3.5 Pro 正在内部使用,预计下月(2026 年 6 月)发布。
Q:Gemini 3.5 Flash 支持图像 / 音频生成吗?
A:不支持。Gemini 3.5 Flash 仅支持文本输出。图像生成需使用 Gemini 3.1 Flash Image 等专用模型,音频生成需使用 TTS 专用模型。
Q:Gemini 3.5 Flash 可以免费使用吗?
A:在 Gemini App 和 Google Search AI Mode 中免费使用。开发者通过 API 调用按 token 计费($1.50 / $9.00 per 1M tokens)。
Q:thinking_level 参数怎么用?
A:Gemini 3.5 Flash 使用字符串枚举参数 thinking_level(minimal / low / medium / high)控制推理深度,默认值为 medium。替代了此前 Gemini 3 Flash Preview 的整数 thinking_budget 机制。

