Google 发布 Gemini 3.1 Flash Live:让 AI 语音交互像呼吸一样自然

Google 发布 Gemini 3.1 Flash Live:让 AI 语音交互像呼吸一样自然

Codex1 min read1 views

随着人工智能技术的飞速发展,语音交互正逐渐成为我们与数字世界连接的首选方式。近日,谷歌正式发布了其最新的顶级音频和语音模型 —— Gemini 3.1 Flash Live。这款模型的推出,标志着 AI 在处理实时对话的自然度、速度和可靠性方面迈上了新台阶。

Gemini 3.1 Flash Live Header

什么是 Gemini 3.1 Flash Live?

Gemini 3.1 Flash Live 是谷歌迄今为止质量最高、响应最快的音频模型。它专门为“语音优先”的 AI 时代而设计,能够模拟人类对话的自然节奏。无论是开发者构建复杂的语音助手,还是普通用户通过手机进行日常咨询,该模型都能提供前所未有的流畅体验。

其核心优势在于:

  • 超低延迟:大幅缩短了 AI 响应时间,使对话不再有明显的停顿感。
  • 情感共鸣:能够更好地识别音调、音高和语速,理解用户的情绪变化(如沮丧或困惑)。
  • 多语言支持:原生支持多种语言,打破了跨国沟通的界限。

技术卓越:在复杂任务中领跑

为了验证模型的实力,谷歌在多个严苛的基准测试中对 Gemini 3.1 Flash Live 进行了评估。结果显示,它在处理多步骤指令和长程推理方面表现优异。

强大的功能调用能力

ComplexFuncBench Audio 测试中(该测试主要衡量模型在各种约束下执行多步骤功能调用的能力),Gemini 3.1 Flash Live 取得了 90.8% 的惊人得分,远超前代模型。

ComplexFuncBench Eval

应对真实环境的挑战

在 Scale AI 的 Audio MultiChallenge 测试中,该模型在开启“思考(Thinking)”模式后获得了 36.1% 的高分。这项测试专门模拟了现实世界中频繁的插话、犹豫和背景噪音,证明了该模型在嘈杂环境下依然能精准遵循复杂指令。

Audio MultiChallenge Eval

赋能开发者与企业:打造下一代语音助手

For Developers

对于开发者来说,Gemini 3.1 Flash Live 现已在 Google AI Studio 中通过 Gemini Live API 开启预览。开发者可以利用其强大的推理能力,构建能够大规模处理复杂任务的语音代理,例如:

  • 语音编程(Vibe Coding):通过语音快速迭代代码逻辑。
  • 智能客服:企业可以将其集成到客户体验系统中,利用其对语气细微差别的理解力,提供更具人性化的服务。Verizon 和 The Home Depot 等公司已经开始在其工作流中试用并给出了高度评价。

Search Live 全球扩展:200+ 国家实时对话

与此同时,Gemini 3.1 Flash Live 也在驱动谷歌搜索的革命。Search Live 现在已正式扩展至全球 200 多个国家和地区

Search Live Expansion

用户只需在 Android 或 iOS 的 Google App 中点击“Live”图标,即可开启多模态对话:

  1. 语音对话:直接用母语提问,获取实时的音频回答。
  2. 视觉辅助:结合相机(Google Lens)功能。例如,如果你不知道如何安装一套新书架,只需用相机对着零件,Search Live 就能边看边指导你操作。

安全与责任:SynthID 水印技术

在追求极致体验的同时,谷歌也未忽视安全问题。Gemini 3.1 Flash Live 生成的所有音频都集成了 SynthID 隐形水印。这种水印被直接交织在音频输出中,肉耳无法察觉,但能够被可靠检测。这一举措旨在防止虚假信息的传播,确保 AI 生成内容的透明度。

结语

从更快速的响应到更深刻的情感理解,Gemini 3.1 Flash Live 不仅仅是一个技术升级,它正在改变我们与机器“交谈”的方式。无论你是寻求提高效率的开发者,还是想要探索世界的新奇用户,现在就可以在 Google 产品中亲自体验这款更自然、更可靠的 AI 语音模型。