郭震 AI公众号:郭震AI

实时 AI 消息

Google 正式推出 Gemini Omni Flash 视频模型与 Nano Banana 2 Lite 极速图像模型

Google 正式向开发者开放 Gemini Omni Flash,将多模态推理与视频生成深度结合,支持自然语言对话式视频编辑。同时推出的 Nano Banana 2 Lite 图像模型生成一张 1K 图片仅需约 4 秒,成本大幅降低。

发布时间

Google 于近日正式通过 Gemini API 和 Google AI Studio 向开发者开放 Gemini Omni Flash 模型。据量子位报道,该模型在 Google I/O 2026 大会上首次亮相,此次正式上线意味着开发者可以基于文本、图像和视频等多种输入直接生成和编辑视频。

Gemini Omni Flash 的核心能力在于将 Gemini 的多模态推理与视频生成深度结合。用户可以用自然语言对视频进行修改和精修,像编辑文档一样操作视频内容。模型还调用 Gemini 在历史、生物、叙事逻辑等方面的世界知识来构建视频,降低了 Prompt 编写门槛。

与此同时,Google 还发布了 Nano Banana 2 Lite(又名 gemini-3.1-flash-lite-image),专为高速图像生成设计。该模型生成一张 1K 分辨率图像仅需约 4 秒,速度是 Nano Banana 2 的五分之一,而成本仅为后者的一半。

Google 还展示了将两个模型串联使用的案例——先用 Nano Banana 2 Lite 高速出图,再将其作为参考素材喂给 Gemini Omni Flash 转化为视频,实现了图像生成与视频创作的无缝衔接。三个演示应用分别覆盖了旅游、装修和电商场景。

目前 Gemini Omni Flash 尚有一些局限性,包括仅支持 10 秒视频生成、暂不支持音频参考上传和场景扩展等。但整体来看,Google 在多模态领域的布局正加速落地。

为什么重要

标志着 Google 在多模态 AI 产品化上的重要一步,视频生成与图像生成的协同工作流将直接赋能电商、装修、短视频等垂直行业。

GoogleGeminiVideo Generation