Google 推出 Nano Banana 2:AI 圖像生成的新王者?

Decrypt

簡要

  • Google 新推出的 Nano Banana 2 型號現已提供專業級圖像生成,速度媲美閃電
  • 其即時網路搜尋功能為 AI 圖像提供事實依據
  • 中國模型 Seedream 5 在此公告前幾天推出,提供更高彈性,可能成為有趣的競爭對手

Google 最近在 AI 軟體方面的發布速度令人震驚。僅在過去一週,我們就見證了 Gemini 3.1、Lyria 和 Pali 的推出,後者還配備了拍照功能,成為真正的熱門話題。如今,去年最受矚目的圖像生成大作的後續產品也已到來。 Google 在官方部落格中表示,週四推出的 Nano Banana 2「將 Gemini Flash 的高速智能引入視覺生成,使快速編輯與迭代成為可能」,並補充說「它讓曾經專屬的專業功能變得更普及」。
以下是快速概述。原本的 Nano Banana 實際上名為 Gemini 2.5 Flash Image,基本上就是一個基於 Gemini 2.5 Flash 的圖像生成器。隨後推出的 Nano Banana Pro,則是 Gemini 3 Pro Image,於去年十一月推出時成為 AI 圖像編輯的標準。

介紹 Nano Banana 2:我們最強的圖像生成與編輯模型。🍌

專業級品質,閃電速度。今日在 @GeminiApp、搜尋、以及我們的開發者與創意工具中推出。pic.twitter.com/6oNWYhVSqp

— Google (@Google) 2026年2月26日

Nano Banana 2 技術上是 Gemini 3.1 Flash Image——因此並非直接的續作,而更像是原始版本的重大升級,現在運行在較新的 Gemini 3 Flash 架構上。令人困惑?是的。 這裡的重點很簡單:將 Nano Banana Pro 的所有特色,提升到閃電般的速度。 今天推出的 Nano Banana 2 將在 Google 生態系中全面展開。在 Gemini 應用中,它取代 Nano Banana Pro,成為 Fast、Thinking 和 Pro 模型的預設選擇。Google AI Pro 和 Ultra 訂閱用戶仍可透過三點選單重新生成,存取 Nano Banana Pro 以完成專門任務。 它也已在 Google 搜尋的 AI 模式和 Lens 中上線,並可透過 AI Studio 和 Vertex AI 的預覽版 Gemini API 使用,成為 Flow 中的預設圖像生成模型,所有用戶皆可零點數使用。Google 亦擴展了 SynthID 水印技術,並加入 C2PA 內容認證支援,提供平台更佳的 AI 生成媒體識別工具。自去年十一月以來,SynthID 驗證功能已被使用超過兩千萬次。

Nano Banana 2 的新功能 最大亮點是世界知識。Nano Banana 2 在圖像生成過程中能即時從網路搜尋資料,意味著能準確呈現特定主題。商標、地標、近期事件、品牌識別——它能辨識外觀,因為它可以查詢,而非僅憑訓練資料猜測。 文字渲染也獲得重大升級。你現在可以在圖像中生成準確且清晰的文字,無論是在提示中拼寫,或讓模型根據語境決定內容。它還支援圖像內翻譯,讓你在不重建視覺的情況下,將廣告活動本地化到多種語言。 主體一致性也推進到新領域。模型能在最多五個主體間保持角色相似度,並在單一流程中維持最多 14 個物件的視覺一致性,Google 表示。這對於建立故事、故事板或品牌資產的用戶來說,是一個重大突破。 在生產方面,從 512 像素到 4K 皆支援,並原生支援多種長寬比。指令遵循比以前的 Flash 模型更為嚴謹,實務上意味著較少偏離指令的提示,更多能完全符合要求的提示。 推理能力也可調整。開發者可以設定思考層級,從預設的 Minimal(最少)到 High 或 Dynamic,讓模型在渲染前先思考較複雜的提示。速度與思考的結合,正是品質提升的關鍵所在。

測試模型 速度的說法是真實的。我們請 Nano Banana 2 生成完整的比特幣生態系時間線,包括研究與最終作品。整個過程大致與 Nano Banana Pro 只完成比特幣時間線所需的時間相當。接著用以太坊時間線提示,幾乎沒有額外時間。這對於進行迭代流程或大規模建構的人來說,是一個重要差距。

世界知識功能確實改變了輸出感受。當我們提示歷史加密貨幣時間線時,模型搜尋多個來源,挑選最相關的事件,並圍繞它們構建藝術作品。它不是泛泛而談。模型做出了編輯決策。我們唯一發現的缺陷是某段結束與下一段開始之間缺少視覺連結。其他部分都能銜接得很好。相比之下,Nano Banana Pro 產出的作品較為通用,且沒有明顯的事件來源或優先排序。

例如,這是 Nano Banana 2 在提示“創建比特幣歷史時間線,突出其從創立到今天的最重要事件。寬屏,兒童畫風”並啟用思考功能時的產出。

對照之下,這是使用 Nano Banana Pro 生成的相同內容:

角色一致性與文字處理是我們測試中最令人印象深刻的部分。我們請模型生成雜誌封面,每行文字都準確且清晰。沒有亂碼,也沒有字體漂移。

Nano Banana Pro 在這方面也很強,但會出現較多瑕疵,且其雜誌封面呈現出較為合成的3D渲染質感。

Nano Banana 2 的結果看起來逼真。它在自行推理生成文字時,整體出現較少亂碼,不僅在明確指示時如此。

不過,模型仍有明顯的內容上限。我們請 Nano Banana 2 編輯一張真實照片,將服裝改成內衣,經過長時間推理後,它拒絕了。這是預料之中,因為它不僅拒絕對女性照片進行此類修改,對男性照片亦然。

請求換穿泳衣則沒問題。審查層級大致與 Nano Banana Pro 相當,意味著任何涉及敏感內容或操控真人的暗示性修改都會被阻擋。這點比想像中更為重要,我們稍後會說明原因。

Seedream 5:Nano Banana 2 的競爭對手

說到在2026年2月下旬推出旗艦圖像模型的意義:字節跳動同期推出了 Seedream 5。
Seedream 在過去一年中成為社群的熱門選擇,原因有很多。它彈性高、成本低——透過 API 每張約0.035美元,約為 Google 價格的三分之一——且內容審核較 Google 更為寬鬆。這點讓它贏得了許多創作者的忠誠,因為他們需要更多空間來處理真人或突破視覺界限。 Seedream 5 將即時網路搜尋融入生成流程,提升推理能力,增強參考一致性,並支援最多 14 張參考圖像的多輪編輯流程。它能在幾秒內生成 2K 和 4K 圖像,也能本地運行(Google 不允許),並在 ByteDance 的 CapCut 和 Jianying 以及標準 API 中提供。

簡而言之,Google 和字節跳動在同一週都推出了結合網路搜尋與推理能力的圖像模型。這反映了整個類別的發展趨勢。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言