Google 推出 Nano Banana 2：AI 圖像生成的新王者？

Decrypt

2026-02-26 19:26:05

簡要

Google 新推出的 Nano Banana 2 型號現已提供專業級圖像生成，速度媲美閃電
其即時網路搜尋功能為 AI 圖像提供事實依據
中國模型 Seedream 5 在此公告前幾天推出，提供更高彈性，可能成為有趣的競爭對手

Google 最近在 AI 軟體方面的發布速度令人震驚。僅在過去一週，我們就見證了 Gemini 3.1、Lyria 和 Pali 的推出，後者還配備了拍照功能，成為真正的熱門話題。如今，去年最受矚目的圖像生成大作的後續產品也已到來。 Google 在官方部落格中表示，週四推出的 Nano Banana 2「將 Gemini Flash 的高速智能引入視覺生成，使快速編輯與迭代成為可能」，並補充說「它讓曾經專屬的專業功能變得更普及」。
以下是快速概述。原本的 Nano Banana 實際上名為 Gemini 2.5 Flash Image，基本上就是一個基於 Gemini 2.5 Flash 的圖像生成器。隨後推出的 Nano Banana Pro，則是 Gemini 3 Pro Image，於去年十一月推出時成為 AI 圖像編輯的標準。

介紹 Nano Banana 2：我們最強的圖像生成與編輯模型。🍌

專業級品質，閃電速度。今日在 @GeminiApp、搜尋、以及我們的開發者與創意工具中推出。pic.twitter.com/6oNWYhVSqp

— Google (@Google) 2026年2月26日

Nano Banana 2 技術上是 Gemini 3.1 Flash Image——因此並非直接的續作，而更像是原始版本的重大升級，現在運行在較新的 Gemini 3 Flash 架構上。令人困惑？是的。這裡的重點很簡單：將 Nano Banana Pro 的所有特色，提升到閃電般的速度。今天推出的 Nano Banana 2 將在 Google 生態系中全面展開。在 Gemini 應用中，它取代 Nano Banana Pro，成為 Fast、Thinking 和 Pro 模型的預設選擇。Google AI Pro 和 Ultra 訂閱用戶仍可透過三點選單重新生成，存取 Nano Banana Pro 以完成專門任務。它也已在 Google 搜尋的 AI 模式和 Lens 中上線，並可透過 AI Studio 和 Vertex AI 的預覽版 Gemini API 使用，成為 Flow 中的預設圖像生成模型，所有用戶皆可零點數使用。Google 亦擴展了 SynthID 水印技術，並加入 C2PA 內容認證支援，提供平台更佳的 AI 生成媒體識別工具。自去年十一月以來，SynthID 驗證功能已被使用超過兩千萬次。

Nano Banana 2 的新功能最大亮點是世界知識。Nano Banana 2 在圖像生成過程中能即時從網路搜尋資料，意味著能準確呈現特定主題。商標、地標、近期事件、品牌識別——它能辨識外觀，因為它可以查詢，而非僅憑訓練資料猜測。文字渲染也獲得重大升級。你現在可以在圖像中生成準確且清晰的文字，無論是在提示中拼寫，或讓模型根據語境決定內容。它還支援圖像內翻譯，讓你在不重建視覺的情況下，將廣告活動本地化到多種語言。主體一致性也推進到新領域。模型能在最多五個主體間保持角色相似度，並在單一流程中維持最多 14 個物件的視覺一致性，Google 表示。這對於建立故事、故事板或品牌資產的用戶來說，是一個重大突破。在生產方面，從 512 像素到 4K 皆支援，並原生支援多種長寬比。指令遵循比以前的 Flash 模型更為嚴謹，實務上意味著較少偏離指令的提示，更多能完全符合要求的提示。推理能力也可調整。開發者可以設定思考層級，從預設的 Minimal（最少）到 High 或 Dynamic，讓模型在渲染前先思考較複雜的提示。速度與思考的結合，正是品質提升的關鍵所在。

測試模型速度的說法是真實的。我們請 Nano Banana 2 生成完整的比特幣生態系時間線，包括研究與最終作品。整個過程大致與 Nano Banana Pro 只完成比特幣時間線所需的時間相當。接著用以太坊時間線提示，幾乎沒有額外時間。這對於進行迭代流程或大規模建構的人來說，是一個重要差距。

世界知識功能確實改變了輸出感受。當我們提示歷史加密貨幣時間線時，模型搜尋多個來源，挑選最相關的事件，並圍繞它們構建藝術作品。它不是泛泛而談。模型做出了編輯決策。我們唯一發現的缺陷是某段結束與下一段開始之間缺少視覺連結。其他部分都能銜接得很好。相比之下，Nano Banana Pro 產出的作品較為通用，且沒有明顯的事件來源或優先排序。

例如，這是 Nano Banana 2 在提示“創建比特幣歷史時間線，突出其從創立到今天的最重要事件。寬屏，兒童畫風”並啟用思考功能時的產出。

對照之下，這是使用 Nano Banana Pro 生成的相同內容：

角色一致性與文字處理是我們測試中最令人印象深刻的部分。我們請模型生成雜誌封面，每行文字都準確且清晰。沒有亂碼，也沒有字體漂移。

Nano Banana Pro 在這方面也很強，但會出現較多瑕疵，且其雜誌封面呈現出較為合成的3D渲染質感。

Nano Banana 2 的結果看起來逼真。它在自行推理生成文字時，整體出現較少亂碼，不僅在明確指示時如此。

不過，模型仍有明顯的內容上限。我們請 Nano Banana 2 編輯一張真實照片，將服裝改成內衣，經過長時間推理後，它拒絕了。這是預料之中，因為它不僅拒絕對女性照片進行此類修改，對男性照片亦然。

請求換穿泳衣則沒問題。審查層級大致與 Nano Banana Pro 相當，意味著任何涉及敏感內容或操控真人的暗示性修改都會被阻擋。這點比想像中更為重要，我們稍後會說明原因。

Seedream 5：Nano Banana 2 的競爭對手

說到在2026年2月下旬推出旗艦圖像模型的意義：字節跳動同期推出了 Seedream 5。
Seedream 在過去一年中成為社群的熱門選擇，原因有很多。它彈性高、成本低——透過 API 每張約0.035美元，約為 Google 價格的三分之一——且內容審核較 Google 更為寬鬆。這點讓它贏得了許多創作者的忠誠，因為他們需要更多空間來處理真人或突破視覺界限。 Seedream 5 將即時網路搜尋融入生成流程，提升推理能力，增強參考一致性，並支援最多 14 張參考圖像的多輪編輯流程。它能在幾秒內生成 2K 和 4K 圖像，也能本地運行（Google 不允許），並在 ByteDance 的 CapCut 和 Jianying 以及標準 API 中提供。

簡而言之，Google 和字節跳動在同一週都推出了結合網路搜尋與推理能力的圖像模型。這反映了整個類別的發展趨勢。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言