谷歌正式發布最強生圖模型Nano Banana 2,用戶現可在Gemini中直接調用該模型生成圖片,使用時需切換至Fast模式。
該模型底層基于Gemini 3.1 Flash構建,技術代號為Gemini 3.1 Flash Image,相比第一代實現了從“像素模仿”到“邏輯理解”的跨越,被形容為具備物理常識和思維邏輯的“視覺導演”。
核心突破包括四大能力,一是具備“推理能力”的視覺引擎,內置類似Gemini 3.1的思考層,可在生成像素前先分析場景邏輯,處理物體遮擋關系、光的折射、重力感等物理場景,減少AI常見的“靈異”錯誤,二是完美的文字與圖表渲染,可生成清晰無錯別字的招牌、海報及多行文本,支持直接生成結構正確的信息圖表、UI界面原型圖及帶數學符號的教學圖解,三是極致的角色與風格一致性,只需提供一張照片即可在不同場景和動作中保持同一人物面部特征,準確率據稱達95%以上,同時支持上傳多達14張參考圖進行多圖融合,四是專業級視頻和靜態圖編輯,支持對話式微調和局部精準修改,可原生輸出2K到4K超高清分辨率。
與第一代相比,Nano Banana 2在基礎架構、分辨率、文字能力、邏輯理解及參考圖支持等方面均有顯著提升,基礎架構從Gemini 2.5 Flash升級至Gemini 3.1 Flash/Pro,分辨率從約1K提升至原生2K/4K,文字能力從經常出現亂碼改進為精準渲染多國語言文字,邏輯理解從僅按提示詞繪畫升級為具備“思維鏈”和理解物理關系,參考圖支持從數量有限擴展至支持多達14張參考圖。