谷歌市值沖上3萬億美元的同時,旗下的“殺手級”AI應用也超越ChatGPT,成功登頂蘋果應用榜第一名。
最新數據顯示,在美區AppStore中,谷歌旗下大模型應用Gemini的下載量已超過OpenAI的ChatGPT,成為免費榜排名第一的應用。此外,在加拿大、印度、摩洛哥等國家,Gemini同樣實現了登頂,打破了ChatGPT自發布以來長期的壟斷地位。
這一超越背后,離不開谷歌推出的爆款圖像編輯產品Nano Banana(納米香蕉)。今年8月26日,谷歌DeepMind發布新一代AI圖像生成與編輯模型Gemini 2.5 Flash Image。這一模型的代號為“Nano Banana”,在圖像質量、編輯控制和應用場景上有大幅改進,一推出就受到了用戶的熱烈追捧。9月4日,谷歌實驗室副總裁Josh Woodward透露,自該功能上線以來,已累計完成超2億次圖像編輯,帶動超1000萬新用戶嘗試Gemini應用。
浙商證券研報分析稱,和此前的多模態模型相比,Nano Banana在以下技術層面有所提升。1)自然語言驅動圖像編輯:Nano Banana允許用戶通過一句簡單的自然語言指令實現精準編輯,無需傳統圖層或遮罩操作。2)角色一致性與場景融合:模型在連續編輯中能夠保持人物面貌與特征一致,確保角色在不同場景和動作中保持統一識別度。這一特性在品牌角色創作、情景劇本生成等應用中尤為關鍵。3)多圖融合與世界知識注入:支持將多個圖片在同一畫面中融合,自然過渡;同時,基于Gemini的世界知識,模型能理解復雜場景并執行符合現實邏輯的編輯任務。4)降低3D建模門檻:傳統3D建模需專業技能,而Nano Banana生成的2D設計圖已包含結構、光影、材質等關鍵信息,建模師可快速將其轉化為3D文件。
記者搜索發現,Nano Banana自上線以來,各大網絡社區平臺的用戶均分享了許多由其制作的圖片,效果十分驚艷。例如上傳一張圖片,并提示“把我的寵物變成包裝旁邊的塑料玩偶”,即可生成一張高清的3D寵物手辦圖片。
再比如,輸入提示詞“將我手中的物體變成3D透明線條藝術全息圖”,Nano Banana也能準確地理解提示詞的含義。
Nano Banana的火爆出圈,與數月前GPT-4o推出圖像生成功能并引發“吉卜力”風格AI圖片創作風潮十分相似。吉卜力風格是指日本吉卜力工作室創作的動畫藝術風格,該工作室由宮崎駿與高畑勛于1985年創立,代表作包括《千與千尋》《龍貓》等。由于過于火爆,OpenAI首席執行官山姆·奧特曼當時也火速換上了這一風格的頭像。奧特曼還發貼稱,ChatGPT一小時就新增了百萬用戶,其活躍用戶、App下載和訂閱收入都在吉卜力效應當周創下了歷史紀錄。
業內人士分析稱,谷歌Nano Banana能夠在全球走紅,源于其在AI生圖領域重構了用戶的體驗范式,實現了從“復雜工具欄”到“一句自然語言”、從“渲染緩慢”到“秒級出圖”、從“效果不穩定”到“跨圖一致性”等一系列突破,大幅降低了使用門檻和成本。
值得注意的是,受益于反壟斷裁決結果好于市場預期以及Nano Banana的良好市場表現,谷歌股價近期持續上漲。周一(9月15日)早些時候,花旗集團分析師Ron Josey將谷歌母公司Alphabet目標價從225美元上調至280美元,理由是“隨著Gemini在廣告與云業務中的采用加速,正出現更快的產品開發周期”。
此外,Nano Banana的爆火,無疑再一次點燃了圖像生成視頻賽道的戰火。記者注意到,最近一段時間以來,國內大模型廠商也紛紛對標Nano Banana,推出了相應的圖像生成模型。
例如,9月9日,字節跳動Seed團隊宣布推出豆包圖像創作模型Seedream 4.0。據介紹,Seedream 4.0可靈活支持文本、圖像的組合輸入,抽取不同圖片元素進行創作,還可一次生成角色連貫、風格統一的組圖,實現表情包、連環畫等各類創意玩法。同日,AI創業公司生數科技正式推出Vidu Q1參考生圖功能,正面對標Nano Banana,支持單次輸入最多7張圖像作為參考,可自由組合人物、背景與道具,生成細節精準、風格統一的高質量圖像。
華泰證券認為,原生多模態模型架構得到業界認可,OpenAI和谷歌的原生多模態模型已經在性能、延時、部署上展現出了優勢。整體而言,多模態為主的產品商業化快于文本產品,從大模型到多模態已是商業化的必由之路,多模態大模型和應用發展的奇點將至。
就投資層面來看,多模態有望在算力和應用兩方面帶來相關投資機會。算力側,供給端原生多模態模型需要比非原生模型更多的算力,需求端視頻的推理算力需求遠大于文字,視頻Agent的落地進一步催生推理算力需求。應用側,供給端國內的視頻生成模型領先,需求端廣告、零售、創作、教育等領域均有AI化需求。
校對:祝甜婷