在京東的一次高層會議上,集團高級副總裁、探索研究院副院長何曉冬曾帶著一條機器狗走進了會議室。這不是普通的機器人,它一邊跟著何曉冬行走,一邊用自然的語音與在場人員互動、聊天。
會議結束后,不少高管圍上來圍觀這條“能說會動”的機器寵物,甚至有人當場表示:“我也想買一條。”
這個看似輕松的“遛狗”畫面背后,是京東想要在AI和機器人賽道上施展拳腳的信號。在2025年世界人工智能大會(WAIC)上,京東正式發布具身智能平臺品牌“JoyInside”,與眾多機器人企業達成合作,不久前還一口氣宣布投資了三家機器人公司——千尋智能、逐際動力、眾擎機器人。
2025年,具身智能成為人工智能領域最火熱的新戰場。在剛剛結束的WAIC上,大模型和機器人相結合成為主旋律,展會現場幾乎變成了一場機器人技能秀。各大科技巨頭紛紛展示人形機器人、四足機器人、AI玩具與智能Agent系統,試圖搶占下一個AI落地風口。
然而,在何曉冬看來,具身智能并不只是“給機器人加上大模型”那么簡單,而是涉及“大腦(智能)+小腦(運動)+輸入輸出交互”的復雜系統工程。想要真正從實驗室走入家庭和生活場景,遠比想象中難得多。
“公眾對AI的期待值很高,所以它很容易在一個點就引爆。但是真正要落地,比如走入家庭,還有很多問題要解決。大模型本身也還沒有充分跟機器人結合。”何曉冬對界面新聞等媒體表示。
但他個人對行業比較樂觀,“任何產業只要開始走入用戶以后,特別是C端用戶,迭代速度會非常快,就像自動駕駛,機器人可能也會走類似的路徑”。
具身智能的“三件套”
如果用一句話概括具身智能,可以是 “有智能的物理機器”,或是兩足人形、四足狗,也可以是其他形態。
何曉冬對具身智能的理解比較寬泛,不局限于人形機器人,只要能在物理世界與用戶交互、且具備一定情商智商的智能體都屬于具身智能,但需要有以下三個核心模塊:
一是控制運動的“小腦”,確保機器能在物理世界行動,“完全沒有運動能力,體驗會有明顯欠缺”;
二是作為 "大腦" 的智能中樞,僅有運動能力會顯得單調,而“大腦”能提升可體驗性、交互性和感知性;
三是IO輸入輸出交互,這是常被忽視卻至關重要的一環,具身智能機器人涉及機器人、世界和用戶三方交互,用戶的命令、需求要被感知,機器人也要能給出回饋。
“市場上很多機器人公司擅長控制和運動技術,但缺乏大模型、語音交互、對話智能體等能力。”基于這一認知,京東將JoyInside定位為“附身智能”平臺——“附身”在這些公司之上,補齊短板。
目前,JoyInside已與包括Fuzozo芙崽、火火兔、元蘿卜AI、心大陸、Folotoy、嚕咔博士、眾擎機器人、云深處、魔法原子等在內的多家公司達成合作,并限時免費開放大模型技術接入。
不同于多數企業從工業機器人起步,京東具身智能的戰略重心開始傾向于家庭、陪伴等生活化場景。原因在于,這些場景不僅體量大、頻次高,也是最具用戶粘性和消費潛力的方向,更能驗證智能體與人的情感聯結能力。
以JoyInside與“云深處”合作的機器狗為例,這款原本用于管道巡檢的四足機器人,現在正變身為一款可交互、可陪伴的家庭寵物。它既能自主行走,又能聊天互動,還具備一定任務執行能力,被何曉冬稱為“行走的搜索引擎”或“家庭助手的雛形”。
“這塊的空間會比原來大一個到兩個數量級,對用戶來說體驗也更直接。”何曉冬說。
他甚至將具身智能的普及類比于汽車的演進:“就像現在每家都有車,未來可能每家都有一個人形機器人或其他形態的機器人。”
除了技術平臺與產品合作,京東還在通過投資加速具身智能生態構建。就在WAIC召開前一周,京東先后宣布投資千尋智能、逐際動力(LimX Dynamics)以及眾擎機器人等三家機器人企業,持續加碼產業側投入。
對于投資策略,何曉冬在媒體溝通會中表示,京東看重三個標準:第一,具身智能是戰略性賽道,值得長期投入;第二,它能納入京東服務生態、帶來用戶體驗躍升;第三,只要符合“大腦+小腦+IO”的系統邏輯,就能被京東視為合作與投資對象,并透露下一步的投資計劃仍在推進中。
技術落地難題待解
具身智能無疑是今年最火爆的賽道之一,據IT桔子數據顯示,今年內國內具身智能行業的投資事件,已超過110起,總投資金額超過120億元。
就在剛結束的2025WAIC現場,機器人也是當之無愧的焦點,各類機器人上演“技能大比拼”,從翻滾、跳躍到精準操作,技術展示吸引了大量關注。這種熱度背后,是行業對具身智能的高期待,但也引發了“概念是否過熱”的討論。
何曉冬認為,公眾對AI技術的高期待容易讓某個領域快速“引爆”,但具身智能要真正落地——比如走進家庭——還有諸多難題待解。
“最典型的是手部操作。”他舉例,“手雖然小,但關節多,靈活度遠高于腳。現在很多機器人能做前滾翻、后滾翻,但論自由度難度,可能還不如一只手的操作復雜。機器人要做服務,手部精準控制是繞不開的坎。”
另一大挑戰是大模型與機器人的深度融合。比如空間智能,讓機器人進房間后快速識別誰在什么位置;再比如語義理解,讓它把桌上的水杯拿過來,它要能精準定位是哪個水杯——這些看似簡單的場景,背后涉及視覺識別、語義推理、空間建模等多重技術,目前還沒完全解決。
盡管存在挑戰,何曉冬對行業前景仍持樂觀態度,他以自動駕駛為例,早期大家爭論先做L2還是L3,用模擬數據還是真實數據。但特斯拉先推L2,通過攝像頭收集大量真實數據,這兩年技術進步很明顯。機器人可能也會走類似路徑——先落地到具體場景,積累用戶數據,再快速迭代。
在他看來,面向C端的機器寵物可能是率先爆發的賽道。“養一只真狗成本高、麻煩多,要喂食、遛彎、處理衛生,而高情商的機器狗能提供類似的陪伴感,還不用費心照顧,市場潛力很大。”
在具身智能進入C端市場的過程中,如何控制token消耗成本、實現商業變現,也成為企業普遍面臨的問題。
Fuzozo芙崽的開發企業珞博智能創始人孫兆治在接受界面新聞等媒體采訪時稱,產品上線以來用戶平均每日使用時長達1-2小時,token(大模型調用成本單位)消耗量非常驚人。“這類產品并非簡單對話機,而是背后有復雜的agent機制和情緒、記憶管理能力,每次交互都在調用多種模型。”
“目前沒有哪家公司靠賣token掙錢。”何曉冬稱,“如果純拼token單價,只會導致價格越來越低,體驗越來越差,形成不健康的生態,就像早期智能音箱的價格戰,最后大家都把體驗放在了后面。”
在定價機制上,Fuzozo將采用“月度付費會員制”,而非一次性買斷,“希望做成類似美國SaaS公司的模式”。
目前來看,雖然具身智能的風口已至,但從爆款產品到真正可用的系統,還有很長一段路要走。