2025全球開發者先鋒大會12月12日至12月14日在上海舉行。在同期舉行的思辨會上,具身智能企業家們對“2050年人機共存的社會”進行了暢想。
他們認為,隨著具身智能硬件、軟件、生態深度融合,機器人能勝任人類的大多數工作。有企業家提出,當機器人成為主要生產力后,人類將有更多時間和機會探索宇宙,盡享“星辰大?!薄?/p>
既要仰望星空,也要腳踏實地。多名具身智能專家在思辨會上強調了多模態語料數據痛點。他們表示,數據短缺是具身智能發展的真命題,且數據多來自受控環境,質量與真實場景需求存在差距。產業應用對數據質量要求更高,這需要政府與企業協同構建貼合實際場景的高質量數據集,推動機器人應用落地。

未來社會或出現機器人醫院、具身智能學校
“現在,具身智能行業的發展速度和呈現狀態遠超所有人預期,但其實很多人不清楚具身智能機器人這一概念的起源。”國家地方共建人形機器人創新中心首席科學家江磊表示,1986年,863計劃(國家高技術研究發展計劃)開始實施,其中提出了“智能機器人”研究方向,開啟了我國機器人研究的歷程。
江磊說,近 40 年過去了,如今人們在這一基礎上新增 “具身” 二字,提出 “具身智能機器人”,標志著行業迎來了全新發展階段?!昂芏嗳苏f這是機器人行業的 ‘翻篇’,但我并不完全認同。它更像是歷代從業者不斷探索嘗試的積累,是整個行業在追逐 ‘星辰大?!?愿景過程中,一個極具里程碑意義的熱點爆發?!?/p>
對于2050年具身智能機器人的理想和愿景,上海青心意創科技有限公司CTO曾俊表示,至少能于2050年前實現三個核心維度“質的飛躍”。
一是硬件能夠穩定、可靠地滿足任務要求,這是基礎保障。二是軟件集成度提升,當人們下達任意任務指令時,配套軟件能高效支撐機器人完成與人、與環境的交互,還具備緊急情況下的自動響應能力。
三是在產品生態上,2050年前,行業已明確可盈利的商業方向,且這些盈利方向能清晰拆解為對應的軟件和硬件需求。當硬件、軟件、生態三者深度融合,行業就能進入良性循環的發展狀態,形成持續前進的 “飛輪效應”。
開普勒副總裁宋華作出了較為樂觀的預測,他表示,具身智能的發展速度將快于業內預期。到2050年,行業已徹底解決兩大核心問題。在硬件穩定性上,經過多輪迭代更新,硬件性能會達到非??煽康乃剑卉浖δ苄苑矫?,通過持續迭代,機器人能精準完成各類預設任務。
宋華認為,人機共存的社會,將出現專門服務于機器人的配套體系,例如類似人類醫院、學校、培訓機構的單位,為機器人提供維護、升級和技術賦能。
“人形機器人的核心發展邏輯,是追求機器人能勝任各類任務?!毙聲r達副總經理蔡亮表示,十五年內想要機器人做到 “無所不能” ,存在不小的挑戰,但整體發展方向是積極向好的。
他還透露,新時達將具身智能作為未來發展的重點方向,正在從傳統工業機器人向具身智能加速轉型,預計本月月底或2026年年初左右會公布具身智能方面的新進展。

蔡亮還拋出一個頗具哲學意味的思考:若未來機器人具備高度的運動能力和任務執行力,能勝任人類所有的工作,那人類的價值在哪里?“到時候,真正困擾大家的可能不再是如何讓機器人做事,而是人類該做什么?!彼f。
對于上述問題,宋華提出,人類對未知世界的探索欲望是無限的。如今太空探索已邁出了第一步,未來太空必然會成為無數人向往的美好家園。而這件事,必須借助人形機器人的力量 —— 讓機器人為人類創造更多財富,讓人類有更多時間和機會投身太空探索。
“到2050年,人類很可能會和人形機器人一起登上太空,而真實的未來,或許會比這個設想來得更早。”宋華說。

機器人也需要“為什么犯錯”等負樣本數據
具身智能何時迎來“ChatGPT時刻”?在2025全球開發者先鋒大會思辨會上,業內人士普遍指出,模型是具身智能的 “大腦”,數據是滋養大腦的 “養分”。大語言模型的爆發,源于海量高質量語料的支撐;而具身智能要實現從 “能行動” 到 “會思考” 的跨越,同樣離不開多模態語料數據的“質的飛躍”。
靈御智能首席科學家、清華大學自動化系長聘副教授莫一林表示,數據缺失是公認的非常嚴重的行業痛點,尤其是較自動駕駛行業而言,具身智能數據集規模遠遠未達到合理水平。
數據的問題,不僅體現在數量上,更反映在質量上。莫一林進一步表示,大量具身智能數據是在實驗室、數據采集場等受控、干凈的環境中采集的,而自動駕駛數據則來自真實的道路行駛場景,更貼近實際應用需求。由于具身智能機器人尚未大規模落地,數據采集只能局限于實驗室、工廠或數據農場,這導致具身智能數據質量與自動駕駛數據存在顯著差距。這一問題必須得到正視并著力解決。
上??萍即髮W教授顧家遠也表示,仿真數據已成為具身智能數據的重要來源。此外,數據質量是至關重要的,尤其是疊衣服、高精度操作等場景對數據采集的精度和細節要求極高,數據質量直接影響模型的學習效果。

上大通用智能機器人研究院特聘研究員、技術副總監黃嘉鋒強調了“數據維度”和“數據信息密度”的重要性,他表示,具身智能需要解決的任務更復雜,且完全處于真實物理場景中,這與大語言模型有本質區別。大語言模型可以通過文本、圖像數據識別物體、拆解任務;但在物理世界中執行任務時,僅靠文本、圖像數據和機器人關節數據是不夠的 ,真實物理場景需要動態交互。
“中國有句古話 :人教人教不會,事教人一次會。機器人只有真正感知物理世界,才能理解‘為什么抓不住衣服’‘為什么踢球后球會因重力下落’等底層邏輯。”黃嘉鋒表示,具身智能數據需要增加維度,納入力傳感器、觸覺傳感器等數據——這些對人類而言習以為常的感知信息,對機器人理解物理世界至關重要。
數據的正負樣本比例亦受到專家的關注。黃嘉鋒表示,當前訓練數據大多聚焦于 “如何正確完成任務”,但缺乏 “錯誤操作的后果及原因” 相關數據,包括 “沒抓穩杯子會掉落破碎”“掉落的原因是握持力不足”等。具身智能需要理解真實的物理邏輯,而正負樣本的均衡搭配,能幫助模型更全面地掌握任務規律。
校對:廖勝超