具身大模型是人形機器人的“大腦”,主導“感知-認知-控制”交互閉環(huán)。傳統(tǒng)大模型專注于單一或少數模態(tài)的任務處理,缺乏與物理世界直接交互的能力。具身大模型 作為人形機器人的“大腦”,從“感知-認知-控制”層面賦能機器人,強調與物理世界的交互,需具備多模態(tài)感知、自主決策、實時交互執(zhí)行、通用與泛化等能力。
人形機器人目前尚未實現(xiàn)大規(guī)模應用,主要原因或非硬件能力不足,而是大模型存在瓶頸。 從產業(yè)進程來看,當前機器人肢體層技術已較為成熟,而大模型的發(fā)展遠落后于硬件。當前階段的具身大模型已具備認知、推理與規(guī)劃能力,不足之處在于難以可靠處理復雜物理世界的不確定性,同時泛化能力明顯較弱。
具身大模型主流框架為分層式與端到端式,路徑尚未收斂。傳統(tǒng)決策采用分層架構,包括感知與互動、高層規(guī)劃、低層執(zhí)行以及反饋與增強,通過大小腦分層,人形機器 人更容易落地,但分層范式存在錯誤累積的問題,且在跨多樣任務泛化時表現(xiàn)不佳。端到端框架基于感知環(huán)境和機器人狀態(tài)直接輸出具體的機器人執(zhí)行命令,將感知、語 言理解、規(guī)劃、動作執(zhí)行和反饋優(yōu)化集成到一個統(tǒng)一的框架中,具備高集成度與較強泛化能力,VLA模型是端到端決策的核心。
海外具身大模型:1)典型的完全端到端架構具身大模型包括谷歌DeepMindRT-2 與特斯拉FSD。RT-2 致力于通過端到端的神經網絡將視覺和語言信息直接映射為機器 人動作;特斯拉Optimus 可沿用汽車FSD 系統(tǒng)的技術棧,實現(xiàn)多模態(tài)輸入與實時動作輸出。2)典型的分層具身大模型包括Figure Al Helix、英偉達GROOT N1與Physical Intelligence πo Helix采用“系統(tǒng)S1 (快思考)+系統(tǒng)S2 (慢思考)”雙系統(tǒng)架構;GROOT N1同樣采用雙系統(tǒng)架構,并利用流匹配技術來生成動作;π。采用“預訓練 VLM+ 動作專家模塊”的VLA 模型。
國內具身大模型:架構持續(xù)創(chuàng)新,能力對標海外,典型模型包括智元機器人G0-1、 星動紀元ERA-42、 銀河通用GraspVLA、 靈初智能Psi R1及字節(jié)Seed GR-3。G0-1 開創(chuàng)性提出VLLA 架構,采用“VLM+MoE (混合專家)”; ERA-42 模型是國內個真正意義上的端到端原生機器人大模型;GraspVLA 模型將VLM 與動作專家集成,是 個合成大數據驅動的基礎抓取大模型:Psi R1模型采用快慢腦架構;GR-3 采用40億參數的混合變換器架構,泛化抓取-放置能力超越πo 數據是驅動具身大模型迭代升J的關鍵,目前主流數據訓練方案為真機、仿真與視頻數據相結合。伴隨具身智能轉向端到端大模型,數據需求從低量單一模態(tài)數據逐步升 J為海量、多模態(tài)、高精度和跨任務長程數據,其中真機數據價值Z高,獲取難度Z大,是具身智能落地的可靠數據源。
目前真實數據采集方式主要分為VR遙操作采集、 機械臂主從控制采集、數據手套遙操作等。目前主流廠家數據采集及訓練方案多樣,特斯拉數采方案或轉向視頻學習,而銀河通用以物理仿真數據為主、真實數據為輔。

![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |