人型機器人模型發展剖析:從模型創新轉向數據累積
摘要
VLA(Vision-Language-Action,視覺-語言-動作)模型為奠定人型機器人的基礎架構,但面臨生態碎片化與數據稀缺挑戰。在模型架構方面,開源與硬體抽象層將可推動跨平台部署,而觸覺感測與多模態時序對齊為多模態融合之關鍵;在數據方面,機器人即服務(RaaS)租賃模式將成為加速規模化與多樣數據收集的重要商業模式,而世界模型提供低成本數據補充,共同解決物理互動數據稀缺困境。
一. VLA模型生態與數據為現階段人型機器人發展瓶頸
二. 模型發展重心逐漸轉向數據累積與場景多樣性
三. 拓墣觀點
圖一 VLA模型發展史
圖二 Transformer+Tokenization架構說明
圖三 觸覺相關數據對人型機器人之影響
表一 2026年2月RoboChallenge Table30具身智能評測結果
表二 2026年機器人VLA模型廠商更新動態舉要
