机器之心突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知 Telegraph | 原文 | 🔔科技频道[奇诺分享-ccino.org]⚡️

机器之心
突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知 Telegraph | 原文

突破视觉-语言-动作模型的瓶颈：QDepth-VLA让机器人拥有更精准的3D空间感知 - 机器之心

视觉-语言-动作模型（VLA）在机器人操控领域展现出巨大潜力。通过赋予预训练视觉-语言模型（VLM）动作生成能力，机器人能够理解自然语言指令并在多样化场景中展现出强大的泛化能力。然而，这类模型在应对长时序或精细操作任务时，仍然存在性能下降的现象。这种现象的根源在于，模型虽具备语义理解能力，却缺乏对三维空间的几何感知与推理能力，导致其难以准确捕捉如机械臂夹爪与物体之间相对位置关系等关键三维信息。为此，由中国科学院自动化研究所与灵宝 CASBOT 共同提出了 QDepth-VLA —— 一种结合量化深度预测（Quantized…

Powered by BroadcastChannel & Sepia