
只需使用一个模型,您就可以想象并握手,Shabu Hot Pot,混合鸡尾酒,您也可以遵守您的命令并纠正自己的错误 - 将来的通用机器人的主要跳跃可能是。在大多数机器人系统中,“大脑”(高阶推理)和“肢体”(较低控制)通常是两组单独的模型:一个是负责计划,另一个负责实施。似乎很明显,劳动分裂,但常常是“计划分散,手臂和腿部失控”的耻辱。更不用说,当人们暂时更改单词,更改场景或消失 - 移动网络时,两个子系统就不会互相理解并回话 - 返回,完全bordbe意识到了效率。 Ontwovla,Tsinghua University,Fudan University,上海Qizhi研究所,上海人工智能实验室和Qianxun Intelligent,试图在单个模型中“击杀”这两个系统l并且有能力。当前,代码和数据都是开放资源。纸张标题:Ontwovla:具有自适应纸链接的统一视觉 - 语言 - 动作模型:https://arxiv.org/abs/2505.11917项目homepage:https:// wo-vla.github.io/natectection:wo-one-wo-vla.github.io/-NIFIEND/UNIFIED架构:推理和动作“推理和动作”一站式“一站式”系统?两个系统?所有这些都塞满了同一变压器! Ostwovla首先预测“ [BOR]会开始推理”或“ [BOA]开始行动”,您真的希望无缝地移动以工作。识别会自动进入关键时刻(当子任务结束时,需要将其指示和人类指示);休息时间将直接输出低晶格动作流。这不仅可以确保决策的质量,还可以考虑现实主义。数据双引擎:真实的机器人演示 + 16,000个合成的“ Matalinong Pangangatwiran”数据真实演示:Ang Pangkat ng Pananaliksik ay gumagamit gumagamit ng ng franka anx Arx Arx Arx Arm arx and arx upang mangolekta ng mga ng mgaAngmatagalang Gawain Tulad ng炒鸡蛋,火锅,鸡尾酒,ATBP,位于Minarkahan Ang apat na Uri ng nlalaman ng pangangatuwiran,kabilang ang ang paglalarawan ng eksena ng eksena,plano ng gawain,plano ng gawain,plano ng ng gawain,《历史》和下一条。大型模型生成:借助Gemini 2.5 Pro +文学和图形模型通量,16,000个桌面场景以及相应的任务/推理文本是自动制作的,涵盖了空间,特征,语义引用和计划的许多步骤,从而扩展了视觉和语言分布。四个功能完全开花:从厨房到酒吧,机器人展示了“十八武术”1。长期计划:火锅,烹饪专家和调酒师认为机器人可以完全饮食炒西红柿或在火锅中帮助您 - 这不是小说电影! Ostwovla在这些复杂长度上的表现非常明显,比纯VLA动作高达30%,在传统的“双重系统”解决方案中高达24%。如果是要准确地拿起牛肉,细长的Enoki蘑菇的湿滑片,或者在进入漏勺时紧紧地放置,机器人的动作像经验丰富的厨师一样光滑而自然。通过使用紧张的视觉语言数据进行联合培训,Ostwovla还将理解在实践中尚未看到的说明,例如“从冰箱中获取一瓶冰可乐” - 巧妙地打开冰箱门,找到可乐并删除它。 2。错误检测和恢复:您是否想念它?没关系,我会自己纠正!有时人们在烹饪时滑倒,机器人当然也不例外。但是,在Ontwovla中做得很好的是纠正自我的能力:实时异常的发现:绑架瓶?得到漏勺?机器人将很快发现问题。快速调整方法:在炸西红柿和鸡蛋时,机器人发现油瓶首次不掌握,并立即撰写理由并尝试将其第二秒时间。响应速度比双重系统要好:双重系统中的传统sthe outlouts通常会因为模块之间的通信延迟而错过最佳恢复时间。 3。与自然人类计算机互动:听话,周到和“答案”这可能是最令人惊讶的能力 - 夫妻机器人的机器人不再是冷酷的执法:对新需求的灵活响应:一半是按任务,您突然说“将其更改为柠檬味的Vodka vodka”?没问题,机器人将立即调整动作。积极要求澄清:在遇到模糊指示时,机器人像一个人的助手一样积极地要求。 4。一般的视觉定位:请务必看到,完全识别并找到Ontwovla。它显示出理解开放世界的绝妙能力。尽管精灵罐或星巴克杯咖啡尚未出现在数据培训中,但仍然可以准确地识别出来。这种能力来自对空间关系模型的深刻理解S,对象属性和语义特征。当您说“将绿罐向左拿走”或“把我最大的杯子交给我”时,机器人可以准确理解和执行。从“旋转记忆”到“从实例学习”的飞跃表明机器人正朝着真正的普遍智能发展。重要性和透视图1。范式变化:从“两个模型的硬拼接”到“单个模型适应”,它提供了更简单,更容易扩展通用机器人的技术路线的简单简单。 2。新数据思想:验证低成本,自动语言数据可以显着改善Robo Modelst的整体和常识。 3。未来的方向:加强进一步改善推理深度的研究;异步体系结构在思考时真正意识到零要停止。包括更开放的大型语料库,以朝着更复杂的情况(例如外部,行业和服务)迈进。至于该项目,该项目有三件作品:lin Fanqi,Qi Yueqian和hu yingdong。 Lin Fanqi是Tsinghua大学交叉信息研究所的一年级医生学生,他的主管是Gao Yang教授。他的研究方向是体现的智能,他的目标是使机器人通过大规模数据具有人体水平的操纵技巧。此外,他还热衷于使用基本模型来增强机器人功能。 Lin Fanqi在研究和机器人技术方面发表了许多领先的会议,包括ICLR,Corl,IRO等。 Yu Ruiqian是Tsinghua University的交叉信息研究所的三年级学生,他的主管是Gao Yang教授。他的主要研究方向是体现的情报,他致力于使机器人通过大规模数据查看,推理和学习。 Yu Ruiqian在ICRA,AAAI,NEURIPS和其他机器人技术和机器学习会议上发表了论文。研究项目覆盖VLA,四足机器人,人形机器人和其他方向。 Hu Yingdong是Tsinghua大学交叉信息研究所的四年级学生医生,他的主管是Gao Yang教授。他的主要研究方向是兴高采烈的katalinuhan,涉及机器研究,机器人技术和计算机视觉的交集。他的研究重点是开发一般的机器人系统,这些机器人系统通常可以在多样化和非结构化的真正开放环境中执行任务。 Hu Yingdong在许多研究和机器人会议上发表了论文,包括ICML,ICLR,CORL,ECCV等。相应的项目是Tsinghua University的交叉信息学院助理教授Gao Yang,他主要研究计算机的视野和机器人。过去,他在特雷弗·达雷尔(Trevor Darrell)教授的领导下获得了加利福尼亚大学伯克利分校的博士学位。他还曾在加利福尼亚大学与Pieter Abbeel和其他人合作。先前的t哦,这是Gao Yang毕业于Tsinghua University的计算机科学系,并在贝叶斯推理中与Zhu Jun教授进行了研究工作。他从2011年到2012年进行了一项关于Google研究的自然语言处理研究,与Waymo的摄像机感知团队合作,Google于2016年自动驾驶,并与Vladlen Koltun博士在2018年与Vladlen Koltun博士进行了端到端的自主驾驶研究。GaoYang在Meurips,Neurips,Neurips,Neurips,ICML,ICML,ICV,ICL,ICL,ECC中,发表了许多学术报纸。