正规AG棋牌平台_AG亚娱官方网站入口
  • 正规AG棋牌平台_AG亚娱官方网站入口
  • 网站首页
  • AG棋牌
    企业简介
  • 产品展示
    产品一类
    产品二类
    产品三类
  • 新闻资讯
  • 成功案例
  • AG亚娱官方
主页 > 新闻资讯 >

AGI手机助理有多远?移动代理综合长期任务任务

发表时间:2025年07月31日浏览量:

本文的第一作者Guo Yuan是上海Jiaotong University计算机科学系三年级的本科生,他的研究方向是自治的代理商和经纪人安全。这项工作由上海北港大学和兰州技术完成。 Paper Title: Atomic-to-Komosition Generalization for mobile agents with a new benchmark and scheduling project home project page: https://ui---lexus.github.io/ Paper Link: https://arxiv.org/abs/2506.08972 From the atomic task automation to system-level end-side intelligent multimodal Big Big Big Big Big Big Multimodal Multimodal Big Big Big Big MultiMal Big Big Big Big Big MultiMal Big Big Big Big Big Multimodal Multimodal Big Big Big Big Big Big Multilimal Big Big Big Big Big Multilimal Big Big Big Big Big Multilimal Multilimal Big Big Barrom-Beloveligent Model (MLLM) Performance in implementing single-screen action (such as Screenspot) and short-chain operation tasks (such as AndroidControl),这标志着任务自动化结束的初始阶段。但是,现实世界中的用户通常包括Thoselong期限活动,例如“比较价格并将订单订购到廉价平台”任务的任务,这些任务需要在多个应用程序中进行操作,收集和比较异型信息,并确定基于它的后续操作步骤; “当今的热门新闻,摘要和记录的视图”工作需要在设备的许多网页之间导航,并与一般推理文本的一般能力进行交织和融合操作,并完成及时的信息传输。从简单而有序的任务转变为复杂,复杂且无序的活动是从单一代理培养代理到AI操作系统的唯一途径。当前的训练基本方法,例如环境理解,动作的实施和短序列轨迹微调,已显着改善了上述原子激活的性能ITIE,但是复合长度的任务带来了新的挑战,例如长链开发,信息收集和交付以及操作和一般思维的整合。研究人员正在研究基本的移动GUI代理系统。实验表明,当面对综合长期活动时,现有的GUI移动代理具有明显的技能缺陷,在将原子的活动推广到综合活动方面显示出很大的困难。研究人员建议:1。晚餐基准UI-Nexus:建立一个受控的动态检查平台,涵盖复杂的长期活动,例如复合,DividingId和深入分析,涵盖50种中文和英语应用程序(包括本地功能应用和第三方在线应用程序和第三方在线应用程序),并设计了100个任务的数量,该数量是14个步骤,数量为14个。 2。多代理任务调度系统代理-Nexus:建议轻巧的调度大纲,支持指导分布,信息传递和过程管理。该系统不需要更改基础智能模型,这有助于与多体型进行良好的访问和协作。这项工作为在汇总任务下的移动代理提供了一个具有挑战性的测试基准和开发平台,并为期望Hinharap的复杂而精致的本机操作系统建立了原型。移动智能人体身体骨杆曲板具有总体河流活动的能力,并不断增强基本模型,并优化了训练技术,例如环境理解,单屏幕行动研究,静态轨迹微调,增强研究等,并且能够自动化诸如端到端网络搜索之类的原子活动的实施。但是,在实际情况下,用户的说明通常包括长期情况和复合依赖性。 bas关于子任务的依赖性,本文提供了三种常见的综合活动类型:简单串联:许多原子子任务的划分而没有依赖性。如图所示,床前的设置顺序设置为“ Instagram在8小时内启用消息,并在7:00 AM启用SETAN闹钟时钟”上下文交付类型:子工作需要继承和使用上一个任务生成的中间结果或接口状态,并且信息/上下文需要正确地将信息/上下文带到下一个应用程序或页面或页面。如图所示,根据搜索结果查找天气预报并发送微信的消息的任务。设备上下文的情况。Browser和Google Doc导航操作,但还需要使用一般推理功能来汇总和研究当前页面新闻内容。研究人员已经基于综合工作依赖性结构,conducti,在常用的移动应用程序中建立了代表性任务NG对主流OS-ATLA,UI-TARS,移动设备系列,M3A和其他GUI移动代理的初步实验,发现主流代理的执行端口良好。对错误案例的详细审查表明,主要移动代理缺乏有效的发展管理和信息管理机制,显示了有关化合物任务的典型类型的失败指令,很容易引起过度的溢出(上下文化),从而导致代理错过某些说明或子任务;信息交付失败:代理缺乏管理和发送信息的能力,从而随机实施了需要在已交付的任务中预订信息的任务;混乱的进度管理:未完成的子任务之间反复跳跃。 UI-Nexus:移动代理的复合工作的全面测试基准,以提供科学和综合的测试基准和开发,用于在综合长期活动中进行移动代理的性能,RES耳机提出了UI-Nexus:用于移动代理的复合活动的交互式测试基准。 UI -Nexte General-基准NG测试的侧面 - 在一般分析图中显示。 UI-Nexus基准具有以下特征:数据范围:50个应用程序(20个本地功能应用程序 + 30个中文和英国在线服务应用程序),5种基本申请情况; 100个教学模板,最好的路径是14.05步,其高于类似基准。依赖性结构的三种类型:基于子任务的依赖关系,三种合并 - 与 - 按钮类型是系统地研究的 - 简单的对帐,上下文转移和深度潜水。锚点子集:为了提供受控和测量的测试开发环境,研究人员根据20个本地AndroidWorld应用程序建立了本地离线任务子集UI-Nexus-nard。该测试集中的工作环境通过数据库设置了文件,文件s系统和ADB工具,支持任务指令的可伸缩性和测试环境的控制。细粒度指数:记录端到端的任务成功率,最终因素,令牌成本和推理的延迟,并执行颗粒的代理绩效分析。研究人员选择了基线的五个移动代表进行测试。这五个代理自动基于GUI操作。特定的实现模式包括:1。单模型微调(代理-AS-A模型):OS-7B-PRO和UI-TARS-7B-7碱基都是通过训练基于QWEN2-VL-7B的大量GUI领域获得的代理库,以及该谨慎的移动操作。 2。工作流程的构造(Dagent's Aloys):通常,诸如GPT-4O之类的封闭源模型用于生产具有模块化设计的试剂流。例如,M3A是在Androidworld中提出的手机代理。当理解时,A11Y树用于将元素列表作为辅助输入获取,并使用反应和反射执行t他推理和反思结果。移动代理-V2和移动代理-E采用了多年代同伴模型,添加了OCR和元素等模块,并将其标记为自动移动电话活动。除上层基线外,本文还建议代理 - 尼克斯:集成设备操作任务的调度系统。通过低阶实现的代理 - 尼克斯分解高阶调度,并通过模块调度,过程实现模块和过程内存的协作任务完成了汇总任务。完成每个子任务后,调度模块基于有关历史程序过程的信息,并且先前的环境意识更新了高级任务计划,并传递了实现模块的第一个子目标导航器/Analyst/Analyst/Analyst/Tool,以进行特定实现。这样的分层调度模型允许低阶实现模块每次都有明确意图接收原子活动,从而减少t他有可能使环境超负荷。代理-Nexu体系结构示意图代理-Nexus支持可替代代理的访问。在此实验中,研究人员试图将UI-TARS-7B-SF和M3A用作低阶实施的模块代理。实验分析:从原子到汇总任务的概括路径在本地功能应用程序的三个测试子集(UI-nexus-bandor),在线服务在线服务应用程序以及在线英语英语服务应用程序中进行了100个教学模板。主要结论是:UI-Nexus测试基准基准基准为每个移动终端的基准带来了巨大的挑战,并且每个代理商的工作完成率小于50%;代理基于代理流动代理在AS-AS-A-AS-AS-AS-A-A模型过程中的稳定性,但基于工作的工作基于高延迟和延迟,从而限制了实际情况的应用潜力;代理 - 尼克斯大量我MAVET任务完成率( +24%〜 +40%),而上述推理仅增加了8%。深入研究原子到化合物的概括性能的主要实验结果,研究人员选择了一些独立的组合和上下文转移任务进行进一步的评估和实验。研究人员将三个任务成功率进行了比较:1。鉴于直接的总指令与代理人,请尝试将代理工作的完成率作为弱性能的原子复合概括。 2. ACTIC RISIC RIST RIST RISTISE指令分为多个原子说明(如在App活动中,创建并保存一个新任务练习练习。r当给予ATOM指令的手动分配时,UI-TARS差异特别显着,直接从11%上升到60%。这是因为它在维修后训练了足够的GUI操作能力,并且直接汇总说明时的完成率较低,主要仅限于缺乏发展管理和信息管理功能。代理 - 尼克斯调度框架有效地补偿了这项工作,该框架接近了强大的天花板的性能。此外,对各种代理建设计划的进一步讨论和评估表明:1。在线服务应用程序由于强大的信息动态,复杂的UI结构和频繁的环境干扰带来了更多挑战; 2。由于多机构合作,复杂的推理和其他机制,在GPT-4O上构建的代理流动在复合活动中的性能明显更好。但是,GPT-4O在某种程度上限于FOLK域在GUI操作任务中的功能,并需要元素列表,屏幕评估工具等的帮助,并且呼吁自己的高成本限制了实际应用程序的可行性。相比之下,基于开放量表NG资源的代理AS-A模型对短链内部逻辑,操作实施,推理速度等的运营具有重大好处。3。内存机制的设计对于处理聚合任务很重要。当前移动药物的记忆机制很大程度上包含在内存中(例如OS-ATLAS-PRO,仅根据动作史和当前屏幕预测下一个操作,并且不存储历史信息),略有内存(例如,UI-TARS,每个要观察的第一个N屏幕输入的每个输入,可以观察到的第一个N屏幕上的较大范围,都可以在某些范围内使用范围,以确定一个范围,以确定一个范围的范围,以确定一个限制,即一定的限制,该范围是一个限制的范围。和集成ion),但是集成),但是集成),但是集成),但集成),。和主动内存(例如移动代理-V2和移动代理-E。每个步骤均可积极确定是否存在当前信息是否存储在内存模块中)。主动内存可以为复杂的冗长活动带来更好的性能,这些活动取决于复杂的信息,但是每个步骤都决定了内存是否导致更多的计算。代理-Nexus导航界面。信息和信息处理的收集显然是计划的分配顺序很好,在实现多源信息的管理和集成的同时,将控制开销。未来前景:对于新一代AI操作系统,本文不仅是全面的,并且在一个方面进行了深入讨论,需要在当前的移动代理研究中立即探索:结合长期活动,而且新的母鸡原型也反映了反映AI操作系统。将来,我们不仅需要一个智能模型,该模型可以根据指示自动为人员操作,而且还可以预计会开发一个智能的终端水平,可以协调,处理和安排复杂的任务要求。我们认为,当这种审查和调度框架的基准广泛采用并不断变化时,移动设备将真正改变个人智能助理,例如智能,为人类计算机合作打开了新的想象空间。
上一篇:AMD Ryzen Thread Tearer 9000 Hedt型号发布:24核$ 1499, 下一篇:没有了
正规AG棋牌平台_AG亚娱官方网站入口

正规AG棋牌平台_AG亚娱官方网站入口

  • 广东省广州市天河区88号
  • 400-123-4567
  • admin@baidu.com
手机:13988999988

AG棋牌

  • 企业简介

产品展示

  • 产品一类
  • 产品二类
  • 产品三类

新闻资讯

AG亚娱官方

Copyright © 2024-2026 正规AG棋牌平台_AG亚娱官方网站入口 版权所有

网站地图

友情链接: