|
这项由微信AI团队主导的询查发表于2026年2月的arXiv预印本平台,论文编号为arXiv:2602.06391v1,有兴味长远了解的读者不错通过该编号查询圆善论文。 想象一下,淌若你的电脑能够像真东说念主助手相同,不仅能"看懂"屏幕上的各式按钮、菜单和文本框,还能准确无误地帮你点击、输入和操作,那会是何如的体验?微信AI团队的最新询查扫尾POINTS-GUI-G就像是给揣摸机装上了一对"慧眼"和一对"巧手",让它能够在复杂的软件界面中洋洋纚纚。 这项询查的中枢问题其实很不祥:若何让揣摸机准确相接屏幕上线路的内容,况兼能够精信服位到需要操作的位置。就像东说念主类看到一个网页时,能够俄顷识别出"登录按钮在右上角,搜索框在页面中央"相同,POINTS-GUI-G要作念的即是让揣摸机也领有这种材干。 询查团队遴荐了一个非凡的伊始——他们莫得使用那些如故具备苍劲视觉定位材干的现成模子,而是从一个险些莫得定位材干的基础模子POINTS-1.5启动。这就像是遴荐从零启动培养一个生人,而不是在如故闇练的众人基础上进行纠正。这种作念法的平正是能够齐全掌捏技艺发展的每一个要津,着实相接什么方法最灵验。 通盘询查历程就像是用心联想的三步考验决议。第一步是"数据工程",询查团队网罗了宽广不同开头的界面截图和操作指示,但这些原始数据就像是来自不同方言区的东说念主话语——花式不协调,质料交加不皆。他们需要把这些"方言"协调成方法的"普通话",去掉那些极端的标注,还要专门挑选出那些非凡有挑战性的复杂界面来考验模子。 第二步是"考验战术优化"。询查团队发现了一个时常被冷落但极其遑急的问题:考验时使用的图片阔别率和实质使用时的阔别率不匹配。这就像是一个东说念主一直在小屏幕手机上进修打字,顿然换到大屏幕电脑上就找不到键盘位置了。为了不休这个问题,他们既提高了考验时的图片阔别率,也在实质使用时对图片大小进行了实现。 第三步是"强化学习"。这一步非凡特真义,就像是给揣摸机安排了一个"实习期",让它在各式界面上反复进修,每次操作告成就给奖励,操作极端就要反想纠正。与其他需要揣摸机"边想边作念"的任务不同,界面操作的对错至极明确——点对了即是对,点错了即是错,这种明确的响应让揣摸机能够快速学习纠正。 在数据处理方面,询查团队遭遇的第一个挑战是如那边理各式不同花式的考验数据。现存的界面操作数据就像是从天下各地网罗来的菜谱——有的用克作念单元,有的用磅,有的详备到每一个法子,有的只给大约的形色。询查团队需要把这些"菜谱"协调成一种方法花式,让揣摸机能够相接。他们将系数的坐标位置都调节成0到1之间的数值,就像是把系数地址都调节成协调的GPS坐标系统。 更遑急的是,询查团队还设备了一套自动筛选系统来清算极端数据。他们使用另一个专门识别界面元素的器用来查验每个标注是否准确。淌若一个考验样本说"登录按钮在坐标(0.8, 0.2)",但实质检测发现阿谁位置什么都莫得,这个样本就会被筛掉。这就像是有一个质检员在查验每份菜谱是否正确。 为了让考验更有挑战性,询查团队还专门筛选出那些复杂的界面场景。他们设备了一个"界面复杂度"评估系统,能够判断哪些界面布局更复杂,元素更密集。那些过于不祥的界面——比如惟有一个大按钮的页面——会被过滤掉,因为这些对考验莫得太大匡助。这就像是一个技击讲授专门挑选有挑战性的敌手来考验学生,而不是让学生一直和入门者过招。 询查团队还创造了两种全新的考验数据。第一种是模拟专科软件界面,比如代码剪辑器、联想软件等,这些界面往时有好多小按钮和密集的功能区域。第二种是模拟着实的桌面环境,把多个软件窗口重复在沿途,制造视觉搅扰。这就像是在驾驶考验中不仅要进修空旷说念路,还要进修贫寒路段和复杂路口。 在考验战术方面,询查团队作念出了一个遑急决定:解冻视觉编码器。在之前的询查中,谨慎"看图"的部分往时是固定不变的,只考验谨慎"相接和决策"的部分。但询查团队发现,关于界面操作这种高度依赖视觉精度的任务,需要让"眼睛"部分也能够针对性地晋升。这就像是不仅要考验射箭手的对准妙技,还要帮他配一副更恰当的眼镜。 图像阔别率的处理是另一个迂回冲破。询查团队发现,许多界面操作的失败都源于考验和实质使用时的图像大小不一致。他们的不休决议至极实用:一方面提高考验时的最大图像阔别率到3072×3072像素,另一方面在实质使用时将图像实当今2000×2000像素以内。这种方法在ScreenSpot-Pro测试中带来了突出10分的性能晋升,效果显耀。 {jz:field.toptypename/}强化学习阶段是通盘考验历程的精华部分。不同于数学推理或文本生成等任务需要复杂的想维链,界面操作任务有一个巨大上风:扫尾的对错至极明确。点击位置是否正确,输入是否到位,这些都能得到即时且准确的响应。询查团队把握这个上风,联想了一个至极径直的奖励机制:操作告成得1分,失败得0分。 在强化学习的具体实施中,询查团队接受了群体相对战术优化算法。不祥来说,即是让模子同期尝试多种不同的操作战术,然后比拟哪些战术效果更好。每个任务让模子尝试8种不同的操作方法,然后证据告成率来调节学习方针。这就像是一个学生同期尝试多种解题方法,真挚证据正确率来教导哪种方法值得络续使用。 为了幽静考验历程,询查团队还引入了课程学习战术。他们不是一启动就让模子面临最贫困的界面,而是从相对不祥的场景启动,冉冉加多难度。具体来说,他们只遴荐那些模子告成率在0%到75%之间的任务进行考验,过于不祥或过于贫困的任务都会被暂时跳过。这种渐进式的学习方法让模子能够稳步晋升,幸免了考验历程中的大起大落。 询查团队构建了一个包含13个不同开头数据集的重大考验库。这些数据涵盖了手机、网页、桌面软件等各式不同的界面类型,所有包含数十万个界面操作样本。为了加多数据千般性,他们还专门从DataComp数据皆集筛选出包含笔墨的图像,九游会app下载使用OCR技艺索要笔墨位置信息,创造出新的文本定位考验样本。 通盘考验历程分为两个阶段。第一阶段是监督学习,就像传统的课堂教悔相同,给模子展示正确的操作示例,让它学习效法。在这个阶段,询查团队对视觉编码器使用较小的学习率(1×10^-4),对其他部分使用稍大的学习率(5×10^-5),确保各个组件能够联接发展。 第二阶段是强化学习,模子启动沉寂尝试操作,证据告成失败的响应来纠正战术。在这个阶段,学习率镌汰到1×10^-5,考验历程愈加严慎,幸免窒碍已有的致密弘扬。每个样本进行8轮尝试,总批次大小为64,这么简直立在考验效果和揣摸资源之间找到了最好均衡点。 询查团队在五个巨擘测试基准上考证了POINTS-GUI-G的性能。在ScreenSpot-v2测试中,该模子达到了95.7分的优异收获,这个测试主要评估模子在迁移端、桌面端和网页端的基础操作材干。在更具挑战性的ScreenSpot-Pro测试中,POINTS-GUI-G得回了59.9分,超越了许多参数限制更大的竞争模子。 非凡值得关爱的是在OSWorld-G测试中的弘扬,该测试模拟着实的桌面操作环境,条目模子处理复杂的多窗口、多任务场景。POINTS-GUI-G在这项测试中得回了66.0分,展现出在复杂桌面环境中的优秀恰当材干。在UI-Vision测试中,该模子得回49.9分,阐述了其在处理各式界面指示时的稳健性。 通过详备的性能分析,询查团队发现了几个迂回的技艺冲破点。数据工程孝顺了最基础但也最遑急的性能晋升,将平均得分从基线的17分晋升到43分。解冻视觉编码器的战术将性能进一步推升到53分,而图像阔别率优化又带来了8分的晋升。最终,强化学习将合座性能推到了67分的新高度。 在强化学习的考验动态分析中,询查团队不雅察到了至极健康的学习弧线。奖励分数在考验历程中稳步飞腾并最终趋于幽静,而熵亏空则呈现下跌趋势,阐明模子的决策越来越信服和精确。这种考验动态标明强化学习历程既灵验又幽静,莫得出现过度考验或性能回退的问题。 与同类模子的对比分析线路,POINTS-GUI-G在多个维度上都弘扬出色。在ScreenSpot-v2的迁移端测试中,该模子在文本定位任务上达到99.0%的准确率,在图标定位任务上达到91.0%的准确率。在桌面端测试中,文本定位准确率达到100%,图标定位准确率为94.3%。这些数据标明模子在不同类型的界面元素识别上都有很强的材干。 更遑急的是,POINTS-GUI-G行为一个8B参数的模子,在性能上不仅超越了许多同等限制的模子,甚而在某些测试中弘扬优于参数目更大的模子。比如在ScreenSpot-Pro测试中,POINTS-GUI-G的弘扬突出了OpenCUA-32B这么的大型模子,充分阐述了技艺蹊径和考验方法的优胜性。 在实质应用场景中,POINTS-GUI-G展现出了平淡的适用性。不管是不祥的网页浏览操作,如故复杂的专科软件使用,该模子都能准确相接用户意图并奉行相应操作。在处理CAD软件、设备器用、创意软件等专科应用时,模子能够准确识别密集的器用栏和菜单项。在处理迁移应用界面时,模子对各式手势操作区域的定位也至极精确。 这项询查的意旨不单是在于技艺性能的晋升,更在于为GUI智能代理的发展提供了一套圆善的技艺决议。从数据处理到考验战术,从性能优化到实质部署,每个要津都有详备的方法论和履行劝诫。这为其他询查团队和设备者提供了可贵的参考。 询查团队如故将POINTS-GUI-G模子开源,并提供了圆善的评估器用套件。这种绽放的询查魄力不仅激动了学术界的越过,也为产业界的应用落地提供了可能。改日,咱们可能会看到更多基于这项技艺的智能助手产物,匡助用户更高效地使用各式软件器用。 掂量改日,GUI智能代理技艺还有很大的发展空间。刻下的询查主要专注于单次操作的准确性,而实质应用中时常需要奉行一系列连气儿的复杂操作。若何让代理具备更强的狡计材干和极端规复材干,将是下一步询查的要点方针。此外,若何让代理更好地相接用户的高层意图,而不单是是奉行具体的操作指示,亦然一个值得探索的问题。 这项询查为咱们展示了东说念主工智能在东说念主机交互范围的巨大后劲。跟着技艺的不时闇练,咱们有时很快就能领有着实智能的数字助手,它们不仅能听懂咱们的话,还能像东说念主类相同熟练地操作各式软件界面,为咱们的职责和生存带来前所未有的便利。 Q&A Q1:POINTS-GUI-G是什么? A:POINTS-GUI-G是微信AI团队设备的一个GUI智能限制模子,它能够像东说念主类相同"看懂"揣摸机界面并精信服位需要操作的位置。该模子不错准确识别屏幕上的按钮、文本框、菜单等各式界面元素,并奉行点击、输入等操作。通过改变的三步考验决议和强化学习技艺,POINTS-GUI-G在多个巨擘测试中取得了优异收获。 Q2:POINTS-GUI-G如那边理不同阔别率的界面图像? A:询查团队发现考验和使用时的图像阔别率不匹配是影响性能的遑急身分,就像一个东说念主在小屏幕上进修却要在大屏幕上操作相同。他们的不休决议是双向优化:一方面将考验时的最大图像阔别率晋升到3072×3072像素,另一方面在实质使用时将图像实当今2000×2000像素以内,这种方法在测试中带来了突出10分的性能晋升。 Q3:POINTS-GUI-G的强化学习考验有什么脾气? A:POINTS-GUI-G的强化学习具有两个隆起脾气。最初是奖励机制至极明确,操作告成得1分失败得0分,不像其他AI任务需要复杂的评估方法。其次是接受了课程学习战术,只遴荐模子告成率在0%-75%之间的任务进行考验,既幸免过于不祥的任务滥用时辰,也幸免过于贫困的任务挫败学习积极性,让模子能够稳步晋升材干。 |
热点资讯
- 九游会j9 【密室逃走安全指南】
- 九游会app下载 买前被骂, 买后真香的三款弓手皮肤, 手感一流, 本命
- 九游会j9 《袼褙无敌3》能和大恶魔称兄说念弟的6级兵: 火精灵!
- 九游会 巴南天坪山云林天乡赏油菜花包吃住农家乐的白鹭源自在山庄秋居山庄,
- 九游会app下载 郑州西郊老滋味,津润烩面配糖蒜,吃完整身王人舒心
你的位置: 九游会j9官方网站APP下载 > 九游会app下载 >
九游会app下载 微信AI团队冲破GUI智能限制:让揣摸机像东说念主类相同准确看懂界面并精确操作
发布日期:2026-02-22 13:43 点击次数:192


备案号: