更新时间:2026-01-21 19:00 来源:牛马见闻
这项由德国达姆施塔特工业大学的Sven SchultzeMeike KietzmannNils Lucas Schoenfeld和Ruth Stock-Homburg组成的研究团队
<p class="f_center"><br></p> <p id="48PL6CME">这项?由德]国达姆施塔特工业大学的Sven Schultze、Meike Kietzmann、Nils Lucas Schoenfeld和Ruth Stock-Homburg组成的研究团队完成的突破性研究发表于2025年11月,论文编号为arXiv:2511.11287v1,为解决AI智能体与网页交互的根本性问题提供了全新方案。有兴趣深入了解的读者可以通过该论文编号查询完整论文。<br></p> <p id="48PL6CMF">当今世界,人工智能正在以前所未有的速度融入我们的日常生活。从智能助手到自动驾驶,AI已经在许多领域展现出惊人的能力。然而,当AI试图像人类一样浏览和操作网页时,却遇到了意想不到的困难。这就像让一个从未见过方向盘的外星人开车一样——它们必须先猜测每个按钮和操控装置的作用,然后小心翼翼地尝试操作,经常出现误操作或根本无法完成任务。</p> <p id="48PL6CMG">现在的AI智能体在浏览网页时,就像一个戴着厚厚眼镜的人在雾天开车。它们需要费力地分析网页截图,猜测各种按钮的功能,然后反复试错才能完成一个简单的操作。更糟糕的是,当网页发生细微变化时,这些AI就像突然换了一辆完全不同的车,又得重新学习所有操作。这种笨拙的交互方式不仅效率低下,还存在严重的安全隐患——AI可能会意外访问用户的私人信息,或者执行错误的操作。</p> <p id="48PL6CMH">达姆施塔特工业大学的研究团队深刻认识到这个问题的核心:现在的网页是专门为人类设计的,而AI却被迫适应这种人类专用的界面。这就像强迫一台洗衣机去读懂为人类写的洗衣说明书,而不是给它提供专门的机器指令一样荒谬。</p> <p id="48PL6CMI">为了彻底解决这个问题,研究团队开发了VOIX框架,这是一个革命性的解决方案,它让网页能够直接"告诉"AI该如何与它们交互。VOIX的核心理念简单而强大:与其让AI费力猜测网页功能,不如让网页开发者明确声明哪些功能可以供AI使用,以及如何使用这些功能。</p> <p id="48PL6CMJ">一、VOIX框架的核心理念</p> <p id="48PL6CMK">VOIX框架就像为网页和AI之间建立了一座直通桥梁。在传统方式中,AI就像一个不会说当地语言的游客,只能通过观察和猜测来理解如何在陌生城市中导航。而VOIX则为这座城市提供了清晰的路标和指示牌,用AI能够理解的"语言"直接告诉它每条路通向哪里,哪些地方可以去,哪些地方不能去。</p> <p id="48PL6CML">这个框架的关键创新在于引入了两个新的HTML元素:和标签。这些标签就像网页的"使用说明书",但不是写给人类看的,而是专门为AI准备的。标签告诉AI这个网页上有哪些功能可以使用,就像告诉一个新员工公司里有哪些工具可以使用一样。标签则提供当前网页的状态信息,让AI知道现在的情况是什么样的,就像告诉员工当前项目的进度一样。</p> <p id="48PL6CMM">VOIX的架构设计非常巧妙,它将责任分配给三个不同的参与者。首先是网站本身,它就像一个诚实的商店老板,清楚地标明店里有什么商品,每样商品怎么使用,什么价格。网站负责声明自己的功能和当前状态,并实现具体的业务逻辑。其次是浏览器代理,它就像一个翻译官,负责收集网站提供的信息,整理成AI能够理解的格式,然后在AI和网站之间传递消息。最后是推理提供商,也就是大语言模型,它就像一个聪明的顾客,根据收到的商品信息做出决定,选择合适的商品和参数。</p> <p id="48PL6CMN">这种分工设计的妙处在于,它创造了清晰的信任边界。用户的对话内容直接发送给他们选择的AI服务提供商,网站永远看不到用户说了什么。同时,AI只能看到网站明确允许它看到的信息和功能,无法访问敏感数据。这就像在银行办业务时,你和银行职员的对话不会被录音设备听到,而银行职员也只能访问你授权的账户信息一样。</p> <p id="48PL6CMO">二、技术架构的巧妙设计</p> <p id="48PL6CMP">VOIX框架的技术架构就像一个精心设计的三层蛋糕,每一层都有其独特的作用,同时又完美地支撑着上面的层次。</p> <p id="48PL6CMQ">在最底层,我们有网站层。这一层就像蛋糕的基础海绵蛋糕层,为整个系统提供坚实的基础。网站开发者在这里使用简单的HTML标签来声明他们的网站能够提供什么服务。比如,一个待办事项应用可能会声明:"我这里有一个添加任务的功能,你需要提供任务标题和优先级,我就能帮你创建一个新任务。"这种声明方式就像餐厅菜单一样直观——每道菜都有名字、描述和所需的配料。</p> <p id="48PL6CMR">网站开发者只需要在他们的HTML代码中添加这些新标签,然后编写相应的JavaScript事件处理程序来响应AI的请求。这个过程就像给家用电器添加遥控功能一样简单——你不需要重新设计整个电器,只需要添加一个接收器和一些响应程序。</p> <p id="48PL6CMS">中间层是浏览器代理层,它就像蛋糕中间的奶油层,起到连接和润滑的作用。这一层的主要任务是扫描网页,发现所有可用的工具和上下文信息,然后将这些信息整理成AI能够理解的格式。它还负责在AI做出决定后,将指令传达给网站执行。这个过程就像一个优秀的秘书,既要理解老板的意图,又要准确传达给下属执行。</p> <p id="48PL6CMT">研究团队提供的参考实现是一个Chrome扩展程序,它就像一个万能遥控器,可以与任何支持VOIX的网站进行交互。这个扩展程序不仅支持文字聊天,还支持语音交互,甚至包括连续对话功能。用户可以像和朋友聊天一样自然地与网页交互,而不需要学习复杂的操作步骤。</p> <p id="48PL6CMU">最上层是推理提供商层,这就像蛋糕顶部的装饰层,虽然看起来华丽,但实际上承担着最重要的决策功能。这一层由大语言模型组成,它接收来自浏览器代理的信息,理解用户的自然语言指令,然后决定应该调用哪个工具以及使用什么参数。这个过程就像一个经验丰富的厨师,根据顾客的口味描述选择合适的食谱和配料。</p> <p id="48PL6CMV">这种架构设计的最大优势在于它的灵活性。用户可以选择使用完全本地化的方案——比如使用开源浏览器扩展配合本地运行的AI模型,确保所有数据都不离开自己的电脑。他们也可以选择使用强大的云端AI服务来获得最佳性能。企业用户甚至可以部署定制的解决方案,整合他们的单点登录系统和内部AI服务。</p> <p id="48PL6CN0">三、实际应用的精彩表现</p> <p id="48PL6CN1">为了验证VOIX框架的实际效果,研究团队组织了一场为期三天的黑客马拉松活动。这就像举办一场创新烹饪比赛,邀请不同水平的厨师用同样的工具和食材创作出各种美味佳肴。</p> <p id="48PL6CN2">参与这次活动的16名开发者来自不同的技术背景,就像邀请了从新手到专家的各种水平的参与者。其中18%的人认为自己是高级开发者,41%认为自己有扎实的基础,29%说自己只掌握基本技能,还有12%完全没有相关经验。这种多样化的技能分布正好可以测试VOIX框架是否真的像研究团队声称的那样容易学习和使用。</p> <p id="48PL6CN3">活动以内容创作为主题,这就像给所有参与者设定一个共同的挑战:用相同的工具创作出各自独特的作品。经过三天的开发,六个团队分别创造出了令人印象深刻的应用程序。</p> <p id="48PL6CN4">其中一个团队开发了创意工作室应用,这就像一个智能画板,用户可以通过语音指令进行图形设计。用户只需要说"添加一个蓝色三角形",系统就会在画布上创建相应的图形。更有趣的是,用户还可以先用鼠标点击一个图形,然后说"把这个旋转45度",系统就能理解用户指的是哪个图形,并执行相应的操作。这种交互方式就像有了一个懂你心思的助手,你只需要指指点点说几句话,它就知道你想要什么。</p> <p id="48PL6CN5">另一个团队创建了健身应用,它能够根据用户的自然语言描述生成完整的训练计划。当用户说"为我的背部和肩膀制定一个高强度的全周训练计划"时,应用会自动选择合适的运动项目、组数和重复次数,生成一个完整的健身方案。这就像有一个专业的私人教练,不仅理解你的需求,还能立即制定出科学合理的训练计划。</p> <p id="48PL6CN6">还有团队开发了音景创作工具,用户可以通过描述来创建环境音效。比如说"让它听起来像雨林",应用就会自动调整各种音效滑块,创造出相应的音效环境,同时还会生成匹配的图像。这种应用展现了VOIX框架在创意领域的巨大潜力。</p> <p id="48PL6CN7">项目管理工具、记忆卡片制作器和角色扮演游戏创建器等其他应用同样精彩,每个都展示了VOIX框架的不同方面的能力。这些应用的成功开发证明了VOIX不仅技术上可行,而且能够激发开发者的创造力。</p> <p id="48PL6CN8">研究团队通过标准化的可用性问卷对参与者进行了评估。系统可用性量表的平均得分为72.34分,超过了行业平均水平68分,表明开发者普遍认为VOIX框架易于学习和使用。更重要的是,自动化系统信任测试显示,参与者不仅理解了VOIX的功能,而且对其可靠性充满信心。</p> <p id="48PL6CN9">四、性能优势的惊人对比</p> <p id="48PL6CNA">为了真正展示VOIX框架的优势,研究团队进行了一场"速度竞赛",将VOIX与目前市面上的主流AI网页交互工具进行了直接对比。这场比赛就像让不同的交通工具在同一条路线上竞速,结果令人震惊。</p> <p id="48PL6CNB">测试涉及三个不同的应用场景:创意工作室、健身应用和项目管理工具。在每个场景下,研究团队设计了多个具体任务,从简单的"添加蓝色三角形"到复杂的"创建全周高强度训练计划"。</p> <p id="48PL6CNC">测试结果就像龟兔赛跑的现代版本,但这次兔子真的跑赢了。在创意工作室的测试中,VOIX完成"添加蓝色三角形"任务只需要2.32秒,而Perplexity Comet需要27.21秒,BrowserGym需要25.29秒。更惊人的是,在"旋转绿色三角形90度"这个任务中,VOIX只用了1.11秒,Comet需要89.12秒,而BrowserGym甚至无法完成任务。</p> <p id="48PL6CND">最戏剧性的对比出现在健身应用的测试中。当要求"创建全周高强度训练计划"时,VOIX用了14.38秒就完成了任务,Comet需要229.52秒(将近4分钟),而BrowserGym竟然需要1271秒(超过21分钟)。这种差距就像比较骑自行车和步行到达同一个目的地的时间一样巨大。</p> <p id="48PL6CNE">这种性能差异的根本原因在于架构理念的不同。传统的AI网页交互工具就像一个盲人摸象,需要不断地"看"网页截图,猜测每个元素的功能,然后小心地尝试点击。每一步都需要AI进行复杂的视觉识别和推理,然后等待网页响应,再进行下一轮分析。这个过程就像让人闭着眼睛在陌生房间里找东西,既慢又容易出错。</p> <p id="48PL6CNF">相比之下,VOIX就像为AI提供了一张详细的房间布局图和物品清单。AI不需要猜测,直接知道每个工具在哪里,怎么使用。这种直接性带来的速度提升是革命性的。</p> <p id="48PL6CNG">研究团队指出,在多模态交互中,响应时间对用户体验至关重要。人类感知"瞬时"反应的阈值是100-200毫秒,而在涉及手势和语音结合的任务中,延迟超过25毫秒就会影响用户体验。传统视觉AI的响应时间从4.25秒到21分钟不等,这种延迟完全破坏了自然交互的可能性。这就像打电话时出现严重延迟,对话变得支离破碎,无法进行正常沟通。</p> <p id="48PL6CNH">五、解决现实挑战的深层意义</p> <p id="48PL6CNI">VOIX框架的意义远远超出了技术层面的改进,它实际上解决了一系列困扰AI发展的根本性问题。</p> <p id="48PL6CNJ">首先是隐私和安全问题。在传统模式下,AI需要访问整个网页内容才能理解如何操作,这就像让一个陌生人翻看你的整个钱包才能帮你付款一样不安全。网页上可能包含用户的私人信息、财务数据或商业机密,这些信息可能被无意中泄露给AI服务提供商。VOIX通过明确的声明机制解决了这个问题,网站只暴露那些明确允许AI访问的功能和信息,就像只给陌生人看你钱包里的会员卡,而不是整个钱包。</p> <p id="48PL6CNK">其次是控制权的问题。在当前模式下,AI服务提供商单方面决定如何解释和操作网站,网站开发者对此毫无控制。这就像房子的主人无法控制访客在房子里做什么一样令人不安。VOIX将控制权交还给网站开发者,让他们能够精确定义AI可以做什么,不可以做什么。</p> <p id="48PL6CNL">效率问题也得到了根本解决。传统AI需要反复分析网页变化,重新学习操作方式,效率低下。VOIX通过标准化接口消除了这种重复学习的需要,AI一旦学会如何使用VOIX标签,就能操作任何支持VOIX的网站,就像学会开车后能开任何品牌的汽车一样。</p> <p id="48PL6CNM">可维护性是另一个重要优势。当网站界面发生变化时,传统AI可能完全失效,需要重新训练或调整。而使用VOIX的网站只需要保持标签的一致性,即使界面大幅改动,AI的操作能力也不会受到影响。这就像无论房间怎么重新装修,只要开关和插座的位置和标记不变,电器就能正常工作。</p> <p id="48PL6CNN">标准化带来的生态效应同样重要。VOIX为整个行业提供了统一的标准,不同的AI服务提供商都可以使用相同的接口,这促进了竞争和创新。同时,开发者学会VOIX后可以在任何支持的平台上工作,降低了学习成本。</p> <p id="48PL6CNO">六、面向未来的挑战与机遇</p> <p id="48PL6CNP">虽然VOIX框架展现出巨大潜力,但研究团队也诚实地承认了一些挑战和局限性。</p> <p id="48PL6CNQ">最主要的挑战是长期维护的复杂性。在大型传统代码库中集成VOIX可能面临同步问题,就像在一座老建筑里安装现代化的智能家居系统一样复杂。如果开发团队为用户界面添加了新功能,却忘记更新相应的VOIX标签,多模态体验就会出现不一致,用户可能发现某些功能只能通过传统界面访问,而无法通过语音控制。</p> <p id="48PL6CNR">另一个重要挑战是概念设计的复杂性。VOIX要求开发者从传统的视觉界面思维转向功能导向的思维方式。开发者需要在低级工具(直接映射GUI操作,简单但效果有限)和高级工具(面向用户意图,效果显著但设计困难)之间找到平衡。这种设计决策就像建筑师需要在功能性和美观性之间取得平衡一样需要经验和智慧。</p> <p id="48PL6CNS">不过,这些挑战也带来了机遇。VOIX框架为web开发开辟了全新的方向,它不仅仅是一个技术工具,更是对未来人机交互方式的重新思考。随着AI能力的不断提升,用户期望能够以更自然的方式与数字设备交互,VOIX恰好满足了这种需求。</p> <p id="48PL6CNT">VOIX的成功也为其他领域的AI交互提供了启示。同样的理念可能应用到桌面应用、移动应用甚至物联网设备上,创建一个更加智能和互联的数字生态系统。</p> <p id="48PL6CNU">研究团队强调,VOIX框架的开放性是其最重要的特征之一。它不依赖于特定的AI服务提供商或浏览器,这意味着整个生态系统可以自由发展和演化。无论是大型科技公司还是个人开发者,都可以在这个开放平台上创新,这种开放性正是互联网成功的核心原因。</p> <p id="48PL6CNV">七、对普通用户的实际意义</p> <p id="48PL6CO0">对于普通用户来说,VOIX框架的普及将带来显著的生活便利。设想一下未来的网络购物体验:你只需要对着浏览器说"帮我买一双适合跑步的蓝色运动鞋,尺码42,预算500元以内",AI就能自动浏览各大购物网站,比较价格和评价,甚至直接完成购买流程。整个过程中,你不需要点击无数个页面,填写复杂的表单,或者记住不同网站的操作方式。</p> <p id="48PL6CO1">在工作场景中,VOIX同样能带来革命性改变。员工可以通过自然语言快速操作各种企业软件,比如说"在项目管理系统中创建一个新任务,负责人是张三,截止日期是下周五",或者"从财务系统中导出上个月的销售报告"。这种交互方式不仅提高了工作效率,也降低了软件使用的门槛。</p> <p id="48PL6CO2">对于有特殊需求的用户群体,VOIX的意义更加重大。视觉障碍用户可以通过语音轻松操作原本需要复杂视觉导航的网站,老年用户不再需要学习复杂的点击操作,只需要用自然语言表达需求即可。这种包容性设计体现了技术发展的人文关怀。</p> <p id="48PL6CO3">VOIX还为教育领域带来了新的可能性。学生可以通过自然语言与教育网站交互,比如说"帮我找到关于二战历史的视频资料"或者"创建一个关于化学元素的测试题"。这种交互方式使学习变得更加直观和高效。</p> <p id="48PL6CO4">随着VOIX框架的普及,我们可能会看到网页设计理念的根本性改变。开发者将不再仅仅考虑视觉界面的美观和易用性,还需要思考如何为AI提供清晰的功能描述。这种双重设计考虑将推动web开发向更加智能化和人性化的方向发展。</p> <p id="48PL6CO5">说到底,VOIX框架代表了人工智能发展的一个重要转折点。它不是让AI强行适应人类的工作方式,而是创造了一个人类和AI都能舒适工作的共同环境。这种合作而非竞争的理念,正是未来人机协作的理想模式。</p> <p id="48PL6CO6">研究团队通过严谨的实验验证了VOIX框架的有效性,但更重要的是,他们为整个行业指明了一个清晰的发展方向。随着越来越多的开发者和企业采用这种标准化的交互方式,我们正在朝着一个更加智能、高效和人性化的数字世界迈进。这不仅仅是技术的进步,更是我们与数字工具关系的重新定义。</p> <p id="48PL6CO7">对于那些对这项技术感兴趣的读者,现在正是关注和参与这一变革的最佳时机。VOIX框架的开源特性意味着任何人都可以参与到这个生态系统的建设中来,共同塑造人工智能与网络世界交互的未来。</p> <p id="48PL6CO8">Q&A</p> <p id="48PL6CO9">Q1:VOIX框架是什么?</p> <p id="48PL6COA">A:VOIX是由达姆施塔特工业大学开发的网页AI交互框架,它让网站能直接告诉AI哪些功能可以使用以及如何使用,而不是让AI费力猜测网页操作方式。通过和两个HTML标签,网站可以明确声明可供AI使用的功能和当前状态信息。</p> <p id="48PL6COB">Q2:VOIX框架相比传统AI网页交互有什么优势?</p> <p id="48PL6COC">A:VOIX的速度优势非常明显,比如添加图形元素只需2.32秒,而传统方式需要25-27秒。更重要的是VOIX保护用户隐私,因为网站只看到明确授权的功能请求,而不是用户的完整对话内容,同时AI也只能访问网站明确允许的功能。</p> <p id="48PL6COD">Q3:普通用户如何使用VOIX框架?</p> <p id="48PL6COE">A:普通用户可以通过支持VOIX的浏览器扩展程序来体验,比如研究团队开发的Chrome扩展。用户只需在支持VOIX的网站上用自然语言说出需求,比如"添加一个蓝色三角形"或"创建一个健身计划",AI就能直接执行相应操作,无需复杂的点击操作。</p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901