XM外汇中文网

全球领先的互联网券商

[XM外汇中文网]NUS团队发布GameWorld基准,在34款浏览器游戏中评估多模态AI代理

币界网报道:币界网消息,4 月 17 日(UTC+8),据 动察 Beating 监测,新加坡国立大学(NUS)团队发布 GameWorld,一个旨在标准化评估多模态大语言模型(MLLM)在视频游戏中作为通用代理能力的基准测试。该研究指出,尽管视频游戏提供了理想的闭环交互测试床,但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务,并为每个任务配备了基于游戏底层状态的可验证指标,以实现客观的结果评估。研究团队测试了两种代理接口:一是直接输出键鼠指令的「计算机使用(computer-use)」代理,二是通过语义解析在语义动作空间中操作的通用多模态代理。 在对 18 种「模型-接口」组合进行的大规模测试中,结果显示即便当前表现最好的 AI 代理,其游戏能力也远未达到人类水平。研究进一步暴露了游戏代理在实时交互延迟、上下文记忆敏感度以及动作有效性等方面的严峻挑战。相关论文及项目代码已在 Hugging Face 和 GitHub 公开。

法律: 此网站由XM Global Limited运行,注册地址是:Suite 404, The Matalon, Coney Drive, 伯利兹市, 伯利兹。

XM Global Limited受伯利兹金融服务委员会(FSC)授权和监管(牌照号: 000261/397),Trading Point of Financial Instruments Limited受塞浦路斯证券交易委员会(CySEC)授权和监管(牌照号:120/10),并均是Trading Point Group旗下公司。

风险提示: 外汇和差价合约交易对于您的投资资本含有风险。请确保您已通读并完全理解我们的风险披露。

受限地区: XM Global Limited无法为特定国家/地区的居民提供服务,例如: 美国, 加拿大, 以色列 和 伊朗伊斯兰共和国。

XM的网站和服务,均严禁开放提供给任何受国家/地区法律法规禁止使用的任何个体。因此,若选择从该国访问本公司网站,无论该国是否禁止使用本网站,用户在使用本网站时,均有责任确保自己遵守当地法律或法规。XM不保证本公司网站上的信息,适用于所有的司法管辖区域。