Workflow
SIMA 2
icon
搜索文档
别再肝了!Google 发布 SIMA 2,你的下一个游戏搭子可能是个 AI
深思SenseAI· 2025-11-21 12:14
我从未想过,有一天, AI 可以帮玩游戏? 上周, Google 发布了新一代通用智能体 SIMA 2 (可扩展指令式多世界 Agent ),并与 Gemini 深度集成,它能够在虚拟世界理解并执行指令,围绕目标规 划行动,与玩家进行交互,并在试错中不断自我改进。 比如,在游戏《我的世界》中,你可以直接用自然语言下达指令: " 向上再往左走一段,到前面那个小洞穴,挖一些煤炭。 " 在上一代 SIMA 1 模型中,这类 连续、多步操作仍然难以完成,而 SIMA 2 已经可以稳定执行。 在 《 ASKA 》 生存游戏中,输入 " 找到篝火 " 指令, SIMA 2 同样能够理解并完成: 经过通过大量的训练后,可以认为 Agent 已经具备了初步的智能。和 Agent 交互的过程更像是与一个能够思考任务的伙伴合作。 SIMA 2 通过对环境和用户意图来推理,解释抽象概念和逻辑命令 SIMA 2 也可以理解更加 复杂的,细致 的指令,在执行这些复杂难题 / 任务上也比之 前有了显著的提升,例如在游戏 《 ASKA 》 中,他可以遵循用户的多 条指令,执行更长的任务,并且给予反馈,像与一个真实的玩家进行互动一样。 SI ...
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
36氪· 2025-11-20 10:26
您的 AI 伙伴「游戏陪玩」版已上线。 今天,Google DeepMind 发布了SIMA 2,一个在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。 DeepMind 创始人哈萨比斯将其定义为通往通用人工智能的关键一步。 去年,谷歌 DeepMind 推出了 SIMA (Scalable Instructable Multiworld Agent,可扩展、可指导的多世界智能体),这是一个能够跨越多种虚拟环境、遵循 基本指令的通才 AI,标志着 AI 在 3D 世界中将语言转化为行动的初步探索。 SIMA 2 则代表了这一研究的重大飞跃,是创建通用和有益 AI 智能体研究的下一个里程碑。通过集成 Gemini 模型的先进能力,SIMA 正在从一个被动 的、模仿人类操作的指令遵循者进化为一个交互式的游戏伴侣。 SIMA 2 不仅能遵循人类指令,还能在未见过的复杂环境中(如各种开放世界游戏)进行自主规划、解释行动步骤、与用户实时对话(支持文本、语音或 图像输入),并通过试错与 Gemini 反馈的闭环机制自我迭代,提升技能。 这对机器人技术和人工智能的未来具有重要意义,因为它正在构建未来物理世 ...
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
机器之心· 2025-11-20 10:07
机器之心报道 机器之心编辑部 您的 AI 伙伴「游戏陪玩」版已上线。 今天,Google DeepMind 发布了 SIMA 2 ,一个在虚拟 3D 世界中能自主游戏、推理并持续学习的通用 AI 智能体。 DeepMind 创始人哈萨比斯将其定义为 通往通用人工智能的关键一步 。 去年,谷歌 DeepMind 推出了 SIMA (Scalable Instructable Multiworld Agent,可扩展、可指导的多世界智能体),这是一个能够跨越多种虚拟环境、遵循基本指令 的通才 AI,标志着 AI 在 3D 世界中将语言转化为行动的初步探索。 SIMA 2 则代表了这一研究的重大飞跃,是创建通用和有益 AI 智能体研究的下一个里程碑。通过 集成 Gemini 模型 的先进能力,SIMA 正在从一个被动的、模仿 人类操作的指令遵循者进化为一个 交互式的游戏伴侣 。 SIMA 2 不仅能遵循人类指令,还能在未见过的复杂环境中(如各种开放世界游戏)进行自主规划、解释行动步骤、与用户实时对话(支持文本、语音或图像输 入),并通过试错与 Gemini 反馈的闭环机制自我迭代,提升技能。 这对机器人技术和人工智 ...
腾讯研究院AI速递 20251117
腾讯研究院· 2025-11-17 00:01
开源欧拉操作系统进展 - 开源欧拉社区发布全球首个专为AI打造的超节点操作系统,计划于2025年底上线[1] - 社区生态发展迅速,成员单位超过2100家,全球贡献者突破2.3万人[1] - 新操作系统具备全局资源抽象、异构资源融合和全局资源视图三大特征,旨在释放超节点算力潜能[1] - 灵衢互联协议2.0开放,将贡献支持超节点的操作系统插件代码,提供内存统一编址等关键能力[1] 谷歌AI模型与产品动态 - 谷歌CEO对Gemini 3.0下周登场的传闻作出回应,69%网友押注其即将发布[2] - 内测显示Gemini 3.0能力强大,可一句话生成操作系统、动态构建Windows系统、5秒搭建网站[2] - 巴菲特已投入43亿美元重仓谷歌股票,市场对Gemini 3.0寄予厚望[2] - 谷歌DeepMind推出SIMA 2智能体,能像人类一样观看屏幕使用虚拟键鼠打游戏,具备推理和学习能力[3] - SIMA 2可理解多模态提示并通过自我学习实现提升,采用符号回归方法并整合Gemini作为核心引擎[3] - 谷歌NotebookLM推出Deep Research功能,可自动收集相关网页源并在几分钟内为用户搭建专属资料库[7] - NotebookLM支持2500万token上下文处理,所有回答基于用户提供的来源且带引用标注,可验证性强[7] AI操作系统与记忆系统创新 - 陈天桥盛大团队推出EverMemOS长期记忆操作系统,在特定评测集上取得92.3%和82%的高分,超越现有最佳水平[4] - 该系统受人脑记忆机制启发,采用四层架构,通过分层记忆提取与动态组织解决检索难题[4] - 目前已在Github开源,预计今年晚些时候发布云服务版本,为企业提供数据持久化体验[4] 消费级AI硬件产品 - 前Meta员工创立的Sandbar发布Stream智能戒指,售价249-299美元,专注于“语音鼠标”式AI语音交互[5] - 产品采用“握拳私语”交互方式,按住触控板激活录音,可动态切换多个大模型处理任务,但续航仅16-20小时[6] - 配套iOS App使用ElevenLabs生成语音模型模仿用户声音,所有数据端到端加密不保存原始音频[6] AI基础研究与科学发现 - 北京大学团队推出AI-Newton系统,采用符号回归方法,在无监督、无物理先验知识前提下重新发现牛顿第二定律等基础物理规律[8] - 系统在测试中平均识别出约90个物理概念和50条一般定律,展现出渐进性和多样性两大特性[8] - OpenAI发布可解释性新研究,提出训练稀疏模型使内部机制更易被理解,通过找出“最小回路”并量化可解释性[9] - 研究发现训练更大更稀疏的模型可生成功能更强但回路更简单的模型,但该研究仍处早期阶段[9] xAI与马斯克的AI战略 - 马斯克在X与特斯拉双平台推进xAI,其Colossus超算数据中心在122天内部署20万块H100 GPU,用于训练Grok系列模型[10] - xAI采用“求真、不设禁忌”路线,让AI生成合成数据重构知识体系,特斯拉下一代AI5芯片性能将提升40倍[10] - Grok很快将进入特斯拉汽车,xAI开源Grok-2.5模型并计划半年后开放Grok-3,马斯克预计2030年AI总体能力可能超越全人类[11]
原神Agent,字节出品
猿大侠· 2025-11-16 12:11
文章核心观点 - 字节公司开发出名为Lumine的原神Agent,该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务,还具备强大的跨游戏泛化能力,可在《鸣潮》、《崩坏:星穹铁道》及《黑神话:悟空》等未学习过的游戏中执行任务,代表了在3D开放世界中构建通用智能体(AGI)的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力,可应对Boss战[6]和空间感知能力,能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10],并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令,只需提供任务先验信息或步骤即可执行,例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建,继承其多模态理解与生成能力[16] - 采用类人交互范式,通过统一语言空间建模所有操作和推理,实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P,以每200ms速度处理一帧,并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间,定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础视觉运动能力,涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据,使模型理解自然语言指令,关联动作与语言,可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据,让模型学会自主规划、反思与修正,从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化,包括滑动窗口机制与推理触发刷新策略,并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下,基础交互能力总成功率超90%,能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中,简单任务成功率达92.5%,困难任务成功率达76.8%,远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中,完成蒙德主线第一章耗时56分钟且完成率100%,第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中,前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏:星穹铁道》中,通过第一章主线总耗时7.2小时且完成率92.3%,是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话:悟空》中,完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent,例如其基于Gemini模型的SIMA 2,具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径:在大型3D游戏中构建具身AGI,并相信游戏内的通用Agent终将进入现实物理世界[55][56]
原神Agent,字节出品
量子位· 2025-11-14 20:10
文章核心观点 - 字节公司推出专为3D开放世界游戏设计的智能体Lumine,该智能体能够自主完成《原神》等游戏中的跑图、战斗、解谜及长周期主线任务,并展现出强大的跨游戏泛化能力 [1][4][9] - Lumine智能体基于Qwen2-VL-7B-Base模型构建,通过三大核心机制设计和三阶段训练流程,实现了感知、推理、行动的无缝融合,在多项测试中性能显著领先于主流视觉语言模型 [9][10][12][17][22][24] - 行业趋势显示,谷歌等公司也在利用游戏场景训练通用智能体,游戏被视为构建具身通用人工智能的重要试验场,代表了一条清晰的Agent发展路径 [46][48][51] Lumine智能体的核心能力 - 在《原神》中能够动态追踪敌人位置、精准射击、流畅切换角色、收集宝箱,并成功应对Boss战和各种解谜关卡 [4][5][6] - 具备空间感知能力,能沿风场方向收集风神瞳,并在多NPC环境中锁定指定对象完成对话 [6] - 可处理GUI操作,如材料制作、使用传送锚点、切换角色武器,通过鼠标移动完成 [7] - 对于复杂长指令,只需提供任务先验信息或步骤,即可自主执行,例如切换角色并释放技能完成特定收集任务 [8] 技术架构与训练方法 - 感知空间将游戏画面帧调整至720P,以每200ms处理一帧的速度平衡文本可读性和计算效率,并保留历史推理轨迹与动作记录以提供完整上下文 [12][13] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景直接输出动作,提高计算效率 [14] - 通过键盘与鼠标操作建模,将所有操作纳入语言空间,定义为鼠标位移和按键序列格式 [15] - 三阶段训练流程:预训练阶段混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础动作;指令跟随训练使用200小时数据,使短周期任务成功率超80%;决策推理训练使用15小时人工标注数据,使模型能自主完成长周期任务 [17][20][21][22][23][24] 性能表现与实验结果 - Lumine-Instruct在短周期任务中表现优异,简单任务成功率92.5%,困难任务成功率76.8%,显著领先于GPT-5和Gemini 2.5 Pro [33][34][35] - Lumine-Thinking在长周期任务中效率突出,完成《原神》蒙德主线第一章耗时56分钟,任务完成率100%,而GPT-5耗时112分钟,Gemini 2.5 Pro未完成 [40][41] - 跨游戏测试显示,Lumine-Thinking在《鸣潮》前100分钟剧情完成率100%,在《崩坏·星穹铁道》第一章完成率92.3%,在《黑神话·悟空》新手教程及第一章完成率85.7% [43][45] 行业动态与竞品分析 - 谷歌推出基于Gemini模型的SIMA 2智能体,能够遵循基本指令、理解多模态提示、完成长时间复杂任务,并在生成的世界中合理自我定位 [48][49] - 行业共识认为,在大型3D游戏中训练通用智能体是构建具身AGI的重要路径,游戏内的Agent未来有望进入现实物理世界 [51][52]