Workflow
Multiverse
icon
搜索文档
腾讯研究院AI速递 20250512
腾讯研究院· 2025-05-11 22:17
OpenAI强化微调功能上线 - OpenAI发布RFT(强化微调)功能,通过思维链推理和专属评分机制,可用极少样本快速提升模型在特定领域的专业表现 [1] - RFT主要应用于指令转代码、文本精华提取、复杂规则应用三大场景,已有ChipStack等多家公司取得显著成效 [1] - 实施RFT前必须创建评估体系,明确任务定义和强化评分方案,避免模棱两可的任务目标 [1] Gemini 2.5视频理解突破 - Gemini 2.5 Pro通过低媒体分辨率技术可处理长达6小时视频,在多个学术基准测试中创下新纪录 [2] - 实现视频内容与代码无缝结合,能将视频直接转化为交互式网页应用、p5.js动画等创新应用形式 [2] - 具备精准的视频片段检索和时序推理能力,可实现复杂场景计数、时间戳定位等高级分析功能 [2] ChatGPT深度研究功能升级 - ChatGPT深度研究功能现可直接连接GitHub,团队用户可实时访问和分析代码库内容,包括代码、README和文档 [3] - 系统会根据用户提问自动生成搜索关键词查找相关内容,支持代码库搜索但需5分钟同步时间 [3] - OpenAI承诺企业级产品用户数据不会用于模型训练,但个人版用户若开启"为所有人改进模型"选项,内容可能用于训练 [3] Meta发布AssetGen 2.0 3D模型 - Meta发布新一代3D内容生成AI系统AssetGen 2.0,采用单阶段3D扩散模型,能直接从文本和图像生成高精度3D模型和贴图 [4] - 相比前代产品,新系统在几何一致性和纹理细节上有显著提升,已在Meta内部用于创建3D世界 [5] - Meta正在研发"完整3D场景生成"功能,目标通过简单文本指令一键生成完整的3D虚拟世界 [5] Multiverse:AI生成多人在线游戏 - 以色列Enigma Labs团队开发出全球首个AI生成的多人游戏Multiverse,实现了实时多人交互的赛车游戏,总开发成本不到1500美元 [6] - 技术突破在于创新的多人世界模型架构,通过沿通道轴堆叠双方玩家视图,实现共享世界状态的一致性渲染 [6] - 团队公开所有代码及数据,并通过修改《GT赛车4》游戏实现数据采集,利用B-Spec模式自动生成训练数据集 [6] Genspark推出AI Sheets工具 - Genspark AI Sheets推出全新AI表格工具,用户通过自然语言对话即可完成数据收集、整理、分析和可视化 [7] - 工具支持多格式文档导入、自动数据清洗、智能分析与可视化,官方称处理速度比传统手动操作快数十倍 [7] - 该工具目前处于Beta测试阶段免费开放,适用于销售、市场、产品等多个领域 [7] 陶哲轩数学工具升级 - 陶哲轩迅速升级其数学估计验证工具至2.0版本,将其改造为更灵活的证明助手,支持Python符号代数包sympy [8] - 新版本能处理命题逻辑、渐近估计等多种数学任务,陶哲轩在开发过程中大量依赖Github Copilot辅助编程 [8] - 陶哲轩发布数学形式化证明实验视频,展示如何在33分钟内借助Copilot和Lean证明助手完成一页纸数学证明的形式化 [8] 红杉AI峰会商业模式转型 - 红杉AI峰会提出AI商业模式转型:从卖工具转向卖成果,客户为可度量的业务结果付费,被视为"万亿美元机会" [9] - AI正从应用工具进化为操作系统级入口,谁能成为"用户意图的第一承接者",谁就能控制系统分配权 [9] - 未来AI竞争关键在于组织架构重构,从确定性执行转向目标试探模式,建立人机混合的协作体系 [9] YC合伙人谈AI应用设计 - YC合伙人指出当前AI应用不足在于产品设计思维仍停留在传统模式,未能充分发挥AI潜力 [10] - AI原生应用应该让用户能自定义系统提示词,让AI按照用户个人风格工作,而不是开发者预设的统一模式 [10] - 未来AI应用应转向"Agent构建器"而非单纯的Agent,为用户提供工具和界面来训练和定制自己的AI助手 [10] 英伟达"物理图灵测试"概念 - 英伟达机器人主管Jim Fan提出"物理图灵测试"概念:机器人能否在物理世界完成任务且让人无法分辨是人还是机器完成的 [11] - 解决机器人训练数据不足的关键在于模拟:通过高速并行模拟和域随机化生成训练数据 [11] - 未来发展方向是物理API,让机器人能像LLM处理数字信息一样处理物理世界,将催生新的技能经济和服务模式 [11]
全球首款AI生成多人游戏诞生,全部开源,单机可玩,成本不到1500美元
机器之心· 2025-05-09 10:47
核心观点 - 以色列创业团队Enigma Labs宣布推出全球首个AI生成的多人游戏Multiverse,填补了AI生成多人游戏世界的空白 [2][3] - 该游戏允许玩家实时与AI模拟世界交互并塑造世界,且研发成本低于1500美元,可在个人电脑上运行 [3] - 团队将开源相关代码、数据、权重、架构和研究,并发布技术博客介绍背后技术 [3][8] 团队背景 - 团队成员包括以色列前8200部队成员和领先创业公司成员,具备漏洞研究、算法、芯片级研究和系统工程经验 [5] - 团队采用第一性原理思维解决了AI生成多人世界模型的开放性挑战 [6] 技术架构 - 单人游戏架构由动作嵌入器、去噪网络和上采样器组成,接收视频帧序列和用户操作预测下一帧 [9][11][12] - 多人游戏架构保留了核心模块但重新设计输入输出连接和训练流程,确保双方玩家视角内部一致性 [12][14] - 采用沿通道轴堆叠方案处理双玩家视图,使网络每层同时处理两名玩家视图 [21][22][23] - 通过稀疏采样帧和动作保持上下文大小,同时提供更长时间信息以捕捉车辆相对运动 [28][29] 训练方法 - 采用课程学习方法,将预测范围从0.25秒逐步增加到15秒,先学习低级特征再训练高级概念 [32][33] - 以页面为单位进行自回归预测解决长视野训练的内存问题 [34][35][36] - 使用Gran Turismo 4游戏数据,通过逆向工程实现1v1比赛数据收集 [39][41][43] - 利用计算机视觉提取游戏HUD元素重建控制输入,无需直接记录按键操作 [44][46] 数据生成 - 开发自动化脚本利用游戏B-Spec模式生成随机输入比赛,从双视角录制回放画面 [48] - 尝试使用OpenPilot的Supercombo模型控制赛车但最终采用B-Spec模式 [48]