物理图灵测试

搜索文档
英伟达Jim Fan深度分享:揭秘具身智能路线与障碍
36氪· 2025-05-14 10:23
机器人技术发展现状与挑战 - 大语言模型已突破传统图灵测试,但机器人在物理世界的表现仍远未达到人类水平,数据是最大瓶颈 [1] - 机器人需要物理交互的真实数据,这些数据无法从网页抓取,只能靠人类手动采集,效率极低 [1][14] - 当前机器人面临"物理图灵测试"挑战,例如人形机器人动作笨拙、机器狗易滑倒、执行任务时混乱 [8][10] 仿真技术的突破性应用 - 在超高速仿真数字孪生中,机器人可在2小时内完成相当于现实世界10年的训练量 [17][24] - 仿真1.0采用数字孪生范式,矢量化物理引擎运行速度达每秒1万-100万帧 [28] - 通过域随机化技术(改变重力/摩擦/重量等参数),在1万个并行仿真环境中训练机器人 [20][22] 生成式AI驱动的仿真2.0革新 - RoboCasa平台中除机器人本体外,所有视觉元素由AI生成(3D资产/纹理/布局) [30][32] - 视频生成模型仅用1年实现传统图形学30年的进步,可模拟软体/流体等复杂交互 [42][43] - "数字表亲"仿真混合AI生成与传统图形管线,虽非1:1复刻但捕捉关键特征 [38] 世界模型与物理API的未来展望 - 仿真2.0结合视频扩散模型,实现"数字游民"在梦境空间的无限训练场景 [47][49] - 物理API将像大模型API操控数字信息一样操控物质变化,催生"物理App Store"经济 [54] - GR00T系列模型持续开源,推动视觉-语言-动作模型在工业/灵巧操作的应用 [51][53] 技术商业化路径 - 环境生成技术将场景数量扩展N倍,运动生成技术将演示数据扩展M倍 [34] - 米其林大厨可通过传授烹饪技艺给机器人实现服务规模化,形成技能经济 [54] - 最终目标为机器人融入环境智能,突破物理图灵测试临界点 [2][54]
腾讯研究院AI速递 20250512
腾讯研究院· 2025-05-11 22:17
OpenAI强化微调功能上线 - OpenAI发布RFT(强化微调)功能,通过思维链推理和专属评分机制,可用极少样本快速提升模型在特定领域的专业表现 [1] - RFT主要应用于指令转代码、文本精华提取、复杂规则应用三大场景,已有ChipStack等多家公司取得显著成效 [1] - 实施RFT前必须创建评估体系,明确任务定义和强化评分方案,避免模棱两可的任务目标 [1] Gemini 2.5视频理解突破 - Gemini 2.5 Pro通过低媒体分辨率技术可处理长达6小时视频,在多个学术基准测试中创下新纪录 [2] - 实现视频内容与代码无缝结合,能将视频直接转化为交互式网页应用、p5.js动画等创新应用形式 [2] - 具备精准的视频片段检索和时序推理能力,可实现复杂场景计数、时间戳定位等高级分析功能 [2] ChatGPT深度研究功能升级 - ChatGPT深度研究功能现可直接连接GitHub,团队用户可实时访问和分析代码库内容,包括代码、README和文档 [3] - 系统会根据用户提问自动生成搜索关键词查找相关内容,支持代码库搜索但需5分钟同步时间 [3] - OpenAI承诺企业级产品用户数据不会用于模型训练,但个人版用户若开启"为所有人改进模型"选项,内容可能用于训练 [3] Meta发布AssetGen 2.0 3D模型 - Meta发布新一代3D内容生成AI系统AssetGen 2.0,采用单阶段3D扩散模型,能直接从文本和图像生成高精度3D模型和贴图 [4] - 相比前代产品,新系统在几何一致性和纹理细节上有显著提升,已在Meta内部用于创建3D世界 [5] - Meta正在研发"完整3D场景生成"功能,目标通过简单文本指令一键生成完整的3D虚拟世界 [5] Multiverse:AI生成多人在线游戏 - 以色列Enigma Labs团队开发出全球首个AI生成的多人游戏Multiverse,实现了实时多人交互的赛车游戏,总开发成本不到1500美元 [6] - 技术突破在于创新的多人世界模型架构,通过沿通道轴堆叠双方玩家视图,实现共享世界状态的一致性渲染 [6] - 团队公开所有代码及数据,并通过修改《GT赛车4》游戏实现数据采集,利用B-Spec模式自动生成训练数据集 [6] Genspark推出AI Sheets工具 - Genspark AI Sheets推出全新AI表格工具,用户通过自然语言对话即可完成数据收集、整理、分析和可视化 [7] - 工具支持多格式文档导入、自动数据清洗、智能分析与可视化,官方称处理速度比传统手动操作快数十倍 [7] - 该工具目前处于Beta测试阶段免费开放,适用于销售、市场、产品等多个领域 [7] 陶哲轩数学工具升级 - 陶哲轩迅速升级其数学估计验证工具至2.0版本,将其改造为更灵活的证明助手,支持Python符号代数包sympy [8] - 新版本能处理命题逻辑、渐近估计等多种数学任务,陶哲轩在开发过程中大量依赖Github Copilot辅助编程 [8] - 陶哲轩发布数学形式化证明实验视频,展示如何在33分钟内借助Copilot和Lean证明助手完成一页纸数学证明的形式化 [8] 红杉AI峰会商业模式转型 - 红杉AI峰会提出AI商业模式转型:从卖工具转向卖成果,客户为可度量的业务结果付费,被视为"万亿美元机会" [9] - AI正从应用工具进化为操作系统级入口,谁能成为"用户意图的第一承接者",谁就能控制系统分配权 [9] - 未来AI竞争关键在于组织架构重构,从确定性执行转向目标试探模式,建立人机混合的协作体系 [9] YC合伙人谈AI应用设计 - YC合伙人指出当前AI应用不足在于产品设计思维仍停留在传统模式,未能充分发挥AI潜力 [10] - AI原生应用应该让用户能自定义系统提示词,让AI按照用户个人风格工作,而不是开发者预设的统一模式 [10] - 未来AI应用应转向"Agent构建器"而非单纯的Agent,为用户提供工具和界面来训练和定制自己的AI助手 [10] 英伟达"物理图灵测试"概念 - 英伟达机器人主管Jim Fan提出"物理图灵测试"概念:机器人能否在物理世界完成任务且让人无法分辨是人还是机器完成的 [11] - 解决机器人训练数据不足的关键在于模拟:通过高速并行模拟和域随机化生成训练数据 [11] - 未来发展方向是物理API,让机器人能像LLM处理数字信息一样处理物理世界,将催生新的技能经济和服务模式 [11]