Gemini Robotics 1.5
搜索文档
赵何娟独家对话李飞飞:“我信仰的是人类,不是AI”
新浪财经· 2025-12-22 13:27
行业趋势与展望 - 空间智能(世界模型)预计将在未来两年内迎来应用级爆发 [1][5][21] - AI发展正从“语言生成”迈向“世界生成”,让机器在连续三维世界中实现“看见-生成-互动” [4][5] - 世界模型正成为产业竞逐的新高地,Google DeepMind等巨头已组建专门团队并发布相关路线 [5] - 生成式AI通过降低复杂任务的门槛,将开启许多意想不到的新市场和应用 [23][24] 公司进展与产品 - World Labs发布了首款商用“世界模型”Marble,可从图片或文字提示生成可持续存在、可自由导航且几何一致的3D世界 [2][4] - Marble模型可导出为Gaussian Splat等格式,支持在网页与VR设备中体验与二次创作,突出了“更大、更清晰、更一致”的特点 [4] - World Labs自2024年获巨额融资以来,始终以开发大型世界模型(LWM)为愿景 [6] - 公司认为3D世界生成技术可应用于数字创意、游戏开发、影视、设计、建筑、VR/AR及机器人仿真等多个领域 [23] 技术路径与瓶颈 - 实现通用人工智能(AGI)需要多把“钥匙”,空间智能是其中关键一环,没有它则不算真正的AGI [25] - 当前发展面临数据瓶颈,这是螺旋形上升过程中的新关键点,与算法同等重要 [31][32][33] - 业界存在一种偏见,即更看重算法而非数据,但所有真正做AI的人都明白数据至少与算法平等重要 [34][35] - 机器人领域的数据尤其难以采集,因为缺乏大规模商业化应用场景,这限制了其发展 [43][47] 竞争格局与市场机会 - AI是一项横向技术,为应用层提供了大量机会,大公司无法完全覆盖,小公司有机会在垂直应用领域做到极致 [54][55] - 显性资源(如数据、算力、人才)的整合优势并非绝对,创造力、时机和执行同样关键,历史上从未有过只有大公司能赢的时代 [53][54] - 有能力开发基础模型的公司(通常需要顶尖人才和特定结构)与专注于应用开发的公司将有不同的市场路径 [55][57] 应用场景分析 - 自动驾驶可被视为一个简化版的世界模型,但其场景相对简单(二维移动、避免碰撞),远复杂于未来需要在三维世界中执行多种操作(如家务)的机器人 [40][41] - 工业机器人因场景单一、数据相对丰富而已有应用,其智能化进程可能更快;日常用机器人的商业化则还有较长的路要走 [44][45][47] - 围绕机器人数据(如模拟数据)的创业公司存在商业机会,但成功取决于市场大小和满足客户需求的能力 [47] 发展理念与价值观 - AI的本质是工具,人类必须掌握选择权和主动权,不能自我放弃 [1][4][70] - 发展的同时必须关注安全与向善,在只追求发展和只强调伦理两个极端之间需要理性平衡 [57][58] - 在AI时代,教育体系急需革命,应利用AI赋能教育者和学生,将节约出的时间和精力用于培养AI无法替代的认知与能力 [65][66][67] - 面对AI可能带来的虚假信息等负面影响,公众教育、制度政策以及人的创造性应对至关重要 [77][78][79]
机器人行业点评报告:GoogleDeepMind加大布局机器人项目,软硬件同步发力
申万宏源证券· 2025-11-28 11:45
行业投资评级 - 行业投资评级为“看好” [1] 核心观点 - Google DeepMind加大机器人布局,软硬件同步发力,旨在构建以Gemini为基础的通用AI系统,可配置人形、四足、轮式等物理形态,目标成为机器人界的安卓系统[2] - DeepMind CEO Hassabis预测AI驱动的机器人技术将在未来几年内迎来突破性时刻[2] - 公司聘请波士顿动力前CTO Aaron Saunders担任硬件工程副总裁,致力于解决AGI在物理世界应用的基础硬件问题[2] - DeepMind内部已启动Gemini Robotics项目,目标是用多模态大模型直接输出动作token,2025年3月推出Gemini Robotics系列,6月推出On-Device版本,9月发布新一代通用机器人基座模型Gemini Robotics 1.5系列[2] - 机器人主机厂商及相关产业链将直接受益,包括优必选、越疆、极智嘉等主机厂,及恒立液压、浙江荣泰、汇川技术、伟创电气、美湖股份等零部件公司[2] 技术进展与模型架构 - Gemini Robotics 1.5系统由两个模型协同工作:协调器Gemini Robotics-ER 1.5负责上层思考,包括处理复杂指令、规划任务步骤、调用代步工具、根据环境反馈动态调整计划;动作模型Gemini Robotics 1.5负责将自然语言指令转化为机器人的底层动作轨迹[2] - 模型具备三大技术创新:运动迁移能力,可从不同形态机器人数据中学习无需额外训练;“思考再行动”的VLA,在执行动作前生成思考轨迹和具体步骤,提升多步骤任务成功率、可解释性和错误恢复能力;推理升级,强化对物理世界的视觉-空间-时间推理能力[2] - 实际测试显示模型在多形态、多任务泛化能力及长周期任务能力上明显优于其他同类模型[2] - Google DeepMind此前在具身智能领域已有技术积累,2022年发布RT-1,2023年发布RT-2并整合大语言模型与视觉模型,推出具备泛化能力的RT-X[2] - Gemini3的亮眼表现证明通用模型的可行性,为具身智能训练及应用赋能[2] 重点公司估值数据 - 优必选收盘价108.9元/股,2024年EPS为-2.4元/股,2025年预测为-2.0元/股,2026年预测为-1.5元/股,2027年预测为-0.7元/股[3] - 越疆收盘价36.5元/股,2024年EPS为-0.2元/股,2025年预测为-0.1元/股,2026年预测为-0.1元/股,2027年预测为0.1元/股[3] - 极智嘉-W收盘价25.2元/股,2024年EPS为-0.6元/股,2025年预测为0.1元/股,2026年预测为0.3元/股,2027年预测为0.5元/股[3] - 恒立液压收盘价101.4元/股,2024年EPS为1.9元/股,2025年预测为2.1元/股,2026年预测为2.5元/股,2027年预测为2.9元/股[3] - 浙江荣泰收盘价92.5元/股,2024年EPS为0.6元/股,2025年预测为0.9元/股,2026年预测为1.3元/股,2027年预测为1.8元/股[3] - 汇川技术收盘价70.1元/股,2024年EPS为1.6元/股,2025年预测为2.1元/股,2026年预测为2.5元/股,2027年预测为2.9元/股[3] - 伟创电气收盘价85.5元/股,2024年EPS为1.1元/股,2025年预测为1.3元/股,2026年预测为1.6元/股,2027年预测为1.9元/股[3] - 美湖股份收盘价35.2元/股,2024年EPS为0.5元/股,2025年预测为0.7元/股,2026年预测为0.9元/股,2027年预测为1.1元/股[3]
清北推出Motion Transfer,机器人直接从人类数据中端到端学习技能
具身智能之心· 2025-11-07 08:05
MotionTrans框架核心创新 - 提出业界首个纯端到端、零样本、多任务的人类→机器人技能迁移框架MotionTrans,实现从“看人会”到“我会做”的直接转化[4] - 核心能力包括零样本迁移(无需同任务机器人演示)和小样本精进(仅需5-20条机器人数据微调即可将成功率提升至80%)[7] - 框架采用架构无关设计,已在Diffusion Policy与VLA两大主流范式上验证即插即用特性[7] 技术实现细节 - 自研基于VR设备的人类数据采集系统,可便携式采集第一人称视频、头部运动、腕部位姿和手部动作[9] - 通过坐标系变换和手部重定向将人类数据转换为机器人格式,并使用统一动作归一化与加权联合训练算法优化迁移效果[10] - 采用相对腕部动作表征与Dex-Retargeting工具缩小人机动作差距,提升迁移精度[11] 数据集与实验表现 - 构建大规模人类-机器人数据集,包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实生活场景[10] - 零样本迁移在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务实现100%成功率[14] - 小样本微调后平均成功率从20%跃升至50%(5条数据)和80%(20条数据),显著优于基线方法[17][18] 行业影响与开源贡献 - 证明人类VR数据可独立作为机器人技能学习主菜,改变人类数据仅作为辅助工具的认知[22] - 框架采用模块化设计,支持横向扩容,具备应对大规模数据集与参数量级模型的扩展性[22] - 团队全面开源技术报告、训练代码、权重及数据集,推动相关研究发展[6][23]
清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能
机器之心· 2025-11-05 12:15
核心观点 - 提出名为MotionTrans的端到端、零样本、多任务的人类向机器人技能迁移框架,实现从观察人类行为到机器人执行的直接转化 [8] - 该框架无需同任务机器人演示数据,仅依靠人类VR数据即可让机器人学习新技能,并通过极少量机器人数据微调即可达到高成功率 [12] - 研究团队已开源完整技术报告、训练代码、权重及大规模数据集,推动相关领域发展 [3][26] 技术框架与实现 - **框架性质**:业界纯端到端、零样本的RGB到动作技能迁移框架,与机器人模型架构解耦,已在Diffusion Policy和VLA两大主流范式上验证通用性 [8][12] - **数据采集**:自研基于VR设备的人类数据采集系统,可便携式同步采集人类第一人称视频、头部运动、腕部位姿和手部动作 [9] - **数据处理**:通过坐标系变换和手部重定向将人类数据转换为机器人格式,使用相对腕部动作表征缩小人机动作差距 [10][13] - **训练算法**:提出人类-机器人统一动作归一化及赋权重的联合训练算法以优化迁移效果 [10] 性能表现 - **零样本迁移**:在13个任务上平均成功率达20%,其中Pick-and-Place任务成功率60%-80%,VLA模型在“关电脑”任务上实现100%成功率 [17] - **小样本微调**:仅用5条机器人轨迹微调即可将平均成功率从20%提升至约50%,使用20条轨迹可进一步提升至80% [20] - **对比优势**:同时使用人类和机器人数据联合训练的MotionTrans方法显著优于对比基线方法 [21] 数据集与开源 - **数据集规模**:采集包含3200+轨迹、15个机器人任务、15个人类任务及超过10个真实场景的大规模人类-机器人数据集 [14] - **开源内容**:团队开源了完整技术报告、训练代码、模型权重及数据集,确保可复现性 [3][26]
人形机器人前沿:大型科技公司 “投身机器人领域”…… 软银 ABB、苹果、Meta、擎天柱 v3Humanoid Horizons Big Tech 'Doing the Robot'... SoftbankABB, Apple, Meta, Optimus v3
2025-10-27 20:06
好的,请阅读以下根据您提供的电话会议记录整理的详细分析。 行业与公司 * 纪要主要涉及人形机器人及具身智能行业[1][2] * 重点讨论的公司包括特斯拉、苹果、Meta、谷歌、xAI、软银、ABB、Figure AI、1X、优必选等科技巨头及机器人初创企业[3][5][7][29][34][39][42][53] 核心观点与论据 **战略动向与行业整合** * 软银同意以54亿美元收购ABB的机器人部门 标志着大型AI投资者与传统机器人/工业公司潜在合作的开端[3][5][39] * Meta的CTO将人形机器人视为公司下一个“AR级别的赌注” 长期目标是成为可与全球硬件开发商合作的软件/AI提供商[5] * 苹果疑似布局机器人领域 其CEO蒂姆·库克发布的宣传视频中出现了1X人形机器人 同时有报道称苹果将与比亚迪在越南合作生产机器人[7][34][40] **技术进展与模型开发** * 谷歌DeepMind发布了最新的Gemini Robotics 1.5系列模型 这是其最强大的视觉语言动作模型 能够将视觉输入和自然语言指令转化为实际电机命令[45][46] * xAI据称已开始构建世界模型 最初用于创建视频游戏 但未来将扩展到机器人领域 并已从英伟达招募经验丰富的工程师[5][6][45] * 亚马逊的FAR团队发布了ResMimic框架 用于人形机器人的全身运动操控 使机器人能够承载约55公斤的有效载荷[52] **产品发布与性能提升** * 特斯拉计划在2026年第一季度发布完全重新设计的Optimus v3 其拟人程度极高 并设定了v3产量100万台 v4产量1000万台 v5产量5000万至1亿台的宏伟目标[7][53] * Figure AI发布了第三代Figure 03人形机器人 具有增强的传感和触觉能力 无线充电功能 并且为大规模制造做好了准备[42] * 中国公司优必选Walker S2获得了价值1260万元人民币的实体智能项目订单[34] **市场表现与投资活动** * 等权重Humanoid 100指数自2025年2月6日创立以来上涨了27% 超越了标普500指数和MSCI欧洲指数 但落后于MSCI中国和MSCI韩国指数[11][70] * 中国机器人价值链在9月强劲上涨18%后 10月迄今下跌了11% 表现逊于MSCI中国指数[11] * Figure AI完成了由Parkway Venture Capital领投的10亿美元C轮融资 公司估值达到390亿美元[29] * 2025年中国人形机器人公司融资活动活跃 10月份有29笔交易[28][99] **政策支持与区域动态** * 中国各级政府自2023年以来出台了一系列支持人形/具身AI发展的政策 并设立了总规模约1870亿元人民币的产业基金[57][59] * 根据国际机器人联合会的数据 2024年中国占全球工业机器人安装量的54% 较十年前26%的份额大幅提升 国内供应商首次在本土市场占据过半销售额[7] 其他重要内容 **供应链挑战与关键瓶颈** * 特斯拉指出 灵巧的手和前臂是整个人形机器人中最困难的工程挑战 其机电复杂性超过机器人其他部分的总和[7][53] * 人形机器人没有现成的供应链 特斯拉需要高度垂直整合并内部制造零件[53] **长期市场潜力** * 摩根士丹利全球人形机器人总目标市场模型预测 到2050年 人形机器人存量将达到10亿台 年收入规模达5万亿美元 长远来看可能远超全球汽车行业[107]
Google最新!Gemini Robotics 1.5:通用机器人领域的突破进展
具身智能之心· 2025-10-16 08:03
技术架构 - 采用“协调器+动作模型”的双模型协同智能体架构,协调器由Gemini Robotics-ER 1.5实现,负责高层任务规划与拆解,动作模型由Gemini Robotics 1.5实现,负责将自然语言指令转化为机器人底层动作轨迹 [2] - 架构支持ALOHA、Bi-arm Franka、Apollo三种形态机器人的直接控制,无需额外适配,并通过环境反馈形成“感知-思考-行动”的闭环执行链路 [2][4] 核心创新:运动迁移机制 - Motion Transfer机制通过多形态机器人混合数据训练,学习通用运动规律,解决了传统机器人模型的“数据孤岛”问题 [5][7] - 该机制在Apollo人形机器人上实现“零样本技能迁移”,任务泛化得分从单形态数据训练的0.49提升至0.62,提升约26.5% [13] - 对于数据量中等的Bi-arm Franka机器人,引入多形态数据和MT机制后,任务泛化得分从0.30提升至0.50,解决了新机器人数据少、训练难的行业痛点 [13] 核心创新:思考-动作融合 - 在VLA模型中引入“思考-动作交织”机制,将复杂指令的转化拆分为“指令→自然语言思考轨迹→动作”两步,提升任务执行的可解释性和鲁棒性 [8] - 在ALOHA机器人“按颜色分类衣物”任务中,开启思考模式后进度得分从0.55升至0.67,提升约21.8% [11] - 思考VLA展现出隐式成功检测、自主错误恢复和场景几何理解三大关键能力,例如能在0.5秒内完成物体滑落后的纠错指令更新 [16] 嵌入式推理能力 - Gemini Robotics-ER 1.5在嵌入式推理得分(59)和通用性得分(75)上取得平衡,是唯一处于“高推理+高通用”象限的模型,既能处理专用机器人任务,也保留通用多模态能力 [17][19][20] - 在复杂指向任务中表现优异,其精准指向能力能为VLA提供结合物理约束和语义理解的动作目标定位,是机器人精准动作的核心支撑 [20][24] 性能评估:多形态泛化 - 在视觉、指令、动作、任务四个泛化维度上,1.5版本相比前代模型均有显著提升,例如在Apollo人形机器人上的任务泛化得分从0.07提升至0.63 [25][27][28] - 在ALOHA机器人上,指令泛化得分从0.53提升至0.76,能理解不同表述的同一指令 [28] - 在Bi-arm Franka机器人上,动作泛化得分从0.24提升至0.66,能根据物体重量调整握力以避免滑落 [28][29] 性能评估:长周期任务 - “ER 1.5+VLA”组合在长周期多步骤任务中表现优异,在“Blocks in Drawer”任务中得分0.83,是“Gemini 2.5 Flash+VLA”方案的2.4倍,凸显ER模型精准任务拆解的价值 [33] - ER模型具备工具调用能力,如在“Nut Allergy”任务中能通过网页搜索正确判断食物成分,而对比模型则出现误判 [33] - ER方案在需要场景记忆的“Desk Organization”任务中得分0.88,远高于仅使用VLA的0.32,证明其场景记忆优势 [33] 安全机制 - 通过ASIMOV-2.0基准测试,覆盖文本风险识别、多模态约束适配、视频风险干预三大维度,例如在文本风险识别中能准确判断儿童误食药片的风险类型为“中毒”及严重程度为“重度” [34][36] - 在多模态约束适配测试中,对于承重限制规则,ER 1.5指向8kg和15kg物体的准确率达到90.9% [36] - 在视频风险干预测试中,能预测“儿童接近热水壶”视频中的最后可干预帧,展示出关键的时间推理能力 [36]
具身智能机器人实验平台:自然语言交互学习
搜狐财经· 2025-10-13 17:35
具身智能机器人行业技术进展 - 多模态感知与融合技术取得突破,例如上海交通大学研发的仿人双臂机器人平台通过视觉-力觉融合技术在蔬菜削皮任务中达到毫米级精度[4],腾讯提出的多模态神经SLAM模型在ALFRED基准测试中泛化性能提升20%,达到19.95%的最新水平[4] - 自然语言交互能力显著增强,腾讯开发的DialFRED基准通过主动交互框架,在未见验证集上成功率高达33.6%,远超被动跟随模型的18.3%[4],智源研究院的RoboBrain-Audio模型实现全双工语音交互,响应延迟低至80ms[4] - 大模型驱动任务规划与控制,谷歌Gemini Robotics 1.5作为视觉-语言-动作模型可将自然语言指令转化为机器人运动序列[4],伯克利团队的LangWBC框架通过条件变分自编码器实现动作的平滑过渡,在Unitree G1机器人上展示出显著抗干扰能力[4] 具身智能机器人行业数据与训练 - 大规模高质量数据集被构建并开源,例如国地共建具身智能机器人创新中心发布的数据集包含279项任务、61类物体及数十万条真机数据[4],Open X-Embodiment数据集整合全球34个实验室的100万条轨迹[4] - 高效训练方法得到应用,对比学习与课程学习被用于提升模型鲁棒性[4],强化学习与模仿学习结合的方法在RoboMIND数据集中通过5.5万条人类遥操作轨迹训练多任务策略[4] 具身智能机器人行业应用实践 - 在医疗领域实现远程手术与康复,华为CloudRobo平台通过5.5G网络实现跨地域手术协同,延迟仅38ms,精度达0.1mm,其康复系统使脑卒中患者肢体功能恢复速度提升33%[4] - 在工业与家庭服务领域效率提升,上海交大的双臂机器人平台实现工业零件分拣准确率达98%[4],Open X-Embodiment数据集支持的技能迁移在工业装配任务中效率提升40%[4] - 智能护理应用取得成效,华为平台的感控机器人可实现病房消毒覆盖率100%且人力成本降低60%,智能输液机器人一次穿刺成功率达98.7%[4] 具身智能机器人行业未来方向 - 技术前沿探索集中于神经符号系统和跨平台迁移,例如结合符号推理与神经网络的混合规划框架,以及COMPASS框架通过残差强化学习实现跨机器人本体的策略迁移,成功率提升5倍[4] - 行业正从实验室走向规模化应用,未来将通过多模态融合、大模型驱动和高效训练推动人机协作进入新阶段[3]
光会“看”和“说”还不够,还得会“算”!Tool-Use+强化学习:TIGeR让机器人实现精准操作
具身智能之心· 2025-10-12 00:02
文章核心观点 - 公司提出TIGeR框架 旨在解决当前视觉语言模型在机器人操作中缺乏精确几何量化能力的关键痛点 通过工具调用和强化学习使AI模型能从定性感知转向定量计算 [2] - TIGeR框架的技术路线具有前瞻性 与最新发布的Gemini Robotics 1.5所强调的Agentic Tool Use方向一致 [3] - 在多项空间理解基准测试中 TIGeR的表现超越了包括Gemini-2.5-Pro和GPT-4o在内的主流模型 并在真机测试中完成了其他模型无法胜任的高精度操作任务 [11][16] TIGeR框架的技术优势 - 实现精确定位 通过集成深度信息和相机参数 能将如“上方10厘米”的指令精确转换为三维坐标 达到普通视觉语言模型无法实现的操作精度 [7] - 支持多视角统一推理 在多镜头场景下可将各视角信息合并 并在统一的世界坐标系中进行场景构建和推理 [7] - 具备透明可解释性 模型的每一步推理过程清晰可见 包括工具调用 参数输入和结果输出 便于调试优化并增强操作可信度 [7] TIGeR的训练方法与数据 - 采用两阶段训练流程 第一阶段通过监督学习使用大规模数据集教授基础工具使用方法和推理链 第二阶段通过创新的分层奖励机制进行强化学习 精细打磨模型使用工具的准确性和过程完美度 [8] - 为训练构建了TIGeR-300K大规模高质量数据集 包含30万个样本 覆盖各类核心任务 其构建结合了模板化生成以保证规模和基础问题解决能力 以及利用大模型改写以增强泛化性和应对真实世界复杂指令 [10][13] 性能表现与基准测试 - 在CV-Bench基准的2D-Rel 3D-Depth 3D-Dist任务上分别达到93.85% 96.33% 95.17%的准确率 均超过对比模型 [10][14] - 在BLINK基准的Depth和Spatial任务上分别达到91.94%和86.01%的准确率 [10][14] - 在RoboSpatial基准的M.V. Conf. Comp. Cont.任务上分别达到60.15% 82.11% 82.86% 32.79%的准确率 在EmbSpatial和Q-Spatial++任务上分别达到80.82%和70.30%的准确率 [10][14]
综述丨9月全球人工智能领域发展盘点
新华社· 2025-10-01 16:53
大模型与核心技术演进 - 中国深度求索公司推出全球首个经同行评审的开源大模型DeepSeek-R1,其创新在于采用纯强化学习方法进行训练[2] - 谷歌旗下深层思维公司发布两款机器人AI模型Gemini Robotics 1.5与Gemini Robotics-ER 1.5,专注于生成动作指令和对物理世界进行推理,使机器人具备行动前思考的能力[2] - 美国OpenAI推出升级版音视频生成模型Sora 2,在模拟物理世界的准确性、真实感和可控性方面显著提升,并新增同步对话和音效生成功能[3] 行业应用与赋能 - 德国癌症研究中心等机构开发AI工具Delphi-2M,可根据个人健康数据预测未来20年罹患多种疾病的风险[3] - 荷兰阿斯麦公司与法国米斯特拉尔人工智能公司达成战略合作,探索AI技术在产品研发、生产和运营环节的应用,以缩短产品周期并提升光刻系统性能[4] - 万国邮政联盟推出首个用于分析邮政网络发展数据的AI智能体,为政策、监管和运营变革提供建议[5] - 在多个国际展会上,AI技术应用集中亮相,包括奥地利Picup Media公司的珠宝自动化拍摄设备、柏林消费电子展的智能家电以及杭州数贸会的跨境电商AI解决方案[5] 基础设施与产业投资 - 美国英伟达公司计划向OpenAI投资1000亿美元,双方将共建大规模数据中心[3] - OpenAI、甲骨文公司和日本软银集团联合宣布“星际之门”项目,计划在美国新建5个AI数据中心[3] 国际合作与治理 - 上海合作组织成员国元首理事会发表声明,支持联合国在人工智能决策中的核心作用,并加强在基础设施、人才培养等方面的合作[6] - 2025中国-东盟人工智能部长圆桌会议宣布启动建设中国-东盟国家人工智能应用合作中心[6] - 中方在联合国提出“人工智能+”国际合作倡议,涵盖民生福祉、科技进步、产业应用、文化繁荣和人才培养[6] - 联合国启动“人工智能治理全球对话”机制,旨在建立安全可靠的AI系统,促进治理协同并鼓励开放式创新[6]
综述|9月全球人工智能领域发展盘点
新华社· 2025-10-01 13:02
大模型技术演进 - 中国深度求索公司推出开源大模型DeepSeek-R1,采用纯强化学习方法训练,登上《自然》杂志封面[1] - 谷歌旗下深层思维公司推出Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款机器人AI模型,使机器人具备行动前“思考”的能力[1] - 美国开放人工智能研究中心推出音视频生成模型Sora 2,在模拟物理世界准确性、真实感和可控性方面显著提升,并增加同步对话和音效生成功能[2] 芯片与基础设施布局 - 美国英伟达公司计划向OpenAI投资1000亿美元,双方共建大规模数据中心[2] - OpenAI、甲骨文公司和日本软银集团联合打造“星际之门”项目,将在美国新建5个AI数据中心[2] - 荷兰阿斯麦公司与法国米斯特拉尔人工智能公司达成战略合作,探索AI技术在产品及研发、生产、运营环节的应用[3] 行业应用与赋能 - 德国癌症研究中心等机构开发AI工具Delphi-2M,可根据健康习惯因素预测未来20年罹患多种疾病的风险[2] - 万国邮政联盟推出首个用于分析邮政网络发展数据的AI智能体,为政策、监管和运营变革提供建议[3] - 奥地利Picup Media公司在珠宝展展出AI自动化设备,可对珠宝进行自动化拍摄并生成介绍资料,大幅节省人力成本[4] 国际合作机制建设 - 上海合作组织成员国元首理事会发表声明,支持联合国在人工智能决策中的核心作用,加强基础设施、人才培养等方面合作[4] - 2025中国-东盟人工智能部长圆桌会议宣布启动建设中国-东盟国家人工智能应用合作中心[4] - 联合国启动“人工智能治理全球对话”机制,旨在建立安全、可靠和值得信赖的AI系统,促进治理制度协同与开放式创新[5]