Workflow
雷峰网
icon
搜索文档
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 17:13
文章核心观点 世界模型作为具身智能发展的关键方向,目前研究尚处起步阶段且共识未成,但已在通用空间感知、三维感知视频生成、数字人重建、物理世界建模及三维生成技术等多个关键子领域取得显著进展,这些技术旨在为机器人或AI系统提供对物理世界的深刻理解、交互与预测能力,并正从研究走向应用 [2] 面向具身智能的通用空间感知技术 - 浙江大学研究员彭思达团队聚焦赋予机器人三项基础空间感知能力:相机定位、深度估计和物体运动估计,这些是机器人决策和规划的关键支撑 [5] - 团队提出使用人类行为数据训练机器人的思路,将人类视为特殊机器人,通过记录日常行为获取训练数据,此过程依赖上述三项感知技术 [6] - 在相机定位方面,团队于2021年提出LoFTR模型,使用Transformer进行图像稠密特征匹配,以解决传统方法在恶劣环境或大视角差异下匹配不佳的问题 [7] - 在深度估计方面,针对现有方法在物体边缘产生“飞点”的问题,团队提出Pixel-Perfect-Depth思路,移除VAE并在像素空间优化,同时整合语言特征以增强模型全局理解能力 [8] - 在物体运动估计(三维跟踪)方面,团队提出SpatialTracker方法,将二维图像反投影至三维空间进行3D tracking,以实现比传统二维跟踪更鲁棒的效果 [9] 迈向三维感知的视频世界模型 - 腾讯ARC Lab研究员胡文博指出,尽管Sora展现了不错的3D一致性,但视频细节的垂直性与平整性仍有提升空间,且视频本质是2D的,而世界是3D的,因此探索3D感知的视频世界模型至关重要 [12] - 团队从重建和生成两方面发力,重建工作包括从视频估计深度(DepthCrafter)、从视频估计点云进行4D重建(GeometryCrafter)以及从单目视频重建运动(Holi4D) [13] - 在生成方面,ViewCrafter借助重建的3D点云控制视频扩散模型,实现以点云为条件的图像生成与更新,这被视为早期世界模型的记忆机制 [14] - TrajectoryCrafter工作允许用户通过单目视频探索背后的4D世界,通过注入重建的3D信息,能生成指定相机位姿的动态视频、子弹时间特效和复现Dolly Zoom特效 [16] - VerseCrafter模型实现了场景交互,在单图重建几何的基础上,通过标注可移动物体,能生成固定相机、只动物体、相机物体同动等逼真的交互观测结果 [16] 数字人重建技术的进展与展望 - 西湖大学修宇亮教授团队推出的UP2You方案,将单个数字人建模时间从传统DreamBooth等方法所需的3至4小时大幅压缩至1.5分钟,其核心是将日常“脏数据”转化为对重建友好的多视角正交图片 [20] - UP2You方案的优势在于重建质量随输入图片数量增加而稳定提升,能规避脏数据弊端并放大数据量优势 [21] - ETCH工作旨在根据高精度穿衣人体模型得到解剖学正确的内部人体结构,通过向量定义衣服与皮肤间的厚度关系,解决了此前建模结果普遍偏胖的问题,该工作获ICCV 2025 Highlight Paper [21][22] - Human3R工作实现了人物及场景的实时动态呈现,在同时进行场景重建和人体状态预测、追踪的基础上,达到实时15 FPS且仅占用8GB显存,仅需一张商用GPU即可实现SOTA性能 [22] - 修宇亮教授展望指出,更强大的通用3D重建模型正使数字人重建任务迎刃而解,未来相关任务将逐渐转变为在视觉基础模型上进行微调 [23] 创新基础模型以强化物理世界建模 - 中山大学王广润博士指出,物理空间智能面临“感知-规划-执行”端到端实现的挑战,但高质量数据匮乏 [26] - 团队在推理计算上提出全局迭代生成方法,相比顺序生成,具备全局性、渐进精化、快速性及便于多模态统一的优势 [26] - 团队提出全新的原位Tweedie离散扩散模型,该模型可在one-hot单纯形上实现严格扩散过程,直接在扩散空间去噪,不依赖嵌入、掩码或马尔科夫性,且去噪过程中token语义能从混乱噪声逐步稳定为清晰表征 [26] - 针对现有VLA模型的瓶颈(泛化不足、动作控制粗糙、建模范式矛盾),团队构建了新的E0具身大模型 [27] - 王广润博士提出了物理建模与空间建模解耦的思路,并介绍其实验室构建了一个24小时运行的无人机化物理智能评测平台,用于无痛测评VLA模型 [28] 三维生成技术的价值与未来角色 - 香港中文大学(深圳)韩晓光教授梳理了三维生成技术的发展:从“类别限定”时代,到Dreamfusion开启的“开放世界”文本生成3D时代,再发展到当前大模型时代(如Adobe大型重建模型、混元3D),单图生成3D的效果和速度已大幅提升 [32] - 韩晓光教授指出三维生成的三大趋势:更精细(追求几何细节)、更结构化(模型可自动拆解部件)、更对齐(确保3D模型与输入2D图像精确对应) [32] - 针对Sora等视频生成模型对三维内容创作构成的“存在性”冲击,韩晓光教授分析视频生成存在细节可控性差、长程记忆缺失等难题,为3D技术留下了价值空间,并提出了四种可能的2D与3D结合路径 [33] - 在世界模型是否需要3D的问题上,韩晓光教授认为,无论是为VR/AR提供可交互的触觉反馈,还是为机器人提供仿真训练环境,或是实现虚拟到实体的智能制造,3D都是不可或缺的基石 [33] - 韩晓光教授强调,3D作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径,有助于在模型效果与可解释性之间取得平衡,带来安全感 [34] 圆桌讨论:世界模型的未来展望 - 彭思达认为世界模型发展需同时关注算法提升与硬件迭代,并预测3D tracking技术将在2027年慢慢收敛,同时自监督学习会出现巨大突破 [37] - 胡文博致力于开发给个人使用的世界模型,让使用者能够体验未知、虚构或他人的世界 [37] - 王广润期待世界模型在交互层面的应用,看好从当前状态到未来更高级别(如从PI0到PI1)的发展过程 [37] - 韩晓光认为到2026年,做好3D的骨架和可移动部分对具身智能依然非常有用,并呼吁继续探索3D方向 [37] - 修宇亮指出需从多模态表征统一的角度解决数字人的情绪价值问题,但面临情绪价值难以量化、缺乏基准的挑战 [38] - 主持人赵昊呼吁该领域需要形成共识与合作,一个关于“世界模型”的技术联盟正在酝酿之中 [39]
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 17:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
GAIR 2025 大会首日:AI重构教育、科学与产业的十三重碰撞
雷峰网· 2025-12-13 12:02
文章核心观点 文章报道了第八届GAIR全球人工智能与机器人大会首日主论坛的盛况与核心讨论,大会主题聚焦于AI对教育的重新定义(AI之道)与AI在各领域的范式重构(AI之术)[1][3],与会顶级学者分享了AI前沿技术进展、产业应用挑战与未来发展趋势,认为AI正从技术讨论迈向重塑教育、产业乃至文明的内在力量[1] AI之道:教育的重新定义 高等教育培养模式的重构 - 深圳理工大学提出“加减替换”培养模式以应对AI冲击:减法包括压缩课堂时长20%、每周减少一天上课时间并删减低效课程内容;加法包括要求大一学生必修两学期人工智能导论、每周腾出一天进实验室;替换包括用跨文化交流课替代传统英语教学、计划以智能APP取代传统教科书[6] - 高等教育管理需从传统“电子版电话黄页”式信息系统迭代为智能信息系统,弱智能层面可在现有平台接入大语言模型,强智能层面则让系统直接对接各子系统以实现实时响应与智能决策[7] - 大学应回归培养“有智慧的人”的本质,帮助学生找到自身定位,并推出科研成果与素质教育双成绩体系进行全面评价[6] 教育理念与目标的根本转变 - 生成式AI使知识从“黄金”变成“无处不在的空气”,教育应从“知识传输”转向培养学生的能力、好奇心、学习主动性和共创意识[9] - 未来教育的重点需从“真”(知识与事实)转移到“善”(价值观、自省力、判断力)与“美”(独特的自我展现),以培养更聪明的人并防范缺乏价值判断的AI系统风险[9][10] - 大学的核心竞争力最终产品是“人”,重要能力包括运用知识的能力、沟通能力(人与机器)、创造力以及人文素养,好大学和好学科的共同特征都与数学及母语语言文学有关[15] 教育体系与评估的变革讨论 - 当前AI教育转型不存在“弯道超车”,社会对教育抱有过高期望,进步应是全社会责任而非仅由师生承担[13] - 应创造自有教学理念而非跟随他人“领先”话语体系,AI极大地推动了教育民主化并为师生带来更强自主性[14] - 考核方式需因应AI时代改变,若学生能用AI作弊则说明考试方式本身出了问题,港科大是全球首个宣布GPT是好东西并在教学中广泛使用的学校[9][11] - 在应试教育现实下,校内应减教学、减刷题、减考试量,增加“体验”以让孩子找到AI不能代替的科研与人生快乐[17] AI之术:领域的范式重构 机器人技术与产业自动化 - 全球服装市场规模巨大,预计到2030年价值达2.3万亿美元,但智能化不足,2019年数据显示纺织产业机器人密度很低,总生产时间和成本的80%用于物料搬运,67%劳动力集中于缝纫过程[23] - 研究团队开发了可像人一样思考、配合旋转布料方向的缝纫机器人,以及被动式无致动器抓手、布料边缘高速检测、双臂机械手2D和3D裁剪等技术,以革新服装生产流程[22][24] - 选择汽车座椅作为3D剪裁自动化方案的优先商业化场景,因为该品类产量高且预计到2028年相关工业生产设备投入达3.63亿美元,目前尚无自动化解决方案[24] - 欧洲因人工昂贵将成为继中国、北美、东南亚和日本之外最大的自动化服装市场[25] 大模型技术演进与挑战 - 大模型需从当前“一次性学习”模式革新为人类“连续学习”式的终身学习,并从“虚拟大脑”走向与机器人等实体载体结合的“感知机器”,这是未来5-10年的核心方向[28][29][30] - 需改善神经元连接方式让模型在同等数量神经元上变得更聪明,发展进程可能缓慢但方向明确[28] - 面临幻觉与长上下文处理瓶颈,可通过“有损计算”理念破解,即利用参数精度无需过高、无需启用全部参数两个关键点,开发简易算法优化相对位置信息与KV缓存显存占用[38][39] - 大语言模型依赖公开数据的发展模式即将触顶,如何利用私有数据持续赋能是巨大挑战,且将基于公开语言数据的成功经验迁移到其他非语言数据领域是错误的[49] 科学基础模型与AI+科学 - 科学基础模型面临语言边界限制与科学数据复杂性两大瓶颈,例如一张光谱信息量相当于1000张图片,人类30亿个基因可存储全球数据,语言作为低维离散符号系统难以覆盖[42] - 构建路径包括将分子、基因、光谱等非文本科学数据转化为Token表示并统一编码,以及通过数据对齐(如基因数据与病理数据对齐)推动科学发现[43] - 团队已完成覆盖十余门学科的超大规模模型训练,并推动“大模型种子班”和“科学家工作坊”以加速AI+科学研究[44][45] 时空AI与城市计算 - AI真正产业价值需进入物理世界(如具身智能、无人驾驶、城市管理),面临数据稀缺、需结合行业知识、现有模型非为时空而设三大挑战[33][34] - 城市计算可作为具身智能的方法论,具身智能将成为城市计算的核心组件,未来城市有望成为“巨大的具身智能体”[35] - 城市知识体系是实现时空数据与其他数据融合的路径和方法论[34] 算力基础设施与超智融合 - 超算核心逻辑是集聚算力攻克复杂科学问题(如地球系统模式、气候变化研究),与AI大模型的并行思维本质相通[52][55] - 超算领域面临国产算力硬件投入大、软件生态投入相对少以及复合型人才流失的困境[55] - 需借鉴通用人工智能的可扩展模型经验,加强算力软件与科学发现协同,完善国产生态以留住人才,深圳超算将搭建超智融合平台形成开源生态[55][56] 医疗人工智能的应用 - 医学人工智能应由医生主导,因为所有工具最终都要落到医生面对患者的场景中,AI是医生调用或辅助诊疗的工具,从人文关怀角度医生使用AI比患者独自面对机器体验更好[60] - 实现路径包括基于现有语言大模型接入更多数据模态并构建应用体系,以及大模型与小模型协同,由垂域小模型纵向攻克预警、诊断、治疗等核心环节[60] - 落地需放在整个医院医疗体系中思考,构建培训、AI赋能、后续医疗支撑的体系以实现“强基层”和真正落地价值,而非仅技术解决[60] 智能硬件与端侧AI - 云端模型存在显著浪费,一些语音指令经云端解析再回传至少50%传输成本被无效消耗,全球云端模型每日消耗成本高达万亿至百万亿量级但有效利用率存疑[63] - 行业正从云端向端侧战略转移,未来智能硬件最重要的是原生记忆和自主学习,大模型需从固定工具转向持续学习和实时成长[63][64] - 当前“更多数据、更大算力、更高人才密度、更大参数=更好模型”的共识可能扼杀创新,Transformer架构偏向压缩智能和静态函数,并未真正产生知识[63] 新型模态感知与空间智能 - 未来5-10年,面向新型模态(如声波、毫米波)的新型感知模型会非常繁荣,传统AI与新型传感将“殊途同归”以实现对物理世界的准确感知和空间智能[65][67][68] - 当前多模态感知仍集中在语音、文字、图像、视频,对新型模态探索不多,需用最新模型技术理解新型传感器数据以进行空间感知、智能交互、健康监测等技术探索[67][68]
上海AI Lab胡侠:KV Cache压缩之后,可让价格2万美金的GPU发挥出20万美金的价值丨GAIR 2025
雷峰网· 2025-12-12 15:16
文章核心观点 - 胡侠团队提出“有损计算”方案,通过主动引入可控的信息损失来提升大语言模型的推理效率,核心思路是用精度换取效率,且不损害模型准确率[3][7] - 该方案在算法和系统层面实现两项关键技术突破:通过粗化远距离标记位置信息将模型语境长度扩展至原有水平的8倍;将KV Cache量化为2比特,实现8倍内存效率提升和3.5倍时钟时间加速[4][7] - 该方案的核心创新在于对Key Cache和Value Cache采用不同的压缩方法,使得在激进的2比特量化下模型性能(准确率)几乎不掉点[12][24] - 该技术方案是“即插即用”的,无需针对特定模型或领域进行额外微调,并已被hugging face的transformer、llama.cpp等主流开源软件包使用[15][34] 技术方案细节 - **算法层面:粗化位置信息** - 通过粗化远距离标记的位置信息来扩展上下文,无需使用精确的相对距离进行计算[7] - 该策略是根据上下文的需要进行动态调整的,而非静态或完全根据文本内容动态调整[11] - 此方法成功将大语言模型的语境长度扩展至原来水平的8倍[4][7] - **系统层面:KV Cache量化压缩** - 将过去令牌的中间状态(KV Cache)量化为2比特数字[4][7] - 此举实现了8倍内存效率的提升和3.5倍实际速度(时钟时间)加速[4][7] - 研究最大挑战是确保在2比特低精度表示下模型准确率不下降,并通过大量实验验证[12] - 关键创新在于对Key Cache和Value Cache采用不同的压缩方法,这是实现2比特压缩下几乎不掉点的主要贡献[12][24] - **技术原理与哲学** - 灵感源于深度学习的两大发现:模型参数量比精度更重要;删除大量参数后模型准确率损失很小[8] - 哲学上与混合专家模型(MoE)等类似,都是用效率换取精度,但目标是不损害最终任务准确率[16] - 技术上与MoE不同:MoE通过稀疏性(忽略部分词)解决问题,而有损计算是快速处理全部信息但记忆模糊位置[16] 性能影响与应用场景 - **对模型性能的影响** - 方案主要针对语言大模型进行实验(如在llama上),对多模态模型或其他智能体的效果尚未明确[14][19] - 压缩到2比特时,在聊天机器人(chatbot)等问答任务上准确率几乎不掉点,但在生成程序等对精度要求极高的任务上可能影响准确性[23] - 评估“有损操作”是否过度依赖于大量实验,通过观察模型准确率下降曲线来判断,不同任务下降曲线不同[22] - **潜在应用价值与场景** - **提升硬件价值**:将KV Cache从16比特压缩到2比特,相当于压缩近10倍,能让80GB A100 GPU的等效存储量增加10倍,粗略估算可使价值2万美金的GPU增值到20万美金[13] - **主要应用场景**:目前主要应用于聊天机器人(chatbot),以及在医疗健康领域基于罕见病的问诊系统[28] - **对高要求场景的适用性**:在法律、医疗等场景,任务基于大量统计信息,可能不需要极高精度即可做出精准判断,因此有损计算方案可以应用[27] - **部署意义**:当前主要价值在于解决服务器端推理速度慢的问题,对于部署到手机等端侧的意义尚不明确[32] 行业现状与前景 - **行业背景** - 大模型厂商在超长上下文处理方面竞争激烈,已有模型支持百万Token(1M)级别的输入[2] - 提升上下文长度是巨大的工程与效率之战,能在金融、法律、医疗等长语境任务中创造更大商业与技术价值[3] - **方案成熟度与采用** - 该方案相关研究论文于2024年发表[14] - 相关技术已被集成到hugging face的transformer、llama.cpp等主流开源软件包中[15] - 工业界当前主流优化手段是将KV Cache压缩到8比特(如DeepSeek),压缩到4比特已属激进,2比特更多是实验室成果[12] - **未来发展方向** - 下一个前沿包括探索2比特量化在实际中的应用条件与边界,以及加强相关的理论研究[33] - 未来模型架构可能直接在预训练阶段设计稀疏性,以提升整体效率,而非仅在推理阶段补救[30] - 该方案目前专用于GPU,尚未考虑与内存计算、低精度AI芯片等特定硬件的协同设计,但发挥最大潜力可能需要硬件层面的变革[29]
何小鹏打赌:明年VLA追不上FSD,负责人就裸奔;DeepSeek使用走私Blackwell?英伟达回应;魏牌CEO被曝「休假」
雷峰网· 2025-12-12 10:49
自动驾驶技术竞争 - 小鹏汽车创始人何小鹏立下赌约,若到2026年8月30日其VLA在国内达不到FSD V14.2在硅谷的整体效果,其自动驾驶负责人将在金门大桥裸奔[4][5] - 何小鹏在硅谷试驾特斯拉FSD V14.2后认为,其已从高阶辅助驾驶进入准L4的安心阶段,在约5小时的试驾中表现平稳,远超去年水准[4] - 何小鹏相信未来将是同一自驾系统和硬件体系,分别服务于私人RoboCar和共享Robotaxi,用户可跳过L3直接拥有L4能力的汽车[4] - 特斯拉CEO马斯克称竞争对手Waymo“从来就没有真正胜出的机会”,并强调特斯拉使用纯视觉方案与自有车型,计划将能力扩展至全球每一辆特斯拉[40][41] - Waymo方面回应称,其在纯乘客自动驾驶行驶里程方面已达9600万英里,并拥有具有说服力的安全数据[41] 人工智能芯片与算力 - 有报道称中国AI公司DeepSeek使用走私的英伟达Blackwell芯片训练模型,英伟达回应称目前未看到任何证据,但会认真调查任何线索[7] - DeepSeek此前引起全球关注的V3模型是使用英伟达H800 GPU训练的,但行业观察人士认为其可能拥有更先进的计算能力[8][9] - 美国前总统特朗普表示,英伟达可向中国等地的经批准客户交付H200芯片,条件是美国获得这些销售额的25%[7] 中国AI行业发展与竞争 - 投资人朱啸虎认为中美AI差距稳定在三到六个月左右,未来几年差距有望缩小,并特别看好三到五年后中国的开源AI生态[12] - 朱啸虎表示,国内AI竞争刚开始,阿里刚发力C端,腾讯尚未发力,并指出腾讯过去20年从不烧钱试错,总是等大家打明白后才发力并最终成为第一[12] - 朱啸虎认为DeepSeek被低估,其将是AI进程的重要转折点,避免了AI被少数私有公司控制的局面[12] - OPPO完成AI中心组织架构调整,将原小布记忆、小布助手、小布建议整合为“超级小布”,由新成立的智慧产品研发部负责[13] - 国内AI独角兽MiniMax和智谱被传计划很快进行香港IPO,以争夺“国内大模型第一股”,月之暗面也在探索港股上市[20][21] - MiniMax股东包括阿里巴巴和腾讯,计划最早于2026年1月完成香港IPO,预计筹资数亿美元[21] - 智谱AI已将IPO地点从国内转向香港,上市时间预计与MiniMax接近[21] 国际AI模型进展 - OpenAI正式发布GPT-5.2模型,主打职场效率革新,并首次采用Instant、Thinking、Pro三版本细分策略以满足不同需求[34] - GPT-5.2重度用户预计每周可减少10小时以上重复性工作,OpenAI计划在2026年第一季度上线成人模式,并将知识库更新至2025年8月[34][35] - 在多项基准测试中,GPT-5.2 Thinking版表现领先:SWE-Bench Pro软件工程任务达55.6%,GPOA Diamond科学问题达92.4%,CharXiv科学图表推理达82.1%,FrontierMath高等数学达40.3%[35] - Meta战略重心转向闭源AI模型,预计明年春季推出代号Avocado的闭源模型,标志着其背离多年开源战略[38][39] - Meta在训练Avocado模型时,引入了谷歌Gemma、OpenAI gpt-oss及阿里巴巴通义千问等第三方模型的技术成果[39] - Meta为招揽AI人才开出了数亿美元的多年期薪酬方案,其新任AI首席官Alexandr Wang是通过一笔价值143亿美元的投资交易加盟[39] 消费电子与智能硬件 - 夸克AI眼镜市场需求超预期,线上线下“一机难求”,其核心供应商已新增产线,产能预计在明年1月充分释放以赶上春节消费潮[31] - 夸克AI眼镜S1系列最低到手价3799元,G1系列1899元起,目前在天猫、抖音、京东等平台处于“上架即售罄”状态,二手市场现货价格最高被炒至6999元[31][32] - 苹果首款智能眼镜Apple Glasses预计在2026年发布,2027年量产,该产品无显示屏,需依赖iPhone处理任务,定位为轻量智能穿戴配件[36][37] - 小米首座大家电工厂——武汉小米智能家电工厂一期已竣工投产,首款自产产品为米家中央空调Pro双风轮,其“双出风”模式可将头足温差控制在0.8℃以内[26][27] 汽车行业动态 - 长城汽车旗下魏牌CEO冯复之被曝处于“休假”状态,有消息称哈弗总经理赵永坡将接任,魏牌新能源也在调整中[15] - 冯复之自2024年5月执掌魏牌后,计划在2024年5月至2025年11月累计布局500家以上直营服务网点,覆盖130多个城市[16] - 岚图汽车董事长卢放称,中国豪华轿车市场长期被外资品牌把持,岚图追光L已上市,售价27.99万-30.99万元,全系标配华为乾崑智驾ADS 4和鸿蒙座舱5.1[24] - 岚图汽车2025年11月交付量首次突破20000辆,累计辅助驾驶里程1.45亿公里,累计避免可能的碰撞次数39973次[25] 互联网与科技公司资本运作 - 京东工业正式于香港联交所主板上市,发行价每股14.1港元,募集资金净额约28.27亿港元,这是刘强东的第六家上市公司[22] - 京东工业持续经营业务总收入从2022年的141亿元增长至2024年的204亿元,复合年增长率20.1%;2025年上半年实现经调整净利润5.0亿元[23] - BOSS直聘宣布,张宇卸任首席财务官(CFO),出任首席战略官(CSO);公司任命副总裁王文蓓为副首席财务官,副总裁穆阳将接替张宇担任执行董事[22] - 美图公司CEO吴欣鸿透露,公司正打造AI创新工作室进行内部“赛马”,每个工作室不超过10人,可申请1000万元基础资金,以半年为期进行产品创新[23][24] 宏观经济与产业政策 - 中央经济工作会议明确2026年将优化“两新”(大规模设备更新和消费品以旧换新)政策实施,意味着“国补”政策明年有望继续[19] - 2025年中国发行3000亿元超长期特别国债资金用于消费品以旧换新,额度较2024年的1500亿元增长一倍[20] - 2025年1-11月,消费品以旧换新带动相关商品销售额超2.5万亿元,惠及超3.6亿人次,其中汽车以旧换新超1120万辆,家电以旧换新超12844万台[20] 行业会议与合规事件 - 第八届GAIR全球人工智能与机器人大会于12月12日-13日在深圳举行,聚焦大模型、AI算力、世界模型、AI硬件等多个前沿议题[43] - 中兴通讯发布公告,正就涉及美国《反海外腐败法》合规性调查事项与美国司法部沟通,并坚决维护自身权益[9] - 外媒报道称,中兴通讯可能支付逾10亿美元(约70.6亿元人民币)甚至可能高达20亿美元(约141亿元人民币)以了结海外行贿指控[10]
GAIR 2025 正式开幕:当AI变革行至产业深海,我们又将如何破暗寻光?
雷峰网· 2025-12-12 10:49
GAIR 2025大会概况 - 第八届GAIR全球人工智能与机器人大会于12月12日在深圳博林天瑞喜来登酒店举办[2] - 大会共开设四个主题论坛与两个闭门会议,聚焦大模型、AI算力、世界模型、数据&一脑多形、AI硬件等领域的创新脉搏[2] - 大会旨在汇聚前瞻学者与行业先锋,搭建创造未来的思想与商业策源地,让AI思想火花碰撞出产业实践的全新范式[4][10] 大会历史与定位 - GAIR大会始于2016年,至今已举办八届,每届都在时代最前沿镌刻下新的记录[5] - 2018年,GAIR成为国内首个突破5000名AI专家参会的AI大会[5] - 2023年,GAIR代表中国AI顶会首次出海,正式在新加坡落地[5] - 当前AI大模型浪潮已从“技术破壁”迈入了“价值深耕”阶段[4] 本届大会亮点 - 汇聚全球院士、顶会主席、企业技术领袖,共话AI大模型的世纪变革[6] - 探讨领域包括具身智能、AI算力、世界模型、AI硬件等[6] - 呈现青年学者与前辈的跨代际共鸣,以及AI商业化浪潮下的机遇与挑战[6] 与会重要机构与人物 - 指导委员会主席为中国工程院院士、鹏城实验室主任高文[13] - 大会主席包括加拿大皇家科学院院士杨强、GAIR研究院创始人朱晓蕊[13] - 组委会主席包括清华大学教授杨士强、雷峰网创始人林军[13] - 大会程序主席为KDD China主席、京东集团副总裁郑宇[13] - 参与院士及专家包括中国工程院外籍院士郭毅可、欧洲科学院院士刘向阳、日本工程院院士Kazuhiro Kosuge等[17][21] - 参与企业及投资机构代表来自京东、腾讯、摩尔线程、诺亦腾、并行科技、燧原科技、英诺天使基金、IO资本等[13][17][26][27]
独家丨OPPO AI部门再次整合,成立智慧产品研发部
雷峰网· 2025-12-11 17:43
OPPO AI战略与组织架构调整 - OPPO对AI中心完成新一轮组织架构调整,将原小布记忆、小布助手、小布建议三项核心业务整合为“超级小布”,由新成立的智慧产品研发部统一负责[2] - 原小布记忆负责人、ColorOS智慧产品研发总监姜昱辰将统筹未来“超级小布”的打造[2] - OPPO于2024年1月宣布成立AI中心,团队从数智工程、软件工程、研究院等与AI相关的业务整合而成,向公司高级副总裁兼首席产品官刘作虎汇报[2] OPPO的AI整合策略与行业定位 - 知情人士透露,OPPO是目前手机厂商中在AI战略上“想的比较通透的”,在其他品牌还在AI和操作系统之间争夺主导权时,OPPO早早就将两个部门整合在一起,向同一人汇报,如今进一步聚焦AI能力[2] - 过去两年,OPPO AI中心已交付了包括小布助手整合DeepSeek、打造一键闪记能力等产品[2] - OPPO更倾向通过Agent to Agent实现生态互联,将豆包手机采用的GUI Agent技术视为覆盖长尾场景的兜底方案[3] 关键人物与收购动态 - 姜昱辰于2023年创业成立波形智能,主力产品“蛙蛙写作”将长文本生成应用于小说写作领域[3] - 2024年10月,波形智能被OPPO收购[3]
倒计时15小时,第八届 GAIR 全球人工智能与机器人大会即将开幕
雷峰网· 2025-12-11 17:43
大会概况与定位 - 第八届全球人工智能与机器人大会将于2025年12月12日至13日在深圳博林天瑞喜来登酒店举行 [3] - 大会定位为人工智能领域的风向标,旨在为产学研投各界搭建前沿交流的核心桥梁 [2] - 2025年被视作大模型从“技术破壁”迈入“价值深耕”的关键之年 [2] 大会规模与嘉宾 - 大会将汇聚上百位嘉宾和数千位专家参会 [3] - 历届大会已累计邀请多位图灵奖、诺贝尔奖得主、50位院士、30位人工智能国际顶会主席、100多位Fellow及500多位知名企业家、投资者和创新者 [2] - 本届大会指导委员会主席为中国工程院院士高文,大会主席为杨强院士与朱晓蕊教授 [3] 大会议程与核心议题 - 大会将开设四个主题论坛与两个闭门会议,聚焦大模型、AI算力、世界模型、数据&一脑多形、AI硬件等多个前沿议题 [3] - 首日主论坛设有“AI之道:教育的重新定义”与“AI之术:领域的范式重构”两大主题 [23] - 次日将并行举行“世界模型论坛”、“数据&一脑多形”和“AI算力新十年”三场专题论坛 [39] AI与教育革新 - “AI之道”主题将深度探讨人工智能如何颠覆传统高等教育模式,并对未来教育形态与人才培养方向进行前瞻 [25] - 相关报告包括“人工智能的兴起与高等教育的颠覆”及“人工智能与未来教育” [30] AI技术落地与产业应用 - “AI之术”主题将直击AI在机器人、时空AI、大模型服务、地球系统模拟、医疗、硬件等领域的落地场景与实践案例 [27] - 具体议题涵盖AI+机器人重塑生产流程、时空AI作为物理世界技术底座、大模型高效服务的技术突破等 [27] 世界模型与具身智能 - 世界模型专场以“走向可交互的3D AI世界模型”为主题,聚焦真实世界建模能力的跃迁与智能体体系结构的整体演化 [40] - 该领域旨在推动AI从二维平面智能迈向能感知、理解并作用于三维真实世界的具身智能阶段 [40] 数据新范式与多形体智能 - 数据&一脑多形专场以“具身数据新范式&多形体进化”为主题,探讨从静态感知数据转向行为驱动特征具身数据的范式变革 [41] - 议题关注在“一个大脑,多种形体”趋势下,统一智能体模型向不同机器人形态和任务场景迁移的技术 [41] AI算力基础设施与芯片 - AI算力专场论坛将聚焦“谁是下一个寒武纪”与“谁将定义中国智算未来”两大前沿话题 [49] - 讨论范围涵盖AI芯片的技术突破、资本化路径、智算中心的建设、投资及商业化闭环,旨在探寻中国AI基础设施的新周期 [48]
对话斯年智驾CEO何贝:L4 智驾公司的宿命,是大集成商或大运营商丨L4十人谈
雷峰网· 2025-12-11 15:00
文章核心观点 - L4级自动驾驶公司的最终归宿是成为大型系统集成商,或者像滴滴一样的大型运营公司[1][39] - 自动驾驶行业经历了多轮发展浪潮,目前正从技术比拼转向商业化能力比拼,行业整体在逐步收敛[23] - 港口等封闭场景的无人驾驶卡车是当前商业化落地相对清晰的领域,但实现盈利仍面临挑战[5][6][35] 自动驾驶技术路径与成本 - **视觉与激光雷达的权衡**:纯视觉方案成本更低、上限更高,但激光雷达能提供更高的安全下限[4][12][13] - **历史成本高昂**:2017年时,第二代、第三代无人出租车的整车改装成本高达50-100万人民币[12] - **当前方案核心**:降低自动驾驶成本的关键在于采用纯视觉路线并减轻对高精地图的依赖[4] 斯年智驾公司概况 - **创立与融资**:公司成立于2020年,专注于港口场景,已完成共计8轮融资,2025年9月完成数亿元人民币B+轮融资[4] - **发展里程碑**:2021年末开始拿掉安全员进行常态化无人运营,2022年实现完全无人驾驶[4] - **团队规模**:拥有正式员工100多人,外包员工50多人,现场实施与运维以外包为主[31] 市场选择与商业化策略 - **选择港口场景的原因**: - 人工成本高的场景更适合部署昂贵的自动驾驶技术[15] - 集装箱场景信息化基础好,距离无人化更近[15] - **商业化进展**: - 已与全球前三大港口中的两个(宁波舟山港、青岛港)建立深度战略合作[5] - 客户还包括厦门、珠海、宁德、烟台等多个港口[25] - 除首个项目外,其他项目均实现盈利,公司整体预计今年微亏,明年盈利2000-3000万人民币[5][26] - **收入情况**:去年收入约2.5亿至3亿人民币,明年目标收入约5亿人民币[24] 行业挑战与竞争格局 - **核心挑战**:获取业务容易,但实现盈利困难,客户付费意愿是主要障碍[6][35] - **市场规模**:目前全球在港口运营的无人驾驶卡车总数不超过1000台[6][35] - **效率对比**:在集装箱港口场景,无人车效率目前约为人工的85%,超过90%需优化调度系统[17] - **竞争关键**:当前阶段竞争焦点在于已交付的案例数量、部署成本与部署时间[30] 技术实施与公司能力 - **系统集成是下限**:决定了公司的交付能力,体现在效果稳定性、一致性和部署成本上[18] - **AI技术是上限**:决定了车辆在行驶过程中的灵活性与智能程度[18] - **模块化优势**:公司服务了30-50个不同场景的客户,积累了丰富的模块,能够像乐高一样快速组合,降低部署时间和成本[30] 业务发展阶段与未来规划 - **三阶段发展**: 1. 2020年至2023年上半年:以研发和产品为主[32] 2. 2023年下半年至2025年上半年:开启商业化与批量化,老客户复购,新客户增加[32] 3. 2025年下半年起:进入降本增效阶段,推行大公司管理模式[33] - **2026年工作重点**: 1. 完成现有订单的车辆交付[36] 2. 开拓新客户并维护复购,拓展场景至园区、工厂、化工、干线物流等[37] 3. 开拓海外市场,目标在2026年春节前或上半年落地3-4个海外客户(如新加坡、巴西)[37] 对自动驾驶细分赛道的看法 - **Robotaxi(无人出租车)**:竞争格局已定,资本过于集中,后来者难度大[28][29] - **干线物流**:L2+辅助驾驶意义不大,编队行驶或特定场景的L4是更可行的方向,预计2028至2030年间落地[20] - **场景难度排序**:无人出租车灵活度最高,港口、矿山次之,低速场景要求相对更低[18] 自动驾驶行业十年发展回顾 - **浪潮更迭**: - 第一波(约2016-2017年):无人出租车火热,比拼团队背景[23] - 第二波(约2021-2022年):干线物流火热,比拼技术[23] - 第三波(当前):港口、矿山、配送等场景火热,比拼商业化能力[5][23] - **行业趋势**:行业经历多次起伏,正在慢慢收敛,能够穿越周期的公司才能存活[23]
德马科技中标Shopee框架合约,共筑智能快递分拣网络
雷峰网· 2025-12-11 15:00
合作背景与契机 - 电商平台Shopee业务覆盖新加坡、越南、菲律宾、泰国、马来西亚等多个东南亚市场,并在巴西等市场持续快速扩张[1] - 快递物流行业快速发展,订单量增长和用户体验提升对分拣效率提出了更高要求[1] - 为满足业务持续增长的需求,Shopee与德马科技展开深入合作,共同推动智能物流的创新和落地[1][2] 合作模式与客户特点 - Shopee团队在合作中展现出高度专业性和严谨态度,积极配合测试优化并提供详细运营数据与业务需求[2] - Shopee作为标杆客户,对技术标准、运营效率和系统稳定性要求极高[6] - 双方建立了讲信用、可靠、高标准的合作模式,使技术落地更加顺利,效果更加显著[2][6] 合作进展与成果 - 德马科技的智能分拣系统已先后在Shopee的新加坡、巴西等分拣中心投入使用,并在多种业务场景中实现规模化应用[4] - 今年,德马科技正式与Shopee签署年度框架合作协议,成为其全球智能物流供应商体系的一员[4] - 这一里程碑标志着德马科技在支持Shopee跨区域物流发展中承担更重要的责任和角色[4] 技术解决方案与价值 - 德马科技依托自主研发的智能分拣系统和数字化管理平台,为Shopee提供灵活、高效的解决方案[6] - 系统能确保分拣流程快速、准确,并具备可扩展能力以应对未来增长,无论是高峰期订单集中处理还是跨区域物流衔接[6] - 智能分拣设备和自动化解决方案旨在提升效率、保障履约,成为Shopee物流网络的核心力量[8] 战略意义与行业影响 - 双方关系不仅是供应商与客户,更是一种长期战略伙伴关系,共同在快速变化的市场环境中应对挑战、优化流程[6] - Shopee的开放与支持,为中国供应商出海提供了宝贵机会,让智能物流技术在东南亚和巴西市场顺利落地[4] - 合作推动全球快递分拣业务向更高效率、更智能化方向发展,并为行业树立榜样[6][8]