Workflow
雷峰网
icon
搜索文档
贾佳亚教授:模型不必一味求大!优化神经元连接方式同样是智能跃升的「关键密码」丨GAIR 2025
雷峰网· 2025-12-16 16:28
冯诺依曼研究院的技术成果 - 2023年发布全球首个32K长文本上下文理解大模型技术LongLoRA,使大模型首次能阅读并分析长达四万多个Token(约两三万字)的书籍内容[5][13][16] - 2024年推出开源多模态模型Mini-Gemini,在GitHub上获得超3000个Star,曾是开源社区中性能最强的模型,具备高性能图像理解与推理式图片生成能力[5][18] - 2024年推出Mini-Gemini新版本,新增完整中文语音系统,支持长视频理解、无样本音色克隆及跨语言生成,解决了中文语音系统混乱的痛点[5][20] - 推出轻量化智能图像生成编辑技术ControlNeXt,可实现图像风格转换、动效生成和超级分辨率等功能,无需大量预训练资源[6][34] - 推出全球领先的智能图像生成编辑统一系统DreamOmni2,在开源系统中与投入超50亿美金、使用10万张卡的Nano Banana对齐,而该研究院仅由2名学生用500张卡、耗时半年完成开发[6][36] - DreamOmni2具备广告设计、图像编辑、虚拟试衣、一键美容、改变光照、产品设计等强悍功能,在部分评测中超越了Nano Banana、GPT-4o等模型[37][59] - 该研究院的图像生成编辑技术可实现精准的像素级编辑,例如将图片中的油灯替换成狗、替换人物、改变发型、一键试衣、改变物体材质或光线等复杂操作,处理时间从专业美工的三天缩短至约10秒[38][40][43][45][48][51] - 该研究院的技术可对图像、视频生成进行6到20倍的加速,有望为全行业节省95%的能源[61] 大模型与人工智能的发展方向 - 大模型的智力是综合多因素的结果,神经元数量不代表更聪明,更重要的是神经之间的连接方式、大脑皮层的复杂度以及大脑与其他器官的配合程度[7][70] - 大模型未来发展有两个关键要点:遵循Scaling Law是基本方向,同时需聚焦“改善神经元连接方式”,让模型在同等神经元数量上变得更聪明[7][70] - 从早期的卷积神经网络到后来的Transformer,都是在改变神经元的连接方式,这种改变让大模型的智能提升了约1万倍[7][71] - 未来还会有比Transformer更优的架构,能将智能再提升1万倍[2][72] - 未来人工智能发展的两大重心:一是训练方法要从一次性学习转为像人一样的连续终身学习;二是要结合机器人、机械臂等作为人工智能的感知载体,弥补当前AI无实体的短板[7][75] - AI与大模型的未来发展模式会走向感知机器与终身学习结合的训练模式,这一发展将在未来五到十年持续发生,并带来巨大进步[7][75]
智驾公司高层欺上瞒下,停摆前已被全面接管;物流公司砸1.5亿布局L4;新势力供应链负责人备货不足被裁撤丨智驾情报局VOL.8
雷峰网· 2025-12-16 16:28
智驾公司A停摆与集团接管 - 智驾独角兽A公司停摆的直接原因是集团B因人事和财务问题对其全面接管,而非单纯技术硬伤 [1] - 去年4月,因一封举报信揭露一名年薪近百万的销售简历造假,引发集团大老板震怒并彻查,进而暴露出公司财务重大问题,导致公司彻底失去信任 [1] - 集团随后收回了A公司的公章以及包括审批付款在内的所有权限 [1] - 公司全员群在通过群聊通知停工前已被禁言,目前留下的300多位员工是去年11月大裁员后的剩余人员 [1] - 公司负责人乙获得集团老大无条件信任,但其将公司事务全权交由外援管理,自己成为甩手掌柜,外援缺乏创业精神、热衷内部斗争和捞钱,乙发现问题时为时已晚,只能配合外援向集团演戏 [2] 新势力车企C供应链管理失误 - 以供应链成本控制著称的新势力C公司,其供应链负责人近期因在内存涨价潮中未及时备货而被撤职 [3] - 此次失误直接触动了老板的雷区,因为公司此前曾因核心零部件备货不足吃过亏,老板早已明确划定红线 [3] 新势力车企D智驾路线与团队内斗 - 新势力车企D的智驾负责人丙离职,导火索是其上任后计划砍掉公司原有的约200人地图团队,此举触动了相关团队利益并遭到排挤 [4] - 丙在遭到内部人员向老板打小报告指责其工作不配合的同时,其负责的工作也出现纰漏,未能拿出让老板满意的成果,最终无奈辞职 [4] - 公司执着于高端技术定位,高度认可特斯拉发展路径,在技术研发上投入重金,曾是国内多个技术领域首个尝试者 [4] - 在前负责人带领下,公司智驾团队规模一度达到千人,并引入高精地图与激光雷达技术,竞争力堪比华为,但有图路线研发坎坷,地图团队消耗大量资源却未取得理想成效 [4] - 业内人士分析,砍掉地图团队对公司整体效益是更稳妥的做法,但与公司长期技术风格相悖,即便挤走负责人,公司未来仍面临有图方案落地难、拿不出成果的压力 [4] 物流公司E的L4自动驾驶战略困境 - 物流公司E对标滴滴,但其L4自动驾驶布局存在态度摇摆、团队整合不当及人才吸引力不足等问题 [5] - 公司将底层架构完全不同的L2和L4团队合并,本想协作提效,反而造成团队额外消耗 [5] - 今年裁员后,算法岗社招几乎颗粒无收,许多技术背景不错的人不愿加入,认为公司做L4是“外行领导内行” [5] - 公司计划从今年8月开始,耗费一年时间、投入60人及1.5亿元人民币,打造一支“头车有人、后车无人”的开放L4编队demo [6] - 该demo的成败将决定公司后续行动:若成功,CEO将用它拉投资;若失败,则可能对其控股的自动驾驶公司进行裁员 [6] 无人车公司F独立融资失败 - 无人车公司F在今年下半年提出拆分并独立融资的计划,但最终因融资困难而失败 [6] - 公司由集团CTO带队,以约10亿人民币的估值寻求融资,远低于无人车领域头部的百亿估值 [7] - 公司当年日常运营近1000台无人车,累计送货量达2000多万件包裹,同期友商送货量不到百万级,排名第二的车队直到2022年底运营数量也只有200多台 [7] - 经历团队几次换帅变动后,公司从物流实验室到自动驾驶实验室逐渐分崩离析,创始成员大多已转型为机器人、AI领域创业者 [7] - 有两家投资机构考察过该项目,但投资人认为其团队缺乏强大战斗力,且组织架构随时可能被集团收回,难以成为投资对象 [7] 主机厂G的创新困境与企业文化 - 某知名主机厂G内部鼓励创新,但执行中走向“表演式上班”的歪路,员工到点不下班但也不真正工作 [8] - 典型例子是整车散热系统整合方案:研发团队为展示压缩机的多功能性,在“创新必须可见”的导向下,在车上增加了第二个冰箱,结果挤压了后排空间,而绝大部分用户并不需要两个冰箱 [8] - 公司自动驾驶板块目前仅跑通两条demo路线,有传言称公司手握除华为以外业内所有公司的代码(多为跳槽员工带来) [8] - 旗下四五千人的工程师队伍产出寥寥,整个自动驾驶板块做得差,与鼓励创新的初衷相去甚远 [8] 智驾公司H的管理问题 - 智驾公司H内部管理走向极端,本质上是老板丁的一言堂,推行“饭圈式管理”:对内靠拉踩友商标榜自身成功,对外则用饭圈控评手段删除大量负面评价 [9] - 公司高管要么不听号令,要么阳奉阴违,多数人处于躺平状态,对公司漠不关心,曾有员工大半年没到岗而HR和部门负责人均不知情 [9] - 公司管理松散,600人的公司如同一盘散沙,缺乏体系化 [9] - 当年跟随老板打江山的核心人才,如今大多沦为燃烧在一线的耗材,基层管理者既无决策权也不了解公司整体规划,只能埋头苦干,不少人对公司心寒 [9] 新势力车企I的内斗与技术掉队 - 新势力车企I的高管甲在公司内日常沉默寡言但语出不逊、爱摆派头,甚至屡屡缺席CEO召集的核心业务研讨会,风评不佳 [9] - 甲在内部大肆挑起内斗,其嫡系几乎占据整个感知部门,该部门负责人带队与公司的方案部、端到端及百度系背景团队针锋相对,尤其与规控部门冲突激烈,导致严重内耗 [10] - 在智驾技术路线选择的关键节点,行业头部玩家已纷纷布局端到端,公司内部其他技术负责人及专家也多次建议CEO跟进,但CEO最终采纳了甲的反对意见 [10] - 此举导致公司错失智驾架构转型的最佳窗口期,待CEO醒悟时,智驾掉队的局面已难以挽回 [10] 自驾货运公司J的商业模式困境 - 自驾货运公司J陷入“L2辅助驾驶越做越亏,却不得不硬撑”的困境 [11] - 公司核心目标是通过开放干线L2积累数据以推动L4落地,为此推出多重激励政策,包括按司机使用自动驾驶的里程数补贴运费,以及“买十辆车赠一辆”的福利 [11] - 策略初期效果显著,产品投放后自动驾驶利用比例有可观增长,并压制了友商,公司采用租赁运营模式,向客户承诺提供稳定货源以抢占市场份额 [11] - 半年后货源供应问题集中爆发,因无法兑现承诺导致不少客户退货,进而造成大量车辆积压 [11] - 业内人士分析,L2仅为辅助驾驶,无法有效降低人工成本,反而增加技术研发与运营投入,导致越做越亏,但公司为维持“通过规模化走向L4”的资本叙事,只能硬着头皮推进 [11]
负债35亿元!扫地机器人巨头宣布破产,被中国代工厂收购;麦当劳回应涨价,网友:谁允许了;我国首批L3级自动驾驶车型进入准入目录
雷峰网· 2025-12-16 08:33
扫地机器人行业格局变动 - 行业鼻祖iRobot申请破产重组并被深圳杉川机器人公司收购 杉川将获得iRobot的100%股权 此举有助于杉川从代工向自主品牌转型并重塑美国市场格局 [5] - iRobot衰落的核心原因是未能及时跟上行业发展节奏 疫情期间与中国清洁电器企业的发展脱节 科沃斯、追觅、石头等中国公司推动行业快速迭代 [5][6] - iRobot财务状况急剧恶化 截至9月27日现金及等价物仅剩2480万美元(约合人民币1.75亿元) 较2024年底的1.34亿美元大幅减少 总负债高达5.08亿美元(约合人民币35.8亿元) 股东权益为负2680万美元 [6] - iRobot市值从2021年的35.6亿美元峰值缩水至约1.4亿美元 此前曾是亚马逊14亿美元收购交易的目标 [6] 消费与零售行业动态 - 麦当劳中国于12月15日起对大部分餐品提价 涨幅普遍在0.5元到1元 包括巨无霸、麦香鱼等经典汉堡单价均上涨1元 [9] - 麦当劳全球门店总数从2023年的41822家增长至2024年的43477家 净增1655家 中国市场2024年新增917家门店 总数达6820家 平均每天至少新开两家店 [10] - 玛莎拉蒂格雷嘉车型在中国市场大幅降价促销 燃油版官方指导价65.08万元优惠至38.88万元 降价超26万元 纯电版从89.88万元降至35.88万元 大降价54万元 低配车型迅速售罄 [25] - 玛莎拉蒂此次降价旨在清理库存 因进口延迟导致与新款车型上市时间重叠 该品牌在华销量从2017年的1.44万辆峰值跌至2024年的1228辆 [26] - 当当创始人李国庆宣布60岁再创业 成立新电商公司“李享生活” 主打线上高端会员店 商品加价率控制在1.25倍 第一年计划服务5000个会员 [22] 自动驾驶与汽车产业政策 - 中国首批L3级有条件自动驾驶车型获得准入许可 涉及长安汽车和北汽蓝谷麦格纳的两款纯电动轿车 标志着L3级自动驾驶从试点迈入合规准入新阶段 [14] - 长安获批车型可在交通拥堵场景下于高速公路和城市快速路单车道内自动驾驶 最高车速50km/h 功能目前仅限在重庆市部分指定路段开启 [14] - 北汽蓝谷(极狐)获批车型可在高速公路和城市快速路单车道内自动驾驶 最高车速80km/h 应用范围限定在北京市部分高速路段 [14] - 国家市场监督管理总局发布《汽车行业价格行为合规指南(征求意见稿)》 明确指出汽车生产企业使用其他方式使实际出厂价格低于其生产成本等行为存在重大法律风险 赛力斯集团发布声明响应 称将严格杜绝成本倒挂等行为 [38] 半导体与人工智能芯片 - 壁仞科技获证监会境外发行上市备案 拟发行不超过3.72458亿股并在香港上市 公司成立于2019年 是一家通用智能芯片设计公司 [12] - 壁仞科技自2020年起累计融资超过50亿元人民币 创始人为前商汤科技总裁张文 公司CTO为前海思自研GPU团队负责人洪洲 [12][13] - 摩尔线程将于12月20-21日在北京举办首届MUSA开发者大会 这是国内首个聚焦全功能GPU的开发者盛会 旨在展示其MUSA统一系统架构的全栈能力 [15][16] - 高通宣布收购RISC-V初创企业Ventana微系统公司 此举意味着高通可能启动双架构并行战略 未来芯片产品有望同时集成自研Arm架构核心与高性能RISC-V架构核心 [58] 科技巨头与人工智能进展 - 埃隆·马斯克身家达到6770亿美元 成为历史上首位身家超过6000亿美元的人 特斯拉市值一夜增加537亿美元(约合人民币3786亿元) [44] - 特斯拉已在得克萨斯州奥斯汀启动无人驾驶Robotaxi路测 测试车辆内未配备任何乘员 公司人工智能业务负责人称“就此启幕” [45] - SpaceX寻求在2025年中后期上市 目标估值约为1.5万亿美元 马斯克持有约42%股权 其上市有望使马斯克成为全球首位“万亿美元富豪” [44] - OpenAI聘请谷歌前高管Albert Lee负责企业发展业务 释放出将持续物色战略投资与并购目标的信号 以在与谷歌等对手的竞争中抢占优势 [46] - OpenAI要求Meta向法院提交文件 以确认其是否曾参与马斯克今年早些时候发起的、针对OpenAI的970亿美元收购要约 [51] 消费电子与新品发布 - 华为宣布nova 15系列手机将于12月22日发布 全系支持北斗卫星消息 其中Ultra版配备麒麟9系芯片 电池容量达到6600mAh 全系标配100W超级快充 [35][36] - 小米17 Ultra预计在12月下旬发布 新机将是小米史上最强影像旗舰 主摄由上代索尼传感器升级为豪威集团全新1英寸传感器 并引入LOFIC技术 潜望长焦和屏幕也将升级 [32] - 苹果计划在2027年推出iPhone 20 采用无开孔“真全面屏”和四曲面弯折设计 以致敬初代iPhone诞生20周年 LG Display据称为此研发投入约4000亿韩元(约合19.17亿元人民币) [52][53] 云服务与AI生态治理 - 云市场正从粗放增长步入治理期 部分代理商为冲业绩以超高返佣进行低价厮杀 导致行业陷入“卖越多亏越惨”的恶性循环 AI时代的生态亟需重构 [17] - 华为云已开始打击虚假业绩并整治渠道经理 联合1300多位伙伴举行廉洁宣誓仪式 旨在打造更健康的生态圈 为未来云和AI的征途进行底层系统焕新 [17][18] 公司财务与资本运作 - 寒武纪公告拟使用母公司资本公积金27.78亿元用于弥补母公司累计亏损 截至2024年底 母公司累计未分配利润为-27.78亿元 资本公积期末余额为96.25亿元 [20][21] 其他行业资讯 - 蚂蚁集团旗下AI健康应用AQ品牌升级为“蚂蚁阿福” 定位从AI工具转向AI健康朋友 目前App月活用户已超1500万 跻身国内AI App前五 每天回答用户500多万个健康提问 [28] - 丰田汽车因全景监控系统程序设计不当在中国召回近10万辆汽车 涉及多款进口及国产车型 包括雷克萨斯、丰田埃尔法、普拉多、bZ4X等 [49][50] - 抖音电商出台新规严格规范以“打假”“测评”为名发布虚假信息并谋取不当利益的行为 存在违规的账号将被列为“争议账号”并关闭内容加热及商业变现功能 [40]
谁将定义中国智算未来?从系统可用的算力基建,到产业认可的价值闭环丨GAIR 2025
雷峰网· 2025-12-15 15:44
文章核心观点 - 中国智算产业的发展重心正从单点技术突破转向以系统运营、模式创新与价值闭环为核心的全栈竞争,未来主导权将属于能够构建智算标准、模式与底座的主体[2][3] - 智算的未来不仅由技术定义,更由能够高效整合资源、产出普惠服务并在各行各业形成价值闭环的商业模式与产业生态决定[30][33] 清华大学王智:工业大模型的训推协同与系统优化 - 工业大模型面临三大挑战:难以刻画工业场景和流程、难以在算力受限环境训练部署、难以满足工业规范和动态任务[6] - 提出“虚实融合”的智能数据制备路径,IGen框架仅凭单张照片即可在仿真中生成上千条机器人操作演示数据,将无人工示教的模型成功率从0%提升至75%[7] - 提出成本感知的大模型任务规划框架与机理感知的调度框架,让大模型在调用工具链时能权衡性能与成本,并通过大小模型协同实现高效决策[7] - 针对工业边缘环境,提出可理论分析梯度压缩影响的虚拟队列框架及面向非独立同分布数据的高效稀疏压缩器,以在弱算力弱网络下保证训练收敛[8] - 提出多维度联合轻量化方法对模型结构与输入信息进行动态协同优化,并对视觉-语言-动作模型进行“时空联合压缩”,以提升推理速度[8] 美的刘向阳:企业数字化底座决定AI能力 - 企业未能从AI中获得业务价值的根本原因在于数字化基本功不扎实,数字化底座是决定企业AI能力高度的“地基”[11] - 企业自建数据中心常面临技术老旧、产品杂乱、稳定性和安全性难保障的问题,且架构问题易引发系统性风险[11][12] - 大型企业使用多云(如美的使用超过8朵云)易导致云孤岛和数据孤岛,跨云迁移耗时长达半年以上[13] - 美的选择“自建云能力”路径,构建了一套从IaaS到PaaS、从AI算力平台到安全体系的云计算能力,可部署于自有数据中心或公有云,且应用迁移无需业务改造[13] - 该数字化底座将GPU利用率从可能只有10%提升至少4到5倍,并通过统一AI网关实现多模型接入、权限控制与计费,使AI能力嵌入业务系统[13] 并行科技赵鸿冰:以用户视角构建算力服务 - 公司研发“ParaSelect”性能预测与智能选型系统,可根据应用特征为用户推荐最佳算力平台[16] - 通过深度优化,将某客户1300亿参数大模型训练的GPU利用率从75%提升至95%,整体效率提升40%[16] - 在昇腾910平台上通过适配优化,使Llama2-7B训练性能达到A800的92.8%,性价比达1.23倍[16] - 算力服务运营需满足“可用、好用、降本”三个关键维度[17] - 构建“厂网结合”运营模式,管理自建集群及全国47个智算中心与15个超算中心,总计管理超200万CPU核心与5万GPU卡[17] - 引用数据称算力中每投入1元可带动3-4元的经济产出,并强调AI是未来十年核心驱动力,算力是基石[17] 清程极智师天麾:聚焦软件层与MaaS模式 - 算力价值释放的关键在于芯片与应用之间的软件层,特别是推理引擎,它决定了模型能否跑得稳、跑得值[20] - 指出2024年MaaS迎来明显爆发,其核心优势在于门槛低、成本低、迭代快,一次大模型调用可能只需几分钱甚至不到一分钱[20] - 当前MaaS市场存在供需信息差,不同云厂商在模型相同、价格相近的情况下,吞吐与延迟差异可能达到五倍之多[21] - 公司推出“AI Ping一站式大模型服务评测与API调用平台”,通过标准化测评帮助用户理解不同MaaS服务的真实能力[21] 鼎犀智创吕海峰:AI for Science驱动新材料研发 - 材料科学已进入“AI for Science”的第五研发范式,传统试错模式周期长、成本高,无法满足战略产业需求[25] - 提出“模型+实验”的干湿结合闭环研发路径:用AI大模型进行分子设计,通过模拟仿真进行虚拟筛选,最终驱动全自动化实验平台进行合成与表征[25] - 该闭环不仅能产生高质量真实实验数据,还能实现实时反馈与迭代优化,形成自我强化的智能循环[25] - 公司以纳米碳材料为切入点,已成功发现多种新型催化剂并提升制备效率,在与头部企业合作中将客户真实实验效率提升数倍,显著缩短研发周期[26] 圆桌对话:算力产业阶段与价值闭环路径 - 当前算力产业核心痛点包括:不少智算中心算力平均利用率不足40%,大模型训练退潮后需求转向分散的推理侧导致算力消纳困难[28] - 算力建设已从“先建后用”的粗放模式转向“性价比优先、场景倒推建设”的新阶段,需根据用户与场景决定硬件选型与软件设计[28] - 2024年上半年国产大模型依靠中文数据优势与高质量数据集追平国际水平,下半年垂类模型与Agent应用爆发,例如某医院AI分身使医生日接诊量从10人提升至30人[28] - 算力价值闭环的核心标志,一种观点是算力需达到“方便、易用、便宜”,MaaS模式通过技术优化实现硬件透明化与低成本调用,形成正向循环[29] - 另一种观点认为价值闭环的终极标准是“让客户用AI赚到钱”,需解决痛点并创造收益才能让客户持续付费,而非单纯售卖硬件[29] - 行业价值转化瓶颈包括:基座模型能力需提升并向小模型迁移、算力架构需升级(如超节点高速互联)、高质量数据与行业专家资源稀缺[29] - 展望未来,2025年将是中国AI从训练向推理转型的关键年,MaaS市场持续壮大;2026年推理市场与国产化进程将加速,国产芯片与液冷技术的适配将成为关键[30]
浙江大学研究员彭思达:底层空间感知技术对训练机器人有何作用?丨GAIR 2025
雷峰网· 2025-12-15 15:44
团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimation),即让机器人知 道自己在空间中的位置;二是深度估计(Depth Estimation),使机器人了解场景中各物体与自身的距 离;三是物体运动估计(Object Motion Estimation),让机器人感知世界的运动状态。 这些底层空间感知技术有何作用?首先,它们能为机器人提供关键的决策信息。例如,无人机在空间中需 要先知道自身位置、与场景目标的距离,才能实现基础避障;进而还需了解目标物体的运动情况,才能进 行追踪。基于从场景中获取的三维空间信息,机器人的行为规划便能得到有力支持。 其次,这些技术可用于生成训练数据。当前具身智能领域的一大难题是数据匮乏。以往有人尝试仿真或遥 操获取数据,但遥操数据虽好却难以规模化扩展,而仿真技术目前仍与真实世界存在较大差距。 彭思达提出,其实可将人类视作一种特殊形态的机器人——具备完整的身体结构与行为模式。若能发明一 种数据采集设备,将人类日常行为完整记录下来,就相当于获取了机器人所需的行为数据,从而可用于训 练人形机器人。这其中便涉及相机定位、深度估计与物体运动估计等技术。 ...
阿斯麦CEO:中国不可能接受被卡脖子,不如让其保持依赖;国家发文禁止亏本卖车,多家车企响应;月薪100K!京东招募AI芯片人才
雷峰网· 2025-12-15 09:11
半导体与芯片行业动态 - 阿斯麦CEO表示,西方应通过拒绝提供最新产品来维持中国对西方技术的依赖,目前对华出口设备比最新技术落后八代,技术水平相当于2013、2014年的产品,技术差距超过十年[2][3] - 摩尔线程计划使用不超过75亿元的部分闲置募集资金进行现金管理,公司募资总额约80亿元,实际募集资金净额为75.8亿元[3][4] - 京东正招募端侧AI芯片领域人才,月薪范围在25K-100K,产品或将用于机器人、智能家电等硬件侧,公司2025年三季度研发投入达56亿元[7] - 台积电在美国的投资被要求超过2000亿美元(约合1.4万亿元),并创造3万个工作机会,其美国子公司Q3季度盈利仅0.41亿新台币,较Q2季度的42.23亿新台币暴跌99%[12] - 苹果与三星、SK海力士的DRAM长期供货协议即将到期,两家韩国厂商计划自2026年1月起提高对苹果的芯片报价,这可能影响包括iPhone 18系列在内的多款产品[28] - 美国高官表示,中国拒绝购买英伟达H200芯片,转而支持华为等国产半导体[32] 汽车行业政策与市场 - 国家市场监督管理总局发布《汽车行业价格行为合规指南(征求意见稿)》,禁止汽车生产企业亏本卖车,长城、长安、小鹏、比亚迪等多家车企已表态支持[6] - 瑞士车主计划在中国购买极氪7X并出口至瑞士自用,因中国版起售价仅22.99万元,而荷兰单电机后驱版起售价约43.89万元,欧洲版售价几乎是国内两倍[20][21] 人工智能与手机发展 - 罗永浩发文指出,真正尝试打造AI手机的厂商寥寥无几,质疑国内手机厂商在AI手机赛道上犹豫不前,并提到豆包手机在技术路径上做出了探索[11] - 豆包手机助手与中兴通讯合作推出努比亚M153工程机,其核心卖点是强大的跨应用操作能力,但近期有报道称登录部分应用受限,字节跳动对此回应称相关监管约谈消息不实[22] - 华为Mate 80系列销量约75.49万,在4000元以上价位段终结了iPhone长期垄断前三的局面,华为在2025年第48周和第49周连续两周以27.81%和22.89%的市场份额位居中国智能手机市场第一[23] 互联网科技公司动向 - 百度原大搜算法策略部T10级别技术专家王俊峰转岗至百度健康,出任策略研发部1号位[9] - 抖音生活服务推出“抖音买单”功能,已在上海、深圳、杭州等城市启动试点,覆盖餐饮、便利店等线下高频消费场景[13] - 宇树科技推出专为机器人打造的全球功能共享中心“宇树应用商店”,用户可一键上传或下载舞蹈、武术等模型[25] - 微软AI部门CEO苏莱曼表示,不会通过天价薪酬与Meta等巨头抢夺人才,并指出硅谷顶尖AI人才薪酬已达数百万美元级别[29][30] - 谷歌在收到迪士尼的停止侵权通知后,下架了数十个涉及迪士尼知识产权的AI生成视频[31] - SpaceX启动华尔街投行甄选程序,为潜在IPO提供顾问服务,公司最新内部估值约8000亿美元,并筹备最早于2026年进行IPO,计划融资超过300亿美元,目标整体估值约1.5万亿美元[33] 企业舆情与公司治理 - 山东威海村支书冯玉宽因模仿小米发布会风格带货“金谷小米”被投诉,视频下架,小米公司发布声明称投诉针对的是恶意模仿、捏造污蔑行为[5] - 韵达股份董事会换届选举,提名5名非独立董事候选人,其中4人为实际控制人聂腾云的家庭成员,包括其24岁的儿子聂毅鹏,公司前三季度归属母公司股东的净利润为7.3亿元,同比大幅下滑48.15%[19][20] - 徕芬扫振电动牙刷i2发布会布景被指撞景电影《周处除三害》灵堂场景,官方回应称该设计在2023年就已使用,与电影无关[14] - 抖音集团副总裁李亮回应平台“造神”说法,称博主“爱吃蛋”涨粉近400万、累计获赞1408.8万,是因为内容稀缺、实用并唤起了共鸣,并非算法“造神”[16][17]
东方理工金鑫:如何找到自动驾驶与机器人统一的「空间语言」丨GAIR 2025
雷峰网· 2025-12-14 14:27
文章核心观点 - 文章介绍了宁波东方理工大学金鑫教授团队在空间智能与世界模型领域的研究进展,其核心思路是采用“混合”路径构建世界模型,即结合明确的物理规则知识与数据驱动方法,并率先应用于工业制造等产业场景以实现技术验证与落地 [3][4][5] 空间智能(世界模型)的起源与概念 - 空间智能概念在SLAM技术时期已被讨论,2024年由斯坦福大学李飞飞教授拓展至与物理世界的交互、感知和理解 [8] - 世界模型技术近期取得显著进步,例如李飞飞团队发布的Marble 3D世界模型和谷歌DeepMind发布的Genie 3,后者在写实性、一致性及物理正确性上达到更高水平 [9] - 世界模型有望成为继数据增强、数据合成之后,为人工智能训练提供高效路径的新选择 [9] 空间智能的技术框架 - 团队将空间智能或世界模型划分为三个部分:空间感知(基础3D建模与物理定律嵌入)、空间交互(支持智能体与环境及多智能体间互动)、空间的理解泛化与生成(基于充分理解衍生生成能力) [10][12][13][14] - 整体工作细分为两个方向:空间构建(搭建仿真环境)与智能体训练(在环境中训练AI),两者可形成不断优化迭代的闭环 [15][18] 核心研究成果:自动驾驶场景生成 - **UniScene**:团队提出的专注于驾驶场景生成的工作,已被CVPR接收,后续有V2等版本 [20] - **生成动机**:由于合规、隐私及车队规模限制,真实数据难以覆盖足够多的“corner case”危险场景,需通过生成式方法合成逼真有价值的场景数据 [22] - **技术路径**:采用以Occupancy(占据栅格)为中心的生成方案,因其蕴含丰富语义与必要几何信息,是连接场景理解与建模的有效“桥梁” [27][32] - **生成流程**:以简单的鸟瞰图布局为输入,首先生成语义Occupancy,再以此为中心分别衍生生成激光雷达点云和多视角视频,是一个两阶段的解耦过程 [34] - **进展与产业合作**:UniScene V2版本在NuPlan数据集上扩展了数据量,新增深度图和语义分割模态,并能根据车辆传感器位置生成对应视角数据 [37][40];该版本在GitHub上线不到一周获得数百个star(后超过2000个) [41];正与理想汽车合作,测试生成器对带有镜头畸变数据的泛化能力,以低成本支持其自动驾驶算法迭代 [41] 核心研究成果:规划与机器人场景生成 - **OmniNWM**:团队引入闭环的“规划-生成”串联机制,将规划的轨迹作为条件输入,预测执行该轨迹后未来场景的变化,可称为“万能的驾驶导航世界模型” [42][44] - **模型能力**:需同时预测全景RGB视频、语义分割、深度图、3D结构及未来规划轨迹,重点在于状态、动作及闭环奖励三个维度的扩展 [45][50] - **技术迁移**:将相同方法论迁移至机器人领域,应用于具身智能场景进行数据合成,能以Occupancy为桥梁生成机器人视频,处理软体、绳体等物体的数据合成,并与主流仿真器兼容实现批量并行生成 [45] 核心研究成果:机器人数据与训练模型 - **InterVLA数据集**:为补充机器人第一人称视角数据缺失,团队构建了包含约3.9千个序列的新基准数据集,包含第一人称视角视频、第三人称视角视频及动作捕捉数据 [46][49][57] - **DreamVLA模型**:针对“抓放”等任务,提出将大语言模型中的“思维链”思想引入视觉-语言-动作模型,让模型在输出最终动作前,先输出“世界嵌入”或“世界知识”等中间产物,形成多模态推理链条 [63][71][73] - **模型效果**:相比于Open-VLA等方案,DreamVLA泛化性更好,并能实现更快、更高效的收敛 [75] - **方位基础模型**:通过模块化方案赋予机器人“方位感知”能力,使其能像人一样从合适方位抓取物体(如抓瓶身而非瓶盖) [76][80] - **解耦世界模型**:将“解耦学习”嵌入世界模型,提取对任务至关重要的环境关键因子,排除非任务相关干扰,从而提升训练效率与模型鲁棒性 [81][83] 研究背景与团队发展 - 研究重点自2024年初开始聚焦世界模型与空间智能,标志着从处理2D视觉信号转向理解3D、4D等高维信号,旨在让AI获得对物理空间的认知能力 [85] - 团队在2025年NeurIPS会议上有两篇合作论文受到广泛关注 [85] - 团队学生培养取得初步成效,2024年有一位博士获得国家奖学金,2025年增加至两位 [91] - 招生最看重学生的自驱力与对科研的热情,并通过实习期进行双向考核 [91][92] 产业应用与场景选择 - 基于宁波强大的制造业背景(拥有104家国家级制造业单项冠军企业,数量全国第一),团队优先选择工业场景构建“工厂世界模型”,与奥克斯空调、均胜电子、吉利汽车等当地龙头企业紧密合作 [93] - 与专注于探索底层原理的知名团队(如LeCun团队、李飞飞团队)不同,该团队采取“两条腿走路”策略,既探索前沿技术,又聚焦有特色的应用场景 [94] 世界模型的构建方法与挑战 - **构建数据**:分为静态数据(物体级静态资产)和动态数据(RGB视频、激光点云、动作捕捉数据),两者均为必需 [95][96] - **构建步骤**:采用自上而下的技术路径,先定义物理规则,再叠加动态数据,最后以静态数据打底,涉及数据采集、处理、合成与模型训练 [97] - **兴起原因**:AIGC技术使得通过生成方式快速创建物理正确、视觉真实的场景成为可能,在效率与成本上相比传统手工建模有量级提升 [97] - **最大挑战**:成本最高的部分是前期静态资产和动态场景数据的创建与采集;技术难度最大的在于将软体、弹性体、流体等第一性原理和物理规则有效嵌入模型中 [98] 技术路径讨论与行业观点 - **关于Sora等视频生成模型**:认为其是否为世界模型取决于应用场景,在游戏、娱乐等内容生成领域有价值,但在需要精细空间感知与动作策略的机器人或自动驾驶领域存在局限性 [99] - **载体差异**:当前趋势是采用数据驱动的端到端模式(如VLA模型),倾向于为不同形态的智能体(汽车、机械臂)构建统一的世界模型服务,避免重复造轮子 [99][100] - **技术路径选择**:团队倾向于“混合”路径,结合端到端黑盒方法的能力与显性、可解释的组件 [101] - **学术界价值**:面对企业界强大的大模型路径,不必焦虑于快速商业变现,技术持续发展总需要新的突破,许多奠基性技术最初源于高校 [102] - **物理规律掌握**:关键在于构建高度物理真实的世界模型本身,若能真实还原材质物理属性,仿真环境中训练出的智能体行为结果会与真实世界一致 [102][103] - **实现方法**:采用知识库与数据库结合的混合路径,对明确规则(如碰撞检测、摩擦力)进行知识嵌入,对复杂现象(如流体运动)则采用数据驱动方法 [104][105]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 14:27
文章核心观点 - 人工智能正从语言理解迈向物理世界交互 未来十年的关键是将通用智能从语言领域拓展到物理世界 其核心路径在于融合“数据价值重构”与“一脑多形”架构革命 [1][5] - 数据正从“资源”演变为定义模型认知边界与价值对齐的“认知基础”与“价值载体” 高质量、结构化、富有逻辑链的数据是驱动智能持续进化的核心纽带 [3][4] - “一脑多形”范式旨在构建一个统一的底层认知核心 使其能动态衍生出适应不同场景、模态与任务的多种形态 这是实现从“专用智能”到“统一智能”跃迁的关键 [5] 新数据范式:驱动模型演进的核心基础设施 - 人形机器人代表的具身智能成为对高质量数据有强烈需求的新赛道 行业正系统性思考数据规模、质量与模型能力的关系 [10] - 具身智能数据获取面临三大结构性挑战:成本效率低且成功率低、能力存在局限性(如灵巧手内操作)、以及跨本体泛化能力差 [11][13] - 行业探索以人为中心的数据路径 构建不与单一机器人本体强绑定的数据体系以提升数据复用价值 诺亦腾正在建设覆盖标准化与真实场景采集的具身智能数据工厂 [12] - 具身数据体量将爆发式增长 “具身数据服务”被视为机器人赛道下一个“Scale AI”级别的确定性机会 [15] - 当前数据采集主要分为真机端(如末端执行器动捕、遥操作)与仿真端(如轨迹合成、资产生成)两条路径 [16] - 通过平台化与引入AI Agent构建数据工具链 可实现真实世界数据集构建速度提升30倍 仿真数据生成提升3.5倍 [17] - 圆桌讨论共识:好的数据应以终为始 由最终模型性能与机器人训练受益程度决定 采集方式将多元化 包括遥操作、UMI、动捕、仿真等 [19] - 野外数据采集技术门槛高 需低摩擦、高精度、多模态的数采设备 并可能通过世界模型进行先验估计来丰富数据维度 [20] AI的“大脑”革命:一脑,何以多形? - “一脑多形”指同一套智能系统可适配人形、车形等不同形态 核心大脑不变 这是当前具身智能的热门技术路线之一 [21] - 通用飞行智能处于爆发前夜 行业存在气流扰动大、机载算力弱、传感器廉价、数据采集困难等挑战 [26] - 微分智飞展示了多任务小脑技术 其最小的端到端神经网络可运行在自重约50克、机载算力低于1 Tops的无人机上 并通过自动化系统降低数据采集成本 [28] - 团队实现了飞行机械手通过单电机线驱动机构进行多自由度形变 具备指尖捏取和掌心抓握能力 可应用于短途物品运送 [29] - 空间智能技术分为三个层级:基础空间感知、进阶空间交互、最终空间理解与生成 并形成“建模-训练-迭代优化”的研发飞轮 [33] - 在自动驾驶领域 提出以“占据栅格”为中心的生成方案UniScene 其V2版本新增深度与语义分割模态 并与理想汽车合作测试泛化能力 [34] - 在机器人领域 提出ORV框架并构建InterVLA数据集 同时研发DreamVLA模型 将大语言模型“思维链”思想引入 以提升决策可解释性与泛化能力 [37] - 人形机器人是面向人类环境的相对通用方案 互联网上大量人类日常生活数据包含可用运动与操作逻辑 [40] - 通过体素化点云表示环境与引入激光雷达自扫描 可显著提升复杂地形下运动策略从仿真到真实的迁移成功率 使控制从“盲动”转向“感知驱动” [40][42] - 圆桌讨论认为 具身智能行业仍处探索阶段 技术路线尚未收敛 本质是AI与机器人结合带来的智能性与泛化性飞跃 [46] - 对于世界模型 自动驾驶与机器人任务的要求和技术范式区别很大 世界模型与视觉-语言-动作模型可结合应用 [47] - 通用控制器的实现 在仿真中需权衡精度与平衡性 在真实世界则高度依赖硬件性能 [47] - 技术落地面临“既要星辰大海 也要赶紧赚钱”的困境 虽然落地尚远 但已能看到现实应用 不再仅是科幻展示 [48]
AI算力新十年:技术革新、生态协同与商业闭环,共探「下一个寒武纪」之路丨GAIR 2025
雷峰网· 2025-12-13 20:05
文章核心观点 在算力成为基础设施的时代,产业各界正从芯片架构、软件生态、商业应用等多维度探索能够穿越周期、占据价值链顶端的技术路径与战略 核心在于通过软件定义、生态协同、应用驱动和系统级创新来突破硬件限制,构建自主可控的AI算力体系 [1][3][35] 技术路径与架构创新 - 算力芯片发展面临核心矛盾:摩尔定律放缓导致传统处理器迭代变慢,而生成式AI对算力的需求呈指数级增长 [7] - 应对矛盾的主流方向是推动“异构计算”,但带来了编程复杂度激增和软件兼容性差的新瓶颈 [7] - 反对指令系统碎片化,认为现有指令系统足以支撑架构创新,RISC-V应成为产业统一标准,其包容性可整合CPU、GPU及AI处理器特性 [9] - 计算芯片产业呈现螺旋式发展,未来将回归融合异构特性的CPU中心化架构 [9] - 在工艺受限背景下,需依靠新的技术路径超越国际领先者,国内创新企业路径呈现多元化特征 [32] - 数据中心AI芯片部分企业摒弃对单卡算力的盲目追求,转而构建更高效的系统,例如TPU路线通过打造大规模超节点、省去交换机和HBM,在集群层面追求更高性价比 [33] - 大算力芯片正在向三维架构变革,先进封装及其检测设备成为决定性能和良率的核心,光电合封被认为是下一代AI算力的基石,能以数量级优势提升集成度、降低功耗 [33] 软件生态的关键作用 - 软件生态对算力芯片产业具有决定性作用,生态是绕不开的命题,X86架构历经四五十年沉淀的软件生态壁垒极高 [7] - 用户选择的核心在于软件优化的积累,而非单纯硬件性能 [8] - 当前算力性能突破需跨学科交叉与软件深度优化双轮驱动,通过软硬件协同优化,在现有制程限制下实现算力效能最大化 [8] - 中国半导体受全球趋势及制程限制,必须通过软件定义算力,打破传统软硬件隔阂 [8] - 软件生态是GPU硬件行业的胜负手,其竞争已超出硬件性能本身 [16] - 软件层面需要深度拥抱开源软件生态,如DeepSeek,Qwen,ChatGLM3等,借助生态的力量充分释放硬件的算力 [17] - 破局国产算力技术生态需要拥抱开源,构建开放、统一的技术体系,避免“烟囱式”发展 [18] - 国产AI推理芯片的发展方向之一是软件生态兼容,以平衡算法迭代与算力利用率 [28] 产业发展趋势与挑战 - 2025年,AI芯片消耗将迎来重要转折,推理芯片消耗量或将超过训练芯片,源于企业端推理需求的爆发,例如谷歌日调用量已达43万亿Token,字节跳动近期或突破40万亿 [27] - 全球算力投资资本支出预计将超过4600亿美金,超过美国登月计划的总投入,中国市场中BAT等互联网大厂占据了68%以上的份额 [16] - AI商业化主战场包括AIGC在数字人、游戏、影视行业,今年国内产值预计超1000亿,全球数字内容生成市场规模已近500亿美金,加上AI编程领域、虚拟交互 [16] - 国产算力行业将迎来淘汰赛,由于系统级产品研发需海量资金投入,今年国内算力企业正全力冲击资本市场,预计未来一年A股和港股至少6家公司冲刺上市,资金技术储备不足、生态布局薄弱的企业或将加速出局 [17] - 大模型发展有从“百模大战”向“十模争锋”的收敛趋势 [12] - 模型发展正逐渐走向集约化路线,不是只比谁规模大,而是看谁能用最少的数据、最少的算力、最少的能耗做出好用的模型 [13] - 中国已成为大模型领域的开源生态领导者,HuggingFace Top10模型中,9个来自中国公司,在实际商业化场景中,中国开源模型生成的Token量已超过全球其他开源模型总和 [16] - 中国AI发展路径为“数据飞轮”模式:应用生产数据-数据训练算法-算法定义芯片-芯片赋能规模化应用,区别于美国通过政策强推技术突破的路径 [27] 企业实践与解决方案 - 燧原科技得益于丰富的商业化应用场景,产品迭代获得了坚实支撑,国民级爆款应用已经用到了燧原的算力 [17] - 鹏城实验室作为国家实验室定位“保底线”,致力于保障国产算力主权和模型的自主可控 [13] - 鹏城实验室发布了2000亿参数的大语言模型后,又推出了33B和2B参数的中小尺寸模型,并将2B参数模型全过程开源,包括所有数据和数据配比、权重和训练环节 [13] - 鹏城实验室正与气象、金融、文博、生态环境、智能制造等行业合作,推动大模型在典型场景中的示范应用 [13] - 摩尔线程提供了从Model Studio一站式平台、深度融合的MT-MegatronLM与DeepSpeed框架,到底层MUSA计算库及KuaE集群平台的全栈软件支持 [23] - 摩尔线程构建了贯穿训练前、中、后期的智能工具体系,包括SimuMax支持训练资源规划与时间估算,慢节点检测系统,分布式Profiling系统等 [23] - 对于特定大模型,千卡集群需耗时173天,而在万卡集群上,即便模型浮点运算利用率会从40%降至30%,训练时间也能被大幅压缩至23天 [21] - 大模型训练完成时间越短越好,最好不要超过1个月 [21] - 云天励飞已完成芯片架构升级,实现全流程国产工艺转型,构建起覆盖端边云的产品矩阵 [29] - 国产AI推理芯片的发展方向包括突破存储技术瓶颈支持3D memory技术,以及通过异构计算优化性价比,目标在未来三到五年内让百万Token成本降至1元以内 [28] 边缘与端侧算力创新 - 随着桌面级AI应用井喷,专为这些场景设计的LPU架构等应运而生,它们通过3D DRAM堆叠等技术,在有限功耗和成本下实现惊人的内存带宽 [33] - 在端侧AI芯片方向,存算一体与近存计算成为关键,例如将计算单元嵌入存储芯片的3D-CIM架构,或在LPDDR内存中集成处理能力的PIM方案,目标是在手机有限的面积和功耗预算内,流畅运行数10亿参数的大模型 [33]
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 17:13
文章核心观点 世界模型作为具身智能发展的关键方向,目前研究尚处起步阶段且共识未成,但已在通用空间感知、三维感知视频生成、数字人重建、物理世界建模及三维生成技术等多个关键子领域取得显著进展,这些技术旨在为机器人或AI系统提供对物理世界的深刻理解、交互与预测能力,并正从研究走向应用 [2] 面向具身智能的通用空间感知技术 - 浙江大学研究员彭思达团队聚焦赋予机器人三项基础空间感知能力:相机定位、深度估计和物体运动估计,这些是机器人决策和规划的关键支撑 [5] - 团队提出使用人类行为数据训练机器人的思路,将人类视为特殊机器人,通过记录日常行为获取训练数据,此过程依赖上述三项感知技术 [6] - 在相机定位方面,团队于2021年提出LoFTR模型,使用Transformer进行图像稠密特征匹配,以解决传统方法在恶劣环境或大视角差异下匹配不佳的问题 [7] - 在深度估计方面,针对现有方法在物体边缘产生“飞点”的问题,团队提出Pixel-Perfect-Depth思路,移除VAE并在像素空间优化,同时整合语言特征以增强模型全局理解能力 [8] - 在物体运动估计(三维跟踪)方面,团队提出SpatialTracker方法,将二维图像反投影至三维空间进行3D tracking,以实现比传统二维跟踪更鲁棒的效果 [9] 迈向三维感知的视频世界模型 - 腾讯ARC Lab研究员胡文博指出,尽管Sora展现了不错的3D一致性,但视频细节的垂直性与平整性仍有提升空间,且视频本质是2D的,而世界是3D的,因此探索3D感知的视频世界模型至关重要 [12] - 团队从重建和生成两方面发力,重建工作包括从视频估计深度(DepthCrafter)、从视频估计点云进行4D重建(GeometryCrafter)以及从单目视频重建运动(Holi4D) [13] - 在生成方面,ViewCrafter借助重建的3D点云控制视频扩散模型,实现以点云为条件的图像生成与更新,这被视为早期世界模型的记忆机制 [14] - TrajectoryCrafter工作允许用户通过单目视频探索背后的4D世界,通过注入重建的3D信息,能生成指定相机位姿的动态视频、子弹时间特效和复现Dolly Zoom特效 [16] - VerseCrafter模型实现了场景交互,在单图重建几何的基础上,通过标注可移动物体,能生成固定相机、只动物体、相机物体同动等逼真的交互观测结果 [16] 数字人重建技术的进展与展望 - 西湖大学修宇亮教授团队推出的UP2You方案,将单个数字人建模时间从传统DreamBooth等方法所需的3至4小时大幅压缩至1.5分钟,其核心是将日常“脏数据”转化为对重建友好的多视角正交图片 [20] - UP2You方案的优势在于重建质量随输入图片数量增加而稳定提升,能规避脏数据弊端并放大数据量优势 [21] - ETCH工作旨在根据高精度穿衣人体模型得到解剖学正确的内部人体结构,通过向量定义衣服与皮肤间的厚度关系,解决了此前建模结果普遍偏胖的问题,该工作获ICCV 2025 Highlight Paper [21][22] - Human3R工作实现了人物及场景的实时动态呈现,在同时进行场景重建和人体状态预测、追踪的基础上,达到实时15 FPS且仅占用8GB显存,仅需一张商用GPU即可实现SOTA性能 [22] - 修宇亮教授展望指出,更强大的通用3D重建模型正使数字人重建任务迎刃而解,未来相关任务将逐渐转变为在视觉基础模型上进行微调 [23] 创新基础模型以强化物理世界建模 - 中山大学王广润博士指出,物理空间智能面临“感知-规划-执行”端到端实现的挑战,但高质量数据匮乏 [26] - 团队在推理计算上提出全局迭代生成方法,相比顺序生成,具备全局性、渐进精化、快速性及便于多模态统一的优势 [26] - 团队提出全新的原位Tweedie离散扩散模型,该模型可在one-hot单纯形上实现严格扩散过程,直接在扩散空间去噪,不依赖嵌入、掩码或马尔科夫性,且去噪过程中token语义能从混乱噪声逐步稳定为清晰表征 [26] - 针对现有VLA模型的瓶颈(泛化不足、动作控制粗糙、建模范式矛盾),团队构建了新的E0具身大模型 [27] - 王广润博士提出了物理建模与空间建模解耦的思路,并介绍其实验室构建了一个24小时运行的无人机化物理智能评测平台,用于无痛测评VLA模型 [28] 三维生成技术的价值与未来角色 - 香港中文大学(深圳)韩晓光教授梳理了三维生成技术的发展:从“类别限定”时代,到Dreamfusion开启的“开放世界”文本生成3D时代,再发展到当前大模型时代(如Adobe大型重建模型、混元3D),单图生成3D的效果和速度已大幅提升 [32] - 韩晓光教授指出三维生成的三大趋势:更精细(追求几何细节)、更结构化(模型可自动拆解部件)、更对齐(确保3D模型与输入2D图像精确对应) [32] - 针对Sora等视频生成模型对三维内容创作构成的“存在性”冲击,韩晓光教授分析视频生成存在细节可控性差、长程记忆缺失等难题,为3D技术留下了价值空间,并提出了四种可能的2D与3D结合路径 [33] - 在世界模型是否需要3D的问题上,韩晓光教授认为,无论是为VR/AR提供可交互的触觉反馈,还是为机器人提供仿真训练环境,或是实现虚拟到实体的智能制造,3D都是不可或缺的基石 [33] - 韩晓光教授强调,3D作为一种人类可直观理解、可解释的显式表示,是构建可信、安全AI系统的关键途径,有助于在模型效果与可解释性之间取得平衡,带来安全感 [34] 圆桌讨论:世界模型的未来展望 - 彭思达认为世界模型发展需同时关注算法提升与硬件迭代,并预测3D tracking技术将在2027年慢慢收敛,同时自监督学习会出现巨大突破 [37] - 胡文博致力于开发给个人使用的世界模型,让使用者能够体验未知、虚构或他人的世界 [37] - 王广润期待世界模型在交互层面的应用,看好从当前状态到未来更高级别(如从PI0到PI1)的发展过程 [37] - 韩晓光认为到2026年,做好3D的骨架和可移动部分对具身智能依然非常有用,并呼吁继续探索3D方向 [37] - 修宇亮指出需从多模态表征统一的角度解决数字人的情绪价值问题,但面临情绪价值难以量化、缺乏基准的挑战 [38] - 主持人赵昊呼吁该领域需要形成共识与合作,一个关于“世界模型”的技术联盟正在酝酿之中 [39]