空间智能
搜索文档
复杂空间推理新SOTA,性能提升55%!中山大学新作SpatialDreamer
具身智能之心· 2025-12-22 09:22
文章核心观点 - 由MBZUAI与中山大学的研究团队提出的SpatialDreamer框架,通过模拟人类主动探索、心理想象和空间推理的闭环过程,显著提升了多模态大语言模型在复杂空间任务上的性能,为人工智能空间智能的发展开辟了新路径 [1][4][14] 技术框架与核心流程 - SpatialDreamer是一个基于强化学习的框架,旨在通过主动探索、视觉想象与证据融合的闭环过程,赋予MLLMs类人的空间心理模拟能力 [4] - 其闭环推理流程包含三个步骤:1) 探索:推理出最优的自我中心动作(如「前进0.75米」或「左转45度」);2) 想象:调用世界模型生成执行动作后的新视角图像;3) 推理:整合所有累积的视觉证据,生成最终答案 [6] - 该过程使模型从「被动观察」转向「主动目标导向的想象」,实现了在内部三维环境中自主决定行动与推理 [7] 关键技术创新 - 为解决长序列推理任务中奖励稀疏的问题,研究团队提出了GeoPO策略优化方法,该方法包含:1) 树状采样结构,支持回溯与多路径探索;2) 多级奖励设计,融合任务级与步级奖励;3) 几何惩罚机制,对冗余或冲突动作施加惩罚系数(如0.9),以鼓励高效轨迹生成 [8] - GeoPO在提升模型性能的同时,也显著加快了训练收敛速度 [9] - 为引导模型学习「思考-想象-回答」的模式,构建了SpatialDreamer-SFT数据集,包括单轮推理数据以及通过「错误注入 → 自我纠正 → 重建推理链」构建的反思式推理数据 [11] 实验结果与性能表现 - 在SAT基准测试中,SpatialDreamer在真实与合成图像中均达到SOTA,平均准确率分别达93.9%与92.5% [13] - 在MindCube-Tiny基准测试中,整体准确率达到84.9%,较基线模型Qwen2.5-VL-7B提升超过55% [13] - 在VSI-Bench基准测试中,在物体计数、相对方向、路径规划等任务中全面领先,平均准确率达62.2% [13]
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?丨GAIR 2025
雷峰网· 2025-12-20 12:07
文章核心观点 - 具身智能领域仍处于技术路线发散探索阶段,尚未收敛,这为创新提供了机会,但最终目标是实现通用泛化智能,而非回归传统工业自动化 [3][4] - 世界模型在自动驾驶等特定场景已开始应用,主要用于生成海量合成数据以覆盖长尾场景和进行闭环测试,但其与具身智能的结合仍处于早期探索阶段,定义和技术范式尚未统一 [10][11][12][14] - 空间智能是机器人感知和理解环境的关键,其发展建立在SLAM等技术基础上,并引入AI以增强对语义和复杂空间关系的理解,但目前仍面临数据模态不足等挑战 [20][21][22][23] - 具身智能的落地应用面临技术、成本与商业化现实的巨大鸿沟,需在追求通用智能的“星辰大海”与解决工业自动化等迫切需求的“脚踏实地”之间找到平衡 [25][26][27][30] - 数据是驱动技术发展的关键,其获取方式(真机、仿真、生成)的有效性取决于具体任务,业界正在探索不同数据源的最优组合比例 [34][35][38] 具身智能技术发展现状 - 技术路线仍处于发散探索阶段,尚未收敛,高校与产业界需更好分工合作,高校应聚焦交互、人机协同、世界模型等核心问题突破 [3][4] - 单体机器人研究倾向于采用端到端技术路线以降低系统复合误差和延迟,决策层共识是放大视觉语言模型的能力 [5] - 群体机器人的基础是打造柔性、弹性、分布式、灵活的群体架构 [5] - 端到端是一种工程范式,强化学习是一种具体解法,黑箱是一种模式,三者概念不同,不应等同 [6][7] - 实际研究中采用多种解法,包括大量使用强化学习,并以解决问题为唯一目标 [8][9] 世界模型在自动驾驶领域的应用与挑战 - 世界模型在自动驾驶领域主要用于生成海量合成数据以覆盖数据飞轮积累的corner case和之前布局不到的场景 [11] - 与传统方案相比,世界模型能实现闭环测试,将决策链路放在模型内进行优化,这是最大的不同 [11] - 自动驾驶场景相对简单,且早有“闭环仿真器”概念,生成式AI能力的提升使生成的数据真假难辨,提供了大量有价值的训练样本 [12] - 世界模型的定义尚未统一,例如李飞飞侧重像素级重建,而LeCun认为潜在空间表达也算世界模型 [12] - 自动驾驶领域世界模型的状态表征主流仍是视频生成,同时结合雷达、点云等多模态数据以增强信息量和安全性 [13] - 将世界模型与视觉语言动作模型结合,旨在解决离线数据集无法通过模仿学习获得长程思维和未来预测能力的问题 [15][16] - 世界模型有助于解决长程任务的理解和预测难题,能赋能后续的策略学习 [17] 空间智能的定义与发展 - 空间智能定义尚不清晰,其发展部分源于SLAM技术的延续和演进,现在更多采用基于学习的方法 [20] - 空间智能不仅关注空间几何,还增加了对语义信息的关注,包括物体类别、用途、交互方式等 [21] - 机器人目前处理复杂空间关系(如“第一排左边数第四个瓶子”)的能力仍不成熟,这是空间智能需要解决的问题 [22] - 大模型因训练数据源于语言模态而存在空间关系上的“幻觉”,需构建专门数据集与传统SLAM的强空间能力对齐 [23] - 当前视觉语言模型中的视觉多为2D,3D模态较为欠缺,需补足3D信息以解决空间智能问题 [23] 具身智能的落地应用与商业化挑战 - 无人机应用生态中,航拍、农业植保等易落地应用占比可能不到1%,更多高空作业场景(如灭火、清洗、载人)尚未实现 [26] - 应用未普及的最大卡点之一是“不够智能”,依赖规则编写导致开发成本高,难以算过经济账,AI发展带来了解决希望 [27] - 通过AI与大模型结合改进决策能力,被视为实现通用泛化解决问题能力的关键希望 [29] - 产业界存在迫切需求,希望尽快将机器人用于工业自动化,这与技术创业者的通用智能愿景存在差距 [30] - 人形机器人硬件在负载能力、高负载平衡性、运动稳定性及灵巧手方案等方面仍有诸多挑战,离真正“干活”的应用落地尚有距离 [30] - 中美创业环境存在差异,例如Scale AI估值达140亿美元,而国内创业公司估值多在几亿人民币量级,需同时面对宏大愿景与短期商业化的矛盾 [31] - 创业者认为最终成功做成事情比估值高低更重要,并指出中国投资人对技术的耐心因DeepSeek等案例而有所增加 [31][32] 数据获取策略与有效性 - 机器人数据获取主要有真机采集、仿真和视频生成模型三种方式,其有效性需根据具体任务判断,并非真机数据一定最合理 [34][38] - 数据可视为金字塔结构:底层是大量、低成本的互联网或视频数据,用于预训练;中层是合成数据,用于提高任务泛化性;顶层是真机或遥操数据 [34] - 业界正在探索不同数据源的有效比例,例如一种说法是70%的网络视频数据、20%的合成数据和10%的真机数据 [35] - 合成数据是否有效,关键在于其是否针对特定任务有价值,且其表达形式不一定是视频,也可能是潜在的抽象表征 [35][36][37] - 对于足式机器人的基本运动控制任务,可能在纯仿真环境中无需真实数据即可完成,高度依赖任务形式本身 [38]
让人工智能“睁眼看世界” 走在国际科技变革最前沿 上海量子城市建设画卷正从复兴岛展开
解放日报· 2025-12-20 08:59
上海量子城市与复兴岛全球创客岛启动 - 上海复兴岛于12月18日启动全球创客岛暨2025上海量子城市年度大会 [1] - 复兴岛将建设智能基础设施,计划按每平方公里10万个的标准分步实施全岛智能感知设施布设 [1] - 复兴岛旨在提升时空智能体能力,构建新质产业线上线下一体的实训场 [1] 人工智能“世界模型”与城市训练场 - 人工智能技术加速迭代,上海正通过构建“世界模型”和提供训练场来捕捉前沿科技变革 [3] - 上海于2024年12月在复兴岛开启“上海量子城市时空创新基地”,被认为走在国际科技变革前沿 [3] - 为弥补AI模型缺乏真实物理世界接触的局限,上海已搭建多个训练场,包括今年2月启用的全国首个异构人形机器人训练场,以及7月发放的首批智能网联汽车示范运营牌照 [3] - 顶尖科学家如斯坦福大学教授李飞飞将“空间智能”视为AI下一个前沿,图灵奖得主杨立昆也宣布将成立专注“世界模型”的新公司 [5] 量子城市时空创新基地的成果与应用 - 基地开启一年来,已发布1个时空数智底板、1个专业语料库、10个应用场景等多项成果 [6] - 量子城市时空数据共享平台1.0版实现了基础地图、三维模型等8类数据的汇集共享 [6] - 建成了全国首个规划和自然资源领域专业语料库,形成“1+4+X”语料体系 [6] - 应用场景包括沪派江南、耕地巡查执法、苏河安全、数字气象等 [6] - 在杨浦区大学路800米范围建立了“悟空”城市空间智能监测评估垂类模型的“米料”级试点区,用于人流动态研判与疏导 [6] - 通过构建四维“时光盒子”数据集,模型可清晰呈现人流实时密度、活动轨迹、进店转化率等指标 [7] - 在曹杨新村构建了三维数字孪生社区“美好生活掌中宝” [7] - 上海市气象信息与技术支持中心将百米分钟级大气实况分析产品与10米太格网耦合,使天气变量成为可计算的城市基础设施 [7] 复兴岛创客生态与人才战略 - 复兴岛向全球创客发出邀请,旨在通过加大人才投资形成“人才红利”以赢得科技革命战略主动 [8][9] - 杨浦区通过“三箭齐发”策略打造全链条创新策源地、强链接创业加速厂、高效率科技转化港、有温度科创朋友圈 [9] - 创造“低成本”创业环境:盘活30万平方米存量工业厂房、2500间创客公寓,并发放新质秀带创新券、算力券、模型券、语料券 [9] - 厚植“快创新”丰沃土壤:联合企业组建科创载体开发平台,招募顶尖孵化器伙伴,支持技术攻关与转化,提供全生命周期科技金融及项目申报服务 [9] - 构建“开放式”创客生态:建设复兴岛创客学院和高校创新联盟,支持共性技术平台,提供落户、导师、实训等服务,探索打造OPC(一人创业公司)社群,支持举办国际峰会、大赛等活动 [9] - 目前已有12家国内外知名孵化器、首批14家创新创业企业正式入驻复兴岛 [10]
【金猿人物展】袋鼠云CEO宁海元:AI浪潮下,数据中台的生存与跃迁
搜狐财经· 2025-12-18 20:20
文章核心观点 - 数据中台的定位正被AI技术重塑,其未来只有两条路:成为AI基础设施的核心支撑,或在技术迭代中被边缘化[2] - 袋鼠云的战略从“大数据基础软件提供商”升级为“大数据基础软件与人工智能应用服务商”,并提出了“一体两翼”战略[3][4] - 大数据产业正从“安装期”、“泡沫期”进入“部署期”,核心逻辑从“数据飞轮”转向构建“价值回路”[6][7] - 未来十年大数据产业将呈现三大趋势:数据中台向多模态数据操作系统演进、数据智能体成为业务第一入口、以及从数据智能迈向空间智能[11][12][14][15][18] 行业趋势与演变 - **产业阶段划分**:中国大数据基础软件产业经历了三个阶段:2015年前后的“安装期”,以Hadoop生态普及和数据初步聚合为核心;随后几年进入“泡沫期”,项目遍地开花但价值不均;近两三年随着大模型等技术涌现,进入“部署期”,核心是支撑AI应用[6] - **核心逻辑转变**:行业核心从“数据飞轮”(更多数据→更好算法→更好产品→更多用户→更多数据)转向构建“价值回路”(数据→大模型→智能体→业务行为→新数据再生),以实现从技术红利到生产力红利的转化[7][9] - **分析范式跨越**:BI工具正从“报表逻辑”向“指标逻辑”跨越,企业需要先建立统一的指标体系,再围绕其构建数据资产和应用场景,由智能系统自动发现异常并给出建议[9] 公司战略与定位 - **战略升级**:公司从“大数据基础软件提供商”主动升级为“大数据基础软件与人工智能应用服务商”,系统性思考数据基础设施如何同时服务AI与业务[3] - **“一体两翼”战略**: - **一体**:以多模态数据智能中台为统一数据底座,管理多源多模态数据,作为企业AI基础设施的核心支柱[4] - **两翼之一**:数据智能,推动企业从“报表驱动”升级为“指标+智能体驱动”,形成可复盘的决策机制[4] - **两翼之二**:空间智能,将实时数据与数字孪生、仿真推演结合,应用于城市、工厂等物理空间[4] - **公司使命**:参与并推动了中国大数据基础软件从“跟随”到“自立”的蜕变,并提前实践了“如何为AI时代打地基”[6] 未来产业趋势判断 - **趋势一:数据中台向多模态数据操作系统演进**:未来有价值的数据中台必须是“多模态数据操作系统”,统一治理文本、图像、视频、传感器等数据,其生死线在于能否为AI提供高质量数据供给并支撑“数据-大模型-智能体-业务”的完整闭环,做不到的将被边缘化[12][14] - **趋势二:Data Agent成为业务第一入口**:大模型与智能体技术将重构人用数据的方式,Data Agent通过自然语言界面直接为业务人员提供分析结论和决策建议,预计从2026年开始,Data Agent将逐步接管前台人机交互入口,传统BI工具将退为底层能力[15][17] - **趋势三:从数据智能迈向空间智能**:下一阶段的核心是构建对城市、工厂等时空系统的“理解与推演能力”,即空间智能,数字孪生将升级为可预测、可推演的动态系统,“世界模型”将成为落地场景的基础设施,融合大数据、AI与空间智能[18][19]
Xiaomi MiMo 大模型落地应用,小米“人车家全生态”合作伙伴大会介绍IoT平台生态新进展
搜狐网· 2025-12-18 18:06
核心观点 - 小米于2025年12月17日举办“人车家全生态”合作伙伴大会,全面展示了其在IoT平台、AI技术、生态合作及未来智能家居战略方面的最新进展,核心目标是推动从设备连接到“空间智能”的全面跃迁 [1][3] 平台规模与生态数据 - 截至三季度,小米IoT平台连接设备数首次跨越10亿里程碑,达到10.4亿台 [3] - 米家App月活跃用户突破1.1亿 [3] - 小米IoT模组年出货量首次突破1亿片 [3] - 平台已与全球超过15000家企业合作,吸引了包括美诺、博世西门子、LG在内的国际知名品牌 [3] 技术战略与AI创新 - 提出从设备连接层面向“空间智能”全面跃迁的战略,核心是通过多模态感知、边缘大模型和分布式计算技术,实现从被动控制到主动理解的决策重构 [7] - 发布智能家居未来探索方案Xiaomi Miloco,基于端侧部署的MiMo-VL-Miloco-7B视觉语言大模型,首次将“视觉感知”融入智能家居,允许用户通过口语化表达自动创建智能规则 [3] - 小爱AI技术支持设备间一体化智能控制与联动,打破硬件交互壁垒 [6] - 阿里云通义模型家族全面拥抱Miloco平台框架,通过全模态交互架构为智能家居提供多模态感知能力,推动交互从被动指令升级为环境感知与主动服务 [7] - 在AIoT领域落地超级小爱Agent架构升级 [11] 生态合作与行业赋能 - 与行业领先的脑机接口公司展开早期合作,探索为行动不便患者带来新交互可能 [4] - 与全国350多所院校进行产教融合,计划未来5年为物联网行业培养超过50000名高质量人才 [3] - 博西中国展示“晶御×米家”生态智联进展,提供“一键设定、全程托管”的便捷体验 [6] - Realtek介绍其创新的R-Mesh技术可实现全屋无缝覆盖,并构建四层系统安全架构,与小米等伙伴打造安全可靠的AIoT解决方案 [6] - 脑虎科技介绍了中国首款、全球第二款全植入、全无线、全功能脑机接口产品,聚焦神经疾病导致的运动、语言障碍 [7] 产品、能力与体验升级 - 米家11.0带来新体验及接入能力升级,围绕“舒适、省心、安全、节能”用户诉求,对照明、安防、环境家电等重点品类进行能力升级 [9] - 升级内容包括:更高质量标准准入、IoT-BLE2.0与IoT-Mesh2.0模组矩阵、安防多形态能力与室外4G Cat.1模组、“懂人”的感知与节能服务体系 [9] - 进一步开放设备查找网络、运动健康能力与汽车及CarIoT接入,推动“人车家全生态”持续闭环 [9] - 升级场景能力与3D中控交互,以大模型驱动的小爱同学与米家智能助手为入口降低使用门槛、增强主动服务 [9] - 在底层连接方面,首发IoT-BLE 2.0模组矩阵以及Cat.1模组 [11] - 介绍了面向AI的设备与空间的智能底座,即新一代人车家联动基建,让感知、记忆、决策与执行形成闭环 [11] 论坛与展示重点 - IoT未来峰会2026指出AI正为产业注入全新动能,技术创新是全链路、全生态的聚合发力 [6] - IoT生态接入与体验创新论坛聚焦米家11.0新体验及新的接入能力 [9] - IoT平台技术论坛聚焦“空间智能化”,呈现从硬件、连接、系统软件到大模型能力的全栈升级,并系统讨论全球化下AIoT开发者在安全与隐私合规的策略 [11] - 大会现场设有IoT展区,包括Xiaomi Home 3D、各类场景解决方案、连接技术、开放平台及“人车家全生态”体验间,全方位展示平台能力与全屋智能体验 [13]
接入高德,千问打通“AI干活”最后一公里
华尔街见闻· 2025-12-18 17:58
阿里AI战略转向应用落地 - 在移动互联网流量红利见顶的背景下,阿里正密集推进其AI布局,战略重心从技术“云端”转向商业“地面战争”[1][4] - 公司通过将千问大模型与高德地图等生态资源整合,旨在将大模型和算力转化为实际的生产力价值和问题解决能力,回击AI泡沫论调[4] - 这标志着阿里正用AI黏合整个集团的资源,构建庞大的竞争护城河[4] 大模型获得“空间智能”与物理世界操作能力 - 千问接入高德地图,使其获得了认路和在现实世界“干活”的能力,能够基于实时地图数据提供餐馆推荐、路线规划等服务[1] - 接入的高德是国内最庞大的实时时空数据索引库,掌握着路网的实时状态、2亿个POI的实时状态以及海量交通流数据,为模型提供了宝贵的“事实基座”[11] - 此举使大模型从“输出信息”进化到“输出行动”,例如规划旅行时可一键生成包含推荐、地理位置及出行方案的可视化决策卡片,并直接唤起导航或打车[9] - 千问的视觉理解能力得以延伸,例如能通过截图提取地址信息并生成附近酒店建议,还能根据天气推荐地点和穿衣建议[12] - 具备高阶推理能力的千问与理解复杂现实世界的高德结合,正在唤醒一个真正意义上的“空间智能”巨兽[13] 千问成为整合阿里生态的超级入口 - 千问App正将整个阿里生态收入囊中,旨在成为一个ALL IN ONE的超级入口,实现生态协同[2] - 阿里本地生活业务(如淘宝闪购、飞猪、大麦)过去像散落的珍珠,高德虽有8亿+月活却难精准导流,千问通过AI精准理解用户意图,成为串联这些业务的“线”[3] - 未来千问将可顺理成章地调用高德路况、飞猪酒店、大麦演出、饿了么餐饮等资源,实现阿里一直想做但未成的场景化协同[3] - 千问App的快速迭代将陆续接入消费、支付、生活服务等核心业务,调用庞大的现实世界服务履约网络,实现“办事”能力的进化[15] - AI的跨域理解和任务规划能力,使得跨APP的服务调用变得自然,推动交互模式从“菜单选择”进化为“意图驱动”,从“流量分发”转向“意图分发”[17][18] 构建全球难以复制的竞争壁垒 - 阿里是全球科技巨头中极少数同时拥有“顶尖大模型能力”(通义系列模型)与“庞大线下服务履约体系”(高德、蜂鸟配送、酒旅网络、菜鸟物流、支付宝)的特例[23] - 相比OpenAI,其虽拥有“最强大脑”但缺乏地图、物流车队和线下商家,服务链路依赖第三方,存在脆弱性[21] - 相比谷歌,其虽拥有谷歌地图和Gemini模型,但在交易履约环节上未能建立深厚的电商与物流护城河,难以完成一站式闭环[22] - 当用户向千问提出诉求时,它实际上是在调度阿里在现实世界的资源,这种结合了时间与资本双重积淀的壁垒在全球范围内都难以复制[24][21] - 公司因此在新赛道找到了比OpenAI、谷歌更能将AI扎根的途径,不再畏惧拼多多、抖音等后浪分食流量[21] 战略调整与未来愿景 - 阿里近一两年的所有改变,包括从“一拆六”回归大集团战略、ALL IN AI,都是在为整合生态、支持千问新战局的宏大未来铺路[19] - 公司的目标是让AI不仅仅“会聊天”,而是真正“能办事”,从而掌握下一个时代的流量入口[25] - 高德与千问的融合,是阿里迈向“懂你所想,达你所愿”智能未来最关键的一步,这被视为一场关于物理世界操作系统的争夺战,阿里已率先按下启动键[25][26] - 公司正以技术为矛刺破流量天花板,以生态为盾将业务连成铁板,以体验为网捕获用户心智,其市场价值有望在庞大护城河下得到重估[24][26]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
大模型的进化方向:Words to Worlds | 对话商汤林达华
量子位· 2025-12-17 17:07
文章核心观点 - 商汤科技发布的原生多模态空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S等模型,标志着公司在空间智能领域达到世界前列水平 [2][3][4][5][6] - 行业单纯依赖参数规模扩展的AI发展范式面临瓶颈,边际效应递减,未来需要回归科研本质,发展能够理解物理世界的原生多模态模型 [8][9][12][13][14][15][16] - 商汤科技通过底层架构创新(NEO架构)和极致工程优化(如算法蒸馏),实现了技术突破与商业落地成本的大幅降低,践行“原始创新”与“击穿工业红线”的双轮驱动战略 [39][49][58][61][63][67] 模型性能与突破 - SenseNova-SI模型在多个空间智能基准测试(vsi, MMSI, MindCube-Tiny, ViewSpatial, SITE)中均取得了SOTA成绩,超越了包括Cambrian-S在内的开源及闭源模型 [4][5] - 具体数据:SenseNova-SI的1.1-InternVL3-2B版本在vsi基准得分为63.7,高于Cambrian-S-3B的57.3;其1.1-InternVL3-8B版本在vsi基准得分为68.7,高于Cambrian-S-7B的67.5,并在MindCube-Tiny基准上以85.6分大幅领先 [5] - 该模型基于商汤科技开源的NEO架构,仅用同类模型10%的训练数据就达到了SOTA水平,数据效率提升了10倍 [39][49] 行业范式转变 - AI行业过去三年奉行Scaling Law,依赖算力、GPU和数据堆叠,但自2024年下半年起,风向转变,模型分数提升带来的惊艳感边际递减 [12][13][14] - 纯语言模型红利将尽,顶尖模型在数学、编程上接近奥赛金牌水平,但在理解物理世界、处理三维空间关系上能力薄弱 [20] - 未来的AGI必须是能够理解物理世界、具有多感官能力的世界模型,AI需要从“读万卷书”(语言模型)进化到“行万里路”(空间与世界交互) [20][21] - OpenAI前首席科学家Ilya Sutskever提出“Back to Research”的呼吁,与商汤科技首席科学家林达华的思考不谋而合 [17][19] 技术架构创新 - 传统多模态模型采用“视觉编码器+大语言模型”的拼接式架构,视觉信号在转化为语言Token过程中丢失大量空间细节和三维结构信息,导致模型出现“幻觉”(如数不清手指) [32][33][36][37] - 商汤科技提出的NEO架构是原生多模态架构,从最底层的Transformer Block开始,每个单元都能同时处理视觉和语言信号 [42] - NEO架构采用混合注意力机制,让视觉Token和文本Token一同进入模型的每一层进行推理计算,并引入“跨视角预测”等训练方法,让模型真正理解三维空间关系 [44][46][47][48] 商业化落地与成本优化 - 大模型行业当前痛点包括不够聪明、成本太高、速度太慢,商汤科技内部设定“工业红线”标准:技术使用成本必须低于其创造的价值 [53][54][55] - 以视频生成为例,商汤科技通过“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到4步,实现了64倍的速度提升,使得在消费级显卡上实时生成高质量数字人视频成为可能 [59][61][63][64] - 实时语音驱动数字人产品SekoTalk展示了算法与系统协同的极致优化,将20秒视频生成时间从一小时缩短到实时,为直播、短视频等领域的规模化落地打通路径 [58][65][66] 对中国AI产业的启示 - 在从“语言”到“世界”的AI范式迁徙中,中国科技公司已经抢到了一张船票 [11][73] - 中国拥有全世界最丰富的应用场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI [72] - 建议年轻研究者和创业者不要只拥挤在大语言模型赛道,应拓宽视野至具身智能、AI for Science、工业制造、生命科学等领域 [68][69][70]
数码家电行业周度市场观察-20251217
艾瑞咨询· 2025-12-17 16:38
行业投资评级 * 报告未明确给出统一的行业投资评级,但通过对多个细分领域的分析,整体透露出对AI技术驱动下的数码家电行业智能化、场景化转型持积极观察态度 [1][3][4][6][9][10][12][13][14][16][17][19][20][21] 报告核心观点 * **AI技术成为核心驱动力**:生成式AI、大模型等技术正全面渗透并重塑数码家电行业,从产品功能、生产供应链到消费决策和商业模式均发生深刻变革 [1][2][3][4][6][9][10][12][13][14][16][17][20][21] * **发展重心从技术突破转向场景落地**:AI竞争从早期的拼模型参数进入“拼世界理解”和“拼场景应用”的新阶段,商业化落地能力和明确的垂直场景成为资本关注焦点 [4][6][7][10][13][14][17][18][22] * **“人车家全生态”与空间智能成为新趋势**:通过5G、AIoT等技术融合,实现人、车、家庭场景的智能互联,构建无缝体验的智慧生态系统,是巨头竞逐的新赛道 [3][4] * **传统家电市场分化,高端化与模式创新成出路**:白电与黑电市场表现分化,行业整体从增量市场转向存量市场,竞争焦点从“量”转向“质”,高端化、智能化、健康化以及内容运营等模式创新成为关键 [7][9] * **新兴智能终端在探索中前行**:AI手机、AI PC已形成规模,而人形机器人、智能眼镜等下一代终端处于技术验证与商业化探索期,面临技术、成本、生态等多重挑战,但市场潜力巨大 [4][6][7][10][16][18][19][20] 行业趋势总结 * **教育行业AI应用**:生成式AI推动教育行业变革,粉笔等公考培训企业推出AI老师等产品,通过提供个性化、高性价比服务提升学习效率并带动销量,但尚未显著改善整体业绩 [1] * **新零售AI重构**:AI助力新零售从“供给驱动”转向“需求拉动”,通过实时需求感知、柔性采购和个性化体验优化库存与客户关系管理,其深层意义在于构建可持续的客户关系 [2] * **“人车家”生态互联**:美的、比亚迪、小米、华为等企业竞相布局,通过5G、AI和物联网技术实现人、车、家场景的智能互联,旨在提升生活便利性并开辟新商业模式 [3] * **AI视频创作平权**:AI视频时长和叙事能力取得突破,可生成5分钟至半小时的完整作品,播放量破百万,技术重构了传统影视线性工作流,降低了创作门槛,推动中尾部内容生态繁荣 [3] * **AI终端生态发展**:2025年AI手机出货量达2.2亿台,智能穿戴月活1.59亿,家居App用户3.83亿,L2级辅助驾驶普及率69.4%,具身智能领域融资409起,空间智能成为新趋势 [4] * **人形机器人产业化**:中国人形机器人市场规模2024年达27.6亿元,预计2030年或突破千亿,优必选、宇树科技等企业已获千台级订单,主要驱动力包括填补劳动力缺口和实现“具身智能” [4][6] * **AI创业进入新阶段**:在2025年世界互联网大会上,“杭州六小龙”等企业展示中国AI向智能制造(具身智能、脑机接口等)的转型,标志AI发展进入“拼世界理解”和场景落地的新阶段 [6][7] * **企业战略模式变革**:AI时代要求企业从传统的五年战略规划转向“战略敏捷性”,采用“三年滚动规划+季度敏捷调整”的动态模式,结合AI数据分析以快速应对市场变化 [6] * **传统家电市场表现**:2025年前三季度空调销量6583万台,但三季度均价下跌15.7%,冰箱销量下滑1.4%,洗衣机9月销量同比下降16.6%,彩电三季度销量下降12.1%,全球电视出货量首度跌破5000万台,开机率降至30.2% [7] * **咖啡机市场逆势增长**:在“双11”期间,家用咖啡机销售额同比激增,呈现量价齐升,消费升级推动产品结构高端化,消费者从“喝咖啡”转向“玩咖啡” [9] * **“双11”家电AI渗透**:2025年“双11”全网销售额16950亿元,家电以2668亿元位居品类榜首,苏宁易购智能家电占比超55%,COLMO和海尔智家AI产品销售额分别增长40%和占比30%,超四成用户借助AI工具比价选品 [9] * **AI领域资本动向**:2025年前三季度AI领域一级市场融资达548起,同比增长44.59%,资金集中流向AI通用应用、行业应用和基础技术,AIGC赛道降温,资本更青睐医疗、物流等能落地的领域 [10] * **AI医疗进阶**:2025年AI医疗行业规模预计突破千亿元,AI在医疗影像领域覆盖率超80%,AI制药可缩短研发周期40%,行业进入政策与市场双轮驱动的实质发展期 [10] 头部品牌动态总结 * **Soul赴港IPO**:AI社交平台Soul于11月27日向港交所递交上市申请,2024年盈利3.37亿元,毛利率83.7%,AI情绪价值服务贡献超九成收入,ARPPU达104.4元,2025年前八个月DAU约1100万 [12] * **阿里AI产品矩阵**:阿里推出面向C端的AI助手“千问”和“灵光”,与原有的“夸克”构成产品矩阵,试图通过差异化功能和生态协同覆盖用户需求 [12] * **宇树科技完成上市辅导**:宇树科技于2025年11月完成上市辅导,公司估值达120亿元,以低成本高性能技术路线为核心,推出人形机器人及UnifoLM大模型 [13] * **海尔机器人达成合作**:海尔机器人与INDEMIND达成战略合作,结合海尔智家的场景数据与供应链优势,共同推进家用具身机器人的研发与场景开发 [14] * **Rokid智能眼镜破圈**:Rokid Glasses销量突破4万台,日均使用时长近8小时,与BOLON联合推出售价2199元的AI智能眼镜,在B端拓展交通、康养等场景应用 [16] * **Zoom财报关注AI**:Zoom财报预计调整后每股收益1.44美元,营收12.1亿美元,其AI助手被视为增长关键动力,AI工具可辅助会议记录与总结 [16] * **快手AI商业化加速**:快手第三季度总营收356亿元,同比增长14.2%,经营利润53亿元,同比增长69.9%,可灵AI用户突破4500万,三季度营收超3亿元,AI技术为线上营销收入带来4-5%的增量 [17] * **黑芝麻智能发布机器人计算平台**:黑芝麻智能发布面向全脑智能的多维具身智能计算平台SesameX,将智能汽车领域的车规级芯片技术迁移至机器人赛道,以解决可靠性、算力和量产瓶颈 [17] * **AI眼镜投资案例**:某知名投资人投资了采用DigiWindow技术的Halliday Glasses,该技术通过微型投影仪直投眼球,以解决传统AR眼镜的彩虹纹、重量和续航问题 [19] * **小鹏汽车激进布局机器人**:小鹏汽车CEO何小鹏预测,到2030年小鹏机器人年销量或突破100万台,并认为机器人市场潜力远超汽车 [19] * **苹果CEO接班人选**:2026年苹果CEO蒂姆·库克可能卸任,硬件工程负责人约翰·特努斯成为接班热门,预示苹果可能押注“设备端AI”战略,强调硬件与芯片优势 [20] * **百度发布自研AI芯片**:百度发布昆仑芯M100和M300两款自研AI芯片及天池超节点方案,旨在提升算力效率与规模,以应对大模型时代的算力需求并优化AI产业价值结构 [20]
数字科技产业观察 | 双周要闻(2025.12.02—12.16)
每日经济新闻· 2025-12-16 18:45
部委动态 - 工信部修订印发《产业技术基础公共服务平台管理办法》,明确服务平台申报单位应明确服务行业领域及范围,重点行业包括装备、石化化工、钢铁、有色、建材、轻工、纺织、食品、医药、新一代信息技术、生物技术、新能源、新材料、新能源汽车、人工智能、元宇宙、脑机接口等,服务范围涵盖计量检测、标准验证与检测、质量可靠性试验检测、认证认可、产业信息、知识产权、技术成果转化等,该办法自2025年12月5日起施行 [1] - 国家发展改革委、国家数据局等多部门联合发布关于加强数据要素学科专业建设和数字人才队伍建设的意见,旨在建立数据领域学科专业设置调整机制和人才培养模式,激活数据要素赋能新质生产力的创新引擎作用,促进教育链、人才链与产业链、创新链融合发展 [1] - 生态环境部印发《产品碳足迹因子数据库建设工作指引》,以指导社会主体探索数据研制或数据库开发,支撑产品碳足迹管理体系构建 [1] - 工信部就《元宇宙产业综合标准化体系建设指南(2026版)》公开征求意见,目标到2028年制定国家标准和行业标准20项以上,到2030年制定50项以上,以初步构建并完善支撑元宇宙产业创新发展的标准体系 [1] 地方行动 - 山东省在“十五五”规划建议中提出,推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点,并支持济南、青岛建设未来产业先导区 [1] - 江苏省元宇宙标准化技术委员会在南京成立,将重点承担元宇宙标准化路线规划、发展策略制定及前沿标准前期研究等顶层设计工作 [1] - 上海市2025年度关键技术研发计划“元宇宙”专项对15个项目予以立项,市科委资助总额4600万元,其中2025年拨款1840万元 [2] 成员单位动态 - 博瑞传播拟以6649.02万元受让每经科技51%股权,交易完成后将成为其控股股东,旨在联手每经传媒打造智能传播头部企业 [2] - 智谱正式开源其工业级语音合成模型GLM-TTS,该系统仅需3秒语音样本即可复刻人声,支持多情感表达,推动AI语音技术走向产业深度融合 [2] 行业动态 - 北京GPU公司摩尔线程于12月5日在科创板上市,成为“国产GPU第一股”,发行7000万股新股,占发行后总股本14.89%,每股发行价114.28元,开盘价650.00元/股,较发行价大涨468.78%,总市值达3055亿元,为2024年以来科创板最大规模IPO [2][3] - 谷歌宣布向Google翻译引入Gemini模型能力,推出可通过耳机进行的实时语音翻译Beta版,并提升文本翻译的语境理解能力,同时通过Google Labs推出一款名为“Disco”的实验性AI浏览器 [3] 院士观点 - 中国工程院外籍院士张亚勤提出,新一轮人工智能是信息智能、物理智能和生物智能的融合,并预测基础大模型最终将不超过10个 [3] - 中国工程院院士谭建荣强调,在重视大模型的同时不应忽略小模型,指出大模型的根基在于“小模型”和建模能力,并预判行业将转向“面向行业、面向产品”的小模型与智能体 [3][4] 行业洞察 - 图灵奖得主Yann LeCun认为,硅谷对不断“堆大”大型语言模型的痴迷是一条死路,并指出当前AI智能水平有限,他正将学术声誉押注于构建“世界模型”这一不同技术路线 [4] - 斯坦福大学教授李飞飞在访谈中深度解读,认为空间智能是通往通用人工智能的关键技术,并回顾其构建的ImageNet项目如何成为AI领域的大数据拐点 [4] 技术与应用 - 工业和信息化部正式公布我国首批L3级有条件自动驾驶车型准入许可,两款车型将在重庆、北京指定区域开展上路试点,标志着L3级自动驾驶从测试迈入商业化应用的关键一步 [4] - 数学家陶哲轩与团队在多种AI工具辅助下,仅用48小时便解决了尘封50年的数学难题Erdős1026 [4]