空间智能
搜索文档
苏妈和李飞飞炸场CES!AMD AI全栈野心显露:从云端到个人PC,AI芯片性能四年要飙1000倍
AI前线· 2026-01-06 20:10
行业宏观趋势与愿景 - AMD首席执行官苏姿丰预测,未来五年内将有50亿人每天使用AI,超过世界人口的一半[3] - 自ChatGPT在2022年底发布以来,AI活跃用户已从100万暴涨至10亿以上,增长速度远超互联网早期阶段[3] - OpenAI联合创始人Greg Brockman指出,计算能力是AI走向通用智能的最大瓶颈,世界需要的GPU数量远超现有规模[7] - AI正从语言智能迈向具备空间理解与行动能力的生成式AI新阶段[37] AMD的AI战略与版图 - 公司旨在补齐AI普及所需的算力基础设施,让AI无处不在,算力人人可及[7] - 战略涵盖云端数据中心与本地终端(如AIPC)两大核心战场[9] - 公司提出“全球人工智能运行在云端,而云端运行在AMD平台上”的愿景[8] 数据中心与云端算力解决方案 - 推出下一代机架级平台Helios,单机架集成72块MI455 AI GPU,算力高达2.9 ExaFLOPS,并搭载31TB HBM4内存[7][14] - Helios采用开放OCP机架标准,强调模块化与可扩展性,可与Meta合作开发,数千个机架可互联成超大训练集群[13][15] - 核心芯片Instinct MI455 GPU采用2nm与3nm混合工艺及3D小芯片封装,晶体管数量超过3000亿个,相比MI300系列提升约70%[16][17][18] - MI455与EPYC服务器CPU、Pensando网络芯片深度集成,旨在解决大模型训练中的“内存墙”瓶颈[17][19] - 下一代MI500系列AI加速器计划于2027年推出,全面转向2nm工艺,目标在四年内(MI300到MI500)使AI计算性能提升1000倍[8][21][23] 终端与AIPC战略 - 推出Ryzen AI Max 400系列处理器(代号Strix Halo),面向AI开发者和高端创作者[25] - 该处理器最高配备12核CPU,集成专用AI引擎,最高算力达60 TOPS,并采用统一内存架构,CPU与GPU可共享最高128GB内存[27] - 演示显示,搭载Ryzen AI的设备可在完全离线情况下流畅运行700亿参数的医疗大模型[27] - 在高端笔记本形态下,其AI与内容创作应用表现快于最新一代MacBook Pro;在小型工作站场景中,成本明显低于英伟达DGX Spark[28] - 发布Ryzen AI Halo参考平台,称为“世界上最小的AI开发系统”,可在离线条件下运行多达2000亿参数模型[31] 空间智能与世界模型 - 与“AI教母”李飞飞同台探讨空间智能,认为这是连接“感知→推理→行动”的关键能力[5][36] - 李飞飞创立的World Labs已实现仅凭几张甚至单张图片,即可生成几何一致性、可导航的3D世界,将过去需数月的3D场景建模缩短至几分钟[37][38][39] - 世界模型需要实时响应与编辑,对算力提出极高要求,需极高的内存、大规模并行计算和快速推理速度[40] - World Labs的世界模型已运行在AMD MI325X GPU与ROCm软件栈上,并在几周内实现了超过4倍的推理性能提升[40] - 随着MI450等后续平台推出,更大规模世界模型的训练与实时运行将成为可能[41] 其他新品发布 - 发布消费级显卡Radeon RX 9070和RX 9070 XT,搭载RDNA 4架构及FSR 4等AI图像技术[43] - RX 9070 XT在30多款游戏中平均比RX 7900 GRE快42%;RX 9070在30多款游戏中平均比RX 7900 GRE快21%[45][47] - 发布下一代服务器CPU EPYC Venice,采用2nm工艺,最多集成256个Zen 6核心,内存与GPU带宽相比上一代实现翻倍,专为高效服务AI集群设计[49][50][51]
苏姿丰对话李飞飞:少量图片生成一个世界,是AI下一章的开始
YOUNG财经 漾财经· 2026-01-06 18:45
文章核心观点 - AI技术正从语言智能向空间智能演进,能够将少量图片生成实时可探索的三维世界,这代表了AI发展的新篇章 [1][4][5] - 空间智能等AI技术的快速发展,带来了对算力需求的急剧增长,硬件制造商面临巨大压力 [5][6][7][8] - 主要AI芯片厂商(如AMD和英伟达)在CES前夕竞相发布新一代高性能芯片和系统,以应对激增的算力需求并提升市场竞争力 [1][9][10] AI技术演进:从语言智能到空间智能 - 斯坦福大学教授李飞飞指出,基于语言的智能在过去几年开启了AI能力和应用的扩散,而空间智能旨在将感知与行动联系起来,使机器智能更接近人类水平 [4] - 空间智能模型能够通过大量数据学习三维、四维结构,仅需一个或几个图像即可填补细节、预测物体背后内容,并生成丰富、一致、永久、可导航的三维世界 [4] - 李飞飞展示的案例中,团队用手机拍摄办公室照片后,AI在几分钟内生成了具有深度和真实比例的窗户、门、家具等物体,并可变换风格,而传统方法通常需要数月 [4] - 空间智能将带来多方面改变:创作者可先用AI描绘脑海中的构想;机器人或车辆可在AI虚拟世界中安全学习感知;建筑师可在建造前直观看到材料和空间,超越静态计划 [5] AI算力需求激增与硬件挑战 - OpenAI联合创始人格雷格·布洛克曼强调,更多的计算能力是最重要的,AI发展的关键在于考虑GPU上不同资源的平衡 [5] - 布洛克曼指出,为保障人类与AI互动时的极低延迟,需要海量计算资源持续高吞吐量运行,这给AMD等硬件制造商带来压力 [6] - AMD CEO苏姿丰透露,自ChatGPT推出以来,使用AI的活跃用户已从100万人增加至10亿人,预计2030年将达到50亿人 [8] - 为让AI无处不在,苏姿丰预计未来几年内需要将全世界的计算能力增加100倍 [8] - 李飞飞指出,空间智能需要教会AI理解三维结构和运动,这需要非常大的内存、大量并行计算和快速的推理,计算需求巨大 [5] 主要厂商技术进展与产品发布 - **英伟达**:发布新一代芯片平台Rubin,其NVFP4格式的推理算力达50 PFLOPS,训练算力达35 PFLOPS,分别是前代Blackwell的5倍和3.5倍,推理token成本比Blackwell低10倍 [9] - **英伟达**:同时推出ConnectX-9 Spectrum-X超级网卡、新一代NVLink 72和新一代超节点DGX SuperPOD [9] - **AMD**:展示新一代机架系统Helios,重近7000磅,具备2.9 exaflops的AI计算能力,配备31TB HBM4显存,采用Instinct MI455X加速器、EPYC Venice CPU和Pensando Vulcano NIC,计划今年晚些时候推出 [10] - **AMD**:下一代AI芯片MI455 GPU将采用两纳米和三纳米工艺及先进封装,搭载HBM4,其AI性能相比MI355提升10倍 [10] - **AMD**:MI500系列芯片正在开发中,将采用两纳米工艺,公司预计在2027年MI500系列推出时,有望在4年内将AI性能芯片提升1000倍 [10] - **AMD**:展示EPYC Venice Zen 6 CPU,采用两纳米工艺,内存和GPU带宽是上一代的两倍,在Helios机架中可与MI455配合;下一代Helios机架将包含72个GPU,可连接数千个机架构建大AI集群 [11] - **AMD**:推出面向AI PC的Ryzen AI 400系列处理器(包括Ryzen AI 400和PRO 400),提供60 NPU TOPS算力,首批搭载系统将于今年1月出货 [11] - **AMD**:推出Ryzen AI Max+ 392和388用于扩展设备内AI计算,并推出基于该处理器的迷你主机Ryzen AI Halo,计划今年第二季度推出 [11] - **AMD**:推出x86架构Ryzen AI Embedded处理器,用于物理AI范畴中的机器人、汽车座舱等 [11]
别被室内基准高分骗了:大模型是在推理空间,还是在「背答案」?
机器之心· 2026-01-06 17:38
空间智能研究现状与隐忧 - 2025年,随着“空间智能”成为大模型竞逐的新高地,通用大模型和专家模型在室内空间推理基准上不断刷新SOTA [2] - 然而,模型训练数据(如ScanNet++、ARKitScenes)与测试基准高度同源,存在数据“近亲繁殖”的隐忧,近期模型分数的飙升可能并非真正习得空间几何推理能力,而是对特定室内数据分布的过拟合 [2] 现有研究的数据局限 - 当前空间智能研究大多过度依赖室内场景,这受限于源数据集的匮乏 [4][5] - 少数可用的室外数据集多基于自动驾驶视角,与第一人称行人视角存在本质差异 [5] - 对室内数据的过度依赖导致训练集与测试集高度同源,且室内场景过强的语义先验难以公平评估模型的空间感知和推理能力 [6] 新基准OSI-Bench的推出 - 为解决上述问题,中国科学院大学机器学习与感知实验室联合微软亚洲研究院及苏黎世联邦理工大学发布了全新空间智能基准OSI-Bench [2] - 该基准基于自采开放世界中带有准确3D标注的视频数据,旨在提供对空间智能的真正诊断能力 [2] - OSI-Bench摒弃从现有数据集二次提取的路径,完全基于多传感器平台采集的原始视频流,数据自带精确3D信息,覆盖公园、步行街、古建筑、校园等丰富多样的开放世界场景 [11] OSI-Bench的核心优势与任务设计 - 室外开放世界的核心优势在于其复杂性与随机性,语义先验变得微弱,迫使模型回归到真正的视觉空间推理,从而评估其真实空间能力 [9] - 通过Human-in-the-loop流程,从20小时的视频素材中生成约9000条高质量问答,涵盖9种任务 [12] - 任务被系统性地划分为空间智能的三个层级:相对关系(针对空间位置的定性判断)、静态尺度(针对静态空间物理量的定量估算)、动态尺度(引入时间维度的动态物理量估计) [12][14] 主流模型在OSI-Bench上的评测结果 - 评测结果表明,当下的开源与闭源SOTA多模态大语言模型在OSI-Bench的任务上普遍失败 [13] - 尽管Gemini-2.5-Pro在一众模型中取得相对显著优势,但其整体表现仍远低于人类水平 [15] - 人类在评测中的平均得分(Rank Avg)为66.8,而表现最佳的闭源模型Gemini-2.5-Pro得分为53.1,开源模型InternVL3.5-38B得分为31.4 [15] 模型能力提升的“虚假繁荣” - 研究聚焦于2025年发布新版本并在室内基准VSI-Bench上取得巨大提升的两个模型家族:Qwen-VL与InternVL系列 [16] - 这两个系列在加入更多空间数据训练后,其同尺寸新旧版本在VSI-Bench上的得分显著上升了约24.1分,性能几乎翻倍,但这种惊人的增长并未出现在OSI-Bench上 [16] - 在绝对距离任务上,更新后的各尺寸模型在VSI-Bench上一致涨点,却在OSI-Bench上一致退步,由于两个基准的提问模版完全相同,这直接证明模型在室内基准上的提升是对特定场景分布的过拟合,而非习得可泛化的空间智能 [16] 模型依赖语言先验的“捷径” - 当面对空间任务时,模型倾向于走“捷径”,即利用语言先验知识基于平均值进行猜测,而非进行费力的视觉几何推理 [19] - 盲测实验结果显示,模型在有/无视觉输入的情况下的得分差距极小,表明视觉输入并未被有效用于推理 [22] - 在包含“反常场景”(物体尺寸被特意调整至违背常理)的合成数据测试中,当语言先验失效时,模型的性能出现了断崖式下跌,而人类的空间判断力并未受太大影响 [23] 研究总结与行业影响 - OSI-Bench暴露了现有大模型在空间智能层面与实际应用需求之间的巨大鸿沟,并对当前模型是否真正具备可泛化的空间能力提出了质疑 [26] - 研究呼唤一种全新的空间智能范式,需要真正赋予模型在空间中感知、在空间中思考的工具与能力,而非仅仅依赖数据驱动的分布拟合 [27] - OSI-Bench的基准与评测代码已全部开源,未来将持续开源更多带有高精度3D信息的开放世界视频数据,以推动空间智能从室内场景走向复杂的开放世界 [28]
苏姿丰对话李飞飞:少量图片生成一个世界,是AI下一章的开始
第一财经· 2026-01-06 15:58
行业趋势与市场需求 - AI活跃用户数自ChatGPT推出后从100万人增长至10亿人,预计2030年将达到50亿人,为达到AI无处不在的目标,未来几年全球计算能力需增加100倍 [6] - 空间智能等AI应用对算力提出巨大需求,需要非常大的内存、大量并行计算和快速推理以理解三维结构和运动,运行模型的速度需足够快以保证实时交互的连贯性 [3] - AI发展的关键之一是GPU上不同资源的平衡,人类注意力成为宝贵资源,要求与AI互动时具有非常低的延迟,这需要海量且高吞吐的计算资源持续运行 [5] 主要厂商动态与竞争 - AMD与英伟达在CES开幕前均展示了提升AI算力的能力,行业竞争激烈 [1] - 英伟达发布新一代芯片平台Rubin,其NVFP4格式的推理和训练算力分别达到50 PFLOPS和35 PFLOPS,是Blackwell平台的5倍和3.5倍,推理token成本比Blackwell低10倍 [7] - AMD展示了新一代AI机架系统Helios,该系统AI计算能力为2.9 exaflops,配备31TB HBM4显存,采用Instinct MI455X加速器等组件,计划于今年晚些时候推出 [7] 技术产品进展:AMD - AMD下一代AI芯片MI455 GPU将采用2纳米和3纳米工艺及先进封装,搭载HBM4,其AI性能相比MI355提升10倍 [8] - MI500系列芯片正在开发中,采用2纳米工艺,计划于2027年推出,届时有望在4年内实现AI芯片性能提升1000倍 [8] - AMD推出面向AI PC的Ryzen AI 400系列处理器(包括Ryzen AI 400和PRO 400),提供60 NPU TOPS算力,首批搭载该处理器的系统将于今年1月出货 [9] - AMD推出用于扩展设备内AI计算的Ryzen AI Max+ 392/388处理器,以及基于此的迷你主机Ryzen AI Halo(计划第二季度推出),并推出x86架构Ryzen AI Embedded处理器用于机器人、汽车座舱等物理AI领域 [9] - AMD还展示了EPYC Venice Zen 6 CPU,采用2纳米工艺,其内存和GPU带宽是上一代产品的两倍,将在Helios机架系统中与MI455 GPU配合使用 [8] 技术产品进展:英伟达 - 英伟达推出NVFP4(4位浮点数格式),以在可损失精度处实现更高吞吐量,同时推出了ConnectX-9 Spectrum-X超级网卡、新一代NVLink 72和新一代超节点DGX SuperPOD [7] 前沿AI应用:空间智能 - 空间智能旨在将AI感知与行动联系起来,使机器智能更接近人类水平,其应用包括将少数图片转化为实时可探索、可导航的连贯三维世界 [2][3] - 该技术可大幅提升效率,例如将以往需要数月完成的三维建模工作缩短至几分钟,应用场景涵盖机器人模拟、游戏开发、建筑设计及车辆测试等领域 [2][3]
OpenAI、李飞飞同台助阵,苏姿丰CES对决黄仁勋
钛媒体APP· 2026-01-06 15:52
公司战略与竞争态势 - AMD在数据中心GPU领域正全力追赶英伟达,其CEO苏姿丰在CES 2026的演讲被视为竞争宣言[2][3] - 公司正大举押注AI,并将其视为绝对首要任务,但目前在GPU领域的市场份额与英伟达相比仍无法突破“一九开”的格局[4][5] - 公司CEO高调宣称,未来一定要从竞争对手手中拿到两位数的市场份额[5] 新产品与技术发布 - 公司发布了面向大规模AI训练的数据中心架构“Helios”,该系统结合了下一代Instinct GPU、EPYC CPU和高性能互联网络[4] - Helios单个机架预计可达到约2.9 exaFLOPS的FP4计算性能,旨在为万亿参数规模的AI模型训练提供支持[4] - 首次展示了最新的MI455芯片,其晶体管数量比MI355多70%,搭载432GB的HBM4内存,性能较MI355提升高达10倍[4] - 公司正在开发采用2nm工艺的MI500系列芯片,预计2027年推出,并预计4年内公司AI芯片性能会提升1000倍[4] - 市场预计MI450系列芯片将在2026年下半年量产、出货,时间点与英伟达新一代Rubin芯片放量时间近似[4] 业务进展与客户合作 - 2025年下半年,MI350/355开始量产和出货,获得了Meta等主要客户的青睐,市场需求持续向好[5] - 公司与OpenAI达成战略合作,OpenAI计划未来数年内向AMD采购6GW、总额超过数百亿美元的AI芯片[5] - 作为合作的一部分,公司授予OpenAI最多1.6亿股公司股票认股权证[5] - 公司与World Labs新近展开合作,后者的生成式3D模型Marvel在AMD的MI325X上运行,并借助AMD Instinct和ROCm将性能提高了四倍以上[8] 多元化业务布局 - 公司在CES上集中发布了物理AI硬件相关成果,包括能在汽车、智能医疗、人形机器人等领域应用的Ryzen AI嵌入式处理器[6] - 相对于竞争对手聚焦于AI演化路径,公司仍把游戏、客户端等传统业务摆在重要位置[6] - 公司介绍了游戏领域最新的Ryzen AI Max+芯片,以及AIPC领域的Ryzen AI 400系列处理器等进展[6] 行业趋势与合作伙伴观点 - OpenAI总裁表示,AI正在为人们的生活带来实际益处,其最喜欢的应用领域是AI医疗,并称ChatGPT正在挽救生命[6] - OpenAI透露,全球每天有超过4000万人依托ChatGPT获取医疗健康相关信息[7] - OpenAI总裁认为,AI仍然需要更多的算力,人类面临的最棘手问题是如何利用有限的资源为每个人带来最大的利益[7] - “AI教母”李飞飞认为,AI不该仅停留在大语言模型阶段,而应利用空间智能将感知与行动连接起来[8] - 李飞飞预测,空间智能将在两年内迎来应用级爆发,并展示了其公司仅通过几张照片即可创建环境3D版本的技术[8]
空间智能终极挑战MMSI-Video-Bench来了
具身智能之心· 2026-01-06 08:32
文章核心观点 - 上海人工智能实验室等机构联合推出了一个名为MMSI-Video-Bench的全面、高挑战性的视频空间智能评测基准,旨在系统评估多模态大语言模型在真实物理世界中的空间理解与推理能力 [1] - 该基准评测结果显示,当前主流多模态大模型在空间智能方面表现普遍不佳,与人类水平存在巨大差距,揭示了模型在空间构建、运动理解、规划、预测及跨视频推理等多个核心能力上存在显著瓶颈 [10][14] - 研究通过深入错误分析指出,几何推理能力不足是模型表现不佳的关键原因,并且即使引入3D空间线索或思维链提示等辅助方法,也未能显著提升模型性能,表明底层推理能力本身存在根本性不足 [16][18][26] 基准设计与特点 - **全面系统的题型设计**:基准从基础空间感知(空间构建、运动理解)和高层决策(规划、预测)两个层面,构建了覆盖感知、推理与决策全过程的评测体系 [5][6][7] - **五大任务与十三子类**:基准由五大任务类型和13个子类问题构成,全面检验模型能力 [9] - **高质量问题集**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精心设计打磨,确保了问题的清晰度、准确性和挑战性 [10] - **丰富多样的数据来源**:视频数据来源于25个公开数据集和1个自建数据集,涵盖了机器人操作、室内外场景、自然风光、体育及电影片段等多种类型,全面反映真实世界的复杂空间场景 [11] - **针对性能力测评**:得益于场景和任务的全面性,基准可划分出室内场景感知、机器人和定位三大子基准,方便进行针对性能力测评 [11] 评测结果与模型表现 - **整体表现低下**:对25个主流多模态模型的评测显示,整体得分普遍偏低,表现最优的Gemini 3 Pro准确率仅为38.0%,与人类水平(96.4%)存在接近60%的显著差距 [10][14] - **关键能力瓶颈**:模型在空间构建能力上普遍不足,同时在运动理解、规划、预测以及跨视频推理等能力上也存在明显瓶颈 [14] - **最具挑战的任务**:在所有任务类型中,预测(Prediction)是最具挑战性的主任务,而相机-实体之间的空间关系建模是难度最高的细分类别 [14] - **微调模型泛化能力有限**:即使是经过专门空间任务微调的模型,其能力也未能有效泛化到MMSI-Video-Bench基准上 [14] 错误分析与能力瓶颈 - **五大错误类型**:研究团队将模型错误归纳为五大类型:细致定位错误、ID匹配错误、潜在逻辑推断错误、提示输入对齐错误和几何推理错误 [16] - **核心瓶颈是几何推理**:几何推理错误是最为普遍且影响最大的错误类型,空间构建任务的低表现主要源于几何推理能力不足 [18] - **其他任务的具体困难**:在运动理解任务中,模型难以在快速、细微或长时间跨度的运动中保持精确定位;在规划与预测任务中,模型无法有效结合提示信息与视频进行联合推理;跨视频推理任务的失败则源于多目标跨视频定位的复杂性和利用潜在线索的困难 [20] 辅助方法的局限性 - **辅助方法效果有限**:研究尝试引入3D空间线索(通过3D重建模型生成全局图像)和思维链提示来辅助模型,但均未能带来显著的性能提升 [21][25][26] - **揭示的根本问题**:这些结果表明,如何设计模型真正“可理解、可利用”的空间线索仍是一个开放挑战,且当前模型的失败主要受限于底层推理能力本身的不足,而非缺乏显式推理步骤 [26]
阿里巴巴物理AI继续迈大步,高德布局世界模型和具身智能
搜狐财经· 2026-01-05 21:35
公司战略与业务布局 - 阿里巴巴旗下高德公司已正式布局世界模型技术,并计划基于该模型推出一款新的产品应用 [1] - 高德内部已成立具身业务部,正在招聘产品专家、算法工程师等多个岗位,该部门正探索机器人、机器狗等产品形态的发展方向 [2] - 高德于2025年8月宣布全面转向空间智能,并于同年9月推出本地生活产品“高德扫街榜” [3] 技术进展与行业地位 - 高德的世界模型技术在斯坦福大学李飞飞团队提出的空间智能评测基准WorldScore中,取得多项指标第一的成绩 [1] - WorldScore是首个支持多模态世界生成模型统一评估的开源基准测试 [1] 集团协同与行业趋势 - 阿里巴巴集团CEO吴泳铭多次强调生成式AI最大的价值在于改变物理世界,未来所有能移动的物体都可能成为智能机器人 [3] - 英伟达CEO黄仁勋表示物理AI是AI的下一波浪潮,关乎AI理解并遵守物理法则 [3] - 阿里集团最新AI旗舰应用“千问”首个接入的生态场景是高德及相关产品,显示出集团在空间智能领域的持续投入 [3] - 在阿里生态内,高德与兄弟业务形成协同:夸克AI眼镜作为大模型的“具身出口”,钉钉平台通过数字化管理能力赋能具身智能企业 [3] - 高德的世界模型能力未来很可能与夸克的终端感知、钉钉的协同调度深度融合,共同服务于机器人、智能汽车等更广泛的实体智能场景 [3]
智慧互通拟港股上市 中国证监会要求补充说明未决诉讼最新进展等情况
智通财经· 2026-01-05 21:24
公司上市备案补充材料要求 - 中国证监会国际司于2025年12月29日至2026年1月4日期间对13家企业出具补充材料要求 智慧互通为其中之一 [1] - 证监会要求智慧互通补充说明多项事宜 包括AI大模型业务、广告业务、未决诉讼、过往辅导备案、股权变动、子公司注销进展及员工持股计划等 [1][2] - 具体要求公司就业务范围是否涉及限制或禁止外商投资领域 以及“全流通”股东股份权利状况进行核查并出具法律意见 [1][2] 公司业务与经营情况 - 公司需详细说明AI大模型的具体情况、应用场景及功能 [1] - 需详细说明植入广告宣传业务的经营模式、报告期内收入规模及占比、客户情况 [1] - 需说明业务经营范围中列明的多项业务(如广告、卫星技术、房地产、大数据等)是否实际开展及运营情况 以及是否已取得必要资质许可 [1] - 公司下属公司重庆爱通行科技有限公司、车巢(上海)智能科技有限公司、智慧互通科技股份有限公司石家庄分公司需说明税务清算及工商注销手续办理进展 [2] 公司股权与历史沿革 - 需说明本次拟参与“全流通”股东所持股份是否存在质押、冻结或其他权利瑕疵 [2] - 需说明公司过往三次辅导备案的情况 是否计划继续推进A股上市及具体安排 [2] - 需说明公司历次增资及股权转让价格、定价依据及价格差异原因 并就设立及历次股权变动是否合法合规出具结论性意见 [2] - 需说明员工持股计划中少量外部人员的入股价格、作价依据、价格公允性、资金来源 并核查是否存在利益输送 [2] 公司法律与诉讼事项 - 需补充说明未决诉讼的具体情况及最新进展 [1][2] - 需评估未决诉讼是否可能对公司未来经营产生重大不利影响 或对本次发行构成实质障碍 并确认是否已充分披露 [2] 公司市场地位与行业前景 - 智慧互通是中国领先的人工智能技术、产品空间智能解决方案提供商 专注于城市交通管理领域 [3] - 按2024年收入计 公司在中国智慧交通行业所有空间智能解决方案提供商中排名第四 市场份额为6.6% [3] - 按2024年收入计 公司在中国智慧交通行业所有空间智能路侧解决方案提供商中排名第一 市场份额为19.3% [3] - 全球高精度AI解决方案市场规模从2019年的人民币477亿元增长至2024年的人民币2,225亿元 复合年增长率为36.1% [3] - 预计全球高精度AI解决方案市场规模将于2029年达到人民币14,330亿元 2025年至2029年复合年增长率为42.2% [3]
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没
机器之心· 2026-01-05 16:54
多模态大语言模型空间智能评测基准MMSI-Video-Bench的发布 - 上海人工智能实验室InternRobotics团队联合多所高校推出全新空间智能视频基准MMSI-Video-Bench,旨在全面检验多模态大模型在真实世界中的空间理解与推理能力 [2] - 该基准旨在解决现有评测体系的两类问题:依赖模板生成导致问题多样性不足,以及仅聚焦单一任务与受限场景,难以全面评估模型能力 [2] - 空间理解能力被视为多模态大语言模型走向真实物理世界、成为“通用型智能助手”的关键基础 [2] 基准的核心特点与设计 - **全面系统的题型设计**:基准构建了覆盖感知、推理与决策全过程的空间智能评测体系 [7] - 基础空间感知能力考察:包括**空间构建**(理解全局空间布局、实体与场景状态属性、两两空间位置关系)和**运动理解**(感知长时运动过程,包括实体、相机及交互运动)[6][8] - 高层决策能力考察:包括基于视频信息的**规划能力**和对未来状态的**预测想象能力**[6][8] - 扩展任务范畴:考察**跨视频推理能力**,包含跨时间的记忆更新能力和多视角信息整合能力,以覆盖现实中的复杂情形 [6] - **极具挑战性的问题设计**:所有问题由11位平均研究年限超过2.5年的3D视觉研究员精细设计,确保清晰准确且具有高挑战性 [10] - 所有受测模型表现均吃力,表现最好的Gemini 3 Pro准确率仅为**38%**[10] - 该基准创造了目前最高的**人类-AI性能差距**,约**60%**(人类水平为**96.4%**)[10][14] - **丰富多样的视频数据来源**:视频数据来源于**25个公开数据集**及**1个自建数据集**,涵盖机器人操作、室内外场景、自然风光、体育活动及电影片段等多种类型 [11] - **特定领域针对性测评**:得益于场景与任务的全面性,基准可划分出**室内场景感知**、**机器人**、**定位**三大子基准,用于针对性测评模型特定能力 [12] 主流模型评测结果与能力瓶颈分析 - **整体成绩单**:研究团队评测了**25个主流多模态模型**,整体得分普遍偏低 [14] - 表现最优的模型为Gemini 3 Pro,准确率为**38.0%**,与人类水平(**96.4%**)存在接近**60%**的显著差距 [14] - 开源模型中,QwenVL2.5-72B在“Sufficient-Coverage”设置下平均得分为**31.8%**,InternVL2.5-8B为**28.7%**[16] - **核心能力短板**:实验结果不仅证实了模型在**空间构建能力**上的不足,更全面揭示了在**运动理解、规划、预测以及跨视频推理**等能力上的明显瓶颈 [14] - **预测**是所有任务类型中挑战性最高的主任务 [15] - **相机-实体之间的空间关系建模**是难度最高的细分类别 [15] - 即便是经过专门空间任务微调的模型,其能力也未能有效泛化到该基准 [15] - **错误类型分析**:研究团队将模型错误归纳为五大类型,以定位性能受限的关键原因 [17] 1. **细致定位错误**:精细视觉感知失效,如目标遗漏混淆或时间点-事件对应关系错误 [17] 2. **ID匹配错误**:跨帧过程中难以保持一致的实体身份跟踪 [17] 3. **潜在逻辑推断错误**:在需要依赖隐含线索或常识知识的推理任务中失败 [17] 4. **提示输入对齐错误**:未能将提示信息与视频信息正确结合进行推理 [17] 5. **几何推理错误**:在空间几何关系理解上存在偏差,对相对位置或距离关系判断错误 [17] - **关键瓶颈定位**:对代表性模型的错误分析表明,**几何推理错误是最为普遍、影响最大的错误类型**[19] - **空间构建任务**的低表现主要源于几何推理能力不足 [19] - **运动理解任务**中,模型难以在快速、细微或长时间跨度的运动中保持精确定位 [21] - **规划与预测任务**中,模型除几何推理错误外,还往往无法有效理解提示输入并将其与视频信息进行联合推理 [21] - **跨视频推理任务**的失败主要源于多目标跨视频定位的复杂性,以及模型难以利用潜在线索完成推理 [21] 辅助方法尝试与未来研究方向 - **辅助方法效果有限**:研究尝试引入**3D空间线索**(通过3D重建模型生成全局图像作为额外输入)以及采用**思维链**技术引导规范推理,但均未能带来显著的性能提升 [22][24][27] - **揭示的关键事实**:上述结果揭示了两个关键事实 [27] - 如何设计模型真正“可理解、可利用”的空间线索,仍是一个开放且极具挑战性的问题 [27] - 当前模型的失败并非由于缺乏显式推理步骤,而是受限于**底层推理能力本身仍然不足**[27] - **基准价值与意义**:MMSI-Video-Bench是一个高质量、高挑战性且系统全面的评测基准,其评测结果清晰揭示了当前模型与人类表现的显著差距,明确了模型的关键能力瓶颈,并为未来空间智能模型的技术演进指明了研究方向 [26]
CES 2026超前瞻:空间智能来势汹汹!从实验室奢侈品到消费级刚需,如何重塑 AI 具身时代?
机器之心· 2026-01-05 14:09
文章核心观点 - 行业共识认为,当前人工智能(AI)在逻辑和语言能力上取得突破,但缺乏对三维物理世界的理解和交互能力,即“空间智能”的缺失,这限制了具身智能(Embodied AI)的发展[1] - 空间智能被视为AI发展的下一个关键十年,是一场让AI获得理解、推理并与物理世界交互底层能力的“认知革命”,其发展将推动AI从被动的信息处理器转变为能在真实世界中主动行动的智能体[6][8][9] - 行业正通过“世界生成”和“空间决策”两大技术路径攻克空间智能,并致力于通过算法创新(如纯视觉方案)将高昂的空间感知成本降至消费级水平,这被视为具身智能迎来大规模普及的“拐点”或“iPhone时刻”[13][23][24][34][38] 感知困局与空间智能的定义 - 当前AI存在“语言强、手脚笨”的困境:参数规模突破万亿的大语言模型(LLM)逻辑推理能力逼近人类,但智能设备在复杂物理环境中仍难以完成简单避障,多数AI眼镜仍停留在“2D提词器”阶段[4] - 空间智能的缺失是核心痛点,其被定义为AI理解物体深度、距离、遮挡、重力及物理关系的能力,是连接感知与行动、驱动智能涌现的核心[5][6][8] - 行业竞争焦点正从“参数竞赛”转向“感知革命”,目标是让AI以更低成本实现更快的空间直觉[6] 空间智能的技术路径分野 - **路径一:世界生成**:致力于构建高保真、可交互的虚拟3D环境,为AI训练和创意产业提供“数字孪生”基础[14][16] - META的SAM 3 (3D)项目旨在为物理世界万物进行3D标记与重建,建立庞大的视觉词典[16][28] - 李飞飞领衔的World Labs的“Marble”模型能够理解并生成可交互的3D场景[16] - 中国的GIGA专注于利用神经渲染技术从2D图像或视频中高效生成高质量3D场景资产[16] - **路径二:空间决策**:专注于让机器基于实时视觉输入,在毫秒间理解空间关系并做出安全、精准的决策[14][18] - NVIDIA的NitroGen项目建立视觉到动作的端到端模型,减少传统规划延迟[19][28] - 小鹏汽车的城市级智能驾驶系统是在复杂开放世界中完成持续空间决策的实践[19] - 银河通用(Galbot)的VLA模型试图耦合视觉感知、语言指令与动作生成,实现“看到即思考,思考即行动”[19] - 联汇科技(OmAI)侧重于通过普通RGB摄像头和有限端侧算力实现高精度3D开放空间感知[19] - 两条路径构成互补闭环:“世界生成”为“空间决策”提供训练环境,“空间决策”的真实数据反哺“世界生成”模型[21] 成本拐点与产业化突破 - 行业拐点在于将高昂的空间感知能力变为可大规模普及的基础服务,核心是成本下降[23][25] - 传统方案依赖昂贵硬件:多摄像头BEV架构或数千美元的激光雷达,将具身智能禁锢在高端场景[26][31] - **纯视觉路径正在打破成本魔咒**:通过算法重构,用普通RGB摄像头和端侧模型实现高精度3D感知,大幅降低成本[26][27] - 案例:韶音(Shokz)与联汇科技(OmAI)联合推出的AI眼镜,仅通过普通RGB摄像头和端侧OmModel模型实现实时3D开放空间感知,将成本降至单目摄像头水平[27] - 算法重构带来的影响包括:使AI眼镜、家用机器人进入消费级价格区间;为盲人导航等场景提供端侧实时处理能力保障安全;完成从“看到物体”到“理解空间”的关键进化[32] 投资视角与行业前景 - 投资焦点从参数规模转向空间智能的落地效率,关注AI在物理世界中实现“仿生灵动”的能力[34][35] - **成本革命驱动市场扩张**:当3D空间感知成本从数万元(激光雷达方案)降至数百元(纯视觉算法方案),市场容量将指数级扩张,推动扫地机器人、低空无人机、消费级具身机器人等大规模落地[34] - **数据入口价值**:能在复杂场景中实现“视觉闭环”的企业,将掌握物理世界最真实的数据流,构建深厚护城河[34] - 未来3-5年,具备端侧、实时、高精度3D空间感知与决策能力的企业,有望成为具身智能生态中不可或缺的“视觉芯片级”供应商,行业地位堪比PC时代的Intel或移动时代的ARM[34] 行业影响与未来展望 - **消费端**:百元级3D感知方案将催生智能穿戴、智能家居新品类爆发,让AI设备成为像手机一样的生活必需品[38] - **工业端**:低成本空间智能将推动智能制造、物流仓储的效率革命,为企业降本增效提供核心动力[38] - **社会价值**:将为残障人士、老年人等群体带来更便捷的生活方式,加速AI普惠[38] - 未来三年,AI将以其在物理世界中的“仿生灵动”与“自主”重新定义智能边界,行业正在见证从“语言智能”向“空间智能”的范式跃进[38]