Workflow
多模态大模型
icon
搜索文档
车企集体跨界智能终端AI入口争夺战中开启生态破局
中国证券报· 2025-12-12 04:17
行业核心观点 - 国内头部新能源车企正集体跨界智能穿戴与数码产品赛道,以破局汽车行业同质化竞争,并在AI时代抢占用户入口、开辟第二增长曲线 [1] - 新能源车企跨界智能设备赛道,已从“不务正业”的尝试,转变为应对行业同质化、抢占AI入口的战略必然,其本质是以低毛利硬件撬动高黏性服务收入,推动企业从交通工具制造商向智能生活服务商转型 [4][5] 车企跨界战略与逻辑 - 车企跨界智能穿戴与数码产品的核心逻辑在于,以智能设备为纽带,将座舱智能延伸至用户生活全链路,其中眼镜因“靠近眼睛、耳朵和嘴巴,且无需改变用户习惯”,被视为最自然的人机交互入口 [1] - 车企发展智能设备存在技术互通、优势互补、资源共享、降低成本等多重优势,最终会转化为用户端的体验壁垒,促进消费者对品牌车辆的复购与推荐 [2] - 车企研发智能终端的逻辑与豆包手机相似,旨在通过终端收集的导航数据、语音交互习惯、生活场景偏好等数据,反哺企业多模态大模型,优化数据丰富度和功能体验感 [4] 主要车企布局与产品 - **理想汽车**:于2025年12月3日发布AI眼镜Livis,重36克,续航18.8小时,支持与车机深度互联,可实现300毫秒唤醒、800毫秒端到端响应,语音助手可直接完成车控操作,首销当日订单突破1.2万台,其中80%来自理想汽车车主复购 [1][2][3] - **小鹏汽车**:在2024年11月发布AI人形机器人Iron,已进入广州工厂参与小鹏P7+车型的生产实训,其核心技术与自动驾驶系统共享视觉神经网络和AI算法,研发投入超20亿元 [2][3] - **蔚来**:早在2022年便推出了NIO Air AR Glasses,通过车载适配器与车机系统连接,支持语音交互与手机操控,探索“车载娱乐+AR”的场景融合 [2] - **特斯拉**:凭借“汽车+机器人”的规模化布局,其Optimus机器人第二代迭代后已具备实用功能,未来将拓展至家庭场景,规模效应使其在成本控制上占据先天优势 [3] 市场反馈与行业趋势 - 2025年上半年全球智能眼镜出货量达406.5万台,同比增长64.2%,其中车企相关产品贡献了15%的增量 [3] - 汽车竞争正从单一车型向“车+N个智能终端”的生态较量演化 [3] - 据艾瑞咨询调研,72%的中国智能设备用户愿意为跨终端服务支付溢价,而这一比例在欧美市场仅为45%,为国内车企的跨界创新提供了支持 [4] 面临的挑战与商业模式 - 国内新势力车企布局智能穿戴与数码产品面临盈利周期较长、规模效应不足的挑战,例如小鹏机器人Iron仅靠工厂场景应用或需5年至8年才能回本,理想AI眼镜Livis的研发与合作投入也需要长期现金流支撑 [3] - 传统硬件销售模式难以为继,需寻求商业模式突破,借鉴“跳出硬件卖生态”的思路,通过生态联动和服务变现实现差异化 [3][5]
南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot
机器之心· 2025-12-10 16:13
核心观点 - 南京大学等机构联合研发了首个解耦布局推理与多轮可控编辑的图形设计大模型PosterCopilot,旨在解决现有AI设计工具在专业工作流中的核心痛点,构建智能设计助手 [2] - 该模型通过创新的三阶段训练策略和生成式智能体架构,实现了专业级的版式生成、多轮精细化编辑及从灵感到素材的自动化落地,并在多项评测中全面超越现有商业与学术竞品 [14][34][35] 行业痛点与现有方案短板 - 当前以文生图模型为代表的AI工具无法处理分层结构,导致用户素材失真且缺乏精细化控制,难以融入专业工业设计流程 [6] - 现有的多模态布局模型存在四大根本性缺陷:1) 将连续坐标量化为离散Token,破坏了几何连续性,导致对齐错误与比例失调;2) 训练缺乏视觉反馈,模型处于“盲推”状态;3) 强迫模型向单一真值回归,扼杀了布局多样性与创造力;4) 不支持图层级迭代编辑,修改时“牵一发而动全身” [8][10][12] 解决方案:PosterCopilot框架与训练 - 提出渐进式三阶段训练策略,将布局生成从回归问题转化为分布学习与强化学习结合的范式 [14][15] - **阶段一(PSFT)**:通过引入高斯噪声扰动,让模型学习坐标分布,修复因Token化导致的几何空间扭曲 [15] - **阶段二(RL-VRA)**:引入基于DIoU和元素保真的奖励信号,修正元素重叠和比例失调等“幻觉”问题 [15] - **阶段三(RLAF)**:利用美学奖励模型进行偏好对齐,鼓励模型探索比训练数据真值更具视觉冲击力的布局方案 [15] - 构建了包含16万张专业海报、总计260万个图层的高质量分层数据集,通过OCR辅助技术解决了图层过度碎片化问题 [32] 核心功能与智能工作流 - **生成式智能体架构**:模型包含“接待模型”和“T2I模型”,可将用户抽象构思自动拆解为详细规划,并生成精准提示词以驱动素材生成,实现从灵感到物料的无缝转化 [16][17] - **全素材海报生成**:当用户提供完整素材时,模型专注于布局推理,进行符合美学规律的精准排列,并保障用户素材零失真 [21] - **缺素材智能补全**:在素材缺失的冷启动场景下,能理解设计意图,自动生成风格统一的背景或前景装饰层 [23] - **多轮精细化编辑**:支持精准单层编辑(如仅更换模特发色),同时完美“冻结”其他非编辑区域,打破了传统模型无法局部修改的限制 [31] - **全局主题迁移**:可将海报主体(如从“棒棒糖”切换为“冰淇淋”)及相关元素进行替换,同时保留原有排版骨架 [28] - **智能尺寸重构**:只需更改画布尺寸参数,模型即可根据新长宽比智能重新推理布局,一键适配不同媒体版面 [29] 性能表现与评测结果 - 模型以Qwen-2.5-VL-7B-Instruct为骨干,在涵盖布局合理性、文本可读性、素材保真度等六大维度的评测中表现卓越 [34] - **人工评测综合胜率**:对比微软Microsoft Designer、Nano-Banana及学术界SOTA模型(如CreatiPoster、LaDeCo),平均胜率超过74% [35] - **详细指标胜率**:在与其他主流模型的对比中,PosterCopilot在各项关键指标上均取得高胜率,例如在布局合理性上对Qwen-2.5-VL-72B胜率为96.8%,对Creatiposter胜率为92.8% [37] - **GPT-5评测**:在GPT-5的打分中,PosterCopilot在布局合理性和风格一致性上均大幅领先Qwen-VL-2.5-72B和Gemini 2.5 Pro [37] 技术落地与产业意义 - 该研究已获得华为-南京大学鲲鹏昇腾科教创新孵化中心支持,并完成了对国产昇腾算力平台的适配与部署,推动了国产AI设计技术的落地 [3] - 该框架为智能设计工具树立了新基准,通过让大模型掌握专业设计师的“图层思维”,为未来AI辅助创意工作流提供了新范式 [40]
智谱上线并开源GLM-4.6V系列多模态大模型 构建原生多模态工具调用能力
证券日报网· 2025-12-09 18:46
公司动态:智谱发布并开源GLM-4.6V系列多模态大模型 - 北京智谱华章科技股份有限公司于12月8日正式上线并开源GLM-4.6V系列多模态大模型 [1] - 该系列包含两个版本:面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B) [1] - 公司宣布开启“智谱多模态开源周”,并表示将持续开源更多前沿模型 [2] 产品技术特性与性能 - GLM-4.6V将训练时上下文窗口提升到128k tokens,并在视觉理解精度上达到同参数规模SOTA水平 [1] - 模型首次在架构中将Function Call(工具调用)能力原生融入视觉模型,打通从“视觉感知”到“可执行行动”的链路 [1] - 模型围绕“图像即参数,结果即上下文”设计,构建了原生多模态工具调用能力,图像、截图、文档页面等可直接作为工具参数,无需先转为文字描述 [2] - 对于工具返回的统计图表、网页截图、商品图片等结果,模型能够再次进行视觉理解,并将其纳入后续推理链路 [2] - 模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环,能够应对图文混排输出、商品识别与好价推荐以及辅助型Agent场景等复杂视觉任务 [2] 定价策略与市场定位 - GLM-4.6V系列模型较前代GLM-4.5V降价50% [1] - API调用价格定为输入1元/百万tokens,输出3元/百万tokens [1] - 其中轻量版GLM-4.6V-Flash免费供用户使用 [1] 应用场景与工具生态 - GLM-4.6V融入了GLM Coding Plan,并针对用户8类场景定向开发了专用MCP(大模型上下文协议)工具 [1] - 该模型为真实业务场景中的多模态Agent(智能体)提供统一的技术底座 [1] - 传统工具调用在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,会带来信息损失和工程复杂度,而新模型旨在解决此问题 [1]
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案
机器之心· 2025-12-09 11:17
多模态大模型视觉编码的技术挑战与现状 - 当前主流视觉编码范式难以兼顾性能与效率:基于切片的编码方法牺牲全局上下文感知能力,而全局原生分辨率编码则带来巨大计算负担 [2] - 现有视觉压缩策略与特征提取过程相对独立,缺乏一个能兼顾细粒度建模与计算效率的统一架构 [2] LLaVA-UHD v3 的发布与核心目标 - 清华大学、中科院研究团队发布 LLaVA-UHD v3,旨在解决高清原生分辨率下保持全局理解能力并实现快速推理的核心问题 [3] - 模型提出了全新的渐进式视觉压缩框架,旨在显著减少视觉 Token 数量,从根本上提升原生高分辨率视觉编码的效率 [4] 渐进式视觉压缩框架详解 - 框架核心由精细化 Patch 嵌入与窗口化 Token 压缩两个组件构成 [4] - 精细化 Patch 嵌入通过将图像划分为更小尺寸的 patch,并转换预训练模型权重,实现更丰富的视觉语义提取建模 [11] - 窗口化 Token 压缩在 ViT 中间层聚合相邻 token,通过可学习的池化权重渐进压缩 token 数量,保留关键语义信息 [13] - 该“先细粒度建模 + 再渐进压缩”的设计,在兼顾全局语义与局部细节的同时大幅降低计算量 [15] 全图编码与切片编码的对比分析 - 实验对比显示,全局原生分辨率编码在空间感知/定位任务上相比切片编码平均提升约 11.0% [6] - 在通用视觉-语言理解任务中,全局原生分辨率编码在语义理解表现上略优于切片编码,平均提升约 2.1% [7] - 研究发现切片编码机制破坏了图像的空间连续性,导致系统性方向与结构偏差,削弱了空间理解的可靠性 [7] - 结论表明,尽管切片编码效率有优势,但从语义、空间及几何一致性角度,全局原生分辨率编码更适合需要空间感知与高分辨率理解的任务 [7] LLaVA-UHD v3 的效率与性能验证 - 效率方面,ViT-UHD 编码器相比 MoonViT 实现 2.4× 加速,相比 Qwen2.5-ViT 快 1.9× [16] - 整合到完整 MLLM 后,LLaVA-UHD v3 的 TTFT 相较 Qwen2-VL 降低 49%(约快 1.9×),比以高效著称的切片编码模型 MiniCPM-V2.6 仍快约 10% [16] - 性能方面,模型仅使用约 2000 万对图文数据训练,远低于 Qwen2-VL(约 7 亿)和 MiniCPM-V-2.6(约 4.6 亿)的训练规模 [17] - 模型实现了 64× 的视觉 Token 压缩率,远超对手(Qwen2-VL 约为 4×,MiniCPM-V2.6 为 16×)[17] - 在需要细粒度视觉信息的任务上,如 HallusionBench、CV-Bench 以及 OCR&Chart,模型取得了与 SOTA 模型相当甚至更优的表现 [17] 模型综合性能基准对比 - 在通用与知识基准测试中,LLaVA-UHD-v3 在多个指标上展现出竞争力,例如在 MME 上得分为 2183.6,在 MMB 上为 81.3,在 MathVista 上为 64.2 [18] - 在视觉推理与 OCR & Chart 基准测试中,模型在 HallusionBench 上得分为 52.2,在 RealworldQA 上为 70.3,在 DocVQA 上为 92.8,表现优异 [19] 技术局限与未来展望 - 实验表明,缺失预对齐阶段的 ViT-UHD 性能不佳,当前 MLLM 标准训练流程难以完全挖掘视觉编码器的潜力 [20] - 随着 Token 数量增大,Transformer 的二次复杂度仍会带来成本瓶颈 [20] - 未来需探索更适合多模态任务的视觉编码预训练策略,并引入线性复杂度算子以替代传统注意力机制,实现可扩展的高效多模态建模 [20]
智谱上线并开源 GLM-4.6V 系列多模态大模型
北京商报· 2025-12-08 20:34
公司产品发布 - 智谱于12月8日正式上线并开源GLM-4.6V系列多模态大模型 [1] - 系列包括面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B)和面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B) [1] 产品技术特性 - GLM-4.6V将训练时上下文窗口提升到128k tokens [1] - 在视觉理解精度上达到同参数规模SOTA水平 [1] - 首次在模型架构中将Function Call(工具调用)能力原生融入视觉模型 [1] - 打通从“视觉感知”到“可执行行动(Action)”的链路 [1] - 为真实业务场景中的多模态Agent(智能体)提供统一的技术底座 [1] - GLM-4.6V融入GLM Coding Plan [1] - 针对用户8类场景定向开发了专用MCP(大模型上下文协议)工具 [1] 定价策略 - GLM-4.6V系列较GLM-4.5V降价50% [1] - API调用价格为输入1元/百万tokens,输出3元/百万tokens [1] - 其中轻量版GLM-4.6V-Flash免费供用户使用 [1]
死磕技术的自动驾驶黄埔军校,又更新了这些技术进展......
自动驾驶之心· 2025-12-07 10:05
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,汇集学术界与工业界资源,为从业者及学习者提供全面的技术内容、学习路线、行业资讯及求职内推服务 [8][25] - 社区核心价值在于降低行业入门壁垒,通过体系化的知识梳理和专家互动,帮助成员应对技术快速迭代和行业竞争,目标是打造一个近万人的技术分享与交流聚集地 [8][26] 社区概况与规模 - 社区已运营超过三年,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 目前社区成员已超过4000人,成员来自近300家机构与自动驾驶公司,目标在未来2年内做到近万人的规模 [8][104] - 社区成员背景多元,包括上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、小米汽车等头部公司 [25] 内容体系与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容全面覆盖从基础到前沿的各个领域 [11][14] - 技术方向具体包括:自动驾驶感知(如BEV感知、3D目标检测)、规划控制、端到端自动驾驶、VLA(视觉-语言-动作模型)、世界模型、多传感器融合、自动驾驶仿真、3DGS(3D Gaussian Splatting)、NeRF、扩散模型、Occupancy Network、视觉语言模型(VLM)、在线高精地图等 [11][16][25][34][45][47][49][51][53][56][58][60][64][65] - 提供了近60个自动驾驶相关数据集的汇总,包括通用CV数据集、感知数据集、轨迹预测数据集,并详细梳理了自动驾驶VLM的预训练、微调及思维链数据集 [43] - 汇总了近40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型等多个领域,助力快速上手实践 [41] 学习资源与课程 - 社区提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、自动驾驶数据工程、2D/3D目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型技术等八大方向 [17] - 为入门者准备了全栈方向的学习课程,包括数学基础、计算机视觉、深度学习、编程等资料,以及经典书籍和课程课件汇总,适合0基础学习者 [16][19] - 设有“自动驾驶100问”系列专题,内容涉及TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [16] 行业交流与活动 - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [12][92] - 直播分享主题前沿,例如:完全开源性能SOTA的端到端VLA模型“Impromptu VLA”、基于快慢神经符号系统的道路拓扑推理、让自动驾驶用自然语言交流的V2X研究、通用3D检测基础模型“DetAny3D”、基于扩散模型的规划算法“Diffusion Planner”等 [93] - 社区内部建立了与多家自动驾驶公司的岗位内推机制,可第一时间将成员简历推送给心仪公司 [17] - 日常交流问题涵盖技术学习、职业发展、行业趋势等,例如:端到端自动驾驶如何入门、多传感器融合就业前景、业内公司跳槽选择、博士研究方向等 [11][15][30] 社区特色与附加价值 - 社区致力于解答成员的各类实用问题,并提供快速解答,方便应用到实际项目中 [11] - 汇总了国内外自动驾驶与机器人领域的高校实验室和公司信息,为成员升学、求职提供参考 [35][37] - 打造了一个交流+技术分享的聚集地,旨在让初学者快速入门,让进阶者提升技能,并结交行业人脉 [8][26]
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
36氪· 2025-12-05 15:06
行业范式转移 - 行业顶尖研究者如Ilya Sutskever指出,单纯依赖扩大数据、参数和算力的Scaling Law时代已经结束,大模型的未来在于架构创新而非规模堆砌 [1] - 行业过去几年陷入“唯规模论”的路径依赖,但Transformer架构的固有局限日益凸显,仅靠堆叠算力和数据无法通往真正的通用智能 [8] - 以NEO为代表的原生多模态架构的出现,标志着行业正从模块化拼接范式向更高效、更统一的原生架构范式迁移 [26] 现有技术瓶颈 - 当前主流多模态大模型(如GPT-4V、Claude 3.5)采用模块化拼接架构,将预训练的视觉编码器通过投影层嫁接到大语言模型上,视觉与语言信息在数据层面被粗暴拉拢,而非深度融合 [3] - 模块化架构存在三大技术鸿沟:1) 效率鸿沟:训练流程复杂、成本高昂,且各阶段可能引入误差;2) 能力鸿沟:视觉编码器的固定分辨率等设计限制了对复杂图像(如长图、工程图纸)的理解;3) 融合鸿沟:视觉与语言信息未在同一语义空间进行深度融合推理,导致细粒度任务表现不佳 [6][7][8] NEO架构的核心创新 - NEO是全球首个可大规模落地的开源原生多模态架构,其设计从第一性原理出发,打造了一个视觉与语言从诞生之初就统一的模型,不再区分视觉模块和语言模块 [3][8] - 核心创新体现在三大底层技术上:1) 原生图块嵌入:通过轻量级卷积神经网络直接从像素构建连续、高保真的视觉表征,突破了主流模型的图像建模瓶颈 [11][12];2) 原生三维旋转位置编码:为时间、高度、宽度三个维度分配不同频率,精准刻画视觉细节与空间结构,并为扩展到视频和3D场景铺平道路 [14];3) 原生多头注意力:在统一注意力框架下,让文本的因果注意力与视觉的双向注意力并存,提升对图像内部空间结构的理解能力 [16] - 配套采用Pre-Buffer & Post-LLM双阶段融合训练策略,巧妙解决了在不损害语言能力前提下学习视觉知识的难题,最终模型融为一个端到端的整体 [17] 性能与效率表现 - NEO展现出极高的数据效率,仅使用3.9亿个图像文本对进行训练,数据量仅为同类顶级模型所需数据的十分之一 [5][19] - 在多项视觉理解任务评测中,NEO追平甚至超越了Qwen2-VL、InternVL3等顶级模块化旗舰模型 [5][19] - 在2B参数规模下,NEO在AI2D、DocVQA、ChartQA等关键评测中得分分别为80.1、89.9、81.2,表现亮眼 [20] - 在8B参数规模下,NEO在MMMU、MMBench、MMStar、SEED-I、POPE等多个关键基准测试中均取得高分,展现出优于其他原生VLM的综合性能 [21][22] - NEO在2B到8B的中小参数规模区间内展现出较高的推理性价比,实现了精度与效率的双重跃迁,并大幅降低了推理成本 [22][23] 潜在影响与行业意义 - NEO为多模态AI的演进指明了新路径,其原生一体化架构从底层打通了视觉与语言的语义鸿沟,天然支持任意分辨率图像和长图文交错推理,并为视频理解、3D空间感知及具身智能等更高阶场景预留了扩展接口 [24] - 商汤科技已开源基于NEO架构的2B与9B模型,此举有望推动整个开源社区向更高效统一的原生架构迁移,加速形成新一代多模态技术的事实标准 [24] - NEO在中小参数规模下的高性价比,正在打破大模型垄断高性能的固有认知,使得强大的视觉理解能力可以下沉到手机、机器人、智能汽车、AR/VR眼镜、工业边缘设备等对成本、功耗和延迟敏感的终端场景 [23][24] - NEO是“架构创新重于规模堆砌”新趋势的首个成功范例,重新定义了多模态模型的构建方式,是通往下一代普惠化、终端化、具身化AI基础设施的关键雏形 [25][26]
赛道分化加剧,2026年人工智能最强风口来袭
36氪· 2025-12-03 16:57
文章核心观点 - 2026年将成为人工智能发展的关键分水岭,AI将从“AI+”的修补模式,演进为AI原生重构系统底层逻辑、物理AI打通虚拟与现实、多模态技术融合以及世界模型实现规律预判的深度变革阶段 [1] AI原生引发系统应用底层革命 - AI原生意味着以AI为系统设计的底层逻辑与能力中枢,驱动从技术架构、业务流程、组织角色到价值创造方式的全方位重塑,是AI未来发展的关键方向 [3] - AI原生架构与传统“AI+”架构存在根本差异:设计起点从现有业务流程转向AI能力边界;数据流向从业务系统抽取数据给AI模型,转变为数据实时流入AI中枢驱动业务;系统角色从“辅助工具”转变为“决策引擎”;迭代速度从月级提升至天级 [4] - 真正的AI原生系统具备三个显著特征:以自然语言交互为基础,实现GUI与LUI混合;具备自主学习和适应能力,能根据上下文和环境变化调整输出;具备基于大语言模型和知识库自主完成任务的能力,实现端到端闭环 [4][5] - AI原生开发平台趋势明确,低代码/无代码工具催生大量“一人公司”模式,巨头正将AI智能体深度嵌入办公套件实现端到端闭环 [8] - AI原生应用大规模普及的前提是具备完善的工具和框架体系,如部署管理大模型的Hub平台、自动化微调工具、知识图谱管理工具等,产品化工具的积累是其快速普及的关键 [8] - 在办公场景,AI原生应用可将知识工作者的重复劳动时间减少40%以上,2026年AI原生是To C端最确定的增量市场,其核心竞争力在于对用户习惯的重构 [8] - AI原生应用的技术架构、工具产品及方法论将在1~2年内演进并达到可大规模复用的成熟度,之后全面爆发,短期内“AI原生应用”与“传统应用+AI”将共存 [9] 物理AI向现实世界全面渗透 - 2026年的AI将以物理实体形态渗透到城市、工厂、医院、家庭等场景,实现从“感知”到“行动”的跨越,即物理AI [10] - AI发展经历三阶段:感知AI(理解图像、文字、声音)、生成式AI(创造文本、图像、声音),现在正进入物理AI时代,AI能够进行推理、计划和行动 [10][11] - 物理AI的技术基础建立在三个关键组件之上:世界模型(构建对三维空间及物理定律的理解)、物理仿真引擎(实时计算复杂物理交互)、具身智能控制器(生成具体控制指令) [11][12] - 物理AI成为主流趋势的原因:一是机器人、无人系统等智能设备的物理交互需求驱动,要求AI具备在真实环境中稳定、泛化的感知、理解与执行能力;二是AI技术演进加速赋能物理实体 [14] - IDC预测,到2026年,AI模型、视觉系统及边缘计算的进步将使机器人可实现的应用场景数量增加3倍,并在制造、物流、医疗、服务等多个领域广泛部署 [14] 多模态将成为AI基础能力 - 2025年,多模态大模型以强大的跨模态理解和推理能力,成为推动产业智能化升级和社会数字化转型的中坚力量 [15] - 多模态大模型能同时处理文本、图像、音频、视频、3D模型等多种数据类型,实现信息的深度融合与推理 [15] - 其能力体系围绕“跨模态理解”与“跨模态生成”两大核心构建:理解方面包括语义匹配、文档智能解析、多模态内容深层解读;生成方面可实现文本、图像、音频、视频等不同模态内容的相互生成 [15][16] - 多模态大模型还展现出多模态思维链和上下文学习等高级认知能力,为构建更接近人类认知方式的AI系统奠定了基础 [16] - 原生多模态技术路线成为重要进化方向,即在训练之初就将多种模态数据嵌入同一个共享的向量表示空间,实现不同模态间的自然对齐与无缝切换,无需文本中转 [16] - 2026年,多模态大模型将以前所未有的速度重塑各行各业,已在文物保护、安防、智能驾驶、内容创作、工业质检、政务服务等领域展现出巨大价值,正从实验探索迈向实际应用 [17] - 技术案例如Sora 2在视频与音频生成上实现物理逼真、镜头控制、音效同步等突破;Nano Banana Pro在图像生成与编辑方面支持多图融合、4K输出等 [17] 世界模型引爆AI新一轮增长 - 世界模型让AI从“数据驱动”转向“规律驱动”,通过构建虚拟世界模型模拟物理规则实现前瞻性决策,是2026年最具颠覆性和挑战性的领域 [19][21] - 世界模型的价值在于“泛化能力”,能够将已知场景的认知迁移到未知场景,例如让自动驾驶系统在未见过道路上基于物理规律理解安全行驶 [22] - 世界模型是一种能够对现实世界环境进行仿真,并基于多模态输入数据生成视频、预测未来状态的生成式AI模型,是AI系统对现实世界的“内在理解”和“心理模拟” [22] - 与大语言模型相比,世界模型的主要数据是感知数据、模拟数据和遥测数据;架构是编码器加潜在动态的混合架构;目标是预测环境状态以支持决策;训练范式是自监督或强化学习;应用集中于机器人、控制、模拟等领域;认知基础是物理性和因果性 [24] - 世界模型具有三大核心特点:内在表征与预测,能将高维观测数据编码为低维潜在状态并预测未来状态;物理认知与因果关系,能理解和模拟重力、摩擦力等物理规律;反事实推理能力,能进行假设性思考 [24][25] - 技术层面关键包括因果推理、场景重建时空一致性、多模数据物理规则描述等,全球主流模型有谷歌Genie3、英伟达COSMOS,国内有华为盘古、蔚来NWM等 [25] - 在自动驾驶领域,世界模型可生成高动态、高不确定性场景解决长尾问题,通过闭环反馈机制降低成本、提升效率,案例如蘑菇车联MogoMind实现实时数字孪生与深度理解服务 [25] - 在具身智能中,世界模型能提供大规模高质量合成数据解决数据缺口,并重塑开发范式,未来将构建“物理+心智”双轨建模架构 [26]
国内首款AI助盲眼镜发布:300ms超低延迟 接入通义千问
凤凰网· 2025-12-03 15:14
产品发布与定位 - 杭州瞳行科技正式发布国内首款基于多模态大模型的AI助盲眼镜 [1] - 产品旨在通过"视觉模型+硬件"组合解决视障群体出行导航中的"最后十米"寻址难题 [1] 产品技术规格 - 产品硬件配备121度超广角双摄像头,整体套件由眼镜主体、手机、遥控指环及盲杖构成 [1] - 在移动避障场景下系统可实现300ms超低延迟,用户每迈出一步眼镜即可完成一次环境分析与道路提示 [1] - 系统针对不同场景进行模型调优,在阅读菜单或寻找店铺等场景中对文本和环境细节进行详细总结与播报 [1] 技术路径与算法 - 产品接入了通义千问Qwen-VL及OCR系列模型 [1] - 采用"基模复用+微调优化"技术路径,企业能以更低门槛快速实现复杂功能 [1] 市场背景与行业影响 - 据统计我国现有视障人士超1700万,出行高度依赖人工导致许多视障者选择"少出行" [1] - 大模型技术为行业带来转机,算力成本已降至此前的十分之一 [1]
CES2026超前瞻:AI是核心议题,中国企业或将再度霸展
36氪· 2025-12-01 12:09
CES 2026展会概况 - CES 2026将于2026年1月6日至1月9日在美国拉斯维加斯举办,这是全球消费电子行业的年度盛会,被视为科技产业的第一风向标[1] AI技术焦点 - AI将是CES 2026贯穿全场的核心主题,西门子、卡特彼勒、AMD、联想四家企业的CEO主题演讲均以AI为共同关注点[5] - 联想将包下拉斯维加斯Sphere球幕影院举办创新科技大会,展示AI技术如何彻底改变F1赛事、揭幕首届AI驱动的国际足联世界杯计划,并为个人和企业创造Agent原生体验[8][11] - 在CES 2026创新大奖的343项获奖产品中,AI分类奖项数目最多,涵盖Anker移动电源、追觅扫地机器人、联想转轴屏笔记本电脑、韶音/时空壶耳机以及高通、三星、AMD芯片与华硕AI PC等产品[11] - 展会上将出现AI眼镜、AI PC、AI手机、AI穿戴、AI玩具、AI家电、人形机器人等硬件产品,以及多模态大模型、物理AI、世界模型、具身智能、端侧AI等相关技术[18] PC与处理器新品 - 英特尔计划发布全新的Panther Lake移动端处理器,联想等下游PC品牌将公布对应笔记本新品,一款采用该处理器的笔记本跑分已流出[19][20] - AMD将发布新款旗舰和游戏处理器,R9 9950X3D2采用双CCD堆叠3D缓存设计,总缓存达192MB,比上一代多出64MB;锐龙9000G系列APU预计以12C24T配置搭配RDNA 3.5 GPU亮相[21] - 英伟达RTX 50 SUPER系列显卡可能在CES 2026期间亮相,但CEO黄仁勋未出现在演讲嘉宾名单中[21][23] 显示技术竞争 - 电视领域将聚焦RGB显示技术,海信、TCL、LG、索尼、三星等品牌会将RGB-Mini LED、Micro RGB LCD等技术带到大屏及中小尺寸设备上[25][26] - 显示供应链企业如TCL华星、天马、京东方将展示最新屏幕技术,车载显示(如仪表屏和HUD)仍是重点展示领域[26] 智能清洁与家电 - 中国智能清洁厂商云鲸、追觅、MOVA、未岚大陆等将在CES 2026发布新品,涵盖手持吸尘器、洗地机、扫地/洗地机器人及面向北美市场的割草机器人[27][30] - 中国品牌凭借结构光导航、全链路自清洁、AI识别等技术优势,已从性价比策略转向“全场景清洁方案”,主导全球市场[30] 配件与智能家居 - 配件品牌倍思、绿联将亮相CES,倍思可能海外首秀音频旗舰产品线Inspire系列,绿联重点展示全屋智能产品,包括NAS、移动电源和家居安防设备[31][34][36] - 骨传导耳机品牌韶音将发布开放式耳机新品,AI翻译硬件公司时空壶和未来智能也将参展,展示AI同传翻译耳机等产品[34][36][37] AI硬件与新物种 - AI眼镜成为重点类目,国内品牌如Rokid、雷鸟、影目、XREAL、李未可等凭借独创设计占据市场地位,但高通下一代AR计算平台发布前,展示可能以现有产品为主[38] - 影石Insta360将展示获CES最佳创新大奖的Antigravity A1无人机,无线麦克风品牌HOLLYLAND猛犸以全新形象亮相[38] - AI硬件新物种(如Rabbit R1、AI Pin)是否在CES 2026出现仍是悬念,此前部分AI硬件公司面临经营挑战[39] 中国科技力量展示 - 中国品牌占CES参展商约30%,参展面积约13%-14%,覆盖芯片、AI大模型、显示、智能清洁、智能驾驶等重点领域,从“物美价廉”转向“科技创新”[40] - 中国厂商成为技术推动者,具备全球领先的产品化速度和工程化能力,CES已成为中国科技力量的秀场[40]