特斯拉FSD V14
搜索文档
破解具身智能数据困境 大晓机器人发布“以人为中心”ACE具身研发范式
环球网· 2025-12-22 16:13
行业当前困境 - 具身智能行业面临数据鸿沟与研发路径偏差的双重困境 [1] - 行业对数据的需求呈指数级增长,但当前真机数据量级仅约10万小时,与智能驾驶领域(如特斯拉FSD V14每日训练量相当于人类500年驾驶经验)差距悬殊 [1] - 传统研发范式陷入两难:以机器为中心的路径(依赖真机遥操)导致数据成本高、效率低且智能被禁锢于特定硬件;纯视觉学习路径则缺乏对物理世界规律的理解,存在“现实鸿沟” [1] 公司解决方案:ACE具身研发范式 - 公司提出行业首创的“以人为中心(Human-centric)”的ACE具身研发范式,构建“环境式数据采集 — 开悟世界模型 3.0 — 具身交互”的全链路技术体系 [3] - 环境式数据采集技术可在不干扰人类正常工作生活的前提下,实现一年千万小时的数据收集,配合世界模型对数据价值的放大,能达到上亿小时数据规模的训练效果 [3] - 相比传统遥操采集(需购买几十万一台的机器人并雇佣专门采集员),环境式采集使用AI眼镜等现有成熟设备,效率提升两个数量级,成本大幅降低,可快速实现从十万小时到千万小时的海量数据积累 [3] 核心技术:开悟世界模型3.0 - 开悟世界模型3.0是ACE范式的核心技术支撑,是首个“多模态理解 — 生成 — 预测”一体化的世界模型,深度融合物理规律、人类行为和真机动作 [3] - 该模型于12月18日面向全行业开源,公司通过API向全行业开放工具链,以推动轻量化、定制化具身智能产品快速涌现和生态发展 [4] - 开源有助于推动生态共建,使模型能与沐曦股份、壁仞科技、中科曙光等国产芯片完成适配,极大提升芯片性能,同时通过收集多场景反馈快速丰富场景库并迭代模型 [4] - 世界模型的商业化通过云服务平台实现,开发者可在平台上创作、分享数据并产生算力和存储收益 [4] 关键硬件载体:具身超级大脑模组A1 - 具身超级大脑模组A1是技术落地的关键载体,基于纯视觉无图端到端VLA模型,结合Insta360全景感知方案,实现360度环境覆盖,无需预采高精地图即可在复杂动态环境中自主导航、避障、跟随 [5] - A1已适配智云、云深处、宇树等主流四足机器人本体,并打通商汤方舟平台,整合10多个行业、150多个智能化应用场景,能快速适配安防、能源、交通等行业需求 [5] 未来市场规划 - 短期内,搭载A1模组的四足机器人将率先规模化落地,明年开始在安防巡检、城市治理等场景应用 [5] - 中期(未来两三年),将重点发力前置仓、零售仓储等商业场景,这些场景相对标准化,中国目前有十几万家前置仓且仍在快速增长,有望实现十万级应用规模 [5] - 长期来看,将逐步拓展到工业柔性产线,并最终让机器人走进家庭 [5]
开源+生态协同 商汤的大晓机器人攻坚具身智能痛点
21世纪经济报道· 2025-12-18 21:08
公司战略与产品发布 - 商汤科技旗下大晓机器人于2025年末亮相 其战略更关注生态构建并积极寻求AI产业链合作 [2] - 公司提出通过ACE具身研发范式、开悟世界模型及具身超级大脑等突破性成果 推动具身智能实现规模化商业落地 [2] - 大晓机器人已提前进行生态布局 探寻软硬件一体化路径 [3] 行业挑战与数据瓶颈 - 迈入具身智能时代后 行业面临数据量级的断崖式缺口 当前具身智能领域的真机数据量级仅为10万小时 [2] - 作为对比 特斯拉FSD V14每日训练量相当于人类驾驶员400万小时 约等于500年的驾驶经验 [2] - 传统“以机器为中心”的研发范式导致数据采集成本高昂、效率低下 且技能模型严重绑定于特定硬件 [7] 技术解决方案与创新 - 公司提出的ACE具身研发范式中的环境式数据采集 可实现一年千万小时的数据收集 [3] - 开悟世界模型3.0能不断放大真实数据价值 使其达到上亿小时数据规模的效果 [3] - 环境式数据采集技术通过跨视角多模态设备 融合多维度数据 为模型训练提供“人—物—场”全要素精准数据支撑 [7] - 在即时零售仓储场景中 该方案已实现多视角数据采集 覆盖数万种SKU 完成仓储分拣与打包全流程 [7] - 公司发布了首个开源且商业化应用的世界模型——开悟世界模型3.0 形成跨本体的统一世界理解框架 [7] - 该平台向全行业开放API 已与沐曦股份、壁仞科技、中科曙光等多款厂商国产芯片完成适配 [7] 生态合作与行业落地 - 智元机器人表示 将其在本体规模化量产和复杂场景部署的系统能力 与大晓在模型与算法层面的创新深度融合 共同加速技术闭环与产业落地 [8] - 智能机器人行业落地的核心标尺是让机器人能够听懂人类指令并完成任务 [8] - 公司认为 通过其打造的生态 能够有效提升机器人在垂直领域复杂场景中泛化落地的速度 [8] - 公司预计在未来两三年 工业场景会率先落地 而商业服务中的前置仓、闪购仓等应用增长也在加快 [13] - 中国有十几万的前置仓 如果一个前置仓有十个人左右 就带来了十万级的(机器人需求)规模 [13] 市场前景与成本分析 - 贝恩资本援引预测数据显示 到2035年 全球人形机器人年销量有望达到600万台 市场规模突破1200亿美元 在乐观场景下 销量可能超过1000万台 市场规模达到2600亿美元 [11] - 随着产业链成熟 商业模式将多元化 涵盖核心零部件供应、研发外包以及整机ODM与OEM 形成完整生态 [12] - 在人形机器人硬件模块中 行星滚柱丝杠和六维力矩传感器是成本占比最高的零部件 约占总成本40% [13] - 随着国内产业链企业投入研发 预计未来在这两个关键核心零部件领域 成本降本幅度可达70%至80% [13] - 电池与热管理技术以及AI芯片等关键技术 需5至10年才能实现重大突破 [14] - 当成本下降到临界点 人形机器人在投资回报上将超越部分行业的人类劳动力 届时机器人大规模替代人工的临界点将出现 [14]
李想: 特斯拉V14也用了VLA相同技术|25年10月18日B站图文版压缩版
理想TOP2· 2025-10-19 00:03
OpenAI人工智能五阶段定义 - 聊天机器人阶段的核心是基座模型,功能为压缩人类已知数字知识,类比人类从小学到大学的教育过程[13][14] - 推理者阶段具备思维链和连续性任务能力,依赖SFT和RLHF训练,类比人类读研或师傅带教的经验传授[15][16] - 智能体阶段AI开始实际工作并使用工具完成长任务,对专业性和可靠性要求极高,需达到80-90分合格标准[17][18] - 创新者阶段通过出题解题进行强化训练,需要世界模型和RLAIF模拟真实环境,类比职业选手上万小时实战训练[19][20] - 组织者阶段负责管理大量智能体和创新者,防止失控风险,类比企业管理者职能[21] 人工智能发展路径与算力需求 - 预训练基座模型不需要每家企业自研,类比不需要每家企业都开办大学[5][21] - 智能体阶段需要推理能力,机器人设备需要端侧推理,世界模型阶段需要海量云端推理建立数字孪生[6][22] - 未来5年推理算力需求可能扩大100倍,训练算力需求扩大10倍,端侧和云端算力需求都将显著增长[7][23] 理想汽车AI技术布局 - 公司自研技术包括推理模型(MindVLA/MindGPT)、智能体(司机Agent/理想同学Agent)和世界模型[8][24] - 2026年将为自动驾驶配备自研端侧芯片,实现车与AI深度融合[9][26] - V14证明特斯拉使用VLA相同技术,具备空间完整理解能力和长任务多任务处理能力[39] 机器人发展路径 - 机器人发展存在两条路径:将现有工具改造为机器人,或开发人形机器人操作万物[27][28] - 工具改造路径效率更高,如将炒菜工具直接机器人化而非使用人形机器人炒菜[27][28] 人类与AI的协同发展 - 训练目的为提高成功率,可参考一万小时训练理论,核心训练信息处理能力、出题解题能力和资源分配能力[9][32] - 人类需在AI遵循最佳实践训练背景下,要么理解并管理AI,要么与AI协同工作,否则面临被替代风险[30][37] - 信息处理能力训练重点在于识别关键信息并过滤无效信息,不同专业领域信息处理方式各异[33] - 资源分配能力训练关键在于有限资源的高效分配,人类大脑通过高效资源分配实现低功耗高效益[35][36] AI工具应用偏好 - 公司偏好使用Grok的对话方式,因其回答简单干脆,相较国内模型更直接利索[41] - 支持上班族使用AI撰写汇报,认为使用先进工具是人类与其他生物的最大区别[42]
揭秘特斯拉FSD V14 “车位到车位”核心算法:高保真3D Occ占用预测
自动驾驶之心· 2025-10-12 00:03
核心技术:高保真3D空间占用算法概述与优势 - 该算法仅利用视觉和AI技术,通过2D图像数据高精度重建车辆或机器人周围3D空间结构,感知精度达10厘米[5][11] - 核心算法包括占用网格算法,用于预测周围空间体素的占有率属性[5] - 算法支持高保真环境渲染,并利用符号距离函数实现更精细的形状细化和空间感知[7] - 关键创新在于仅依赖摄像头2D视觉,无需深度摄像头、激光雷达等专用深度传感技术即可运行[11] 技术实现:算法解析 - 基础流程为经典占用算法,从多摄像头图像输入中生成可查询的3D占有率输出[12] - 处理流程包括图像特征提取、空间注意力与3D转换、时间对齐融合、反卷积与体积输出等步骤[12] - 生成的可查询数据集允许下游模块通过坐标值检索特定体素占有率状态[13] - 表面属性分析方法可预测环境表面属性,生成网格表示并进行坐标校准[15] - 体积输出内容包括体素二进制占有率、占有率流数据和3D语义数据,默认体素尺寸为33厘米,可动态调整至10厘米[16] 符号距离函数技术 - 引入符号距离函数技术提高对周围物体形状和距离的感知精度,对辅助泊车等精细操作至关重要[18] - SDF值指示被占据体素与最近物体表面之间的距离,比传统占用算法更精准预测碰撞距离[18] - AI模型通过包含摄像头图像和地面真值深度图的大型数据集进行端到端训练,学习推断符号距离值[20] - 基于SDF的渲染比传统点云或二进制体素占有率渲染细节更丰富,视觉更连贯平滑[21] 应用场景:辅助泊车 - 高保真占用网络可用于停车场等近场辅助泊车应用,实现先进泊车功能[23][24] - 泊车流程包括确定泊车资格区域、空间重建与SDF预测、识别泊车位、评分选择及用户交互导航[24][25] - 泊车位识别不仅基于空间占据情况,还综合考量地面油漆线、交通标志和路缘颜色等因素[24] - 系统为识别出的泊车位生成适用性评分,基于距离和路径属性等因素进行选择[25] 应用扩展:机器人领域 - 相同方法适用于自主机器人在室内环境中的导航和定位[29] - 机器人可利用摄像头捕获环境图像,通过AI模型预测体素占有率和SDF,区分障碍物和可导航区域[29] - 模型可识别指定对接区域或充电站,评估距离和空间限制,实现自主移动和精确对接[29]