RT1
搜索文档
Why one cross-border payments pilot was stymied
Yahoo Finance· 2025-10-31 18:16
This story was originally published on Payments Dive. To receive daily news and insights, subscribe to our free daily Payments Dive newsletter. LAS VEGAS — Competing national priorities and disparate regulatory regimes have stymied real-time cross-border payments for the time being, according to an executive with The Clearing House. Moving money instantaneously between countries requires regulatory certainty on both sides of the border and infrastructure in both nations capable of sending and receiving mon ...
后端到端时代:我们必须寻找新的道路吗?
自动驾驶之心· 2025-09-02 07:32
行业技术发展趋势 - 2025年VLA(Vision-Language-Action)成为行业新焦点,但技术路径出现明显分歧,部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面,VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统,并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA(World Model + Action)为自动驾驶终极方案,回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA,坚持VA(Vision-Action)技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为,实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性,理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策,LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹,在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制,提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性,例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声,语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大,OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz,低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配,轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA(Vision-Action)方案通过内隐世界模型实现环境状态向量化表示,华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性,在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据,使决策更符合直觉 [25] - 坚持模块最小化架构,屏蔽激光雷达输入以避免感知依赖,保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达,提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择,不同技术路线均存在发展机会 [34]
我们距离真正的具身智能大模型还有多远?
2025-08-13 22:56
行业与公司 - 行业涉及**人形机器人产业链**,重点关注**大模型端**和**硬件端**的发展[1] - 公司提及**特斯拉**作为硬件定型的核心推动者[3][4],以及国内企业如**银河通用**、**心动剂元**、**青铜视觉**、**凌云光**、**天奇**等[22][23][24] --- 核心观点与论据 **1 大模型是行业发展的关键卡点** - 当前行业瓶颈在于**模型端**,尤其是多模态大模型的智能水平,而非硬件控制成熟度[1][2] - 大模型为人形机器人提供“智能大脑”,是推动本轮发展的底层逻辑[2] **2 大模型发展的三条主线** - **多模态输入**:从C-CAN(仅语音)到RT1(动作+视频)、RT2(动作整合),再到Helix(200Hz频率)[5][6][11] - **频率提升**:RT2(1-5Hz)→ 派林(50Hz)→ Helix(200Hz,超过人类反应速度)[6][10][11] - **泛化能力**:通过增强推理能力(如PALM-E引入大模型分析)实现任务迁移[6][9] **3 数据飞轮与硬件定型的关系** - **数据不足**是模型停滞的主因,需真机数据形成闭环,但当前硬件未定型导致数据采集风险高[3][15] - **特斯拉的核心作用**:硬件定型后,行业才能规模化采集真机数据,推动模型迭代[3][4][16] **4 模型架构演进** - 从**分层模型**(大脑与小脑分开训练)到**端到端模型**(联合训练,效果更优但难度大)[7][8] - **快慢脑架构**(如Helix):快脑(80兆Transformer)+慢脑(7B BLM),数据回传实现200Hz高频动作[11][12] **5 数据采集的现状与挑战** - **数据类型**:低质量互联网数据(预训练)、仿真数据(成本低但真实性不足)、真机数据(质量高但效率低)[13][14][15] - **动捕设备**: - **光学动捕**(亚毫米精度,成本高,如青铜视觉、凌云光)[19][23] - **惯性动捕**(IMU,灵活低成本,如诺伊腾,特斯拉采购Xs为观察指标)[18][19] - 当前真机数据采集效率极低(每小时3-4条,单条成本超10元)[16] --- 其他重要内容 **1 未来大模型方向** - 融入更多模态(语言、视觉、传感器等)[20] - **世界模型**:用数学符号模拟物理规律,实现仿真数据≈真机数据(英伟达Cosmos目前效果不佳)[21] **2 国内企业布局** - **银河通用**:全仿真数据路线,发布Grasp VLA模型(无序抓取高成功率)[22] - **心动剂元**:ERA大模型采用双系统架构(快慢脑),早于Figure提出[22] - **天奇**:工业数据采集代工+仿真数据训练[24] **3 投资标的建议** - **动捕设备**:凌云光(光学动捕)、青铜视觉[23] - **摄像头**:阿比[26] - **遥操作**:当红科技、景业智能(工厂及协作场景刚需)[25][26] --- 关键数据引用 - 动作频率:RT2(1-5Hz)、派林(50Hz)、Helix(200Hz)[6][11] - 动捕成本:真机数据单条采集成本超10元,100台机器人日采8-10万条[16] - 光学动捕精度:亚毫米级[19]
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
量子位· 2025-06-10 15:35
语言模型与视频模型的对比 - 语言模型通过预测下一个词学习,取得了显著成功,其算法为下一词预测+强化学习微调[9][10] - 视频模型通过预测下一帧学习,但效果远不如语言模型,尽管视频数据信息更丰富[13][14][17] - 语言模型能解决复杂问题和推理,而视频模型仅能生成逼真视频[19][20] 语言模型的优势与局限性 - 语言模型调用人类总结的知识,模仿已有推理结果,形成"抄近路"效应[22][24] - 语言模型仅接触文本"影子"(人类认知投影),却比直接观察物理世界的视频模型更具推理能力[25] - 语言模型是对人类认知的"逆向工程",而非真正理解世界[26][33] 柏拉图洞穴的类比 - 互联网被比作洞穴,真实世界比作洞穴外阳光,AI通过语言模型学习人类知识如同看到洞穴墙壁上的影子[31][32] - AI目前依赖人类中介(文本数据),长期目标是通过传感器直接与物理世界交互[34][35] - 跨模态连接被视为突破洞穴困境的潜在方法,需建立视觉、语言、行动系统的共享结构[35] 研究背景与作者观点 - 人类心智复杂性可能源自单一算法,AI复现该算法可达到人类智能高度[7][8] - 作者Sergey Levine为UC伯克利副教授兼Google Brain研究员,学术引用18万次[2][3] - 研究提出AI需突破"影子依赖",将语言模型作为通用AI的起点[34][35]