Workflow
世界模型
icon
搜索文档
小米社招&校招 | 自动驾驶与机器人具身智能算法研究员 (VLA方向)
具身智能之心· 2025-07-01 20:07
职位描述 - 公司正在招聘研究员/科学家加入前沿探索团队,致力于构建下一代自动驾驶与机器人的"大脑",重点研究具身基座模型 (Embodied Foundation Model) [1] - 该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能力 [1] 核心职责 - 前沿算法研究与构建:设计和实现领先的具身多模态大模型,探索构建能够理解复杂三维世界并进行长时序、多步骤任务规划的世界模型 (World Model) [2] - 核心模型能力攻关:主导模型在多模态场景理解、复杂语义推理与决策、学习与适应机制等方面的突破 [3] - 技术愿景与路线图:构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力 [3] - 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题,在顶级会议上发表高水平论文 [3] 职位要求 - 教育与研究背景:计算机科学、人工智能、机器人学、自动驾驶或相关领域的博士学位,或具备同等深度的研究经验 [4] - 核心研究经验:在多模态大模型、自动驾驶与具身智能、强化学习等领域有深入的研究和实践经验 [5] - 三维视觉与空间智能:具备扎实的3D计算机视觉、几何学和空间推理能力,熟悉NeRF, 3D Gaussian Splatting等技术 [6] - 理论与编程能力:在顶级会议上发表过高质量论文,具备跨学科视野,能够融会贯通大模型、自然语言处理、计算机视觉、强化学习与机器人学知识 [7] 加分项 - 拥有坚实的机器学习和深度学习理论基础,精通Python及主流深度学习框架 [10] - 具备世界模型研究经验、大规模预训练经验、机器人平台经验或开源社区贡献 [11] 工作地点 - 工作地点以北京为主,少量上海职位 [9] - 简历投递至指定邮箱,需备注社招/校招+姓名+岗位+自动驾驶之心推荐 [9]
“三年实现商业化”,哈啰如何跑通Robotaxi?
21世纪经济报道· 2025-07-01 18:03
行业趋势与竞争格局 - L4级Robotaxi被视为自动驾驶领域的"皇冠上的明珠",行业从技术研发转向规模化和商业化竞争阶段 [1] - 行业形成"黄金三角"格局:传统车企、自动驾驶技术公司、运营平台三方协同 [1] - 技术路径日益清晰,新能源和智能化产业链成熟为后发者提供产业红利 [3] 公司战略与商业模式 - 采取轻资产平台模式,不涉足整车制造,专注打造可接入的运营平台 [3][4] - 差异化竞争策略:构建多层次运营平台,整合不同车企和技术合作伙伴的运力 [4] - 通过共享运维体系(充换电/清洁维护/停车场等)和底层地图数据降低合作伙伴成本 [4] - 计划三年内实现商业化落地,短期聚焦国内市场,远期拓展海外业务 [9][15] 技术路线与研发投入 - 首期获得蚂蚁集团、宁德时代等30亿元融资用于L4技术研发 [2][6] - 采用"双轮驱动"技术路线:结合多传感器冗余系统与AI数据驱动 [13] - 重点攻克端到端大模型应用和世界模型技术,解决长尾数据稀缺问题 [9] - 利用两轮车运营积累的高精度定位和系统调度经验迁移至四轮车领域 [7][8] 运营优势与数据积累 - 依托母公司共享单车业务积累的用户数据和本地化运营经验 [2] - 专注解决长尾数据问题,针对性获取和训练未解决的场景数据 [5] - 借鉴共享单车资产运营经验,通过系统化调度降低Robotaxi持有成本 [12] 商业化路径与成本结构 - 国内网约车单价约为海外1/3(海外约1美元/分钟),促使公司布局全球化 [15] - 中国车辆进入海外市场具有成本优势,预估海外运营成本是国内2-3倍 [15] - 通过前装量产和普惠策略降低单车成本,加速UE(单位经济效益)打平 [3][8]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
头部Robotaxi专家小范围交流
2025-07-01 08:40
纪要涉及的行业和公司 - **行业**:自动驾驶行业 - **公司**:特斯拉、vivo、百度、小马智行、文远知行、Pony、小鹏、理想 纪要提到的核心观点和论据 1. **自动驾驶主流方案**:当前主流采用局部端到端两阶段模型,前端感知和预测利用 CNN 结合 LLM 增强环境理解,规划控制侧重基于规则的方法保障安全,旨在平衡复杂度与可靠性[1][2] 2. **特斯拉技术路径优劣势** - **优势**:响应速度快,车载系统响应及时;处理复杂场景能力强,一段式操作解决多模块联合问题表现出色[3] - **劣势**:训练过程复杂,监督难以构造;数据采集与标注困难,训练时比局部端到端方法面临更大挑战[3] 3. **国内 L4 级别自动驾驶系统优势**:在驾驶舒适性、复杂路况安全性及急弯场景路径规划方面优于特斯拉,国内公司通过多传感器融合提升感知能力,更适应国内复杂交通环境[1][6] 4. **L4 级别自动驾驶系统硬件需求** - **激光雷达**:是刚需,在夜间和恶劣天气下能有效识别物体形状,避免纯视觉方案的感知缺陷,但数据量庞大,对算力需求较高[1][9] - **芯片**:实现 L4 功能对芯片算力要求高,英伟达芯片性能和稳定性优异,国产芯片在尖峰性能、平均性能和生态支持上与英伟达有差距,但美国制裁推动国产替代,可显著降低成本,如地平线芯片可节省 80%成本[1][12] 5. **限制车队规模扩大的因素**:单车成本高(目前约 80 万,大规模量产需降至 30 万以内)、监管限制(只能部署在特定区域)、人力成本和基础设施建设不足(缺乏专业云控驾驶员及后台服务器支持)[16] 6. **政府相关政策和要求** - **Robotaxi 运营**:需先在特定区域测试收集数据,提供给政府获批准后开放区域运行[17] - **自动驾驶牌照发放**:政府每年限定牌照数量,申请者提交公用指标数据初步筛选,通过仿真软件模拟场景监控自动驾驶能力,结合两者结果决定发放对象,牌照数量逐渐递增[18] 7. **世界模型**:在自动驾驶中发挥重要作用,不同车企之间存在差异,整体框架包括动态障碍物重建和静态环境重建,但细节差距大,如小鹏、理想等采用 3D 高斯等高精度方法,其他企业可能采用游戏引擎方式模拟[20] 8. **L4 级别公司解决问题的方法**:通过大量测试和仿真技术解决常见问题,利用数据孪生构建仿真环境,发现并解决问题,更新算法并积累数据,降低人力成本,提高效率[2][14] 其他重要但是可能被忽略的内容 1. **PNC 未用更多模型驱动的原因**:训练和推理过程中的数据问题,自回归会使未见过的数据偏差累积,未见过的数据可能导致危险行为[4][5] 2. **政府仿真软件及评价指标**:以北京交管局为例,使用基于国外的通用平台软件添加各种随机场景评估,评价体系不复杂,国内厂家能做类似软件[19] 3. **生成数据与大语言模型的关系**:生成数据基于已训练好的大语言模型框架,可提供优质数据,减少对真实数据的依赖[23] 4. **人员招聘来源**:从百度、美国公司、Vivo 等企业挖掘高端人才,应届生主要来自清华、北航、北邮、中科大、中科院和浙大等高校[25] 5. **国内与海外引进人才对比**:国内人才数学基础扎实,项目执行和攻坚能力强;海外引进人才眼界高,有新奇想法,工作规范[26][27] 6. **自动驾驶领域未来技术迭代**:短期无太大技术变革,重点是将大语言模型融入自动驾驶系统,若实现将带来巨大飞跃[28]
AI专家给奥特曼泼凉水:纯LLM从未真正理解世界,以此构建AGI没希望
36氪· 2025-06-30 17:29
通用人工智能发展现状 - OpenAI首席执行官认为通用人工智能即将实现[2] - 认知科学家马库斯指出生成式AI缺乏稳健世界模型是致命缺陷[2][3] - 苹果公司研究揭示大语言模型在逻辑推理和数学计算中频繁出错[3][4] 大语言模型的结构性缺陷 - 大语言模型依赖语料统计而非世界建模 无法跟踪事件进展或理解因果关系[7][9] - 模型缺乏动态更新的内部数据结构 如事件变量和角色状态[9][10] - 在象棋等规则明确任务中频繁违规 如棋子横向移动或跳马吃子[4][10][14] 世界模型的核心价值 - 世界模型是智能系统感知和追踪现实的核心框架 人类和动物均具备该能力[5][8] - 传统AI设计以世界模型为基础 如图灵1949年象棋程序包含动态棋盘模型[6][9] - 当前大语言模型放弃世界建模 仅依靠语言统计模拟思维过程[9][11] 缺陷导致的系统性风险 - 生成内容存在"知识错觉" 如虚构书籍标题或错误计算8.8-8.11=-0.31[13][17] - 图像生成违反常识 如绘制五条腿的狗或倒挂姿势错误[17][21] - 视频理解遗漏关键行为 如忽略猴子抢包的核心事件[21][22] 商业应用中的具体问题 - Anthropic实验显示AI经营商店时持续亏损并做出反逻辑决策[23] - 模型无法理解商业基本概念 如顾客结构或定价策略[23] - 在井字棋测试中 替换符号即导致模型丧失胜负判断能力[23] 安全与责任隐患 - 系统提示限制易被绕过 如详细生成化学武器制作指南[25] - 生成危险建议时缺乏生死概念 如论证被车撞有益健康[25] - 医疗法律等关键领域出现虚构案例或错误建议[24][26] 行业技术路径争议 - 主流模型依赖参数规模和数据量 忽视结构化世界理解[11][15] - 统计拟合无法替代模型驱动的设计路径[15][16] - 智能系统必须构建可更新的世界模型而非依赖语言统计[11][28]
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 14:38
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI LeCun在干嘛呢? 就在扎克伯克亲自带队Meta的AI项目,千亿薪酬挖得硅谷人心浮动之际。Meta在AI领域最负盛名的大佬、图灵奖得主、深度学习三巨头之一 的Yann LeCun,却几乎声量全无,他没有参与LLM基础模型的研发,也开始在社交网络上消停了。 LeCun是要离开Meta了吗? 不不不。他可能只是在憋自己想追逐的大招,比如——世界模型。而且就在最近,LeCun团队的世界模型新进展来了。 名叫 PEVA模型 ,新突破是让具身智能体学会这人类一样的"预判能力",首次实现16秒连贯场景预测。怎么说呢?就像人类伸手时会预判手 臂进入视野的角度、走路时会提前观察脚下路径,LeCun团队的最新模型,可以让机器人实现这样的能力。 该模型通过 结构化动作表示将 人体48维关节运动学数据与 条件扩散Transformer 结合。 利用VAE编码视频帧、自适应层归一化嵌入动作条件及跨历史帧注意力机制等,实现了从全身动作 预测第一视角视频 的高精度生成与长期时 序连贯。 PEVA模型让具身智能体不再依赖"上下左右"这种抽象信号进行训练,而是以 第一人称视角的视频+全 ...
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 12:02
研究背景与目标 - 研究聚焦于开发能在开放世界图形用户界面(GUI)中自主探索的智能体,这是实现通用人工智能(AGI)的关键路径之一 [2] - 当前大语言模型(LLMs)和视觉语言模型(VLMs)已展现出跨领域任务泛化能力,为GUI智能体开发奠定基础 [2] - 吉林大学团队提出《ScreenExplorer》项目,旨在训练视觉语言模型实现GUI环境自主探索 [3] 方法论创新 - 构建实时交互的在线强化学习框架,智能体通过鼠标/键盘函数调用与真实GUI环境交互 [10][11] - 引入"好奇心机制"解决开放环境反馈稀疏问题,利用世界模型预测状态转移并估算新颖度 [10] - 采用"经验流蒸馏"训练范式,将每代智能体探索经验自动提炼用于下一代微调 [10] - 设计启发式+世界模型驱动的奖励体系,包含轨迹差异奖励、好奇心奖励、格式奖励和意图对齐奖励 [12] - 采用GRPO算法进行强化学习训练,实现多环境并行推理与实时策略更新 [14][15] 实验结果 基础模型表现 - 未经训练的Qwen2 5-VL-3B模型仅能随机点击屏幕,无法打开任何软件 [17] - 经过初步训练后,3B模型可成功打开桌面软件,7B模型能完成"加购物车"完整流程 [18][20] 性能对比 - ScreenExplorer-3B-E1训练后探索多样性达0 51,显著优于基础模型Qwen2 5-VL-3B的0 21 [23] - 7B版本ScreenExplorer-7B-E1表现更优,探索多样性达0 54,超过专用GUI模型doubao-1 5-ui-tars的0 45 [23] - 世界模型好奇心奖励对训练至关重要,去除后模型无法突破冷启动阶段 [26][28] 涌现能力 - 训练后智能体展现出跨模态翻译、现状计划制定和复杂推理等新能力 [29][32][34] - 探索产生的"意图"字段可自动生成标注数据,为后续任务训练提供基础 [34] 技术价值 - 首次实现视觉语言模型在真实GUI环境中的自主探索训练 [35] - 经验流蒸馏技术显著降低对人工标注数据的依赖,实现能力自主进化 [10][35] - 为开发更自主的智能体和实现AGI提供了可行的技术路径 [35]
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
机器之心· 2025-06-26 12:35
近年来,随着人工智能从感知智能向决策智能演进, 世界模型 (World Models) 逐渐成为机器人领域的重要研究方向。世界模型旨在让智能体对环境进行建模并 预测未来状态,从而实现更高效的规划与决策。 与此同时,具身数据也迎来了爆发式关注。因为目前具身算法高度依赖于大规模的真实机器人演示数据,而这些数据的采集过程往往成本高昂、耗时费力,严重 限制了其可扩展性和泛化能力。尽管仿真平台提供了一种相对低成本的数据生成方式,但由于仿真环境与真实世界之间存在显著的视觉和动力学差异(即 sim-to- real gap),导致在仿真中训练的策略难以直接迁移到真实机器人上,从而限制了其实际应用效果。 因此如何高效获取、生成和利用高质量的具身数据,已成为当 前机器人学习领域的核心挑战之一 。 项目主页: https://horizonrobotics.github.io/robot_lab/robotransfer/ 模仿学习(Imitation Learning)已成为机器人操作领域的重要方法之一。通过让机器人 "模仿" 专家示教的行为,可以在复杂任务中快速构建有效的策略模型。然 而,这类方法通常依赖大量高质量的真实机器 ...
特文特大学Vanessa Evers:构建机器人的“世界模型”是实现社交智能的关键
齐鲁晚报· 2025-06-25 14:38
社交智能机器人发展现状 - 行业正在探索如何与社交智能机器人共存,相关讨论在2025天津夏季达沃斯分论坛"与社交机器人共舞"中进行 [1] - 实现机器人社交智能需构建"世界模型",需整合多感官输入(如听觉、视觉)以预测动态行为 [3] - 当前技术局限在于"世界模型"需将整个环境数字化,目前仅能在教室、医院等有限场景中尝试 [3] 技术路径与创新方向 - 机器人可通过分析YouTube视频学习人类表情与礼仪,但其工作方式不必完全模仿人类(如使用优化机械臂而非仿人手臂) [3] - 软体机器人面临能源传输挑战,需开发类似人体血液的高效能量传输系统,但电池技术进展缓慢 [3] - 社交机器人可被视为"外星人",拥有独特语言但能与人类无缝协作 [3] 应用场景与伦理考量 - 技术初衷包括帮助无自我表达能力的儿童,例如通过数字化人体信号模拟疼痛状态 [3] - 需防范技术滥用风险,要求政府与公众共同界定技术发展方向和应用边界 [3]
【私募调研记录】深圳领峰资产调研四维图新
证券之星· 2025-06-25 08:10
公司调研纪要 - 四维图新介绍智驾平权成为行业趋势 中高阶辅助驾驶功能逐步下沉至中低端车型 智驾业务成为龙头业务 [1] - 数据合规业务增长趋势明确 AI增强的数据闭环有助于车企实现算法快速迭代与优化 [1] - 世界模型用于行为预测 轨迹生成等关键模块 并面向OEM及Tier1进行产品化输出 [1] - 智驾订单需达到一定销量以获得规模效应 内部成本控制和运营效率提升对盈利改善有积极影响 [1] - 政策强化监管框架 推动行业高质量发展 规范宣传与明确功能边界有助于行业整合 主机厂承诺支付账期不超过60天有助于公司经营现金快速回笼 [1] 杰发科技业务进展 - 杰发科技专注汽车电子芯片设计 SoC和MCU产品线通过车规认证并稳定量产 第五代SoC产品舱行泊一体芯片AC8025AE已发布 [1] - 2024年营收年增长超过12% 2024年至2025年Q1新增300万套基础行车定点及60万套舱泊产品定点 有信心在2025年实现大幅减亏 [1] - 两轮车新国标实施 给杰发科技SoC座舱产品带来新的市场与需求 配合头部车企出海需求也有利于SoC产品矩阵分层次有效落地 [1] - 车规级MCU芯片AC7870成功点亮并发布 支持ISO 26262 ASIL-D功能安全标准 适用于域控 区域控制 动力底盘等多个场景 [1] - 杰发科技推进车规级SoC和MCU两条产品线全链条国产化 已有产品在中国大陆完成设计 封测和晶圆制造 [1] 产品应用场景 - SoC集成度和系统复杂度更高 偏向综合处理和系统预算 MCU着重于实时领域的控制任务 通常用于成本 功耗和可靠性有较高要求的应用 [1] - SoC应用于舱驾一体 智能座舱和仪表三大场景 MCU应用于数字钥匙 车灯 组合开关等10大核心场景 [1] - 与不同云厂商合作覆盖多个关键领域 发挥各自相对优势 为基础云平台提供支持 [1] 机构背景 - 深圳市领峰资产管理有限公司成立于2011年4月 注册资本1000万元 基金业协会备案号P1003610 [2] - 公司由多名证券公司 公募基金 其他私募基金的高端人才担任基金经理 主要的投资管理和研究人员都具有10年以上的投资研究经验 [2] - 公司具备扎实系统的投资研究经验和强大的规模资产投资管理能力 [2]