Workflow
世界模型
icon
搜索文档
端到端和VLA的岗位,薪资高的离谱......
自动驾驶之心· 2025-11-19 08:03
行业人才需求与市场状况 - 端到端和视觉语言动作模型技术人才需求旺盛,多家主机厂和供应商积极寻求引荐 [1] - 某招聘网站上3-5年经验的专家岗位月薪高达70k [1] 核心技术栈与趋势 - 技术发展路径从模块化量产算法演进至端到端,再到当前的视觉语言动作模型 [2] - 核心算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等前沿领域 [2] - 掌握端到端与视觉语言动作模型技术意味着掌握学术界和工业界最前沿的技术方向 [2] 自动驾驶VLA与大模型实战课程 - 课程聚焦视觉语言动作模型领域,涵盖从视觉语言模型作为解释器到模块化、一体化及推理增强视觉语言动作模型的三大方向 [2] - 配套理论基础包括视觉、语言、动作三大模块,以及强化学习、扩散模型等,并设有大作业章节指导学员从零搭建模型及数据集 [2] - 授课老师包括清华大学硕士生,在ICCV/IROS/EMNLP等顶级会议发表多篇论文,拥有多模态感知、视觉语言动作模型、大模型Agent等前沿算法预研经验 [7] - 授课老师包括QS30高校博士在读,在EMNLP/IROS/ICCV等会议发表论文,研究方向涵盖多模态大模型与视觉语言动作模型,其GitHub开源项目总Star数超2k [7] - 授课老师包括清华大学硕士生,在RAL/IROS/EMNLP发表论文,从事在线建图感知、视觉语言动作模型、大模型Agent等算法预研 [10] 端到端与VLA自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解BEV感知、大语言模型、扩散模型和强化学习 [11] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [11] - 授课老师为C9本科+QS50博士,已发表CCF-A论文2篇,现任国内顶级主机厂算法专家,从事端到端、大模型、世界模型等算法的预研和量产,并完成多项产品量产交付 [13] 课程面向人群要求 - 学员需自备GPU,推荐算力在4090及以上 [14] - 需具备一定的自动驾驶领域基础,熟悉基本模块,了解transformer大模型、强化学习、BEV感知等技术概念 [15] - 需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [15]
搞事情!AI天才扎堆虎嗅F&M之夜
虎嗅APP· 2025-11-18 14:17
活动概述 - 虎嗅F&M之夜举办了一场以95后AI天才创业者为主的私享派对 主题为“脑洞比算法还野” [2] - 活动采用限量闭门定邀制 聚集了150位AI创业者、新兴科学家、人文学者、创投大佬和科技品牌业务负责人 旨在提供直接的硬核资源对接 [24] 创业者与项目亮点 - Skyris创始人张宇诺提出为“不合群”个体创造专属AI数字宠物 其核心能力是“偏袒” 能深度理解并拥抱用户的独特喜好与微小情绪 [3][4] - Dreamoo创始人孙东来探索用AI技术构建“数字人生” 焦点在于捕捉和复现个体生命的独特痕迹与情感记忆 为生者的思念提供可感知、可交互的载体 [8] - 期音科技创始人殷渝杰从生物最原始的发音中寻找灵感 训练算法创造超越人类发声极限的旋律 旨在探索AI赋能下音乐的全新表达维度 [10][12] - 共绩科技联合创始人黄力昂聚焦“量子意识”前沿议题 探索自由意志的本质 试图拆解人脑与AGI的底层共同逻辑 [14] - 生境科技联合创始人庄子扬认为世界底层运行逻辑与推荐系统核心本质相通 都是“精准匹配供需” 其“连接需求与资源”的逻辑可作为理解复杂系统的新模型 [17][18] 跨界对话环节 - 活动包含深度对话环节 由2025虎嗅年度创作者榜得主卫诗婕主持 跨界集结了科技史学者张笑宇、极群科技创始人陈春宇、煜盛智元创始人叶宇轩、iMeanAI创始人尚晏仪等多领域专家 [21] - 讨论围绕“世界观是否被AI动摇”展开 从历史纵深、商业实战、技术前沿多维度进行碰撞 兼具理性思考与鲜活洞察 [21] 活动参与信息 - 活动线下对外开放最后20席少量名额 仅限AI行业相关人士报名 审核通过可锁定席位并加入AI原生长线社群 享受长期资源对接、闭门复盘交流和项目撮合等专属福利 [24] - 活动首次开放线上直播通道 用户可通过预约链接线上同步围观 [27] - 活动入场券不包含F&M创新节通票 创新节门票需另行购买 其中超值搭子票为300元双人两日 日均仅75元 [26][27]
李飞飞发文:空间智能将成AI攀登的下一座高峰
科技日报· 2025-11-18 13:17
文章核心观点 - 人工智能(AI)的发展正从“理解语言”迈向“理解世界”的新阶段,空间智能被认为是AI的下一个前沿,其目标是让AI具备在现实世界中感知、推理和行动的能力 [1][4][9] 当前AI的局限与空间智能的定义 - 当前以大型语言模型和多模态大模型为代表的AI系统,虽然在文本和图像生成上表现出色,但在物理世界的表征与交互上存在根本局限,例如在估算距离、方向、大小时的表现往往不及随机水平,且生成的视频在几秒内会失去连贯性 [4] - 这些局限使得AI难以真正赋能需要理解物理空间和因果关系的创造性工作,如教育、建筑设计、影视游戏创作等 [4] - 空间智能是人类认知的核心能力,它融合了想象、感知与行动,驱动着创造与推理,其核心在于实现从“知道”到“理解”的跨越 [4] - 具备空间智能的AI将能理解事物之间的关联与意义,从而真正拓展人类的创造力与理解力,带来从医疗健康到艺术创作等各领域的变革 [4] 实现空间智能的路径:构建世界模型 - 实现真正的空间智能需要突破现有大型语言模型的范式,转向构建一种能理解语义、几何、物理和动态规则的“世界模型” [6] - 这种世界模型应能感知多模态输入,预测场景变化,并与环境进行交互 [6] - 当前相关研究方向包括生成三维物体与场景的3D生成模型、模拟动态过程的物理引擎,以及通过交互学习的具身智能系统,但能整合全部能力的通用世界模型仍处于起步阶段 [6] - World Labs团队正在研发的世界模型可在语义与几何层面理解复杂3D场景,推理物理属性与交互关系,并生成连贯、可探索且遵守物理规律的虚拟空间 [6] - 其开发的Marble平台已应用此能力,使创作者无需传统3D建模工具即可快速创建和编辑完整的虚拟世界,标志着AI从生成图像迈向生成世界 [6] 空间智能的应用前景与影响 - 在创意与叙事领域,空间智能将重新定义创造方式,使导演、游戏设计师、建筑师及个人创作者能在三维空间中自由构建和可视化虚拟世界 [8] - 在机器人领域,空间智能是实现具身智能的关键,能让机器人在虚拟环境中高效训练、理解空间关系与人类意图,从而在从实验室到家庭的各类场景中安全协作 [8] - 在科学、医疗与教育领域,空间智能将成为人类探索的倍增器,AI可模拟实验、加速药物研发与影像诊断,并让学生“走进”分子或历史现场,使抽象知识具象化 [8] - 空间智能将重新定义AI的功能和行为方式,使机器从被动分析转向主动规划和适应,例如仓库机器人可动态规划路径,自动驾驶汽车可预测行人移动 [8] - 空间智能的目标是增强人类的专业判断力、创造力与共情力,让技术更深地服务于人性,帮助人类理解疾病、重塑叙事、陪伴脆弱群体并加速科学发现 [9] - 空间智能不仅将改变AI的能力,更将重塑人类“如何与世界共处”,标志着AI正迈向一个真正能理解现实的新时代 [9]
瞭望 | 何时摆脱遥控器
新华社· 2025-11-18 11:06
行业现状与公众认知 - 中国具身智能行业通过机器人表演如扭秧歌、跑马拉松、打拳击等技能展示快速发展,但当前多数高难度动作依赖人类工程师遥操或预设程序,实际自主能力有限 [1] - 行业存在“表面繁荣”现象,公众可能误判机器人成熟度,其距离“全自主”和“无所不能”仍有差距 [1] 大脑技术核心突破 - 实现自主智能需突破三大核心技术:VLA大模型(视觉-语言-行动模型)、端到端强化学习和世界模型,三者协同完成感知-决策-执行闭环 [3] - 银河通用发布的GroceryVLA模型使机器人能在零售场景自主理解指令(如“帮我拿点吃的”),无需遥操或预采数据即可规划路径并抓取物品 [3] - 清华大学团队采用端到端强化学习算法,在2025世界人形机器人运动会足球赛中实现机器人无遥操,直接将视觉信号映射为运动控制指令 [4] - 智元发布的世界模型GE通过模拟物理规律和环境动态,让机器人具备“脑内推演”能力,主动预判决策,并已完成“做三明治”等任务,其开放架构或成机器人界“安卓系统” [4] 迈向通用智能的核心挑战 - 触觉融入是重大挑战,需在VLA模型基础上增加力度、材质、温度等多维度触觉感知,但数据元素过多导致模型体量增大和难度提升,例如他山科技研发剥小龙虾任务需大量训练 [5] - 硬件层面需发展低功耗、高性能的专用芯片,并将大参数模型轻量化、小型化以保证任务性能 [5] - 算法泛化能力不足,当前最先进模型在3D情景问答任务中准确率为55%~60%,远低于人类的90.06% [6] - 群体智能(多机器人协同)是待攻克课题,但部分场景技术突破乐观估计需三五年 [6] 分级标准与场景落地 - 借鉴智能驾驶分级,行业推出如《人形机器人分类分级应用指南》等标准,建立四维五级评价体系(感知、决策、执行、协作),以加速技术对齐和产品落地 [7][8] - 封闭场景(如工厂车间)因环境可控,适合高等级机器人执行高精度装配等复杂任务;开放场景不确定性高,可用低等级机器人进行引导服务等,逐步积累经验 [8]
李飞飞给AGI泼了盆冷水
36氪· 2025-11-18 08:17
AI发展路径与当前局限 - 现代AI的黄金配方是神经网络、大数据与GPU的结合,ChatGPT的成功仍基于此配方[4][5] - 单纯依靠扩大数据规模和算力的Scaling Law不足以实现智能突破,当前AI仍难以完成精确计数物体、推导物理定律等对人类简单的任务[1][8] - 距离具备创造力、抽象能力和情感智能的AI系统还有很长的路,需要根本性的技术创新而非简单堆叠算力[1][9] 对AGI概念的看法 - AGI定义模糊,更像营销话术而非严谨科学术语,科学家应关注解决根本性技术挑战而非概念争论[1][7] - AI与AGI的区别不明确,该领域核心问题始终是机器能否像人一样思考和行动[7] 空间智能与世界模型的前景 - 语言智能不足,人类在关键场景依赖空间智能,研究空间智能对机器人、具身智能发展有极大作用[3][9] - 世界模型是推动AI下一阶段发展的关键,能生成完整虚拟世界并让智能体互动推理,是机器人规划操作的基础[9][10] - 空间智能可增强人类在空间理解、物体操作和现实世界任务中的能力,并影响设计、工程和科学发现[10] 机器人技术与创业挑战 - 机器人领域数据极难获取,缺乏结构化动作标注,且涉及物理系统、硬件等复杂因素,"苦涩的教训"不完全适用[15][16] - 自动驾驶发展近20年仍未完全成熟,而三维空间操控物体的机器人技术面临更大挑战[3][16] - AI创业竞争空前激烈,涉及模型技术之争和顶尖人才争夺,World Labs团队拥有约30人[12][14] 历史项目与核心理念 - ImageNet项目收集了1500万张图片、2.2万个物体类别,为现代AI发展奠定基础[5] - AI进步是几代研究者共同积累的成果,而非个人奇迹[6] - World Labs产品Marble能通过一句话或一张图像生成可探索的三维世界,核心关注空间智能而非仅生成视频[11]
做了一份端到端进阶路线图,面向落地求职......
自动驾驶之心· 2025-11-18 08:05
文章核心观点 - 市场对端到端和视觉语言动作模型技术人才需求旺盛,主机厂和供应商积极寻求相关专家,3-5年经验的专家岗位月薪高达70k [1] - 为满足行业学习需求,公司联合工业界和学术界专家推出两门实战课程,分别聚焦VLA大模型和端到端自动驾驶技术 [1][10] 课程内容与技术方向 - 自动驾驶VLA与大模型实战课程由学术界团队主导,课程体系覆盖从视觉语言模型作为解释器到模块化VLA、一体化VLA及推理增强VLA的全链路技术 [1] - 课程配套理论基础模块,包括Vision/Language/Action三大组件、强化学习、扩散模型等,并通过大作业指导学员从零搭建VLA模型及数据集 [1] - 端到端与VLA自动驾驶课程由工业界专家带队,重点讲解一段式/两段式端到端算法,核心技术点包括BEV感知、大语言模型、扩散模型和强化学习 [10] - 端到端课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法,紧密结合工业界量产实践 [10] 师资力量与团队背景 - 课程讲师团队由清华大学硕士、QS30高校博士等顶尖学术背景人才组成,在ICCV、IROS、EMNLP、Nature Communications等顶级会议和期刊发表多篇论文 [6][9] - 工业界讲师具备C9本科和QS50博士学历,现任国内顶级主机厂算法专家,拥有端到端算法和大模型预研及量产交付经验,已发表多篇CCF-A/B类论文 [12] - 讲师团队长期维护GitHub开源项目,总Star数超过2k,具备扎实的多模态大模型研发能力和丰富的自动驾驶实战经验 [6] 目标学员与技术要求 - 课程面向具备一定自动驾驶领域基础的学习者,要求熟悉自动驾驶基本模块和transformer大模型、强化学习、BEV感知等技术概念 [14] - 学员需具备概率论、线性代数基础和常用的数学运算能力,同时要求掌握一定的Python和PyTorch编程语言基础 [14] - 硬件方面要求学员自备GPU,推荐算力在4090及以上级别以满足课程实战需求 [13]
腾讯研究院AI速递 20251118
腾讯研究院· 2025-11-18 00:18
Meta AI绩效考核与工具应用 - Meta将从2026年起正式将"AI驱动的影响"纳入员工绩效核心指标 考核员工利用AI提升工作成果及团队生产力[1] - 公司推出"Level Up"闯关游戏项目和AI绩效助手工具 鼓励员工尽可能多使用内部AI聊天机器人Metamate[1] - Meta允许部分求职者在编码面试中使用AI助手 认为这更能代表真实开发环境[1] 谷歌NotebookLM多模态功能升级 - 谷歌NotebookLM于11月15日新增图像数据源功能 支持自动完成OCR光学字符识别和语义解析[2] - 底层多模态模型能分辨手写与印刷区域 提取表格结构 并与用户已有的文本 音频 视频笔记自动关联[2] - 功能上线48小时内教育账号上传图像量突破50万页环比增加340% 谷歌计划明年集成AR眼镜实时拍摄接口[2] 阿里千问APP公测与场景覆盖 - 千问APP公测版正式上线 底座是Qwen3模型 提供All in One入口让用户免费体验整套AI能力[3] - 该应用将陆续覆盖办公 地图 健康 购物等多个生活场景 让AI成为日常伙伴[3] - 千问将持续进化并上线Qwen最新模型 目前已在国内各大应用商店上线可搜索下载[3] 智谱GLM Coding Plan产品与市场表现 - 智谱"GLM Coding Plan·特供版"优惠包月套餐上线 在新人首购5折基础上再叠加额外8折 每月最低仅16元[4] - 基于旗舰模型GLM-4.6驱动 在LMArena百万开发者评测中与Claude Sonnet 4.5 GPT-5并列全球第一 支持200K超长上下文[4] - 已官方适配Claude Code Cline Roo Code等10+主流AI编程工具 多家美国科技公司如Cerebras Vercel已采用GLM-4.6[4] 小米智能家居AI解决方案 - 小米推出首个"大模型+智能家居"解决方案Miloco 以米家摄像头为视觉信息源 自研大语言模型MiMo-VL-Miloco-7B为核心[5] - 用户可通过自然语言与智能家居系统对话沟通 系统自动完成家庭生活中的各类智能需求和规则[5] - 小米AIoT平台已连接IoT设备数近10亿台 Miloco通过标准化MCP协议实现米家生态与Home Assistant生态打通[5] MiroMind开源模型技术突破 - MiroMind推出开源智能体基座模型MiroThinker v1.0 提出全新"深度交互Scaling"维度 支持256K上下文和600轮工具调用[6] - 在BrowseComp测试中准确率达47.1%逼近OpenAI DeepResearch的51.5% 中文任务BrowseComp-ZH超越DeepSeek-v3.2达7.7个百分点[6] - 采用彻底开源架构开放所有模型权重 工具链和交互框架 72B版本逼近甚至超越OpenAI DeepResearch[6] 医疗AI模型临床应用成果 - 未来医生AI工作室核心模型MedGPT在32位国内顶尖临床专家组织的多模型实战测评中击败GPT-5等国际前沿大模型[7] - 推出临床决策AI助手和患者随访AI助手两款产品 分别在诊中提供决策辅助 在诊后支撑患者随访实现慢病管理[7] - 已被数十位全国学科主委纳入日常使用 被专家一致认为是AI赋能基层医疗的"最佳实践"[7] 世界模型理论与应用发展 - 李飞飞直言AGI"更像营销术语而非科学术语" 强调当前AI最大短板是缺乏空间智能这种三维世界导航操控能力[8] - 阐述世界模型三个核心能力:生成性 多模态和交互性 认为仅靠数据和算力无法让机器人真正成熟[8] - World Labs发布全球首个大型世界模型产品Marble 在影视制作 游戏开发等领域获得广泛应用 创作时间缩短40倍[8]
AI为啥不懂物理世界?李飞飞、杨立昆:缺个「世界模型」,得学大脑新皮质工作
量子位· 2025-11-17 21:23
文章核心观点 - AI领域顶尖专家杨立昆和李飞飞均指出当前大语言模型的局限性,并强调发展“世界模型”是通往通用人工智能的关键路径[1][3][4] - “世界模型”的核心在于让AI系统具备理解物理世界、进行预测和规划的能力,其灵感来源于动物和人类大脑的智能行为学习机制[5][6][8] - 人类大脑新皮质的生成模型特性(如填补性、逐一性、无法忽视性)是实现模拟、想象和预测的基础,这为构建AI“世界模型”提供了神经科学依据[11][12][13][15][16][20][27][29][31][32] AI专家动态与研究转向 - 杨立昆计划离开Meta,筹备以“世界模型”为核心的AI公司[1] - 李飞飞提出AI未来应聚焦“空间智能”,而非单纯扩大语言模型规模[3] - 两位专家共同认为“世界模型”能弥补当前AI系统在物理理解、行为预测等方面的不足[4][6] 当前AI系统的局限性 - AI无法产出完全接近现实的视频,也未发明出能完成家务的实用机器人[5] - 系统缺乏对物理世界的理解,如距离、大小、远近等基本概念[5][6] - 过度依赖语言和符号,忽视了动物所展现的更基础、更早进化的智能行为[6] 人类感知特性与生成模型 - 人类感知具有三大属性:填补性(自动补全缺失信息)[12][13]、逐一性(一次只能选择一种解释)[15][17]、无法忽视性(一旦形成解读便难以推翻)[16][20] - 亥姆霍兹提出感知是“推断”过程,即大脑模拟现实而非直接感知输入[20][27] - 杰弗里·辛顿的“亥姆霍兹机器”通过生成与识别模式切换,实现了无监督学习手写数字识别与生成[21][22][25][26] - 生成模型能解释人类幻觉、做梦、睡眠及想象等机制,新皮质在生成模式下可模拟现实[27][28][29] “世界模型”的智能行为基础 - 大脑新皮质支持规划、情景记忆和因果推理等高级智能行为[33] - 想象力与感知共享同一系统,想象时瞳孔扩张,实际视觉处理暂停[30] - 预测能力依赖持续对比模拟数据与实际感觉,异常触发即时反应(如踩空警觉)[31][32] 行业应用与前沿探索 - 麦克斯·班尼特通过研究大脑进化史,著书《智能简史》架起神经科学与AI的桥梁[10][35] - 其创立的AI公司Alby致力于整合大语言模型至企业网站,提升智能化导购与搜索体验[37] - 班尼特曾联合创立的Bluecore估值突破10亿美元,为全球顶尖公司提供AI技术服务[37]
为什么在海外招到「对的人」这么难?
Founder Park· 2025-11-17 18:08
活动核心信息 - 活动主题为探讨AI企业在海外市场如何招聘到合适人才以及管理全球化团队[4][8] - 活动形式为线上闭门Workshop 采用筛选制 名额有限[5] - 活动时间为11月25日晚20点[5] 出海企业招聘挑战 - 出海公司普遍面临招聘难题 尤其是在海外市场招到“对的人”非常困难[2][4] - 许多出海AI产品的团队配置是开发团队在国内 增长团队大多在海外[3] - 在陌生海外市场 精准识别与团队文化及核心能力匹配的人才是一大挑战[7] 活动探讨议题 - 探讨如何调整传统招聘漏斗和评估体系以适应海外市场[7] - 讨论在预算有限情况下 如何利用小红书 X等社交平台运营雇主品牌[7][8] - 解决跨境薪酬支付 雇佣政策合规 远程团队协作等管理难题[7][8] 目标参会人群 - 活动欢迎有出海业务 计划或正在搭建全球化团队的科技类公司创始人及相关业务负责人参加[8]
李飞飞站队LeCun,AGI全是炒作,80分钟重磅爆料出炉
36氪· 2025-11-17 17:52
AI发展历程与驱动力 - 21世纪初AI领域处于漫长寒冬,更常被称为机器学习,公众关注度低且资金投入少[10][14] - 2006-2007年启动ImageNet项目,从互联网搜集1500万张图像并打上22000个类别的精准标签,该项目开源并启动年度挑战赛[21][23] - 2012年多伦多大学研究团队使用2块英伟达GPU和ImageNet数据训练出AlexNet,标志着深度学习与现代AI起步的关键时刻[23][24] - 大数据、神经网络和GPU构成现代AI发展的黄金三件套[6][26] - 2015年中至2016年中,硅谷大厂刻意避谈AI一词,一年后AI拐点出现,众多公司开始将自己定位为AI公司[26] 世界模型与空间智能 - AI未来十年的下一个前沿是空间智能与世界模型,其核心在于将语言之外的智能、具身AI机器人和视觉智能串联起来[28][33] - 世界模型被定义为一个基础层,通过输入一张图或一句话即可生成一个可无限探索的3D世界,人们可在此基础上进行推理、交互和创造[37][38] - 人类作为具身智能体同样能从世界模型和空间智能中获益,例如科学家通过2D X射线衍射照片在脑海中构建3D模型从而发现DNA双螺旋结构[39] - 2024年通过TED演讲系统化阐述空间智能和世界模型理念,并创办World Labs公司以推动该领域发展[34][36] 技术应用与行业影响 - World Labs推出的Marble平台应用于电影虚拟制片、游戏互动内容及机器人模拟训练等领域[41] - 在电影拍摄中,Marble平台通过描述生成可导航的3D世界,使虚拟摄像机自由走位且场景可反复修改,艺术家团队称制作时间缩短40倍[43] - 游戏开发者可将Marble生成的世界导出至游戏引擎用作关卡原型,助力小团队打造大片级场景而不受美术资源限制[43] - 机器人领域面临数据困境,其输出为真实三维世界中的动作,训练数据极难获取,需通过遥操作、合成环境等方式收集[44][45] - 机器人是物理系统,更像自动驾驶汽车而非大语言模型,需同时解决算法模型、硬件本体和应用场景问题,发展路径漫长且挑战多维[45][46] 研究理念与未来方向 - 智能通过大数据学习获得,关键是为机器人提供足够多且多样的世界经验,Marble平台通过提示词生成各种场景供机器人在虚拟世界练习[46] - 在AI与AGI之间没有清晰科学界限,AGI更像营销用语而非严谨科学术语,其定义未统一[26] - 研究者应关注最令人兴奋且难以入眠的科学问题,而非仅聚焦盈利最多的领域,同时不过度放大失败可能性,并重视团队协作价值[47]