Workflow
强化学习
icon
搜索文档
开年收到了很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2026-01-06 17:17
自动驾驶领域学术研究趋势与方向 - 行业观察到自动驾驶领域的研究方向呈现前沿与差异化并存的格局 前沿方向包括视觉语言模型、端到端自动驾驶、强化学习、3D高斯泼溅和世界模型[2] 相对竞争较少的赛道包括开集目标检测、占据网络以及小样本/零样本学习[2] - 针对不同专业背景的研究者 行业建议采用差异化的学习路径 计算机和自动化背景的研究者更适合深度学习相关的前沿方向 如视觉语言模型、端到端和世界模型 因其在职业和学术发展上空间广阔[2] 机械和车辆背景的研究者则建议从传统规划与控制、3D高斯泼溅等方向入手 这些方向对算力要求较低且更易入门[2] - 行业普遍认为 研究能力的提升依赖于持续的方法论训练 包括大量阅读论文、积极交流并逐步形成独立的思考和创意[2] 论文辅导服务覆盖的研究方向 - 公司提供的论文辅导服务覆盖了自动驾驶领域广泛的研究与技术方向[3] 核心感知方向包括端到端模型、视觉语言模型、3D目标检测、BEV感知、占据网络、语义分割、轨迹预测、单目感知以及车道线与在线高精地图构建[3] - 服务同时涵盖规划控制与前沿模型技术 具体包括运动规划、强化学习、扩散模型、流匹配[3] 在多模态融合与特定传感器领域 服务涉及多传感器融合、点云感知和毫米波雷达感知[3] - 其他支持的研究方向还包括3D高斯泼溅和多任务学习[3] 论文辅导服务内容与成果 - 公司提供的核心服务包括论文选题、论文全流程指导以及实验指导[6] - 服务延伸至博士申请指导领域[7] - 公司宣称其中稿率很高 并有大量论文被顶级会议和期刊收录 包括CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等[7] 论文辅导服务的目标发表渠道 - 公司辅导的论文目标发表渠道涵盖自动驾驶领域的顶级会议 包括CCF-A、CCF-B、CCF-C等级别的会议[10] - 目标期刊包括SCI一区至四区 以及中科院分区的一区至四区期刊[10] - 服务也支持EI检索期刊、中文核心期刊的发表 并覆盖毕业设计论文、博士申请以及竞赛相关的论文需求[10]
海尔消费金融2025年“特征英雄”落下帷幕,数智化风控质效显著
搜狐财经· 2026-01-06 15:50
公司近期活动与成果 - 海尔消金2025年“特征英雄”活动圆满收官 该活动旨在激发全员坚持数据科学驱动理念 深度挖掘金融服务场景中数据驱动的核心价值 扩充多维数据样本并验证数据特征核心优势[1] - 活动共吸引32名员工参与 从海量数据中挖掘出2023个高质量特征 相当于为风控系统增添了2023个新工具与新视角[5] - 2025年公司智能风控系统累计上线实时特征达10,427个 同比大幅增加70%[6] - 公司通过举办此类竞赛活动 激发全员拥抱AI的热情 强化数据驱动理念 挖掘数据资产 拓展特征来源和衍生技术 以服务实际业务并持续输出落地价值[6] 风控技术应用与创新 - 公司利用大模型替代人工对语音数据进行批量处理 提取有效信息用于信贷模型研发 以降低信用风险[5] - 公司挖掘信贷场景中时序特征的潜在价值 突破传统“静态快照”局限 利用RNN、Transformer等序列模型解析用户信息时序数据 精准识别“以贷养贷”行为以阻断风险传导[5] - 通过使用多模态大模型 提升了意图识别和风险判定的精度 能精准捕捉“还款困难”等语义特征[5] - 智能预警模型使早期风险识别效率提升10% 为信贷业务安全稳定开展提供保障[5] - 公司将AI深度嵌入全流程风控系统 既大幅降低了欺诈风险 又有效提升了信贷审批效率 形成“风险可控、服务高效”的双重优势[6] 行业趋势与公司战略 - 在数字经济与金融科技深度融合的背景下 以大模型、图学习、自然语言处理为代表的深度学习技术的成熟和普及 对信贷风控模型产生了颠覆性影响 行业呈现出多种人工智能技术融合应用的趋势[6] - 未来 随着联邦学习、强化学习、AGI等技术的发展和应用 风控模型将在数据隐私保护、动态策略优化等方面进一步突破 推动行业向更智能、更精准、更安全的方向发展[7] - 海尔消金坚持科技创新驱动 高度重视风控体系的智能化建设 随着公司AI First战略的持续深化 公司将更全面、更广泛地拥抱AI技术 持续强化数据治理与技术应用能力 在创新与风险平衡中实现信贷业务高质量发展[6][7] 行业认可 - 公司风控模型团队主创的“新时代人工智能背景下的信贷风控模型体系变革研究”项目 入选中国金融传媒评选的“转型成果综合评价实践案例” 公司综合AI风控技术实力得到行业权威认可[6]
一个近300篇工作的综述!从“高层规划和低层控制”来看Manipulation任务的发展
具身智能之心· 2026-01-06 08:32
文章核心观点 - 机器人操纵作为具身智能的核心难题,正因大型基础模型的出现而迎来变革,其技术框架可统一为“高层规划”与“低层学习型控制”两大模块的协同体系 [1] - 当前技术突破在于基础模型提升了机器人的感知与语义泛化能力,使其能基于自然语言指令在非结构化环境中工作,但规模化落地仍面临通用架构缺失、数据瓶颈、物理交互不足及安全协作等核心挑战 [1][23][26] - 未来研究方向聚焦于构建通用机器人架构、破解数据困境、强化多模态物理交互以及保障安全协作,以推动机器人操纵从实验室走向真实复杂场景 [30][31] 高层规划:任务解构与决策引导 - 高层规划负责明确动作意图、时序组织及环境注意力分配,其核心是融合多模态信息解决“做什么”和“按什么顺序做”的问题,包含六大核心组件 [4] - **基于LLM的任务规划**:以大型语言模型为核心实现自然语言到任务步骤的映射,早期方法如SayCan选择可执行技能,进阶方案如Inner Monologue引入闭环反馈实现动态调整,LLM+P和REFLECT强化了长时程推理与失败处理 [5] - **基于MLLM的任务规划**:联合视觉与语言进行推理,PaLM-E通过机器人具身数据与视觉语言模型共训练实现端到端任务推理,VILA直接复用GPT-4V能力无需微调,机器人专用MLLM如RoboBrain、Gemini Robotics在具身基准测试中表现优于通用模型 [8] - **代码生成**:将规划转化为可执行程序以弥补语言计划的精度缺陷,Code as Policies通过暴露API让LLM生成控制代码,Demo2Code、SHOWTELL支持从演示中提炼程序,Statler、HyCodePolicy通过维护世界状态提升闭环控制鲁棒性 [9] - **运动规划**:利用LLM或视觉语言模型生成连续运动目标以衔接高层推理与低层轨迹优化,VoxPoser构建语言-视觉条件的3D价值图提供优化目标,CoPa、ManipLLM融入物理先验确保可行性,ReKep通过关系关键点实现自主轨迹生成 [10] - **可用性学习**:聚焦“物体能做什么”,从几何、视觉、语义及多模态四个维度学习物体的交互可能性,为操纵决策提供先验知识 [11] - **3D场景表征**:将环境感知转化为结构化动作提案,通过高斯splatting实现可编辑的3D场景表示支持抓取候选生成,借助神经描述场等隐式表征编码几何与语义信息,实现少样本姿态迁移等任务 [12] 低层学习型控制:动作生成与执行落地 - 低层控制负责将高层规划转化为精准物理动作,解决“怎么做”的问题,从学习视角可拆解为学习策略、输入建模、潜态学习、策略学习四大核心组件 [14] - **学习策略**:定义技能获取的核心范式,主要分为三类:强化学习(包括无模型方法如QT-Opt、PTR和有模型方法如Dreamer、TD-MPC)、模仿学习(包括基于动作的模仿如行为克隆和基于观察的模仿)以及辅助任务学习(如世界建模和目标提取) [16][18] - **输入建模**:定义多模态感知的融合方式,主要包括:视觉-动作模型(基于2D视觉如Diffusion Policy或3D视觉如RVT)、视觉-语言-动作模型(整合语义时空信息,如RT-2、OpenVLA、SpatialVLA)以及触觉/力/音频等额外模态(如T-DEX融合触觉信号提升接触-rich操纵的鲁棒性) [19][20] - **潜态学习**:负责从输入数据中获取鲁棒通用的表征并优化其向动作的解码,包括在通用数据上预训练视觉编码器,以及将动作抽象为离散token(如VQVLA)或连续向量(如MimicPlay、LAD)以平衡泛化性与执行精度 [21][24] - **策略学习**:定义将表征解码为可执行动作的模型架构,主流范式包括:结构简单的MLP-based策略、利用注意力建模时序依赖的Transformer-based策略(如ACT)、通过迭代去噪生成多模态轨迹的扩散策略以及提升推理速度与平滑度的流匹配策略 [25] 核心挑战与未来方向 - **通用架构缺失**:现有方法多针对特定任务或机器人形态,缺乏能适配多样模态、载体及任务的通用基础模型,且长时程执行中易出现误差累积,难以维持稳定表现 [26] - **数据与仿真瓶颈**:真实世界机器人数据采集成本高、规模有限,而仿真环境与真实场景存在差异,导致模型迁移性能不佳,缺乏高效的数据循环机制 [27] - **多模态物理交互不足**:当前方法以视觉为中心,对触觉、力等物理交互信号的融合不够充分,难以应对可变形物体、复杂材料等接触动力学主导的场景 [28] - **安全与协作问题**:在人机共存环境中,现有方法在满足内在安全约束、意图推理与故障恢复能力上仍有欠缺 [29] - **未来研究方向**:针对挑战明确了四大重点:构建支持灵活模态接口与载体适配的通用“机器人真脑”架构;建立自主数据采集与提炼的“数据飞轮”并提升仿真保真度;融合触觉、听觉等多模态信号以强化物理交互;设计内在安全的控制策略并建立故障恢复机制,采用“学习+经典控制”的混合范式保障可靠性 [30]
田渊栋的2025年终总结:关于被裁和26年的研究方向
自动驾驶之心· 2026-01-06 08:28
文章核心观点 - 文章是一位资深AI研究员对个人职业变动与年度研究方向的回顾与总结 其核心观点在于强调大模型推理效率提升与模型可解释性研究是当前及未来人工智能领域两个至关重要且充满前景的方向 同时分享了个人从大公司离职加入初创企业的职业选择 [3][5][6][10] 个人职业变动与感悟 - 作者于2025年1月底被要求加入Llama4项目进行“救火” 尽管项目最终结果超出其最初设想的四种可能 但在此过程中团队在强化学习训练的核心问题上进行了多项有价值的探索 [3] - 作者在Meta工作十年多后最终离职 尽管此前因经济和家庭原因多次犹豫 但最终将此次变动视为一个积极的转折点 并决定加入一家初创公司担任联合创始人 [4][5] - 作者回顾了2021年的一项工作 该工作起初未受关注但后来在ICML会议上获得了最佳论文荣誉提名 并成为表征学习领域一篇较知名的文章 [5] 大模型推理研究方向 - **连续隐空间推理**:作者团队在2024年末公开的连续隐空间推理工作(COLM‘25)在2025年引发研究热潮 随后团队在2025年上半年发表了一篇理论分析文章(NeurIPS‘25) 阐述了该方法的优势所在 [6] - **推理效率提升**:团队通过多项研究致力于提高大模型推理效率 - **Token Assorted(ICLR‘25)**:通过VQVAE学习隐空间的离散token 并将其与文本token混合进行后训练 在降低推理代价的同时提升了性能 [7] - **DeepConf**:通过检测生成token的置信度来决定是否提前终止推理路径 从而显著减少推理所用token数量 在多数投票场景下性能更优 [7] - **ThreadWeaver**:通过制造并行推理的思维链并进行后训练来加快推理速度 [7] - **其他尝试**:包括在dLLM上用强化学习训练推理模型 以及在小模型上学习推理 [7] 模型可解释性研究方向 - **关注动机**:作者认为无论人工智能通过规模扩展最终成功或失败 可解释性研究都至关重要 是确保AI向善或寻找替代方案的关键 且人类探索的天性也驱使其研究“黑盒” [10] - **Grokking(顿悟)现象**:作者团队通过分析Grokking这一从记忆到泛化的特征涌现现象 来探索模型学习的表征与数据结构的关联 2024年的初步工作(NeurIPS‘25)后 近期在可证明的缩放定律研究上取得较大突破 [8] - **RL与SFT行为差异**:作者团队年末的工作从权重层面解释了强化学习与监督微调行为不一致的原因 指出SFT因使用非当前策略数据导致权重主分量被大幅修改 引发灾难性遗忘 而RL使用当前策略数据 主要改变权重次要分量 避免了该问题 [9] - **研究现状与愿景**:作者指出当前通过寻找“电路”来打开模型黑箱仍处于初步阶段 真正的挑战在于从第一性原理解释模型为何会涌现出解耦、稀疏、模块化等特征 其愿景是实现从“收集证据”到“推导原理”的范式转变 最终指导下一代模型设计 [11]
田渊栋2025年终总结:救火Llama4但被裁,现任神秘初创公司联创
机器之心· 2026-01-04 16:05
文章核心观点 - 文章记录了Meta前AI科学家田渊栋被裁后的职业转变、2025年的核心研究方向以及对AI驱动下社会生产力与个人价值重构的深刻思考[1][2][3] - 核心观点认为,AI能力的飞速发展正在重塑社会结构,个人价值评估标准从自身劳动产出转变为“人加AI”能否超越AI本身,这导致职业价值出现类似“费米能级”的两极分化[20][23][27] - 在“遍地神灯”(强大AI智能体)的时代,真正稀缺的是人类的原创愿望、独立思考能力以及将宏大目标转化为现实的能力,这决定了个人能否保持在“费米能级”之上[28][29][33] 关于被裁与职业转变 - 田渊栋在2025年1月底被要求加入“救火”Llama 4项目,尽管团队在强化学习训练的核心问题上进行了多项探索,但项目结束后他仍被Meta裁员[4] - 被裁后收到了大量工作邀约,最终选择成为一家初创公司的联合创始人,并于2024年12月上任[6] 2025年主要研究方向 - **大模型推理**:其团队2024年末公开的连续隐空间推理(coconut)工作在2025年引发研究热潮,团队后续发表了理论分析文章《Reasoning by Superposition》(NeurIPS'25)[7] - **提高推理效率**:通过Token Assorted(ICLR'25)工作混合离散token与文本token以减少推理代价并提升性能;通过DeepConf提前终止低置信度推理路径以减少token使用;通过ThreadWeaver制造并行推理思维链以加速[8] - **打开模型黑箱(可解释性)**:重点研究Grokking(顿悟)现象,旨在理解模型从记忆到泛化的突变过程,近期在《Provable Scaling Laws》文章中取得突破[9] - **理解RL与SFT差异**:研究指出,监督微调(SFT)会导致权重主分量被大幅修改,引发灾难性遗忘,而强化学习(RL)使用on-policy数据训练,主要改变权重次要分量,从而避免该问题[10] AI驱动下的社会与生产力变革 - **生产力重构**:带思维链的推理模型成功让强化学习重回主流,并推动了AI4Coding及AI Agent发展,使大模型得以大规模落地并大幅提高生产力[15] - **工作模式转变**:AI可以24小时不间断工作,人类的工作重心转变为确保为AI提供足够的工作量(如用完每日剩余token数)并减少介入,让AI自主长时间工作[15][16] - **个人价值重估**:个人价值评估标准从“本人产出的劳动数量及质量”转变为“人加AI的产出是否大于AI本身”,导致投入-回报曲线变为类似soft-thresholding的曲线,存在一个能力阈值(费米能级)[20][23] - **社会两极分化**:低于“费米能级”的智能体(人+AI)供给过剩,价值极低;高于该水准的智能体则数量稀少且价值高昂,形成“一骑当千”的效应[25][27] - **“费米能级”上升**:这条能力水准线会随时间上移,其上移速度取决于能获取到的、比它更强的数据量,若训练过程有突破(如新合成数据手段),进展可能加速[27] 遍地神灯时代的独立思考与个人策略 - **新时代的稀缺品**:在AI能力充沛的“遍地神灯”时代,真正稀缺的是人类的“愿望”本身以及将愿望化为现实的坚持[28][29] - **独立思考的丧失风险**:大模型提供廉价思考结果,可能导致人们逐渐丧失原创能力,思想被生成式内容和推荐系统同化,成为精神上的“懒人”[29] - **保持独立的战术**:需要不断审视AI的答案、挑毛病并发现其无法解决的新问题;未来新价值来源于新数据发现、对问题的新理解以及新的可行创新路径[30] - **保持独立的战略**:每个人都需要从“员工”角色向“老板”或“创始人”角色转变,核心在于拥有坚定的“目标感”,并动用一切手段(包括大模型)去达成远大目标[31] - **对教育的启示**:应鼓励孩子树立宏大的志向(如在土卫六开演唱会),这将是他们保持主动思考、始终屹立于“费米能级”之上的根本源泉[33]
前OpenAI CTO押注的赛道,被中国团队抢先跑通,AI「下半场」入场券人人有份
机器之心· 2026-01-04 11:01
AI行业趋势:从预训练到后训练 - 过去几年AI领域的主旋律是预训练,追求更大的模型、更多的数据和更长的训练周期,但该阶段已趋于饱和[9][10] - 当前大模型部署后存在瓶颈,参数被“冻住”,无法从真实交互中持续学习进化,实际使用效果不稳定[10][23] - 强化学习被视为破局关键,能让模型从“背题”走向“推理”,带来惊人的泛化性和样本效率[11][12] - 2026年的主旋律是后训练,Gemini、DeepSeek V3.2、Kimi K2等多个前沿模型的技术报告都强调后训练仍是一片蓝海[13][14] 后训练基础设施的竞争格局 - 前OpenAI CTO Mira创立的Thinking Machines Lab押注后训练赛道,其产品Tinker定义了后训练API的新范式[16][17] - Thinking Machines在2025年7月完成了硅谷历史上最大的种子轮融资,金额达20亿美元,估值120亿美元[17] - 国内由95后青年科学家组成的Mind Lab推出了对标产品Mind Lab Toolkit,是世界第一家能够对标Thinking Machines Lab的公司[3] - Mind Lab的MinT平台比Thinking Machines更早实现了1T LoRA-RL,是业界在万亿参数模型上进行高效强化学习的第一个成果[3][25] Mind Lab与MinT平台的核心优势 - MinT是一个用CPU机器就能高效训练万亿参数模型的后训练平台,成本优化了十倍,一天即可完成一轮训练[3] - 平台兼容性强大,与Tinker API完全兼容,开发者可几乎零成本迁移[25] - 技术领先,采用LoRA技术,使多个训练和推理任务共享计算资源池,显著降低成本[31] - 在Kimi K2(万亿参数MoE)上实现端到端LoRA强化学习,仅用常规全参RL约10%的GPU资源(64块H800)即可完成训练[36] - 已支持Kimi K2 Thinking、Qwen3-VL系列等前沿开源模型,并优先支持π0等具身VLA模型,体现了中国公司在具身智能上的领先优势[31] MinT解决的核心问题与目标用户 - 核心价值是让用户只需关注数据和算法,平台自动处理集群调度、资源管理等复杂工程问题[31] - 主要解决强化学习普及的三大难题:训练不稳定、小模型难以收敛、算力成本高[35] - 目标用户是Agent领域创业公司和高校顶尖实验室,这些团队常被算力与训练框架限制[41][42] - 平台允许开发者仅用CPU机器进行训练验证,降低算法可行性验证成本[43] - 采用LoRA-RL技术将模型迭代周期从“按周”缩短到“按天”,服务于快节奏的产品开发需求[43] 团队背景与行业影响 - Mind Lab创始团队豪华,创始人Andrew毕业于MIT,首席科学家马骁腾博士毕业于清华大学自动化系[5] - 团队成员来自清华、MIT、CMU等高校,并有OpenAI、DeepMind等顶尖实验室工作经历[5] - 团队累计发表论文超100篇,总引用量超3万次[6] - MinT已获得顶尖高校和多个创业公司认可,应用场景涵盖基础研究到垂直行业[44] - 具体应用案例包括:清华大学黄高副教授团队用于RL研究、瑞铭医疗提升医疗编码准确率并落地数十家三甲医院等[51] - 2026年后训练将是中国AI弯道超车的下一个关键战场,Mind Lab致力于让中国团队在关键技术浪潮中实现自主可控[49][50]
雷军:无论辅助驾驶多么先进,人驾还是非常关键
搜狐财经· 2026-01-03 22:52
小米汽车技术发布与营销活动 - 小米公司创始人兼CEO雷军于1月3日晚间通过一场持续约四至五小时的直播活动,亲自拆解并介绍新款小米SU7,以此启动2026年的首场重要产品营销[3] - 直播的核心目的之一是推广其新版HAD(高度自动驾驶)辅助驾驶系统,并邀请公众进行试驾以体验其“显著进步”[3] - 雷军在强调技术先进性的同时,也着重提醒用户需注意安全,并指出“人驾还是非常关键的”,明确了辅助驾驶系统的定位[3] 小米HAD增强版技术升级细节 - 小米HAD增强版引入了强化学习和世界模型两项关键技术,旨在提升系统性能[3] - 技术升级带来三大主要反馈:在纵向控制上,车辆的加速和制动处理更柔和、拟人化,提升了乘坐安全感[3] - 在横向控制上,系统对于加速并线、减速并线以及在小路绕行时的判断更为果断,并能提前规划行驶路径[3] - 在主动安全方面,除原有的AEB(自动紧急制动)功能外,新增了AES(紧急转向辅助)功能,进一步增强了安全能力[3]
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
量子位· 2025-12-31 11:37
文章核心观点 - 当前人工智能行业面临的核心瓶颈并非算力增长停滞,而是现有技术范式(以Transformer架构为核心)对持续增长的算力的吸收和转化效率正在下降,即“算力增长与智能增长之间的映射关系开始松动”[2][22] - 智能的本质可被工程化地定义为“对未来状态进行预测,并为预测结果承担实际后果的能力”,这解释了Next-Token Prediction的成功,也揭示了当前许多模型在真实世界应用中的短板[8][10] - 未来智能增长的关键在于寻找“扩展性更强的架构或Loss函数”,以在极端算力投入下(如300亿美元预算)稳定地将新增算力转化为可兑现的能力增量,而非仅仅追求效率优化(如更高的吞吐量)[23][26] 智能的本质与评估 - 智能的核心能力被定义为对未来状态的预测及承担后果的能力,这为评估智能提供了一个工程化、可验证的标准[8] - 这一视角解释了Next-Token Prediction能成为“智能发动机”的原因,也揭示了在封闭评测中表现优异的系统在真实不确定环境中暴露短板的问题[10] - 将智能凝聚为“预测”是为了划定一个工程上可对齐算力投入的核心能力维度,但规划、因果建模等能力是否能完全还原为预测仍是开放议题[10] 当前技术范式的成功与局限 - 过去十年大模型的智能跃迁依赖于三件事同时发生:GPU提供指数级增长的并行算力、Transformer架构能充分“吃下”这些算力、Next-Token Prediction提供了无限且统一的学习信号[15] - Transformer的成功不仅是算法胜利,更是模型架构与硬件体系(英伟达GPU)高度匹配的系统性结果,它是一台“伪装成神经网络的并行计算机”[6][16] - 该范式的有效性部分受益于语言任务本身高度符号化、序列化,且评测体系与训练目标高度一致的特性[17] - 在此范式下,从GPT-1到ChatGPT,算力增长、模型规模扩大与能力提升之间形成了相对稳定的正反馈链路[18][19] 智能增长的瓶颈所在 - 判断智能瓶颈的具体标准是:当一次训练的FLOPS从10^n变成10^{n+3}(即增长1000倍)时,是否还能稳定获得显著更强的模型[20] - 瓶颈的本质是“算力增长与智能增长之间的映射关系开始松动”,即现有范式对新增算力的吸收效率下降,而非算力红利消失[2][22] - FLOPS被视为最底层、最难被包装的算力尺度,比Token数、参数量等指标更能反映本质[21] - 真正的难点在于缺乏一种“扩展性更强的架构或Loss函数”,能把新增算力稳定地转化为能力增量[23] 对行业主流讨论的批判性视角 - 预训练、监督微调(SFT)、强化学习(RL)三者本质都是在计算梯度、更新参数,可被统一视为不同的“算力使用策略”[11][12] - 当前模型的主要智能来源是预训练阶段,根本原因是其消耗了最多的能源与计算[15] - 行业应关注“在算力持续投入的前提下,是否还能稳定地换取能力增长”这一更朴素的问题,而非陷入方法论之争[15] - Mamba等新架构提升了吞吐量,但解决的是“同等智能更便宜”,不自动等价于“同等成本更聪明”[6][23] 未来发展的潜在方向 - 未来AI基础设施的核心目标应是提升“并行计算体系在软硬件层面的整体扩展性”,而不仅仅是单点芯片性能,需维持或提升计算开销与通信开销的比值[24][25] - 探索方向包括:回归高精度计算(如FP32/FP64)、抛弃Adam优化器、采用更高阶优化器、探索更可扩展的架构或Loss函数、进行更多epoch与更深度的超参数探索[6][25] - 预训练所能承载的智能增长空间可能还远未走到尽头,关键在于找到在极端算力条件下持续变强的能力[26] - 只要还能找到更高效组织计算的方式,智能的上限就远未到来[27]
L4数据闭环最重要的第一步:选对整个组织的LossFunction
自动驾驶之心· 2025-12-31 08:31
文章核心观点 - 在构建自动驾驶数据闭环系统时,将整个组织视为一个强化学习模型,其一级指标(如MPI、MPS、MPD)相当于模型的损失函数,直接决定了组织优化和收敛的方向 [5][6][9] - 行业常用的MPI指标不适合作为驱动问题解决的核心损失函数,因为它优化的是“人类接管频率”,而非车辆自身的“不智能”或“危险”行为表现 [7][11][22] - 提出并实践使用MPS和MPD作为核心一级指标,它们直接衡量车辆“干蠢事”和“干危险事”的频率,能更有效地驱动系统自我迭代和问题解决 [10][12][47] 根据相关目录分别进行总结 一、先把组织当成一个大模型:一级指标 = 损失函数 - 将自动驾驶数据闭环系统类比为强化学习系统,整个组织(包括算法、策略、运营、运维)的更新过程类似于模型的训练迭代 [14] - 在这个框架下,一级指标就是整个组织共同优化的“损失函数”,选择正确的指标是数据闭环驱动问题解决的第一步,其重要性超过技术堆栈(如GPU、大模型)[15][16] 二、为什么 MPI 做不好这个「损失函数」的角色 - **定义与直觉**:MPI定义为总行驶里程除以接管次数,直觉上衡量自动驾驶的成熟度,鼓励减少人工干预 [18][20] - **三个天然缺陷**:在L4无人驾驶场景下,MPI作为损失函数存在严重问题 [22] - **时序错位**:接管时刻是系统“忍无可忍”的结果,真正的问题行为发生在接管前几十秒甚至几分钟,惩罚信号存在严重延迟 [23][25][26] - **原因难以结构化**:“接管原因”极难被准确、结构化地采集,无法转化为稳定的训练信号 [27][30] - **优化目标偏差**:MPI优化的是“人多久救一次场”,而非“车干了多少蠢事或危险事”,导致许多未触发接管的问题行为在优化目标中不可见 [22][29] - **实践尝试的失败**:公司尝试了多种方法采集接管原因(如司机语音上报、工程师跟车、云端人工打标),但均因成本高、信号主观模糊、难以规模化或规则过拟合而失败,无法作为长期稳定的损失函数 [33][34][38][39][40][42][45] 三、换个角度:不问「人什么时候出手」,改看「车到底干了什么」 - 将评估视角从“人”转向“车的行为本身”,不再关注“人何时救场”,而是关注“车自己干了哪些蠢事或危险事” [43] - 提出两组新的核心指标: - **MPS**:Miles Per Stupid,衡量每发生一次“不智能表现”(Stupid行为)所行驶的平均里程,常用反写形式“每万公里急刹/画龙/停车不走事件次数”进行统计 [44][46] - **MPD**:Miles Per Dangerous,衡量每发生一次“危险行为/险情/事故”(Dangerous行为)所行驶的平均里程,常用反写形式“每万公里险情/事故次数”进行统计 [46][79] - **损失函数意义**:MPS是对“蠢行为”的惩罚项(体感差),MPD是对“危险行为”的重惩罚项(安全红线),组织围绕这两个损失项进行“梯度下降” [47][81] 四、MPS 具体长什么样:急刹、画龙、停车不走 - **急刹车**:统计“每万公里急刹次数”,并按多维度拆分。急刹被视为“体温计”而非清零KPI,关键是通过曲线异常(变坏或好得离谱)发现问题 [49][50] - **案例A(天气降温致急刹暴涨)**:某城市线路急刹曲线突然抬头,最终溯源发现是低温导致电池与制动系统能量回收逻辑触发,制动力“超调” [51][55] - **案例B(雨天急刹减少实为风险上升)**:某几台车雨天急刹次数反常下降,分析发现是激光雷达外壳积灰遇水形成膜,导致雷达“部分致盲”、障碍物漏检 [58][60][61] - **案例C(被追尾风险分析)**:通过分析“每万公里急刹次数”中“前方无真障碍+被后车追尾”的子集,可以针对性优化感知或规控策略,降低风险 [64] - **画龙(大转向)**:统计“每万公里大转向/画龙事件次数”。轨迹异常抖动常由标定、胎压、控制参数或感知问题导致 [65][67][68] - **案例**:少数车辆画龙指标长期偏高,检查发现是因长期碾坑导致转向机构轻微变形,从而建立了通过指标异常自动触发重点车辆运维检查的流程 [69][70][71] - **停车不走**:统计“每万公里停车不走事件数”,并按时长分桶(如0-1分钟、1-3分钟、3-10分钟、10-30分钟以上),以避免被正常拥堵噪声淹没 [73][76] - **案例**:某路口因红绿灯故障与策略冲突,导致车辆停车长达半小时。通过“每万公里3分钟以上停车不走事件数(按路口拆分)”指标,才能精准定位此类复杂问题,而非模糊归因为“路口老堵” [77][78] 五、MPD:Miles Per Dangerous —— 把安全红线也放进损失函数 - MPD事件包括真事故/剐蹭、高速高风险急刹、失控倾向等,数量少但惩罚权重极高 [80][83] - 处理流程严格:一旦触发MPD事件,会单独拉取样本,进行多模态回放和跨维度(感知、预测、规控、硬件、地图、环境、运营)复盘,最终落实到明确的策略或结构改动 [83] - 系统目标:在追求MPD趋近于0的同时,用MPS约束系统不能通过极端保守(如“啥都不动”或“看不见就当没事”)的方式来压低事故率 [84] 六、回到强化学习的比喻:好的指标 = 好的损失函数 - **信号更贴行为**:MPS/MPD及其背后的Trigger体系能统一定义具体行为,并关联完整上下文数据,便于自动归因和问题分发,工程可用性更强 [85] - **指标少而有力**:真正能作为“损失函数”驱动组织的一级指标通常不超过三五个,需要团队每日紧盯,而非罗列数十个无效指标 [86] - **自带梯度方向**:好的指标(如MPS/MPD)能清晰指示“指标何时变坏或好得离谱”,从而自然引导资源投向最有价值的问题进行优化 [87][89] 七、小结:先把「损失函数」选对,数据闭环才有意义 - 重申核心:在数据闭环中,一级指标就是组织的损失函数,其选择决定了整个团队的优化方向 [87] - 对比影响:以MPI为核心,组织会优化“人多久救场”;以MPS/MPD为核心,组织则优化“车在真实世界干蠢事/危险事的频率” [90] - 最终检验:评估现有的一级指标是在鼓励“少报问题”还是“多发现问题、多解决问题”,是否给组织提供了正确的梯度方向 [91]
从大厂设计师到超级一人公司:6000字回顾我和AI的2025
歸藏的AI工具箱· 2025-12-30 18:34
作者个人转型与业务模式 - 作者身份从大厂设计师转变为自由职业者,专注于将“歸藏”打造成一个可持续输出、有收入并能帮助行业朋友的“超级一人公司”[4] - 作者强调在AI加持下,个人能力边际得到提升,使得一人运营多个平台成为可能[19][20] AI自媒体运营与成果 - 在即刻平台拥有近25,000名粉丝,被视为相当高的粉丝量[6] - 在Twitter平台粉丝量达到11万,作者认为该平台是获取AI行业前沿信息的关键渠道[10][12] - 微信公众号粉丝量从年初的1万多增长至约7.8万,目标是达到10万以上[16] - 开始制作视频内容,在抖音、小红书、视频号等平台取得良好数据表现,包括数十万至上百万的播放量[17] - 作者认为AI洗稿能力提升导致图文内容商业价值下降,视频内容成为重要方向[17] AI社群运营与活动 - 运营付费AIGC周刊社群,会员数量(含续费)达到约2000个,被认为是中国规模较大的AI社群之一[28] - 探索新的社群推广模式,在销售社群会员的同时,联合推广国产AI产品,帮助创业者提升销售额[24][30] - 在11月初的大型活动中,与超过30个AI产品的负责人进行沟通协作,并独立负责营销方案制定和抽奖等环节[29] AI创作内容与趋势 - 在图像与视频生成领域产出大量内容,是作者涨粉最多的领域[34] - 推动“Vibe Coding”(通过自然语言生成网页)概念的普及,相关提示词被广泛引用[34] - 关注并产出关于AI Agent、MCP(模型上下文协议)等周边服务的内容[35][36] - 强化学习在工具使用及编程领域的应用,是推动2025年AI进入新阶段的关键技术之一,极大地促进了Vibe Coding和Agent工具的爆发[53] - 多模态能力的爆发是另一关键技术突破,体现在图像、视频、音频的理解与生成质量飞速提高,例如Sora 2、Veo 3.1、Nano Banana Pro、Seedream 4.0等模型[55][56] 关注的AI产品与公司 - **Medeo**:一款支持多模型、可通过自然语言进行视频编辑的AI Agent[44] - **Youware**:一个Vibe Coding工具及社区,允许用户通过自然语言创建并分享网页[46] - **Listenhub**:一个从AI音频平台进化为全面的AI创作平台,支持声音克隆、AI播客、PPT和视频生成[47] - **Chatwise**:一个整合各平台模型优势并支持工具调用的产品,让用户能简单构建Agent[58][62] - **Manus**:被认为是第一个展示通用Agent形态的产品,在Agent交互和构建方法上给行业带来启发[60] - **Claude Code**:在推动AI编程落地和人机融合工作方法上被认为具有天才设计[60] - **AI Studio的Build模式**:谷歌整合其AI模型能力的产品,几乎完全用AI模型替代后端,尤其在Gemini 1.5 Pro更新后优势凸显[61][63] 对2026年AI行业的展望 - 强化学习应用将继续进化,例如Gemini 3 Pro和Flash模型的进展[67] - 大型算力中心(如OpenAI的Stargate)建设完成,将催生更强大的模型[67] - 期待视频生成领域出现“Nano Banana Pro时刻”,即实现全面的理解、编排及编辑能力[67] - Vibe Coding将在2026年迎来其“DeepSeek时刻”,实现极大的破圈[67] - Agent产品的发展将更侧重于垂直领域,而非通用Agent[67] - 随着工具调用和上下文管理技术的突破,2026年Agent领域可能还有一次突破[68]