Workflow
MoE
icon
搜索文档
2024 到 2025,《晚点》与闫俊杰的两次访谈,记录一条纯草根 AI 创业之路
晚点LatePost· 2026-01-09 10:38
文章核心观点 - 文章通过对比MiniMax在2024年初与2025年初的两次访谈,揭示了公司战略认知与行业议题的演变[4][6] - 公司核心信仰始终是“Intelligence with everyone”,致力于做出服务普通人的AI产品,而非项目或大杀器[5][8][9] - 公司认知发生关键转变:从初期同时追求技术与产品,到明确自身是一家技术驱动型公司;并深刻认识到“更多用户不会直接让模型变得更聪明”,批判套用移动互联网逻辑(如过度追求DAU、依赖用户反馈和AB测试)是行业误区[4][57][60][93] - 基于新认知,公司调整策略:将技术迭代定为最高目标,而非收入或增长;坚定推进开源以加速技术进化;在应用层面避开与大厂的正面竞争,寻找差异化空隙[54][56][95][97] 公司战略与认知演变 - **2024年初目标**:技术上对标GPT-4,产品上将用户规模翻十倍,实现单个产品千万DAU[4] - **2025年认知转变**:DAU被视为“虚荣指标”,做大模型的误区是套用移动互联网逻辑,因为用户数据不能直接提升模型智能,提升核心在于训练和迭代新模型[4] - **技术驱动明确化**:公司明确为技术驱动型公司,当技术与产品冲突时,技术决策优先,例如为保障算法上限而牺牲产品页面完善度[61] - **目标重设**:2025年目标调整为聚焦技术研发,而非收入或增长目标[95] 技术路线与研发理念 - **早期豪赌MoE**:在2023年夏季,公司投入80%以上算力与研发资源研发混合专家系统,因计算资源与数据量限制,只有MoE能训完,且dense模型无法承受生成token的成本与延迟[9][10] - **技术成果**:2025年1月发布的M1是首个使用线性注意力机制的千亿参数大模型;MiniMax-01系列是首个大规模实现线性注意力机制的模型,旨在高效处理长上下文,开启Agent时代[5][70][85] - **研发方法论**:信仰并追求优化“Scaling Laws”,认为通过提升数据质量、优化算法与训练方法,可以实现比原始定律快数倍甚至十倍的性能提升[20][22][23] - **开源策略转变**:认识到技术品牌的重要性与开源对技术进化的加速作用,于2025年开源MiniMax-01系列,并坦言若重新选择,创业第一天就会开源[54][56] 产品哲学与市场策略 - **产品逻辑**:不认同“在黑莓手机上做不出抖音”的观点,认为产品发展也是渐进的,需要通过不断尝试和失败来找到成功形态[16][17] - **多产品矩阵**:同时运营Glow、星野、海螺AI等多款产品,认为在技术与产品存在gap的阶段,多尝试是找到成功产品的客观规律[16] - **关键教训**:产品价值的核心来源是模型性能与算法能力,例如Glow曾因一个小算法bug导致DAU在元旦三天内下降40%,修复后用户量迅速回升[18] - **差异化竞争**:避免与字节“豆包”等大厂在生产力工具上正面竞争,转而寻找巨头战场之外的空隙,例如在AI社区(星野)和视频生成(海螺视频)领域建立优势[89][96][97] 行业观点与竞争格局 - **批判行业误区**:指出中国AI产业存在“用户越多,模型能力提升越快”的巨大误区,并以ChatGPT DAU是Claude的50-100倍但模型能力并未等比提升为例证[57] - **竞争本质**:认为靠融资无法打死竞争对手,拐点只可能来自技术、产品或商业化效率的领先;创业公司之间比较意义不大,应关注整个行业[37][62] - **中美模型差异**:认为中国模型缺乏内部定义的benchmark和底层设计,更多是在对齐如o1等国外模型的输出[84] - **组织与人才**:认为人才密度最高的是字节跳动,其他公司都差一档;但创业公司能让优秀人才成长更快的概率更大[86][87];公司组织结构简单,仅三层,分为技术、产品、运营与增长三个部门[43][44]
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心· 2025-10-16 07:33
自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]