端到端

搜索文档
端到端/大模型/世界模型秋招怎么准备?我们建了一个求职交流群...
自动驾驶之心· 2025-07-31 07:33
行业人才发展现状 - 学校学习内容与实际工作需求存在明显差距,导致应届生在求职时缺乏竞争力 [1] - 从业者转型需求强烈,方向包括大模型、世界模型、具身智能等前沿领域,但对行业实际动态了解不足 [1] 社群平台定位与功能 - 社群目标为搭建连接学校与企业的桥梁,整合全行业人才资源形成综合型平台 [1] - 社群内容聚焦产业动态、公司研究、产品研发及求职跳槽等实战话题 [1] - 提供行业人脉拓展渠道,帮助成员第一时间获取产业前沿信息 [1]
上半年净利大增44%,药明康德加速回到增长轨道
36氪· 2025-07-11 21:48
核心观点 - 药明康德2025年上半年业绩表现强劲,营收和净利润均实现显著增长,核心业务增长动力强劲 [4][9][11] - 公司独特的"一体化、端到端"CRDMO业务模式是业绩增长的关键驱动力 [14][15] - TIDES业务(多肽、寡核苷酸等新分子业务)成为新的增长点,收入4年间增长超8倍 [16][17] - 公司持续扩建产能以承接更多业务需求,预计2025年资本开支达70-80亿元 [18][19] - 二级市场对公司业绩表现给予积极反馈,股价大幅上涨 [5][20] 业绩表现 - 2025年上半年预计实现营业收入约207.99亿元,同比增长20.64%,其中持续经营业务同比增长24.24% [4] - 预计实现经调整归母净利润约63.15亿元,同比增长44.43% [4][11] - 预计实现归母净利润约85.61亿元,同比增长101.92%,包含出售联营公司部分股权所得投资收益32.1亿元 [4][10][11] - 每股收益预计约3.01元/股,同比增长106.16% [4] - 2024年半年报净利润同比下降20.20%,2025年实现显著恢复 [7][8][9] 业务模式与增长驱动 - "一体化、端到端"CRDMO业务模式形成"漏斗型"管线,确保在手订单持续增长 [14][15] - 2024年R端合成小分子数达46万个,中后期D&M阶段管线新增分子1187个,其中366个由R转化而来 [15] - 2024年在手订单达493.1亿元,同比增长47.0% [15] - TIDES业务2024年收入达58.0亿元,同比增长70.1%,在手订单同比增长103.9% [16][17] - 多肽固相合成反应釜总体积2024年底达41000L,预计2025年底提升至超100000L [18] 产能建设与资本开支 - 预计2025年资本开支达70-80亿元 [19] - 持续投入瑞士库威基地,2024年口服制剂产能翻倍 [19] - 推进美国米德尔顿基地建设,计划2026年底投入运营 [19] - 新加坡研发及生产基地2024年5月开工建设,一期计划2027年投入运营 [19] 市场表现与行业前景 - 2025年7月11日港股药明康德股价大涨超10%,一度突破90港元 [5] - 2025年初至今A股累计涨超40% [20] - 全球生物医药投融资回暖,国内创新药行情持续火热,多重利好共振 [21] - 海外市场是收入主力军,海外需求改善节奏快于国内 [16]
当我们谈大模型和vla岗位的时候,究竟有哪些内容?(附岗位)
自动驾驶之心· 2025-07-11 19:23
大模型与VLA技术差异 - 所有依赖大模型的方案都可归为大模型岗位 包括VLM和VLA等技术方向 关键技术涉及微调 轻量化 量化和部署等 [2] - VLA概念包含执行环节(Vision+Language+Action) 属于端到端技术范畴 当前行业存在两阶段(大模型+Diffusion)和单阶段(纯大模型)两种实现方案 [2] - 大模型在自动驾驶领域应用需进行场景适配 例如采用qwen等模型进行微调以提升场景理解与预测能力 [2] 岗位需求与薪资水平 - 大模型研发工程师岗位月薪范围30k-80k 工作地点覆盖深圳/上海 [2] - VLA/VLM大模型算法岗位月薪达40k-100k 工作地点包括北京/上海/杭州 要求3-5年自动驾驶或AI算法经验 [8] - 端到端/VLA工程师需参与驾驶系统全流程研发 包含数据集构建 模型调优及闭环评测系统开发 [6] 核心技术能力要求 - 需精通Transformer架构及多模态大模型训练 熟悉PyTorch/DeepSpeed等框架 具备轨迹预测或决策规划项目经验 [9] - 优先考虑顶会论文发表者(CVPR/ICCV等)或算法竞赛获奖者(ACM/IOI) 需掌握模仿学习/强化学习技术 [5][9] - 视觉大模型方向要求搭建数据pipeline 探索数据合成技术 优化垂直场景下的模型推理性能 [5] 前沿技术应用方向 - 研发重点包括千亿参数级大模型训练 驾驶场景生成式模型开发(Diffusion/LLM)以及多模态数据挖掘 [11] - 需探索大模型在自动驾驶的创新应用 如视觉-语言-行为的多模态决策系统 融合模仿学习与强化学习技术 [10] - 行业关注世界模型与仿真场景构建 要求熟悉nuScenes/Waymo等数据集 具备量产项目经验者更具竞争力 [11]
对话千寻高阳:端到端是具身未来,分层模型只是短期过渡
晚点LatePost· 2025-07-10 20:30
具身智能行业趋势 - 具身智能技术已从学术研究阶段进入产业化阶段,突破将发生在市场而非实验室[2][13] - 行业正处于Scaling Law时刻,预计需要4-5年沉淀才能达到类似GPT-4的突破[2][29] - 技术路径已从500个研究方向收敛至100个左右,进入工程优化阶段[12][13] 技术路径选择 - 端到端VLA(vision-language-action)是行业终极方向,已在自动驾驶领域验证[19][20] - 短期分层方案(规划-感知-执行)更易工程实现,但长期将被端到端替代[22] - VLA模型通过统一处理视觉、语言和动作模块,实现任务理解和执行一体化[20] 数据训练方法 - 训练数据来源包括:互联网视频数据(1%可用率)、遥操作数据和强化学习数据[24][26] - 发现Scaling Law规律:数据量每增加10倍,模型精度小数点后多一个9[27][28] - 达到ChatGPT级别效果需100亿条有效互联网数据+1亿遥操数据+数千万强化学习数据[31] 机器人形态发展 - 人形设计因适应人类环境成为主流,但非必需形态[33][34] - L4阶段前轮式底盘+双臂可覆盖80%场景需求,双足非必须[33][37] - 双足平衡技术已实现高难度动作(如燕式平衡),工业级稳定仍需优化[37][38] 产业链分工 - 硬件本体价值有限,核心突破在于"大脑"(AI系统)[39] - 未来产业链将类似汽车行业,形成专业化分工(灵巧手、芯片等)[41] - 纯软件方案不可行,需针对具体硬件进行训练优化[40] 中美发展差异 - 中国优势在于硬件制造和维修效率(美国维修周期长达数周)[6][7] - 美国在快慢系统等核心技术方面暂时领先[6]
从苹果复盘再谈理想:是智能机,而非家电
天风证券· 2025-06-16 13:09
报告行业投资评级 - 行业评级为强于大市,维持上次评级 [1] 报告的核心观点 - 苹果通过iPhone1 - 4重塑智能手机标准,建立硬件 + 服务 + 生态的复合盈利体系,2024年iPhone产品收入占比51.45%,服务收入占比24.59%且毛利率达73.9%,毛利占比约40% [3] - 理想汽车从增程到纯电再到All in AI,护城河逐步完善,先重新定义家用SUV,后搭建纯电护城河,还在智驾和AI领域前瞻布局 [4] 根据相关目录分别进行总结 苹果的复盘:手机高端化标杆,软件生态盈利能力突出 - 从iPhone1到iPhone4重新定义智能手机,iPhone1在交互逻辑、功能集成、产品设计、软件生态四个维度实现根本性改变,苹果从产品、生态、芯片三端发力构建护城河,iPhone4从生态和软硬件协同定义智能机时代 [3][10] - 苹果盈利构成中,高端市场占比大,产品与服务协同驱动发展,2024年高端智能手机全球占比25%,苹果占高端市场67%份额,Q4出货量占23%却拿下全球智能手机总收入54%;盈利来源包括产品端(iPhone产品占2024年收入51.45%)和服务端(2024年服务收入占比24.59%,毛利率73.9%,毛利占比约40%) [16] 理想汽车:智驾时代的“IPHONE 4”时刻到来? 护城河的初步尝试 - 深度洞察用户需求,理想ONE重新定义家用SUV,以增程 + 家用SUV为核心卖点,增程是高效解决方案,“冰箱彩电大沙发”定位丰富座舱体验,抓住家用SUV品牌标签 [23] - 从理想ONE到L序列,以“套娃”模式打造畅销产品谱系,实现降本和加深品牌形象,成为首个盈利的新势力车企 [24] - 因增程市场竞争加剧,理想开启纯电护城河搭建,靠家用SUV定位蝉联销量冠军,加速纯电网络和产品谱系布局,改善续航和补能焦虑问题 [33] 护城河的终极目标 - 从智驾到AI,锚定L4终局前瞻布局,具身智能方面以智驾为载体加速VLA落地,座舱智能方面以理想同学为载体加速大模型落地 [37] 发力智能驾驶 - 2023年初以来,理想智驾性能进步迅速,2024 - 2025年多次发布OTA更新,包括推送无图NOA、“端到端 + VLM”智驾系统、“车位到车位”功能、VLA端到端大模型等 [38] - 智能驾驶从“rule - base”过渡到“端到端”方案,理想通过大车队提供训练数据、数据基建实现数据闭环、集团资源倾斜等方式追赶头部算法厂商 [42][47] - 理想目前算力规模处于第一梯队达8.1EFLOPS,购置或租赁算力考验公司现金储备水平 [49] L3加速落地 - L2及L2 + 阶段智驾为辅助角色,L3起点智驾功能体验提升、事故责任划分明确,2025年智能驾驶发展或迎拐点;理想VLA模型、华为ADS4.0、小鹏世界基座模型等开启智驾大模型迭代浪潮,25H2第一梯队车企将落地L3部分高速场景 [53]
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 12:24
理想VLA与DeepSeek MoE技术类比 - VLA和MoE均为首次完整落地到新领域并取得良好结果 均包含大量创新 但两者在具体实现方式上存在显著差异 [2] - DeepSeek MoE通过细粒度专家划分将单个专家隐藏层维度缩小至1/4 专家数量增至4倍 使激活组合可能性从120种提升至44亿种量级 [2] - 采用共享专家隔离机制 设置占总专家数1/8的固定共享专家处理公共知识 显著减少不同专家间的知识冗余 [2] 理想VLA核心技术突破 - 需攻克6大关键技术点:MindVLA设计/训练流程 3D空间理解能力获取 驾驶知识语言模型构建 Diffusion融合 车端实时推理实现 [4] - 3D高斯技术通过RGB图像自监督训练 实现多尺度几何表达与丰富语义承载 为3D表征提供核心支持 [4] - 基座模型采用MoE架构和稀疏注意力机制 在扩容参数量的同时控制推理负担 训练数据配比优化减少文史类数据 增加3D及自动驾驶图文数据 [6][7] 模型训练与推理优化 - 引入未来帧预测和稠密深度预测任务 通过快慢思考双系统设计(快思考直接输出action token 慢思考采用固定简短CoT模板)提升实时性 [8] - 创新并行解码机制:语言逻辑采用因果注意力逐字输出 action token通过双向注意力一次性全输出 [8] - 使用小词表和投机推理技术 使CoT效率提升44亿倍量级 实现参数规模与推理性能平衡 [8] Diffusion技术应用 - 将action token解码为驾驶轨迹 同步生成自车轨迹与周边交通参与者轨迹 复杂环境博弈能力提升120% [9] - 采用多层Dit结构支持条件输入改变生成结果(如"开快点"指令响应) 类比图像多风格生成技术 [10] - 使用ODE采样器将Diffusion生成步骤压缩至2-3步 解决传统方法效率低下问题 [11] 强化学习突破 - 构建端到端可训架构 解决早期强化学习中信息传递低效问题 [12] - 通过多视角噪声训练生成模型 联合3D重建优化 创建真实度达标的训练环境 场景建设效率提升20倍 [12] 技术路线演进 - V10-11阶段确实跟随特斯拉技术路线 但V12后自主创新比例显著提升 仅在快系统部分保留特斯拉框架 [13][14] - 慢系统为完全自主创新 特斯拉未涉及该领域 整体技术路线类比"增程式"方案:在算力/数据资源不足条件下实现可用性 [14] - VLM到VLA的演进为公司独立提出的技术路径 非跟随策略 获王兴评价为"真正实现Think Different"的典型案例 [15]
2025中国高阶智能辅助驾驶最新技术洞察:算力跃迁、数据闭环、VLA与世界模型
亿欧· 2025-06-05 13:42
报告行业投资评级 未提及相关内容 报告的核心观点 - 高阶智能辅助驾驶技术需在算法、数据、算力升级的同时解决安全短板,推动技术迭代与安全验证同步发展 [23] - 车端算法架构从模块化向端到端演进,一段式端到端VLA推动智能驾驶从“数据驱动”向“认知驱动”跃迁,多段式端到端E2E+VLM将被替代 [66] - VLA大模型“类人决策”特点将重塑智能辅助驾驶竞争格局,车企需平衡算法创新、工程落地与成本控制 [69] - 全栈自研仅头部新势力可长期维持,自研+外采将成多数车企主流选择,全栈外采在中低端车型仍有空间,行业呈“分层竞争、多元共存”格局 [83] - 尽管车企和政策推动L3落地,但大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,L3规模化上车进度可能放缓 [99] 根据相关目录分别进行总结 中国高阶智能辅助驾驶市场背景 - 高阶辅驾ODD再扩展:未提及具体内容 - 科技平权与技术普惠:未提及具体内容 - 事故焦虑与安全冗余:今年部分头部车企智能辅助驾驶NOA功能事故暴露技术边界与用户认知错配,引发安全信任危机;工信部发文规范宣传,为行业过热宣传降温;技术需在多方面升级同时解决安全短板 [21][23] - 政策护航与理性宣传:2025年4月16日,工信部发布通知规范智能网联汽车驾驶辅助功能宣传及技术验证,禁止夸大能力,要求功能验证周期与用户安全教育 [23] 中国高阶智能辅助驾驶技术洞察 高阶智能辅助驾驶技术洞察 - 解码算力、数据、算法的技术底层逻辑:未提及具体内容 高阶智能辅助驾驶算力洞察 - 车端算力:向千级TOPS跃迁,大算力芯片加速普及,国产芯片未来可期;目前国内量产芯片多≤200TOPS,未来500 - 1000TOPS+芯片将成主流;车端受硬件算力限制,依赖云端大模型,架构向端到端转型;未来车端将实现端到端大模型本地化部署,车规级芯片算力上限将突破 [42][43][44] - 云端算力:未提及具体内容 高阶智能辅助驾驶数据洞察 - 数据难题:未提及具体内容 - 数据采集:未提及具体内容 - 定位技术:未提及具体内容 高阶智能辅助驾驶算法洞察 - 端到端、VLA、世界模型:车端算法以端到端架构为基础,VLM辅助E2E处理复杂决策,VLA融合多模态信息提升泛化能力;云端模型从模仿学习演进至生成式世界模型,构建闭环训练系统支撑车端模型泛化能力升级 [61] - 算法架构:从模块化到多段式端到端再到一段式端到端演进,一段式端到端VLA推动智能驾驶跃迁,多段式端到端E2E+VLM将被替代 [65][66] - VLA:起源于2023年谷歌探索,2025年上车引领智能辅助驾驶升级,但面临算力、数据成本、推理延迟等挑战,需强化多模态融合、车云协同 [68][69] 中国高阶智能辅助驾驶竞合分析 企业梯队与产业图谱 - 未提及具体内容 开发策略与合作模式 - 开发策略:主机厂智能辅助驾驶方案开发策略分软硬全栈自研、自研+外采、软硬全栈外采;全栈自研技术壁垒高但资金/人才门槛高,自研+外采平衡成本与技术,全栈外采快速量产、成本可控 [82] - 合作模式:包括全栈自研、自研+外采、全栈外采;全栈自研仅头部新势力可维持,自研+外采成主流,全栈外采在中低端车型有空间 [83] 中国高阶智能辅助驾驶趋势洞察 乘用车L3商业化进展 - 2025年主机厂陆续发布L3、L4量产规划,数据积累与政策协同推动安全升级;L3级自动驾驶ODD限定在高速路段,L4级可在城市限定区域运行;L3大规模商业化需突破技术长尾问题与伦理争议,未来两年是关键窗口期,规模化上车进度可能放缓 [96][97][99]
小米辅助驾驶再迎大将,前一汽南京CTO陈光加入|36氪独家
36氪· 2025-05-30 12:50
人事变动与团队建设 - 前一汽南京研究院CTO陈光加入小米汽车,出任辅助驾驶感知负责人,向叶航军汇报,原感知负责人蔡锐转至机器人部门 [1] - 陈光曾领导一汽红旗第三代L4级Robotaxi研发,拥有百度Apollo美国研发中心感知系统技术负责人经历,发表多篇CVPR论文 [1] - 小米辅助驾驶团队分为"端到端"算法与功能、技术预研两大组,陈光将推进"端到端"功能落地 [1] - 公司辅助驾驶团队规模已达1200人,近年引入前图森CTO王乃岩、Wayve原主任科学家陈龙等高端人才 [2][3] 技术路线与研发进展 - 公司2月全量推送基于300万Clips训练的"端到端"辅助驾驶功能,计划升级至1000万Clips版本 [2] - "端到端"方案整合感知、预测、规划控制为统一深度学习模型,组织架构设感知与规控两个模型团队 [1] - 技术预研包括VLA(视觉-语言-动作)模型,由陈龙负责,研发进度与理想汽车相近 [2] - 2023年6月推出基于规则的城市NOA方案,2024年2月切换至"端到端"方案,但用户体验距行业第一梯队仍有差距 [4] 产品与市场策略 - 第二款车型YU7全系标配4nm制程英伟达Thor芯片(700TOPS算力)、1个激光雷达、11个高清摄像头等硬件 [5] - 公司试图通过硬件标配缓解辅助驾驶安全信任危机,该危机源于3月SU7高速事故导致三人死亡事件 [5] - 内部加紧开发下一代VLA辅助驾驶方案,目标年内推出,以缩短追赶行业的时间 [5] 行业动态与挑战 - 理想汽车经历多次路线切换("端到端"、VLA大模型)和组织调整才取得阶段性成果,反映技术迭代复杂性 [4] - 行业从基于规则的方案转向特斯拉FSD引领的"端到端"方案,因前者应对复杂城市道路存在能力天花板 [4] - 辅助驾驶量产需循序渐进工程积累,如理想CEO李想所言"无法直接吃第十个包子" [4]
智驾的遮羞布被掀开
虎嗅APP· 2025-05-26 21:57
智能驾驶技术路线分化 - 行业进入端到端2.0阶段,技术路线无统一标准,理想、小鹏、华为分别推出VLA、世界基座模型、WEWA架构等差异化方案 [3] - 小鹏布局云端72B参数世界基座模型(车端模型的35倍),计划覆盖汽车、机器人及飞行汽车业务,自研图灵芯片支持30B参数模型部署 [5] - 理想自研LLM基座模型替代第三方模型,以解决3D世界理解不足导致的幻觉问题,但受限于自研芯片"舒马赫"进展缓慢,仍依赖英伟达Thor芯片 [7] - 华为采用多模态基座模型+MoE架构,通过多传感器输入生成轨迹和场景意图,目标实现L3级十秒预警能力 [9] 数据训练瓶颈与仿真解决方案 - 行业面临优质数据短缺困境,人工标注成本高且难例数据获取困难,华为指出Corner case数据是训练关键缺口 [11] - 厂商转向世界模型仿真生成数据,真数据与合成数据比例达1:2,可降低采集成本并丰富场景类型 [12] - 地平线认为99%司机行为不值得学习,仿真将成为核心训练手段,提出"AI教AI"的终极形态 [12][13] - 当前仿真数据质量仍不及真实数据,技术差距因模型探索门槛拉大 [13] 技术商业化与行业格局演变 - L3级技术需"重技术+强运营"体系,责任归属从用户转向车企,要求硬件冗余与持续维护能力 [16] - 城区自动驾驶难度是高速场景的10-100倍,头部厂商通过技术滚雪球效应加速领先 [16] - 供应商集中化趋势明显,量产经验、交付周期及成本成为主机厂筛选核心标准,未量产厂商基本出局 [17] - 行业进入分化期,无实质技术支撑的营销话术失效,市场将呈现强者恒强格局 [15][17]
智驾的遮羞布被掀开
虎嗅· 2025-05-26 10:47
智驾技术发展现状 - 车企普遍采用端到端模型训练自动驾驶软件,华为、理想、小鹏和特斯拉已证明其可行性,但系统存在黑盒风险,可能出现不可预测的问题[2] - 端到端技术源于深度学习,通过简化算法并依赖海量数据训练提升软件能力,但无法完全解决L3级自动驾驶的安全需求[2][3] - 行业进入端到端2.0阶段,技术路线分化,理想推出VLA架构,小鹏开发云端世界基座模型,华为采用WEWA架构,均试图突破现有技术瓶颈[4][14] 主要车企技术路径差异 - 小鹏构建72B参数量的世界基座模型,是主流车端模型的35倍以上,计划应用于汽车、机器人和飞行汽车,并自研图灵芯片支持30B参数模型部署[8] - 理想自研LLM基座模型替代第三方方案,针对自动驾驶优化3D世界理解能力,但因芯片研发滞后仍依赖英伟达Thor芯片[10] - 华为打造多模态基座模型,通过MoE架构实现场景化能力调用,重点解决L3级难例场景识别和十秒预警能力[14] 数据挑战与仿真技术应用 - 行业面临优质数据获取难题:人工标注成本过高,难例数据稀缺,真数据与合成数据比例已达1:2[15][22] - 世界模型成为解决方案,通过虚拟数据生成降低采集成本,地平线认为99%人类驾驶行为不值得学习,仿真将成为核心训练手段[22] - 当前仿真数据质量仍逊于真实数据,技术差距可能因模型研发能力分化而扩大[23][24] 行业竞争格局演变 - L3级技术将重塑商业模式,要求车企承担全生命周期维护责任,形成"重技术+强运营"体系[25] - 城区自动驾驶难度是高速场景的10-100倍,供应商面临更高技术门槛,未经验证的厂商将被淘汰[26] - 市场呈现强者愈强趋势,无实质技术支撑的营销概念(如无图NOA)将失效,头部企业通过量产能力和交付效率建立壁垒[26]