Workflow
世界模型
icon
搜索文档
死磕技术的自动驾驶黄埔军校,三周年了~
自动驾驶之心· 2025-07-19 14:32
业务发展 - 打造了四个IP矩阵:自动驾驶之心、具身智能之心、3D视觉之心、大模型之心,覆盖知识星球、公众号、视频号、哔哩哔哩、知乎等平台 [2] - 从纯线上教育转型为全栈式服务平台,新增硬件业务、论文辅导和求职业务,并在杭州设立线下办公室 [2] - 知识付费仍是核心业务,但重点拓展了硬件教具、线下培训和求职招聘等多元化服务 [2] 技术方向 - 自动驾驶行业正经历大模型引发的智驾方案升级,从VLM/VLA向更先进的端到端解决方案演进 [2] - 具身智能和大模型是重点孵化方向,已举办多期圆桌论坛,受到学术界和产业界广泛关注 [2] - 视觉大语言模型(VLM)在自动驾驶中的应用包括预训练、迁移学习和知识蒸馏等多个技术分支 [9][12][13] 社区建设 - 自动驾驶之心知识星球已成为国内最大的自动驾驶技术社区,拥有近4000名成员和100+行业专家 [4] - 社区覆盖30+自动驾驶技术学习路线,包括端到端自动驾驶、BEV感知、Occupancy等前沿方向 [4] - 每周活跃度位居国内前20,注重成员积极性和技术交流 [4] 内容体系 - 知识星球包含四大板块:技术领域分类汇总、科研界顶级大佬直播、求职资料分享和痛点问题解答 [7] - 整理了视觉大语言模型、世界模型、扩散模型和端到端自动驾驶四大前沿技术方向的资源 [6] - 汇总了多个Awesome资源库,涵盖VLM架构、推理策略、安全隐私等细分领域 [8] 数据集资源 - 整理了VLM预训练使用的多个大型数据集,包括LAION5B(5B图文对)、WuKong(100M中文图文对)等 [15] - 汇总了自动驾驶相关数据集,如nuScenes、Waymo Open Dataset、BDD100K等,涵盖感知、预测、规划等任务 [21][22] - 收集了语言增强的自动驾驶系统数据集,支持自然语言导航和空间推理等高级功能 [22] 应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答和视频异常识别等技术 [23] - 自动驾驶感知方向涉及行人检测、3D目标检测和开放词汇语义分割等任务 [24] - 定位规划领域探索语言引导导航、轨迹预测和运动规划等解决方案 [25] 行业趋势 - 世界模型在自动驾驶中快速发展,涵盖3D场景理解、未来场景演化和物理原理建模等方向 [30][31] - 扩散模型在自动驾驶中的应用包括场景生成、数据增强和轨迹预测等多个方面 [33][39] - 端到端自动驾驶研究聚焦多模态融合、可解释性和长尾分布处理等关键问题 [45][55]
死磕技术的自动驾驶黄埔军校,三周年了。。。
自动驾驶之心· 2025-07-19 11:04
自动驾驶技术发展现状 - 自动驾驶技术正处于从辅助驾驶(L2/L3)向高阶无人驾驶(L4/L5)跨越的关键阶段 [2] - 2025年自动驾驶、具身智能、大模型Agent三大赛道是AI竞争高地 [2] - 端到端自动驾驶成为主流学习方向,建议从BEV感知开始逐步深入 [2] 自动驾驶技术社区 - 自动驾驶之心知识星球是国内最大的自动驾驶学习社区,拥有近4000名成员 [2] - 社区汇聚100+行业专家,提供30+技术方向学习路线 [2] - 覆盖端到端自动驾驶、世界模型、视觉大语言模型等前沿方向 [2][4] 视觉大语言模型研究 - CVPR 2024发布多篇视觉语言模型预训练论文,涉及效率提升和公平性优化 [11] - 视觉语言模型评估涵盖图像分类、文本检索、行为识别等任务 [16][17][18] - 大规模预训练数据集包括LAION5B(50亿图文对)、WebLI(120亿图文对) [15] 自动驾驶数据集 - 主流自动驾驶数据集包括nuScenes、Waymo Open Dataset、BDD100K等 [21] - 语言增强数据集支持自然语言导航、视觉问答等任务 [22] - 图像分类评估数据集包含ImageNet-1k(128万训练图)、CIFAR-100等 [16] 技术应用领域 - 智能交通领域应用包括语言引导车辆检索、视觉问答系统 [23] - 自动驾驶感知方向研究语言引导3D检测、开放词汇分割等任务 [24] - 决策控制领域探索大语言模型在轨迹预测和运动规划中的应用 [25][26] 世界模型研究进展 - 2024年发布DriveWorld、GAIA-1等驾驶世界模型,支持场景生成与理解 [30][32] - 世界模型可预测未来视觉观测并辅助规划决策 [32] - 研究涵盖4D场景重建、占用预测等方向 [32] 扩散模型应用 - 扩散模型在自动驾驶中用于场景生成、数据增强和轨迹预测 [39] - CVPR 2024发布MagicDriveDiT等街景生成模型 [39] - 研究聚焦时空一致性、多视角生成等挑战 [39] 端到端自动驾驶 - 方法分为模仿学习、强化学习和多任务学习三大类 [61] - 最新工作如DriveGPT4、DriveMLM探索大模型与规划控制结合 [27][51] - 挑战包括长尾分布处理、安全验证等 [55][57] 行业资源与生态 - 社区提供TensorRT部署、BEV感知等工程问题解决方案 [71][73] - 与地平线、蔚来等公司建立内推渠道 [110] - 成员来自卡耐基梅隆、清华等高校及头部自动驾驶公司 [106][107]
9点1氪|被订书钉损坏的Switch 2拍出179万天价;239亿深圳地王或被三折贱卖;市场监管总局约谈外卖平台要求理性竞争
36氪· 2025-07-19 08:47
上市动态 - 双林股份拟发行H股股票并在香港联交所主板挂牌上市 [1] - 宇树科技开启上市辅导 控股股东王兴兴直接持股23.8216% 通过有限合伙控制10.9414% 合计控制34.7630%股权 [2] 大公司动向 - 世茂集团深圳龙岗地王项目或被三折贱卖 12宗土地收储补偿68亿元 较239亿元拿地成本折价71.5% [4] - 茶颜悦色因零食包装涉嫌侵权方大同专辑封面致歉并下架产品 [5][6] - 字节跳动新加坡办公室食物中毒事件宣判 涉事餐饮公司云海肴被罚7000新加坡元(约3.9万元)并关停团餐业务 [6] - 良品铺子回应"一股两卖"争议 武汉国资委拟29.99%控股 但18.01%股份转让方宁波汉意19.89%股权被冻结 [11] - 雷军陪同比亚迪王传福参观小米汽车工厂 比亚迪为小米SU7核心电池供应商 [7][8] 消费品与科技 - 百事可乐回应配方变更 称可根据需求使用蔗糖 并计划推出不含人工色素香精的乐事/多力多滋产品 [7] - 苹果iOS26将升级智绘表情功能 支持自定义人物表情和身体特征 [14] - iPhone17 Pro曝光4种配色 包括橙色铝合金中框设计 [18] 医药健康 - 征祥医药自主研发流感抗病毒药玛硒洛沙韦片获批上市 对甲乙型流感病毒及禽流感病毒均有效 [8][9] - 凯米生物完成1.7亿元Pre-A轮融资 资金将用于前列腺癌/乙肝治疗性疫苗临床开发 [17] 人工智能与投融资 - 商务部部长王文涛会见英伟达CEO黄仁勋 强调中国开放政策 英伟达表态深化AI领域合作 [12] - Meta从苹果挖角两名AI研究人员 Mark Lee和Tom Gunter加入超级智能实验室团队 [14] - Anthropic计划新一轮融资 估值或超1000亿美元 [14] - 粒界科技完成千万美元B3轮融资 由比亚迪等领投 资金用于3D引擎AI化升级及具身智能研发 [15] - 香港虚拟保险公司保泰人寿获7000万美元C轮融资 永明金融领投 [18] 航空与物流 - 春秋航空澄清"飞机起飞后砸向地面"报道不实 涉事航班因机械故障滑回候机楼 [10] - 顺丰快递员变卖客户107万元油卡 公司仅同意按保价赔偿2500元 客户已提起诉讼 [10][11]
AI端侧深度之智能驾驶(上):技术范式迭代打开性能上限,竞争、监管、应用加速高阶智驾落地
中银国际· 2025-07-18 14:40
报告行业投资评级 - 行业评级为强于大市 [1] - 水晶光电评级为买入 [1] - 隆利科技评级为买入 [1] - 瑞芯微评级为增持 [1] 报告的核心观点 - 智能驾驶有望成为物理 AI 率先落地的场景,带动产业链企业投资机遇 [1] - 技术范式迭代为高阶智驾奠定基础,变更行业竞争壁垒 [3][5] - 车企竞争、监管政策、商业应用推动高级智驾发展,L3 级乘用车落地在即、L4 级商用车初现曙光 [3][5] - 中国汽车零部件和布局汽车业务的消费电子企业为代表的供应链,将深度受益高阶智驾渗透率提升趋势 [5][168] 根据相关目录分别进行总结 智能驾驶是物理 AI 率先实现的场景,发展节奏迎加速 - 智能驾驶可提供“解放精力、减少事故”价值,城区 NOA 有望加速渗透 [13][20] - 因成熟度、需求量、政策支持力度等因素,智驾有望成为物理 AI 率先落地的场景 [27] - 高阶智驾落地面临挑战,责任认定成为主要难点 [33] 技术篇:技术范式演进为高阶智驾奠定基础,行业壁垒急剧切换 - 架构升级,端到端架构具备数据驱动/全局优化优势,替代模块化架构成为主流 [36][37] - 范式演进,从规则驱动走向数据驱动/知识驱动,数据/算力/模型成为车企竞争壁垒 [60] - 未来展望,世界模型 + 纯强化学习或成 L4 级智驾的方案,竞争壁垒或变成世界模型精度 [82] - 案例,从理想 MINDVLA 模型架构、训推过程看智驾技术落地的最近进展 [97] 商业篇:竞争、监管、应用同时加速,L3 落地在即、L4 初现曙光 - 商业竞争,智驾成为车企品牌的核心差异化,平权和升规同时加速渗透 [126] - 政策监管,全球智驾政策从试点转向推广应用,国内首次放开 L3 级乘用车上路 [137] - 应用落地,L3 级智驾商业模式逐渐成熟,L4 级 ROBOX 落地节奏加快 [154] - 投资建议,建议关注地平线机器人 -W、黑芝麻智能、瑞芯微等企业 [168]
入职小米两个月了,还没摸过算法代码。。。
自动驾驶之心· 2025-07-16 16:46
自动驾驶行业趋势与职业发展 - 自动驾驶行业当前处于快速发展阶段,大模型与端到端技术成为核心方向[4][6] - 小米汽车在自动驾驶领域势头强劲,虽薪资水平中等但短期发展潜力较大[7] - 医学图像与工业检测领域技术门槛低于自动驾驶,可作为从业者备选方向[6] 求职与技能提升策略 - 实习经历需适当包装,重点突出与目标岗位相关的技术亮点[3][6] - 建议利用公司资源补充自动驾驶算法实践经验(如BEV、端到端),同时学习VLA、SFT等技术[6] - 需同步准备秋招与实习转正,多offer可增强薪资谈判能力[5][6] 技术研究方向与资源 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶为四大前沿方向[10] - 自动驾驶数据集覆盖2D/3D目标检测、语义分割、轨迹预测等任务,包括NuScenes、BDD100K等主流数据集[25][26] - 扩散模型在自动驾驶中应用于场景生成、3D补全等任务,如DriveDreamer、MagicDriveDiT等创新方法[43] 社区与学习平台 - 知识星球提供自动驾驶课程、硬件资料及招聘信息,已形成学术-产品-就业闭环生态[8][62] - 社区目标3年内聚集万人规模,现有华为天才少年及领域专家入驻[8] - 会员可获取5000+干货内容、100+场行业直播及求职咨询等权益[62] 端到端自动驾驶进展 - 开源仓库收录E2E驾驶最新研究成果,涵盖感知、预测、规划全流程[45][49] - 特斯拉FSD验证了端到端模型可行性,但开环评估仍存争议[49] - 典型方法包括DriveGPT4(大模型驱动)、VADv2(概率规划)等[52][55]
什么是真的AI思维?
36氪· 2025-07-16 07:54
AI思维的定义与核心原则 - AI思维是将智能优先原则应用于生产和服务组织过程中的全新问题解决方法论,其核心包括虚拟先行、规模化试错和算力对冲[11] - 虚拟先行指在投入真实资源前,先在数字世界创建高度对应的世界模型进行模拟推演,降低试错成本[12][14] - 规模化试错通过并行计算实现百万次低成本实验,将创新速度提升数个量级[15][16] - 算力对冲用廉价计算资源替代昂贵物理成本,典型案例包括药物研发模拟和市场进入决策[17] AI应用的层次演进 - 初级应用将AI视为工具(如大模型使用),无需特殊思维模式[1] - 进阶应用将AI作为价值创造主体,通过多智能体系统封装完整业务链[1][6] - 完全成熟的AI驱动形态是无人公司,其核心价值创造由AI智能体主导[19][20] 无人公司的技术架构 - 采用PAN(物理-智能体-嵌套)世界模型架构:需模拟真实物理动态、支持多智能体协同、实现分层嵌套决策[21] - 典型工作流:人类设定目标→AI在模型沙盒模拟→选择最优方案→自动执行[22] - 技术案例包括数字孪生工厂(Omniverse平台)和自动化营销系统[24][25] 行业应用现状与趋势 - 工业领域通过数字孪生实现虚拟工厂调试,降低物理安装成本[24] - 营销行业利用AIGC工具实现一人团队完成大规模内容生成与测试[25] - 科研领域加速假设验证循环,如AlphaGeometry解决奥数难题和ReasonerAgent辅助文献调研[26] 未来竞争范式转变 - 企业核心竞争力从经验积累转向世界模型保真度和模拟-行动飞轮速度[27] - 成功案例显示AI思维可提升10倍以上创新效率(如1小时生成千种营销方案vs传统团队1周3方案)[15] - 早期采用者将在敏捷性、效率和扩展性方面建立结构性优势[27][30]
中金:维持蔚来-SW(09866)目标价41港元 评级“跑赢行业”
智通财经网· 2025-07-14 09:45
估值与评级 - 蔚来港股当前对应2025年0 7x P/S 维持2025-26年Non-GAAP净利润预测 维持跑赢行业评级 [1] - 港股目标价41港币 对应2025年1 0x P/S 较当前股价存在40%上行空间 [1] 产品与技术 - 乐道L90于7月底上市 8月1日开启交付 展车已覆盖全国门店 [2] - L90通过36项技术创新实现舱内纵向空间4195mm 二排过道宽度180mm 纵向挑高1330mm [2] - 标配45项智能安全辅助功能 包括端到端架构AEB 安全性行业领先 [2] - 5月30日推出世界模型NWM首个版本 覆盖四大智能驾驶场景 技术架构具备迭代空间 [4] 经营与交付 - 2Q交付72,056辆 符合7 2-7 5万辆指引 [3] - 启动CBU改革 通过划分经营单元提升组织效率 2Q起费用端优化效果逐步显现 [3] - 公司指引4Q25实现盈利转正 [1][3] 财务与现金流 - 2Q起销量与现金流逐步改善 全年自由现金流有望实现正向流入 [4] - 运营现金流持续提升 产品周期强劲支撑业绩 [4] 市场预期 - 乐道L90预售定价超市场预期 预计在高端大三排SUV市场保持领先 [1]
某智驾公司一言难尽的融资。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶行业融资动态 - 某智驾公司因估值过高且量产项目稀少导致融资困难,估值接近头部企业但缺乏实际项目支撑 [3] - 该公司与头部车企达成特殊融资协议:车企投资智驾公司后,资金需全额返投至车企旗下经营困难的零部件子公司 [4] - 该操作实质为资金循环流转,旨在为车企子公司创造外部融资的公关宣传点,类似操作在该车企已有先例 [4] 行业竞争格局分化 - 头部智驾公司凭借算法优势与量产能力持续获得项目,年融资轮次可达1-2轮,形成良性发展循环 [5] - 技术实力薄弱的企业面临项目获取与融资双重困境,仅能获得有限市场份额 [5] - 2023年智驾市场竞争加剧,企业生存状态呈现"冰火两重天"两极分化 [5] 行业发展核心要素 - 实际量产交付能力被视为企业长期发展的关键,超越技术概念炒作的重要性 [5] - 算法性能提升与工程化落地能力是获得市场认可的基础要素 [5] - 部分企业为维系客户关系选择配合资本运作,但可能偏离技术深耕主线 [4][5] 技术发展趋势 - 行业聚焦端到端自动驾驶、世界模型等前沿技术方向 [7][9] - 感知技术领域形成BEV感知、Occupancy等30+技术路线矩阵 [7] - 大模型技术正渗透至感知、决策等多个技术环节 [7][9]
字节藏了一手“牌”
虎嗅APP· 2025-07-12 17:27
情感大模型技术特点 - 区别于传统聊天机器人,"情感大模型"注重用户情感体验,通过分析语调、停顿、表情理解情感并生成符合情绪的回应 [5] - 技术路径包括在通用大模型基础上增强多模态情感计算能力,以及专注于情感领域的生成式大模型 [7] - 采用端到端形式,训练所需算力比通用版本高30%-50%,对特殊数据要求高 [10] 市场前景与增长 - 全球人工智能伴侣市场规模预计从2023年3000万美元飙升至2030年1500亿美元,年均复合增长率236% [8] - 2024年全球机器人出货规模约4700万台,未来5年复合增长率超20%,消费类机器人占比81% [16] - CharacterAI移动端累计下载量突破3432万,网页端单月访问量达3.1亿,仅次于ChatGPT [9] 字节跳动布局策略 - 计划通过不同垂类大模型带动豆包月活在2025年实现翻倍 [14] - 坚持"火山开放,豆包自研"路线,兼顾生态与自有产品 [3] - 围绕抖音等C端体系推进娱乐、社交、陪伴场景渗透,同时提升火山引擎ToB输出能力 [14] 应用场景与案例 - 适用于助手类效率提升产品,在信息检索、陪伴、AI玩具、社交游戏等领域有优势 [15] - 国外案例包括CharacterAI的TalkingMachines实现视频互动,Miko推出AI伴侣 [7][12] - 国内案例包括FoloToy"显眼包"、Looi桌面机器人、CASIO宠物机器人Moflin等 [12]
字节藏了一手“牌”
虎嗅· 2025-07-12 15:27
字节跳动布局情感大模型 - 公司旗下火山方舟大模型平台计划上线"情感大模型"API服务,豆包则坚持自研路线,形成"火山开放,豆包自研"的双轨策略[1] - 火山引擎相关负责人否认"情感大模型"计划,但行业信息显示该技术能识别53种人类情绪,实现拟人化情感交互[2] - 公司计划通过垂类大模型带动豆包月活在2025年翻倍,并围绕抖音生态推进娱乐、社交场景渗透,同时强化火山引擎ToB输出能力[14] 情感大模型技术特性 - 技术核心在于"理解情绪+精准回应",通过分析语调、停顿、表情实现接近真人的交互体验[3][4] - 技术演化形成两条路径:通用大模型增强多模态情感计算能力,或专注情感领域的生成式大模型[5][6] - 训练算力需求比通用模型高30%-50%,需采用端到端形式且依赖特殊数据,但相比传统模型在算力使用上更高效[10] 行业市场前景 - 腾讯研究院预测未来2-3年人机陪伴市场将爆发,全球AI伴侣市场规模预计从2023年3000万美元增至2030年1500亿美元,年均复合增长率236%[7] - CharacterAI移动端下载量超3432万,网页月访问量3.1亿;消费类机器人2024年全球出货4700万台,未来5年复合增长率超20%[10][17] - GPT-4o等多模态模型加速情感陪伴落地,国内外企业已推出AI玩具、桌面机器人等产品,涉及儿童教育、情感治愈等场景[11][12][13] 技术发展趋势 - 国内技术比国外晚约1年,但在MoE架构和多模态学习方面取得进展,未来通用大模型可能融合情感、文生视频等细分模型[11][17] - HumeAI的EVI系统能检测53种情绪,其CEO认为情商是AI界面核心要求,需推断用户真实需求并执行[15] - 行业下一阶段进化方向可能是"世界模型",具备物理直觉和未来状态推演能力,但当前仍面临算力消耗、数据隐私等技术瓶颈[17]