世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

VLA：有人喊“最强解法”，有人说“跑不动”

36氪· 2025-09-11 16:17

智能驾驶技术路径分化 - 智能驾驶行业出现VLA（视觉-语言-动作）与反VLA两大阵营分化理想、小鹏、元戎启行支持VLA路线华为、Momenta、博世、卓驭持反对立场 [1][27][43] - VLA技术通过引入语言桥梁实现隐式逻辑推理旨在突破端到端模型90%性能瓶颈提升系统认知与决策能力 [12][14][16] - 行业技术竞争焦点从纯技术路径转向资源分配策略与技术价值观博弈 [4][40][47] 端到端技术局限性 - 端到端模型存在两大缺陷：决策逻辑不透明（黑箱问题）及未见过场景处理能力缺失 [8][9] - 该模型可解决90%智驾难题但剩余10%涉及安全的关键场景需依赖规则兜底 [10][11] - 当前行业共识认为端到端需结合规则代码保障基础交通规则遵守 [10] VLA技术优势与挑战 - VLA具备三维动态信息理解能力如潮汐车道标识、交警手势支持语音交互与风险预判 [19][20][21] - 技术落地面临三大挑战：多模态特征对齐困难、训练数据获取复杂度高、现有智驾芯片算力不足 [31][32] - VLA需7B-10B参数规模理想部署但当前芯片带宽限制导致决策频率难以稳定维持10Hz [31] 阵营资源投入差异 - VLA路线需数十亿级资金投入小鹏宣称仅投入数亿只能实现"微型VLA" [28][29] - 小鹏通过自研图灵芯片提供750TOPS算力构建72B参数基座大模型支撑VLA [41] - 理想早期布局端到端+VLM融合元戎启行聚焦英伟达Thor芯片应用三方均具备人形机器人研发协同优势 [41][42] 替代技术路径发展 - 华为推出WEWA世界模型架构通过端云结合降低时延主张该路径为智驾终局解决方案 [36][37] - 地平线基于征程6P计算平台打造软硬一体方案博世强化一段式端到端工程化量产能力 [43][45] - Momenta采用数据飞轮模式开发R6强化学习模型强调商业可扩展性与成本控制 [46] 行业监管与发展阶段 - 监管政策禁止"自动驾驶"宣传用语要求OTA升级需备案智驾安全被提至绝对优先 [39] - L3政策未放开导致行业处于L2+功能优化阶段用户感知的"利己效益"不明显 [39] - "车位到车位"功能落地后行业进入瓶颈期技术突破需百倍级安全提升方能支撑L4落地 [35][38]

VLA（视觉 - 语言 - 动作大模型）

VLA（视觉 - 语言 - 动作大模型）

2025年，盘一盘中国智驾的自动驾驶一号位都有谁？

自动驾驶之心· 2025-09-11 07:33

行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径人才结构与竞争格局重新洗牌领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座大模型世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载学术界推出VLA 强化学习世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略飞轮是数据驱动两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载（卓驭） - 沈劭劼担任大疆车载总负责人香港科技大学电子和计算机工程系副教授科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作包括大众汽车上汽通用五菱比亚迪等[31] - 已有20余款车型量产还有30多款车型即将量产落地预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发提出智能驾驶技术趋同特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官中国公认大学生计算机编程第一人算法领域卓越成就[45] - 主导开发世界模型技术使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]

机器人研究具身智能浪潮下的蝶变

2025-09-08 00:19

行业与公司 - 行业涉及工业机器人、人形机器人、具身智能、自动驾驶及机器人传感器市场 [1][2][11] - 公司包括特斯拉、英伟达、Meta、华为、小米、小鹏、蔚来、优傲（Universal Robots）及消费电子和汽车零部件制造商 [2][11][12][16][17][22] 核心观点与论据行业发展现状与驱动因素 - 中国工业机器人年安装量占全球一半以上过去20年全球安装量年复合增速12% 中国达18% [1][3] - 中国工业机器人本体厂商市占率已达52% 受益于新能源汽车、光伏、锂电等新兴产业推动、上游硬件国产化替代及政府政策支持 [1][4] - 2024年全球工业机器人增速放缓（基本无增长）中国增长但斜率放缓主因传统设计需安全围栏导致部署成本高未来发展依赖具身智能技术 [5] - 2025年为人形机器人小批量工程化元年代表性企业预计实现至少1,000台出货量 [8] 技术差异与创新 - 人形机器人需更多传感器（力传感器、温度传感器、电子皮肤）增强感知执行器设计更多样化（如五指灵巧手）硬件设计未完全收敛 [6][7] - 世界模型需具备理解空间、动作和因果关系能力支持多模态数据输入输出（文本、语音、视频）英伟达、Meta、华为均发布相关模型 [12][13][16] - 数据采集采用金字塔结构：顶层真机采集（成本高）、仿真数据、互联网人工操作数据中国建立5,000平方米数据采集基地部署100多种机器人 [18] 商业化挑战与应对 - 行业面临小批量工程化、量产能力、规模化检测能力及产品稳定性挑战 80%创业者可能因工程化生产能力不足倒闭 [8][9] - 部分创业公司专注算法开发硬件外包给消费电子或汽车零部件公司形成能力互补 [9] - 下游客户关注投资回报率（机器人使用寿命、故障率、维护费用）产品需足够稳定才能进入小批量工程化 [10] 未来趋势与生态变化 - 具身智能将模糊工业、家用和特种机器人边界汽车和消费电子巨头（小米、小鹏、苹果链制造商）积极参与软件厂商将掌握更多盈利 [11][20][26] - 家用机器人设计强调交互性、安全性、降噪性能（噪音低于冰箱运作声）及数据隐私 [19] - 软件行业具规模效应中长期将形成2-3家主导公司制定全行业智能化基准 [26] 硬件投资机会 - 成熟赛道（如减速器）更多厂商扩产能影响估值非成熟赛道（如灵巧手）年出货量不到1万只关注特斯拉等头部厂商方案 [22] - 硬件方案分三类：技术难度低（核心竞争力取决于商务关系及全球化布局）、技术难度中等且国产化率低（享受市场规模增长与国产份额提升双重红利）、尚处孕育期（关注头部厂商示范效应） [27] - 传感器市场受汽车和医疗领域技术推动一级公司实现从小批量到工程化生产转变 [23] - 人形机器人大规模量产需关注算法和加工设备（如磨床和热处理设备）年产量达100万台时现有磨床市场需求增长约50% [24] 软件发展展望 - 软件区分"大脑"（高层决策）和"小脑"（低层控制）功能国内企业小脑能力已实现良好行走表现争论集中在大脑层面 [25] - 英伟达Isaac平台等开发工具通过收取技术开发费、license费及AI agent费商业化 [20][21] 其他重要内容 - 全球主要经济体机器人研发脉络不同：日本最早引领工业机器人量产（2000年前应用于汽车、3C）欧盟引领协作机器人商业化（如优傲） [11] - 中美AI竞争：美国擅长0到1颠覆性模型搭建中国擅长工程化能力及场景应用政策聚焦人形机器人牵引产业链发展 [12] - 自动驾驶领域应用世界模型（如蔚来2025年5月发布交付自动驾驶版世界模型）技术与人形机器人类似 [17]

机器人(SZ:300024)

工业机器人

人形机器人

家用机器人

工业机器人

人形机器人

家用机器人

算力之战将至少持续3~5年朱西产：云端算力决定未来汽车行业洗牌的话语权

每日经济新闻· 2025-09-07 08:48

云端算力成为汽车行业竞争新焦点 - 云端算力正成为决定车企竞争力的关键变量车企在自动驾驶训练智能座舱迭代和大模型推理中的效率取决于云端算力水平迭代速度与云端算力强度直接相关 [1] - 车端算力负责实时感知和决策以TOPS衡量云端算力对应超算平台能力以EFLOPS衡量二者分工不同但协同作用 [1][2] 全球车企云端算力格局 - 特斯拉以约100EFLOPS云端算力居全球首位引望以32EFLOPS位列第二吉利星睿智算中心达23.5EFLOPS 在中国车企中排名第一并进入全球第一梯队 [3] - 新势力车企云端算力多集中在8-12EFLOPS区间行业算力竞争将持续3-5年目前大部分车企算力数据处于5-10EFLOPS范围 [4] 智能化与电动化协同发展路径 - 吉利汽车自2021年启动"智能吉利2025"规划构建覆盖芯片操作系统大数据的科技生态网络同步建立智能科技研发体系产品体系和运营体系 [6] - 吉利发布行业首个智能汽车全域AI技术体系将AI融入智驾域动力域和底盘域包括千里浩瀚辅助驾驶系统 AI云动力2.0和AI数字底盘等具体技术落地 [7][9] - 行业专家反对"电动化上半场智能化下半场"划分指出全球新车中燃油车仍占80% 电动车仅20% 智能化应贯穿汽车发展全过程与电动化协同推进 [10][11] 算力竞争背后的技术驱动因素 - 智能驾驶需经历"云端训练-车端部署-数据回传-再训练"闭环循环云端算力强度直接决定闭环运行效率 [2] - "世界模型"训练对算力需求成倍提升支撑大模型训练能力已成为车企进入下一轮竞争的门槛 [2]

吉利汽车(HK:00175)

千里浩瀚辅助驾驶系统

千里浩瀚辅助驾驶系统

谈谈Diffusion扩散模型 -- 从图像生成到端到端轨迹规划~

自动驾驶之心· 2025-09-06 19:59

扩散模型技术原理 - 扩散模型是一种生成式模型本质是通过去噪过程学习数据分布噪音符合特定分布 [1] - 模型原理基于对数据分布的学习和模拟包含正向扩散过程和反向生成过程 [2] - 开山之作自2020年提出目前引用量已超过20000次 [2] 扩散模型在自动驾驶领域的应用 - 应用主要集中在数据生成场景预测感知增强和路径规划等方面 [11] - 可对连续分布噪音和离散分布噪音进行去噪适用于决策规划等离散问题 [11] - 在端到端和VLA架构中都发挥重要作用 [11] 端到端自动驾驶课程技术体系 - 课程涵盖多模态大模型 BEV感知强化学习视觉Transformer 扩散模型等核心技术 [21] - 第二章包含大语言模型 BEV感知扩散模型理论强化学习与RLHF等关键技术栈 [18][27] - 扩散模型多模轨迹预测成为学术界和工业界追捧的热点多家公司尝试落地 [33][34] 课程章节内容设计 - 第一章介绍端到端自动驾驶发展历史技术范式演变及业界动态 [27] - 第二章重点讲解端到端涉及的背景知识为后续章节奠定基础 [27] - 第三章聚焦二段式端到端分析PLUTO CarPlanner和Plan-R1等经典与前沿工作 [28] - 第四章深入一段式端到端子领域包括基于感知世界模型扩散模型和VLA的方法 [29] - 第五章设置RLHF微调大作业提供预训练和强化学习模块的实战指导 [38] 实战项目安排 - 包含Diffusion Planner实战项目适用于求职应用场景 [33] - 基于小米ORION的VLA实战揭开自动驾驶VLA神秘面纱 [36] - RLHF微调作业具有良好延展性可迁移到VLA相关算法中 [38] 技术人才市场需求 - VLA/VLM大模型算法专家薪资达40-70K-15薪 [19] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K-16薪 [19] - VLM/VLA大模型算法工程师薪资35-65K [19] - VLM实习生日薪220-400元 [19] 课程特色与目标 - 基于Just-in-Time Learning理念帮助学员快速掌握核心技术栈 [22] - 构建端到端自动驾驶研究框架提升论文分类和创新点提取能力 [23] - 学完可达1年左右端到端自动驾驶算法工程师水平 [43] - 可复现扩散模型 VLA等主流算法框架应用于实际项目 [46]

端到端自动驾驶

《端到端与VLA自动驾驶小班课》

端到端自动驾驶

《端到端与VLA自动驾驶小班课》

某新势力的智驾赛马

自动驾驶之心· 2025-09-06 00:03

公司智驾团队人事变动 - 某新势力智驾部门出现两派内部竞争一派由智驾一号位领导专注于传统手写规则技术另一派由世界模型负责人领导由近两年空降的前沿算法人才和产品总监组成[7] - 世界模型负责人获得大BOSS直接支持绕过智驾一号位直接汇报并掌握最核心的前沿算法资源导致内部形成"东升西落"权力格局[7] - 该团队曾于数年前出现类似赛马情况当时三股研发力量相互掣肘导致算法研发受阻后通过引入明星大牛统一技术框架才实现突破[7] 技术路线演变影响 - 智驾行业技术路线变更通常引发技术人才洗牌但主要影响技术中层和大头兵罕有波及智驾一号位层级[7] - 明星大牛时期通过重构技术框架取得业界拔尖成绩但继任者领导期间智驾发展趋于平淡既未掉队也未突破促使公司重新倾向前沿算法路线[8] - 公司当前资源投入明显向世界模型团队倾斜旨在通过前沿算法重现技术领先地位[7][8] 组织架构不确定性 - 智驾一号位未来任职存在不确定性其管理权威受到直接向最高层汇报的世界模型负责人挑战[7] - 当前人事架构延续了该新势力历史上存在的内部赛马模式这种结构曾导致研发效率低下[7] - 团队稳定性面临考验历史类似情况最终以非主导派系人员陆续离职收场[8]

特斯拉Optimus：世界模型会终结一切

自动驾驶之心· 2025-09-04 07:33

特斯拉Optimus技术演进路径 - 特斯拉Optimus大脑技术方案已从模仿学习转向视频学习，并计划最终采用世界模型方案[5] - 模仿学习虽实现端到端控制，但存在数据泛化性问题[6] - 视频学习解决数据来源多样性问题，但无法解决规模和成本问题[6] - 世界模型作为终极方案可同时解决数据多样性、规模和成本问题，并为机器人提供物理世界知识[6] 世界模型技术特性 - 世界模型是拥有大规模真实世界物理知识的模型，其内部所有行为都符合物理规律[6] - 与手动编写规则的传统模拟器不同，世界模型通过海量真实世界视频自主学习物理规律[6] - 谷歌Genie3创造近似3D物理世界，支持用户交互和创造，与2D固定视角的视频生成模型有本质区别[9][11] - Genie3生成的内容符合物理规律且可进行强交互，非常逼近真实场景[11] 世界模型在机器人领域的应用 - 首先使用Optimus执行任务的少量视频对通用视频生成模型进行微调，使模型理解机器人自身的物理特性[12] - 模型理解后可接受自然语言指令生成海量逼真模拟视频[14] - 通过逆向动力学模型分析成功视频，反解出电机控制指令（伪动作）[14] - 将视频与伪动作配对形成海量数据对，用于高效训练主控AI[14] - 该方法使机器人能在虚拟世界进行零成本、零风险的试错学习，特别适用于处理罕见边缘案例[14][16] - 英伟达技术显示该方法使人形机器人从1个现实任务扩展到22种新行为，未知环境任务成功率从0%提升至40%以上[16] 行业技术发展现状 - 目前自动驾驶行业大多数企业尚未实现端到端，仍采用感知-决策-控制分层设计[17] - 国内人形机器人企业仍处于花费大量资金收集数据进行模仿学习的阶段[17] - 特斯拉Optimus从模仿学习迁移到视频学习花费数年时间，预计还需数年才能实现世界模型方案[17]

特斯拉(US:TSLA)

特斯拉Optimus

特斯拉Optimus

世界模型，腾讯混元卷到了榜首

量子位· 2025-09-03 15:30

腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源距离上一代Lite版发布仅间隔两周展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能支持通过鼠标和键盘在场景内自由活动交互性远超360°全景图用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程通过空间与特征结合支持原生3D记忆和场景重建避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集整合真实世界采集与虚幻引擎渲染资源通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]

腾讯控股(HK:00700)

28场锦秋小饭桌的沉淀：产品、用户、技术，AI创业者的三重命题

锦秋集· 2025-09-03 09:32

多模态硬件入口 - 多视角拍摄设备叠加AI后普及度提升多模态影像数据具备显著入口价值[20] - AI眼镜产品面向近视人群(中日韩近视率超80%) 因长时间佩戴需求为持续获取人眼视角数据奠定基础[20] - 某大厂AI眼镜出货量达10万+ 主力人群为25-48岁(男女比例7:3) 周末活跃度极高[20] - 眼镜AI调用频率为手机7倍开始替代小音箱成为新IOT交互入口[20] - 眼镜具备10+tops算力理论上可运行轻量级AI大模型但耗电问题暂未解决[20] - 未来可能叠加眼动追踪与麦克风阵列波束成形技术提升AI个性化理解与训练价值[21] 多模态记忆技术 - 多模态记忆串联视频/音频/文本形成完整逻辑链实现场景复现与高效需求响应[22] - 通过全模态集成与双端压缩技术突破传统记忆模式效率瓶颈实现海量数据高效利用[22] - 高压缩比技术将10分钟视频压缩至2帧仍保持原性能上限实现小数据承载全信息[24] - 输入端动态抽帧技术根据画面变化调整频率(5-10帧/秒捕捉快速动作)[24] - 精准搜索技术集成视频/音频/OCR/文本等多模态信息避免单一文本局限[25] 多模态AI Agent发展 - AI Agent核心在于动态工具选择与上下文感知系统避免工具箱扩展导致系统崩溃[25] - 正攻克多模态数据整合难题通过对齐不同模态实现统一语义理解与记忆检索[26] - 分层架构解决工具生态开放后的复杂度问题(上层代理选工具/下层工具执行)[26] - Agent技术趋势从自动化向可复用+生态化演进用户操作可生成MCP模块形成复用套路[32] - 可能出现AI能力交易市场平台核心逻辑为AI时代能力可复用[32] 情感陪伴与社交产品 - 情感陪伴产品融入日常生活兼具情感共鸣与工具价值(如分析聊天记录/设置提醒)[33] - 虚拟角色需打通角色与用户/角色间记忆以提升真实陪伴感统一风格模板助力社交[33] - Tolan成功切中轻情绪场景并融合工具能力(拍照识图/日程提醒) 但用户context获取方式影响体验[33] AI内容消费与平台 - 新交互方式更易产生新平台机会否则内容可通过推荐权重调整在原有平台曝光[34] - 用户主动发起的角色互动成为内容产品解法使Feed流交互转变为问答模式[35] - 从爆款起高楼比空地起高楼更合理可先通过IP多平台破圈再聚合形成平台[35] 技术供给展望 - 模型大厂因coding商业价值高而重心转回文本模态多模态理解与生成仍有期待空间[35] - 多模态理解能力待解锁(如精准定位视频片段/融入现实知识) 此为AI抖音难做原因[35] - OpenAI GPT realtime推出使Agent"前台聊天+后台执行"模式可能成为产品范式[36] - 新终端(如autoglm)为Agent操作与AI内容消费提供更大机会不依赖手机载体[36] 产品工具推荐 - Claude Code较Cursor交互轮次明显减少且更清晰长期看Cursor价值被压缩[37] - Showrunner通过融合100集对话风格+大语言模型生成内容用户消费核心为语言非画面[38] - Loom在录屏产品打磨最佳(zoom in/out/编辑/便捷分享等功能完善)[39]

多模态记忆

多模态记忆

业务合伙人招募来啦！模型部署/VLA/端到端方向~

自动驾驶之心· 2025-09-02 11:14

业务拓展计划 - 公司计划在国内外招募10名业务合伙人[2] - 合伙人将负责自动驾驶课程研发、论文辅导业务开发及硬件研发[2] 技术研究方向 - 重点招募方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶[3] - 涵盖具身交互、联合预测、SLAM、3D目标检测等前沿技术领域[3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向也在招募范围内[3] 人才资质要求 - 要求应聘者来自QS200以内高校且具有硕士及以上学历[4] - 拥有顶级会议论文发表经历者将获得优先考虑[4] 合伙人待遇 - 提供自动驾驶行业资源共享包括求职、读博及出国留学推荐[5] - 设置丰厚的现金激励方案[5] - 提供创业项目合作与推荐机会[5]

大模型部署与量化感知推理

多模态大模型

大模型部署与量化感知推理

多模态大模型