Workflow
VLA
icon
搜索文档
腾讯研究院AI速递 20250808
腾讯研究院· 2025-08-08 00:01
GPT-5系列模型 - OpenAI提前披露GPT-5四个版本:标准版gpt-5、轻量版gpt-5-mini、低延迟版gpt-5-nano和多模态复杂对话版gpt-5-chat [1] - 模型将分层开放:免费用户用基础版,Plus用户用更强推理版,Pro用户独享"研究级智能"的GPT-5 Pro [1] - 实测显示SimpleBench推理测试准确率达90%,需特定提示激活复杂思考,编程和视觉表现有提升但未达惊艳水平 [1] MiniMax语音模型 - 新一代Speech 2.5模型支持40种语言真人级生成,实现跨语种音色保留和口音复刻 [2] - 相比5月版本在多语种自然表达、音色复刻和语种覆盖三方面突破 [2] - 已被Vapi、Pipecat等海外平台及高途教育、喜马拉雅、网易等国内头部平台接入 [2] 小红书多模态模型 - 开源首个多模态大模型dots.vlm1,基于12亿参数NaViT视觉编码器和DeepSeek V3构建 [3] - 视觉理解能力接近Gemini 2.5 Pro和Seed-VL1.5 Thinking,能解数独、破解高考数学题等 [3] - 两个月内连续开源dots.llm1、dots.ocr、dots.vlm1三款模型,反映技术自研力度加大 [3] 面壁小钢多模态模型 - MiniCPM-V 4.0仅用4B参数在OpenCompass等榜单取得SOTA成绩,支持手机端稳定运行 [4] - 显存占用仅3.33GB,256并发下吞吐量达13856 tokens/s,远超Qwen2.5-VL和Gemma 3 [4] - 开源推理部署工具MiniCPM-V CookBook便于开发者简易部署 [4] 通义千问新模型 - 发布Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507两款小尺寸模型,支持256K上下文 [5][6] - Qwen3-4B-Thinking在AIME25测评得81.3分,Agent能力超越Qwen3-30B-Thinking [6] - Qwen3-4B-Instruct全面超越GPT-4.1-nano,性能接近Qwen3-30B-A3B [6] 大模型对抗赛 - OpenAI的o3以4比0完胜o4-mini,展现100%准确率 [7] - Grok 4与Gemini 2.5 Pro常规赛2比2平,加赛逼和对手晋级 [7] - 决赛由Grok 4对阵o3,国际象棋冠军Magnus Carlsen等将解说 [7] Gemini教育功能 - 推出"引导式学习"模式,通过问题分解、视觉辅助和互动测验构建知识 [8] - 为美日等国大学生提供一年免费AI Pro计划(价值200美元) [8] - 承诺三年内向美国教育投入10亿美元 [8] 具身智能技术 - Skild AI推出端到端视觉感知控制方案,实现机器人稳定爬楼梯和复杂障碍通过 [9] - 采用纯视觉输入方法,通过单一神经网络实现"本能级"动作控制 [9] - 优势在于连贯运动切换和环境适应能力,可实时调整动作应对地形 [9] 理想汽车智驾 - 推出国内首个量产VLA模型,在视觉和行为间加入语言环节使决策更拟人 [10][11] - 系统每天通过"世界模型仿真系统"行驶30万公里迭代,4B模型实现10Hz帧率 [11] - 预计辅助驾驶明年达1000MPI里程碑 [11] AI应用平台趋势 - a16z认为AI应用平台将走向专业化而非赢者通吃,形成互补共存 [12] - 市场分化为原型制作、个人软件和生产级应用三类,70%用户仅活跃于单一平台 [12] - 未来三至五年每类别将出现2-3家主导企业 [12]
一切竞争,都变成了“AI 竞争”
36氪· 2025-08-01 19:13
行业趋势:AI成为车企竞争核心变量 - AI正从汽车行业的"选配"升级为"准核心卖点",中高端市场尤其明显[1][6][8] - 理想汽车将VLA大模型技术称为汽车行业的"iPhone 4时刻",打破智能驾驶与智能座舱的系统壁垒[2][4] - 吉利发布Agent OS操作系统,将汽车视为轮式机器人,实现主动式情感化交互[6][8] 技术突破:大模型驱动智能进化 - 理想VLA模型实现视觉与语言系统协同,能理解模糊意图并自主决策(如筛选安静咖啡馆)[4] - 吉利Agent OS基于端到端语音大模型,可感知用户状态并主动提供服务(如推荐音乐/鲜花)[6][8] - 行业技术路径分化:理想选择产品端单点突破,吉利采用全域体系化布局[6][8] 产品策略:空间与操控仍是基本盘 - 家庭用户主导的市场中,大空间仍是核心卖点,乐道L90和吉利银河M9均主打空间最大化[10][12][13] - 电动化催生驾控升级,吉利银河A7由路特斯团队调校底盘,零跑新车型引入欧洲调校标准[14][16] - 20-40万价格区间,物理体验(空间/操控)与AI智能形成双重竞争力[13][16] 市场分化:不同层级的竞争焦点 - 中高端市场聚焦AI代码能力,倒逼车企加速技术整合(如吉利联合外部AI企业)[17] - 普惠车型领域通过新能源架构优势实现"降维打击",强化基础功能体验[17] - 长期来看,成功车企需融合AI智能与机械素质,形成差异化产品力[17]
关于理想VLA的22个QA
理想TOP2· 2025-07-30 08:02
VLA技术架构潜力 - VLA架构源于机器人与具身智能,具备长期技术潜力,可支持城区自动驾驶,延续至机器人繁荣后才可能被替代 [1] - 语言理解能力(L)是核心能力提升,增强思维链(CoT)处理复杂场景,非锦上添花而是必要能力 [4] - 泛化能力通过强化学习形成自主思考,无需依赖数据输入即可处理新场景 [5] 硬件性能与部署 - Thor-U芯片支持FP4精度,算力达1400(FP8为700),推理帧率可从10Hz提升至20-30Hz [2] - 双Orin平台与Thor平台功能同步,模型部署无差别,内部持续优化帧率 [2] - 3.2B MoE车端模型升级周期分基座预训练(按月更新)与后训练(按需调整),流匹配技术实现2-3步快速去噪,时延仅15毫秒 [6][7] 技术路线与差异化 - 暂不自研芯片以保持架构通用性,待模型定型后再评估可能性 [3] - VLA通过强化学习实现个性化驾驶风格,FaceID切换不同用户偏好,形成产品差异化 [19][22] - 与特斯拉技术栈目标一致,但更注重全场景能力逐步迭代,Robotaxi路线需谨慎研发 [17] 功能实现与迭代 - 行车、泊车、AEB已一体化训练,当前版本集成全部模块 [17] - 地库车速从10公里提升至15公里,未来继续优化上限 [10] - 远程召唤时可查看车辆周围影像,功能已实现 [13] 安全与合规性 - AEB作为安全兜底机制,帧率高且独立于VLA运行 [21] - 当前版本调优偏稳妥合规,如虚线借道超车需明确指令 [9] - 目标2024年底MPI(平均接管间隔)达400-500公里,2025年突破千公里 [18] 法规与商业化 - 参与L4法规建设,技术能力可支持但需政策落地 [18] - 后台监控未来由AI接管,现阶段人力仅为展示保护 [16] - 驾驶风格适配从早期用户向大众普及,依赖信任感建立 [12]
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 22:36
自动驾驶技术发展现状 - BEV感知方案已完全成熟并广泛应用于量产车型 基于BEV的动态感知、静态感知、OCC感知均实现技术落地 [16][24] - 端到端方案仍处于验证阶段 实际效果未显著超越传统两阶段模型 存在数据收集难度大、训练成本高等实操问题 [11][31] - 行业面临的核心挑战是corner case处理能力 非结构化道路、复杂路口等场景通过率不足99% [16][24] 新兴技术路线争议 VLA/VLM技术 - **看好派**:认为VLA通过大模型推理能力实现场景理解 可突破传统规则引擎的迭代瓶颈 是下一代技术重点方向 [2][28] - **质疑派**:指出当前VLA基座多依赖开源模型魔改 缺乏专用预训练体系 且车端算力限制导致性能与延迟难以平衡 [1][27] - **中立派**:认为对话功能仅提供情绪价值 控车逻辑需独立设计 量产可行性存在但效果待验证 [3][18] 关键技术突破方向 - **世界模型**:三大应用场景包括预训练、仿真数据生成、端侧推理 目前数据生成领域已取得阶段性成果 [6][33] - **强化学习**:仿真精度是核心瓶颈 若能解决sim2real域差距 配合端到端架构将实现性能飞跃 [6][32] - **扩散模型**:适配多模态轨迹生成特性 地平线DiffusionDrive方案已实现实时性突破 [7][26] 行业竞争格局演变 - 数据闭环能力成为竞争焦点 头部公司重点构建AI驱动的数据流水线 涵盖采集、清洗、标注全流程自动化 [20][22] - 仿真技术呈现两极分化:L4企业侧重世界模型构建安全验证体系 L2+厂商聚焦VLA提升泛化能力 [18][30] - 芯片算力制约技术落地 7B参数以下模型成主流 量化加速与轻量化算法需求迫切 [27][28] 学术与产业协同 - 学术界研究滞后于产业落地 BEV从论文发表到量产应用耗时2年 当前VLA等技术尚未形成理论共识 [31][9] - 产学研割裂问题突出 工业界数据壁垒导致学术界缺乏真实场景验证数据集 [13][31] - 3D高斯等新型表征方法有望重构世界模型架构 球谐函数替换等基础研究具备潜力 [6][33] 技术路线选择建议 - 短期优先完善一站式端到端方案 长期需突破鲁棒性瓶颈以实现L4 [18][26] - 平价车型可采用BEV+蒸馏方案过渡 等待芯片成本下降支撑大模型部署 [24][26] - 自动驾驶与具身智能技术互通 建议选择迁移性强的研究方向 [34][22]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-08 07:31
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受行业重点关注 [1] 大模型优化课程核心内容 - 课程系统探讨大模型前沿优化方法,聚焦参数高效计算、知识动态扩展和复杂推理三大方向 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等范式 [2] 课程技术重点 - 结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等关键技术 [2] - 使用LLaMA、GPT等主流大模型作为实验平台 [2] - 多智能体协作和多模态理解等前沿方向 [2][3] 课程安排与产出 - 12周在线小组科研+2周论文指导+10周论文维护期 [7] - 每周1-1.5小时课程,涵盖大模型剪枝、量化加速、PEFT、多智能体协作等主题 [18][20] - 最终产出包括论文初稿、写作方法论、投稿建议 [6][7] 学员收获 - 系统掌握大模型优化理论体系,解决知识零散问题 [6] - 获得导师提供的定制化研究idea和baseline代码 [7][17] - 提升Coding能力,掌握论文写作与投稿技巧 [6][7] 技术要求与资源 - 需具备PyTorch和Python基础,建议配备4张4090显卡 [13] - 提供公开数据集和Baseline代码,包括LLM-Pruner、LLaVA等开源项目 [15][16][17] - 必读论文涵盖GPTQ量化、Sheared LLaMA剪枝等前沿研究 [17][19]
提前10天成功判断理想无法完成25Q2交付指引, 今天再下5个判断
理想TOP2· 2025-06-27 18:17
交付指引与销售表现 - 公司25Q2交付指引原为123000-128000辆 其中4月交付33939辆 5月交付40856辆 6月需交付48205-53205辆才能达到下限 [1] - 6月前三周上险量分别为12020/8270/7874辆 按日均1717辆推算 6月1-15日累计上险17861辆 剩余15天需维持周均14160辆才能达标 [2] - 历史上仅6次周上险超13000辆 3次超14000辆 最高两周合计28020辆 当前基本面无法支撑连续高上险表现 [2] - 公司6月27日更新25Q2交付预期至108000辆 较原指引下限下降12% [3] 销售策略与组织调整 - 近期销售改革旨在专注价值传递以形成良性订单循环 但当前解决方案暂未达预期效果 [4] - 人事调整有助于长期实现销售目标 但过渡期销量将受影响 创始人执行力被视为关键优势 [4] - 销售体系此前存在价值观贯彻不足的问题 需通过持续试错重建 [4] 产品规划与竞争态势 - 核心产品线VLA/i8i6/L系列大改款等存在商业表现不及预期的风险 可能影响市场信心 [6] - 与小米竞争中 公司需保持think different能力 创始人年龄优势或助力长期竞争 [6] - 竞品YU7爆单源于用户形成的"保值想象共同体" 但该模式在智能车领域难以长期持续 [6][7] 行业观察与反思 - 行业出现向小米模式学习的声音 认为其部分非用户导向的取舍具有合理性 [5] - 市场对产品价值的判断易受短期销售数据影响 形成信心波动的循环 [6]
如何看待目前VLA的具身智能技术?VLA还算是弱智人?
自动驾驶之心· 2025-06-27 17:15
VLA技术现状分析 - VLA本质上是升级版行为克隆(BC)技术 缺乏创新性突破 [1] - 当前VLA系统仅能处理极简化的pick-place任务 成功率计算存在严重水分 [3] - 行业存在将单一任务拆分为多个子任务来夸大通用性的现象 [4][5] 技术局限性 - 任务复杂度局限:仅能处理2D平面内1-2个物体的抓取放置 无法应对3D空间操作 [7][10] - 场景适应性差:要求纯色背景且物体数量≤2 与真实世界复杂环境严重脱节 [8][9] - 数据效率低下:需数百次演示数据训练单一简单任务 违背few-shot学习原则 [15] 行业实践问题 - 测试标准失真:通过精心设计的演示场景和拍摄角度人为提高成功率 [17] - 能力边界模糊:缺乏明确的能力评估体系 无法界定系统可处理任务范围 [16] - 技术路线争议:纯端到端训练方式难以实现真正的通用性和可解释性 [18][19] 核心批评观点 - VLA技术回避了机器人领域真正需要解决的复杂问题 [18] - 当前研究过度简化任务难度来获得表面上的高成功率 [3][6] - 行业存在将简单技术包装成突破性进展的泡沫现象 [18][20]
四位图灵奖掌舵,2025智源大会揭示AI进化新路径
量子位· 2025-05-23 14:14
智源大会概况 - 第七届北京智源大会将于2025年6月6日至7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者[3] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200余位专家参会,联动全球30多个国家和地区的50万从业者[3] - 2025年大会将迎来四位图灵奖获得者,云集MIT、斯坦福、清华、北大等20+顶尖科研院所及DeepMind、华为、阿里等企业专家[4] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,2016年AlphaGo成功推动两者融合[2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek)、具身智能百花齐放(VLA等开源模型推动)[2] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等20个前沿议题[6][8] 大会核心议程 - 设立基础理论、应用探索、产业创新、可持续发展四大主题,包含近20场专题论坛[4] - 专题涵盖自主智能体、AI for Science、智能驾驶、AI安全等方向,特别设置"大模型产业CEO论坛"(智谱AI、面壁智能等参与)[5][11] - 新增"InnoVibe共创场"为青年学者提供成果分享平台,同步开设AI互动展区展示前沿科技[5] 产业生态与创新 - 开源生态加速演进,PyTorch Day China和AI开源项目Tech Tutorial系列活动推动技术落地[11] - 具身智能与人形机器人、AI+理工/医学等应用探索成为产业焦点[8][11] - 企业创新路径涵盖从AI for Science到AI for Industry的完整链条[11]
四位图灵奖掌舵:2025智源大会揭示AI进化新路径
机器之心· 2025-05-23 12:17
智源大会概况 - 2025年第七届北京智源大会将于6月6-7日在中关村国家自主创新示范区展示中心举行,汇聚全球顶尖AI研究者与产业领袖 [3][4] - 大会自2019年创办以来已吸引12位图灵奖得主参与,每年有200+专家参会,覆盖全球30+国家/地区的50万从业者 [3] - 2025年大会将迎来四位图灵奖得主,以及来自MIT、斯坦福、清华、北大等20+顶尖科研院所的科学家 [4][5] AI技术发展趋势 - 深度学习和强化学习的技术交叉成为下一代通用人工智能基石,如2013年DeepMind的DQN和2016年AlphaGo的突破 [2] - 2025年AI发展关键词包括推理大模型兴起、开源生态加速(如DeepSeek和VLA模型推动具身智能演进)、创新企业涌现 [3] - 基础理论领域聚焦深度推理模型、多模态模型、类脑大模型、NeuroAl等方向 [7][10] 产业应用与创新 - 应用探索涵盖具身智能与人形机器人、自主智能体、AI for Science(AI4S)、AI+理工/医学等方向 [8][10] - 产业创新板块设置大模型产业CEO论坛,邀请智谱AI、面壁智能、生数科技、爱诗科技等企业探讨演进路径 [5][10] - 智能驾驶、具身技术产业应用、从AI for Science到AI for Industry成为重点议题 [10] 特色活动与生态建设 - 首次推出"InnoVibe共创场",邀请热门论文作者分享成果,为Z世代AI青年提供展示平台 [5] - 设置AI互动展区展示前沿科技,同期举办PyTorch Day China、AI开源项目Tech Tutorial等系列活动 [5][12] - 可持续发展议题关注AI安全、青年科学家发展、开源生态建设等方向 [11][12]