Workflow
VLM
icon
搜索文档
可以留意一下10位业内人士如何看VLA
理想TOP2· 2025-07-21 22:36
通用类大模型、具身智能、自动驾驶相关方向。 大模型之心Tech . 以下文章来源于大模型之心Tech ,作者自动驾驶之心 锚点2:觉得没有专用的VLM基座,都是用开源模型魔改的。(实际上理想VLA的基座就是自己 做的预训练,VLM的基座用的Qwen) 锚点3:觉得抛弃之前验证成熟的方法不是一个好举措。 正文内容是自动驾驶之心团队面向10位自动驾驶从业者的4个提问的回复,四个问题分别是: 1.当下前沿技术的发展路线是否已经成熟并适合量产?有哪些难点需要攻克? 2.如何看待新兴的技术方向:VLA/VLM、扩散模型、闭环仿真、强化学习、端到端自动驾驶、 世界模型等等 3.未来自动驾驶技术还有哪些值得探索的新方向? 4.深耕自动驾驶 or 投身具身智能,怎么选? 关于VLA大体有三派 1.不看好派 锚点1:觉得E2E都没发挥出真正的优势,实测效果不如PPT,VLA就更是PPT了。 2.看好派 锚点1:认为VLM/VLA本质是用大模型的发话能力帮助车像人一样理解场景,过去那种出现一 种场景,对应一种策略的思路开发是没有止境的。 锚点2:肯定是下一代重点落地发力方向,reasoning能力可以解释模型黑盒,是很大安全保 ...
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 16:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 16:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
港中文最新!ReAL-AD:迈向类人推理的端到端自动驾驶,轨迹性能提升30%(ICCV'25)
自动驾驶之心· 2025-07-20 16:36
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 上海科技大学&港中文ICCV'25中稿的最新工作— ReAL-AD! 迈向类人推理的端到端自动驾驶。 如果您有相关工作需要分享,请在 文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Yuhang Lu等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 端到端自动驾驶作为一种统一感知、预测和规划的方法,能够在统一框架内减少信息损失并提高适应性, 近年来备受关注。然而,现有方法通常依赖于固定且稀疏的轨迹监督,这限制了它们捕捉人类驾驶员自然 采用的层次化推理过程的能力。为了弥补这一差距,上海科技大学和港中文的团队提出了ReAL-AD,这是 一种推理增强学习框架,基于三层人类认知模型(驾驶策略、驾驶决策和驾驶操作)来构建自动驾驶中的 决策过程,并引入视觉-语言模型(VLMs)以增强环境感知和结构化推理能力。具体而言,我们引入了: (1) 策略推理Injecto ...
Vishay Intertechnology RGB LED in PLCC-6 Package Provides Independent Control of Red, Green, and Blue Chips for Wide Color Range
Globenewswire· 2025-07-16 23:00
Automotive Grade Device Delivers Luminous Intensity to 2800 mcd, Enables Every Color Within the Gamut Triangle Inside the CIE 1931 Color SpaceMALVERN, Pa., July 16, 2025 (GLOBE NEWSWIRE) -- Vishay Intertechnology, Inc. (NYSE: VSH) today introduced a new tricolor LED that provides luminous intensity to 2800 mcd at 20 mA for interior automotive lighting, RGB displays, and backlighting. Featuring separate anode and cathode connections for the red, green, and blue LED chips inside its compact 3.5 mm by 2.8 mm b ...
自动驾驶圆桌论坛 | 聊聊自动驾驶上半年都发生了啥?
自动驾驶之心· 2025-07-14 19:30
技术路线与量产现状 - BEV感知方案已成为行业主流量产选择 完全替代传统单目/双目检测方案 但在corner case(如非结构化道路、复杂路口)上仍有明显短板 [11][36] - 特斯拉引领的纯视觉BEV+Occ环境建模方式已获行业验证 但3DGS等新型表征方式正在探索中 [2][52] - 端到端方案(E2E)尚未展现显著优势 数据收集难度和训练成本高于传统两阶段模型 目前更多停留在PR层面 [4][48] 新兴技术方向 - VLA/VLM成为2025年焦点技术 通过语言模型提升corner case处理能力 但存在落地真实性存疑、学术界与工业界数据壁垒等问题 [5][20][45] - 扩散模型在轨迹生成中展现多模态优势 但实时性仍是量产挑战 CVPR2025的DiffusionDrive已取得进展 [17][39] - 世界模型主要应用于仿真数据生成 预训练和端侧推理仍待突破 部分厂商宣传存在夸大 [50][52] - 强化学习受限于仿真精度与安全性要求 在自动驾驶领域尚未规模化应用 但长期潜力被看好 [7][47][51] 行业痛点与突破方向 - 长尾场景处理需解决三大核心问题:VLA在corner case的实证数据不足、车端算力与模型效率的平衡、模仿学习的天花板突破 [5][6][7] - 数据闭环能力成为竞争关键 需构建自动化标注+仿真验证的高效流水线 头部企业已布局AI驱动的数据运营体系 [28][33] - 芯片算力限制导致技术分层:Orin-X支持多模态LLM处理复杂城区场景 而J6M等中低端芯片仅能支撑纯视觉高速NOA [40][45] 未来趋势与竞争格局 - 技术路线呈现分化:L2+方案侧重VLA泛化性提升 L4方案聚焦世界模型构建安全验证体系 [25] - 3D高斯与毫米波雷达应用被忽视 前者可发展为世界模型表征 后者存在技术空白 [52] - 行业进入"智驾平权"阶段 地平线征程6等芯片推动辅助驾驶普及 但平价车型仍受限于corner case处理能力 [36][39] - 中心化智能成为长期方向 从单车智能向V2X+云端协同演进 [47] 技术迁移与跨领域应用 - 自动驾驶与具身智能技术高度互通 VLA时代下两者在安全场景与灵活场景形成互补 [33] - 舱驾一体化成为新探索方向 结合语音与OS系统提升用户体验 [43] - 知识体系需保持可迁移性 避免过度专业化导致转行障碍 [52]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 14:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业,在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展,长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域,未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型,分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法,是业务模型落地的关键[6][15] - 大模型存在幻觉问题,解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导,分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]
资料汇总 | VLM-世界模型-端到端
自动驾驶之心· 2025-07-12 20:00
视觉大语言模型 - 文章汇总了视觉大语言模型(VLM)在自动驾驶和智能交通领域的最新研究资源和论文 [3][4] - 提供了多个开源项目链接,涵盖视觉语言模型的理论、应用和安全等方面 [3] - 列出了多个顶级会议(CVPR 2024、ICLR 2024等)的最新论文,涉及视觉语言模型的预训练、对齐和推理优化 [5][7] 迁移学习方法 - 总结了视觉语言模型在迁移学习中的最新进展,包括非自回归序列模型、公平性优化和高效微调方法 [7] - 提出了多种改进视觉语言模型迁移性能的技术,如动态视觉标记、上下文学习和检索增强对比学习 [7] - 涵盖了CVPR、ICLR、NeurIPS等会议的多篇论文,涉及模型架构优化和零样本泛化能力提升 [7] 知识蒸馏 - 讨论了视觉语言模型在检测、分割和多任务学习中的知识蒸馏技术 [8] - 未提供具体数据或论文细节,仅作为研究方向提及 [8] 世界模型 - 综述了自动驾驶中世界模型的研究,包括场景理解、未来预测和4D重建 [9][12] - 列出了多个创新模型,如HERMES、DriveDreamer4D和Vista,涵盖3D场景生成和可控视频预测 [9][12] - 提供了世界模型在自动驾驶中的全面调查和未来趋势分析 [12] 扩散模型 - 汇总了扩散模型在图像处理、视频生成和自动驾驶中的应用 [14][15] - 列出了多个开源资源和论文集合,涵盖图像恢复、3D视觉和推荐系统等领域 [14][15] - 提供了扩散模型在低层视觉、时间序列和多模态编辑中的最新研究进展 [15] 端到端自动驾驶 - 介绍了端到端自动驾驶的最新研究方向和论文资源 [16][19] - 提供了多个开源项目链接,涵盖感知、预测、规划和仿真等方向 [19] - 列出了CVPR、ICRA、NeurIPS等会议的相关研讨会和论文,涉及大规模基础模型和行为驱动驾驶 [19] 行业动态 - 提到自动驾驶行业有近4000人的交流社区,涵盖30+技术栈和300+公司与科研机构 [17] - 涉及感知、定位、规划控制等多个领域的技术方案和岗位发布 [17]
中国AI六小虎「智谱」,传同时准备A股、香港上市,A股IPO的概率可能高些
搜狐财经· 2025-07-12 15:26
IPO计划 - 北京智谱华章科技股份有限公司考虑将IPO地点由内地改为香港 可能募资约3亿美元(约23.4亿港元) [1] - 公司正同时准备港股和A股上市准备工作 且A股上市概率较高 [1] - 相关事宜仍在考虑中 尚未作出最终决定 包括规模在内的细节可能会发生变化 [1] 业务与技术 - 公司致力于打造新一代认知智能大模型 专注于做大模型的中国创新 [2] - 合作研发了中英双语千亿级超大规模预训练模型GLM-130B 并推出对话模型ChatGLM 开源单卡版模型ChatGLM-6B [2] - 打造了AIGC模型及产品矩阵 包括智谱清言 CodeGeeX CogVLM和CogView等 [2] - 推出大模型MaaS开放平台 践行Model as a Service市场理念 [2] 融资与投资者 - 投资者包括美团 蚂蚁 阿里 腾讯 小米 红杉 高瓴等多家知名机构和企业 [3] - 其他投资者包括中关村科学城 杭州城投 浦东创投集团 张江集团 达晨财智等 [3] - 国际投资者包括三星 沙特阿美旗下Prosperity7基金等 [3]