Workflow
大型语言模型(LLMs)
icon
搜索文档
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-11 07:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
Z Tech|9月9日线上对话Meta FAIR研究科学家:利用Confidence动态过滤,告别低效推理
Z Potentials· 2025-09-06 12:40
DeepConf方法技术特点 - 通过利用大型语言模型内部置信度信号动态过滤低质量推理轨迹 实现推理效率和性能双重提升 [1] - 无需额外模型训练或超参数调优 可无缝集成现有服务框架 [8] - 分为离线和在线两种操作模式 在线模式相比全并行推理最多减少84.7%生成Token [8][10] 性能表现数据 - 离线模式下DeepConf@512在GPT-OSS-120B模型上实现99.9%准确率 远超传统多数投票的97.0% [10] - 在线模式下在保持准确率提升的同时显著降低计算开销 [10] - 在包括AIME2025在内的多个推理基准测试中均表现优异 [10] 相关技术研究背景 - 研究覆盖低秩梯度/权重结构、张量分解、Quantized GaLore等内存优化方法 [6] - GaLore利用梯度低秩结构显著节省内存和计算资源 相关成果发表于ICML 2024 [12] - Mini-Sequence Transformers针对长序列训练进行中间内存优化 成果发表于NeurIPS 2024 [12] 研究人员背景 - Jiawei Zhao是Meta FAIR研究科学家 拥有加州理工学院博士学位 专注于LLM和深度学习优化方法 [5] - Yichao Fu是加州大学圣地亚哥分校博士生 聚焦LLM推理优化与系统优化 [8] - 研究人员曾开发"Efficient LLM Scheduling by Learning to Rank"发表于NeurIPS 2024 [8]
ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
机器之心· 2025-07-27 16:45
大型语言模型与过程级奖励模型 - 大型语言模型(LLMs)在复杂推理任务中的能力提升很大程度上依赖过程级奖励模型(PRMs)的赋能 [1] - 最新研究发现现有PRMs在识别推理过程细微错误方面表现不佳,甚至可能不如随机猜测 [2] - 当前评估方法过度关注最终结果正确性,忽视对推理过程中错误类型的细粒度识别 [3] PRMBench基准的核心价值 - PRMBench是首个专为评估PRMs精细化错误检测能力设计的挑战性基准 [4] - 包含6216个问题和83456个步骤级细粒度标签,覆盖各种复杂推理场景 [11] - 从简洁性、合理性和敏感性三大维度细分九个评估子类别 [11] - 相比其他基准,PRMBench在错误类型检测、步骤评估等方面具有全面优势 [18] PRMBench的关键发现 - 表现最佳模型Gemini-2-Thinking的PRMScore仅68.8,远低于人类水平的83.8 [11] - 开源PRMs普遍落后于将主流LLMs提示为Critic模型的性能 [11] - 简洁性维度成为最大挑战,最佳模型ReasonEval-34B得分骤降至51.5 [17] - 部分模型存在显著"阳性偏好",正确步骤识别准确率超95%,但错误步骤识别仅17% [17] PRMs的潜在问题与局限性 - PRMs性能随错误步骤在推理链中位置后移而渐进式提升 [33] - 少样本ICL对闭源模型性能影响有限,提示需要更深层次的改进 [36] - PRMs易受"假阳性"影响,存在被模型"钻空子"的风险 [37] - 现有PRMs在多步过程评估中能力有限,提升空间巨大 [27] 研究意义与行业影响 - PRMBench将推动过程级奖励模型评估研究的范式转变 [42] - 为未来PRM开发提供关键指导,助力构建更可靠的AI系统 [42] - 促进开发更具鲁棒性和泛化能力的模型 [42] - 成为推动过程级奖励模型发展的坚实基石 [41]
最容易被AI替代的是这三类创业者
混沌学园· 2025-07-22 18:07
AI对职场和创业的影响 - AI将导致大量工作岗位被自动化替代 到2030年美国约1200万人需换工作 60%-70%白领工作将被AI取代 [2] - 未来五年全球可能减少1400万个工作岗位 尽管AI会创造6900万新岗位 但将导致8300万岗位消失 [3] - 生成式AI正在改变多个行业的工作方式 包括写作、法律、客服、金融和营销等领域 [4] 容易被AI替代的创业类型 - 依赖重复劳动的创业者 如数据录入、文档整理等标准化工作 AI通过RPA和机器学习技术能更高效完成 [7][8][9] - 缺乏创意的内容创业者 模板化或洗稿式内容创作将被AIGC技术取代 AI能快速生成专业级文本、图片和视频 [12][13][14] - 伪需求或低价值创业者 如信息搬运、简单中介服务等 AI通过大数据分析和智能匹配将消除这类业务 [16][17][18] 难以被AI替代的创业机会 - 整合AI工具开创全新业务模式 如个性化教育方案、智能医疗诊断辅助系统等 [24][25][26] - 注重品牌打造和社群建设的创业者 依靠情感连接和价值观传递建立用户忠诚度 [28][29][30] - 复杂人际协作和情感服务领域 如心理咨询、定制化教育、高端餐饮服务等 [35][36][37] AI时代的创业策略 - 创业者需从重复性低价值领域转向需要人类独特智慧和情感的领域 [44] - 将AI作为工具而非威胁 与AI协同工作提供有"人味儿"的服务 [45][46] - 典型案例包括Coursera的AI个性化教育 董宇辉的情感连接式直播带货等 [27][34]
硅谷抢人大战!OpenAI连抢特斯拉等巨头四名大将
21世纪经济报道· 2025-07-09 11:10
AI人才争夺战 - OpenAI近期从特斯拉、xAI、Meta挖角四名核心AI人才,包括特斯拉原软件工程副总裁戴维·劳、xAI原基础设施工程负责人乌代·鲁达拉朱等 [1] - Meta此前为打造超级智能实验室,以四年3亿美元薪酬包挖角OpenAI等公司的AI研究员 [1] - Meta新招聘11名AI人才,来自OpenAI、Anthropic和谷歌,旨在加速AGI研发并支持AI应用业务 [1] 人才竞争策略与薪酬水平 - Meta通过WhatsApp直接联系人才、开出数百万美元薪酬方案,并尝试收购初创公司以获取人才 [2] - OpenAI首席研究官指责Meta以高达1亿美元的签约奖金挖角员工,但MetaCTO否认称天价薪酬仅针对极少数高管 [2][3] - Meta支付给AI工程师的薪酬范围为18.6万至320万美元,OpenAI为21.2万至250万美元 [4] 行业人才供需现状 - 全球AI技能职位招聘数量自2019年起年增21%,远超人才供应速度,顶尖AI专家总数不足1000人 [2] - 贝恩咨询预测AI人才缺口将持续至2027年,硅谷抢人激烈程度已"升级至职业竞技水平" [2] 头部公司团队动荡 - 苹果AI团队关键人物庞若鸣(领导约100人LLM团队)跳槽至Meta,获数千万美元年薪待遇 [4] - 苹果基础模型团队多名工程师流露离职意向,庞若鸣助手已提前离职,团队陷入动荡 [4]
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 11:18
核心观点 - 大型语言模型(LLMs)和视觉-语言模型(VLMs)在处理数小时长视频时仍存在局限性[1] - 提出新型智能体Deep Video Discovery(DVD),通过分段处理视频并利用LLM推理能力实现自主规划,在LVBench上达到74.2%准确率,超越现有技术[3] - DVD采用多粒度视频数据库和搜索工具集,通过LLM协调实现自主搜索和回答[7][9] 技术架构 多粒度视频数据库构建 - 将超长视频分割为5秒片段,提取全局/片段/帧三级信息,包括摘要、字幕、嵌入向量等[10] 智能体搜索工具集 - 全局浏览工具:获取高层上下文和视频全局摘要[11] - 片段搜索工具:通过语义检索返回相关片段及其时间范围[12] - 帧检查工具:从像素级信息提取细节并提供视觉问答[13] 性能表现 - 在LVBench上:DVD(74.2%)显著超越MR Video(60.8%)和VCA(41.3%)[16] - 辅助转录后准确率提升至76.0%[17] - 各维度表现:事件推理(73.4%)、知识推理(80.4%)、时序理解(72.3%)等[16] 比较分析 - 商业VLM对比:OpenAI o3(57.1%)优于GPT-4o(48.9%)和Gemini-2.0(48.6%)[16] - 开源VLM对比:Qwen2.5-VL-72B(47.7%)低于DVD[16] - 行为分析显示GPT-4o存在过早结束推理的问题[18]
Karpathy 最新演讲精华:软件3.0时代,每个人都是程序员
歸藏的AI工具箱· 2025-06-19 16:20
软件开发范式演变 - 软件1 0定义为传统代码编程 程序员使用Python C++等语言编写明确指令 源代码编译为二进制文件 典型例子包括特斯拉自动驾驶早期C++代码 [5][6] - 软件2 0以神经网络权重为核心 通过数据集训练生成参数 优势包括计算同质性 硬件易实现性 超人性能等 代表案例有AlexNet和AlphaGo Zero [7][10] - 软件3 0由大型语言模型驱动 自然语言提示成为编程方式 LLMs被视为新型计算机 类比1960年代操作系统 具有自然语言接口和用户普及特性 [11][12][14] LLM技术特性与类比 - 公用事业特性:LLMs需要高资本支出训练 通过API提供服务 OpenRouter实现供应商切换 服务中断会导致"智能断电" [16] - 晶圆厂特性:训练需巨额投入 NVIDIA GPU类似"无晶圆厂"模式 Google TPU则像自建晶圆厂 但软件防御性弱于物理设施 [17] - 操作系统特性:LLMs形成复杂软件生态系统 应用可跨后端运行 当前处于类似1960年代的分时计算阶段 个人计算革命尚未到来 [18] LLM认知模型与缺陷 - 超能力:具备百科全书级知识记忆 远超人类个体能力 [22] - 认知缺陷:包括幻觉 锯齿状智能 顺行性遗忘和易受骗性 需要人类监督验证 [23] - 人机协作:需保持AI在"牵引绳"上 通过生成-验证循环和GUI加速审计 [26] 行业应用机遇 - 部分自主应用:应具备上下文管理 多模型编排 专用GUI和自主性滑块 类似Cursor和Perplexity的交互设计 [26][28] - Vibe Coding:降低编程门槛实现"人人都是程序员" 但产品化面临非代码操作挑战 [30] - Agent基础设施:需构建lm.txt文件 LLM优化文档 上下文工具等支持Agent交互的新范式 [33][34] 技术扩散特征 - 逆向扩散路径:LLMs首先惠及普通消费者 ChatGPT成增长最快应用 企业政府应用滞后于组织惯性和合规障碍 [19][20] - 钢铁侠战甲策略:优先开发增强工具而非完全自主Agent 通过自主性滑块渐进升级 [2][28] - 长期发展预期:2025-2035年为Agent十年 需克服演示到产品的可靠性鸿沟 [27]
速递|AvatarOS获种子轮700万美元,打造AI驱动的3D高端虚拟形象
Z Potentials· 2025-03-11 11:27
元宇宙与虚拟人行业 - 生成式人工智能为虚拟人行业注入新活力 使创建不同虚拟身份更加容易 [1] - 虚拟人应用场景多样化 包括企业 会议 时尚 学习和创作者领域 [1] - 市场缺乏外观出众且具备个性化特征的高质量虚拟形象 [1] AvatarOS公司背景 - 创始人Isaac Bratzel曾在IPsoft Brud和Dapper Labs担任设计职位 拥有丰富行业经验 [2] - 公司于2022年成立 已完成700万美元种子轮融资 由M13领投 [2] - 投资方包括Andreessen Horowitz Games Fund HF0 Valia Ventures和Mento VC [2] 公司战略与定位 - 专注于打造3D空间中的高端虚拟形象 而非一键生成内容 [4] - 目标是创造能够积累长期价值的虚拟实体 如Lil Miquela案例 [4] - 差异化在于创造具有独特移动方式的虚拟形象 模仿人类多样化动作 [5] 产品与技术 - 正在开发基于机器学习的变形器 用于创造逼真动作 [6] - 提供API接口 允许客户将虚拟形象集成到网站中 [5] - 未来计划为客户提供更多创建和调整虚拟形象的工具 [5] 融资与投资方观点 - M13将本轮投资视为探索性机会 看好创始人的行业经验 [3] - 投资方通过与虚拟化身交谈完成部分尽职调查 [3] - 资金将用于团队扩张和技术开发 [2][6]