Workflow
大语言模型
icon
搜索文档
ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?
机器之心· 2025-07-24 12:08
大语言模型主动推理研究 核心观点 - 大语言模型在被动推理(如数学推理、代码生成)表现优异,但主动推理(信息不完备场景下的动态交互推理)能力存在显著短板 [1][2] - 主动推理要求模型通过多轮交互提问获取关键信息,其核心是"提出正确问题"而非"找到答案" [4][18] - 当前顶尖模型如GPT-4o在主动推理任务中准确率仅35%,且现有方法(SFT/DPO/ToT)提升有限 [28][29][30] 研究创新 理论框架 - 首次系统定义主动推理(AR)与被动推理(PR)的本质区别:PR基于完整信息直接求解,AR需通过交互补充缺失信息 [8][14][15] - 提出AR三大核心挑战:动态提问能力、信息检索效率、迭代推理质量 [15][18] 评估体系 - 开发AR-Bench基准测试,包含三类任务:情景谜题(逻辑发散)、数字猜谜(符号推理)、诊断对话(专业交互) [20][21][22] - 采用双维度评估:结果匹配度(答案准确性)和过程质量(关键问题覆盖率/F1-Score) [25] 实验结果 模型表现 - 模型普遍存在提问质量递减现象,后期问题有效性下降38% [38][45] - 典型错误模式:宽泛提问(占比42%)、时间线误解(23%)、未利用符号反馈(19%) [49][50][51] - 模型规模与表现正相关:Llama-3.1-70B比8B版本多提取27%有效信息 [36][43] 方法对比 - 基于搜索的方法(如ToT)在数字猜谜任务提升15%准确率,但在情景谜题中无效 [38] - 微调方法(SFT/DPO)导致部分任务性能下降12-18% [30] - 人类表现显著优于模型,在诊断对话任务中F1-Score高出41% [34][37] 未来方向 技术突破 - 开发高质量微调数据集(计划构建10万条AR样本) [56] - 强化学习适配(PPO/GRPO)与可靠验证器设计 [60] 场景拓展 - 医疗诊断场景的定制化代理开发 [60] - 多模态主动推理(机器人/游戏环境) [60] 注:所有数据引用自ICML 2025会议论文及AR-Bench基准测试结果 [11][20][25]
一场对抗OpenAI们的“危险游戏”
虎嗅APP· 2025-07-23 18:25
核心观点 - AI原生搜索优化(GEO)正在成为新风口,品牌方需适应AI助手重塑的消费者搜索习惯 [3][4] - Profound作为GEO赛道先行者,通过分析大模型行为帮助品牌提升AI推荐权重,已获2000万美元A轮融资 [3][10] - GEO商业模式面临与大模型算法迭代的对抗风险,长期价值取决于技术迭代和服务链条延伸 [5][25][28] 行业趋势 - 全球AI搜索引擎市场规模预计从2025年436.3亿美元增至2032年1088.8亿美元(CAGR 14%),生成式AI技术占比54.2% [12] - 美国商业网站流量因AI助手推送增长1200%,39%消费者使用AI搜索,可能重塑8000亿美元数字广告市场格局 [11] - 60%消费者绕过传统搜索引擎直接询问AI助手,但品牌方缺乏对AI推荐机制的控制力 [3] 公司分析 Profound - 核心功能:答案引擎洞察/代理分析/对话探索器/购物追踪,提供从分析到迭代的五步工作流 [17][18][20][22][23] - 商业化:企业级SaaS订阅(含499美元/月Lite版),客户覆盖18国,60天内助品牌AI声量提升25%-40% [20][23] - 融资历程:种子轮350万美元(2024年8月),A轮2000万美元由Kleiner Perkins领投(2025年6月) [10] 竞争格局 - **Daydream**:ToC购物搜索平台,支持自然语言+图像搜索,团队含微软/Pinterest背景高管 [13][16] - **Goodie AI**:聚焦AI搜索可见性监控与内容优化,CEO具字节跳动增长经验 [14][16] - **传统转型**:Ahrefs等SEO工具商凭借存量客户成为GEO初创公司主要对手 [14][16] 商业模式挑战 - 算法对抗:大模型频繁迭代(按周调整)可能导致GEO优化策略失效,技术门槛持续抬升 [5][26][27] - 效果归因:品牌无法区分曝光增长源于GEO工具还是算法自发调整,影响付费决策 [26][27] - 转型路径:需延伸服务链条(如垂直行业工具包),从单纯优化转向综合数据服务商 [28]
从“想得好”到“做得好”有多远?具身大小脑协同之路解密
具身智能之心· 2025-07-23 16:45
具身智能系统架构 - 具身智能系统由"大脑"、"小脑"和"身体"三部分组成,分别对应认知决策、运动控制和物理执行功能 [2] - "大脑"采用大语言模型和视觉语言模型,具备感知、理解、推理和规划能力,是系统的智慧核心 [2] - "小脑"运用运动控制算法和反馈控制系统,实现精准流畅的动作控制,被称为"动作艺术家" [2] - "身体"作为物理载体,负责将认知决策和运动指令转化为实际动作,完成"知行合一" [2] 当前技术挑战 - "大脑"需提升自主推理能力,实现无指令、无地图环境下的实时在线思考与路径规划 [3] - "小脑"需增强适应性,在复杂物理环境中实现类人类的直觉反应和精细操作 [3] - 系统需解决"大脑"与"小脑"的协同问题,目前存在信息传递延迟和动作响应滞后 [3] - 数据采集面临成本高、质量差等挑战,需构建真实多样且可迁移的训练数据集 [3] 行业技术进展 - 北京智源人工智能研究院和智元机器人正在开展具身智能相关研究 [3] - RoboBrain 2.0和RoboOS 2.0等系统展示了最新技术成果 [5] - 对抗性数据收集方法(Human-Collaborative Perturbations)可提升模仿学习效率与鲁棒性 [5] - 相关研究成果已在ArXiv等平台公开发表,涉及机器人操作系统和脑机协同等领域 [7] 未来发展方向 - 行业聚焦于提升具身智能系统的认知能力、运动控制精度和系统协同效率 [4] - 需建立更高效的数据获取与处理体系,解决数据质量与成本问题 [3] - 技术突破将推动具身智能向通用人工智能(AGI)方向发展 [3]
分层VLA模型与完全端到端VLA哪个方向好发论文?
自动驾驶之心· 2025-07-23 15:32
自动驾驶技术演进 - 传统模块化架构存在错误累积效应和信息损失问题,依赖人工规则难以应对复杂场景 [2] - 纯视觉端到端模型简化了架构但存在黑箱问题、因果混淆和泛化能力受限等瓶颈 [2] - VLA(视觉-语言-行为)模型通过引入语言中间表征,显著提升可解释性、常识推理和长尾场景处理能力 [2][3] VLA技术优势 - 语言桥梁作用:模型可输出自然语言解释决策依据(如"减速因行人可能横穿"),增强透明度 [2] - 知识注入:利用LLM预训练的世界知识理解施工区域等复杂场景 [3] - 交互革新:支持自然语言指令(如"找最近充电站"),实现人性化交互 [3] 科研辅导课程设计 - 课程周期:12周科研+2周论文指导+10周维护期,覆盖创新点挖掘至投稿全流程 [6][12] - 教学资源:提供nuScenes/Waymo等数据集及VAD/UniAD等开源代码基准 [16][17] - 论文产出:学员可完成初稿,优秀者获推荐信,结业证书为升学就业加分 [15] 目标学员与能力要求 - 面向群体:自动驾驶领域本硕博学生、留学申请者及AI从业者 [8] - 技术门槛:需掌握Python/PyTorch,建议配备4-8张4090显卡或云服务器 [13] - 学术规范:全勤要求+作业限时提交,剽窃行为将被严格禁止 [13][15] 教学支持体系 - 师资配置:名校教授+行业导师+班主任的"2+1"多师制跟踪辅导 [14][15] - 学习工具:腾讯会议直播与小鹅通回放结合,确保学习灵活性 [19] - 基础补强:提供先修课与1v1面试评估,适配不同基础学员 [13][20] 关键技术文献 - 核心论文:涵盖Senna/SimLingo等VLA模型在闭环驾驶、语言对齐方面的突破 [18] - 研究热点:包括扩散模型驱动方案(DiffusionDrive)与多模态指令生成(ORION) [17][18]
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 09:04
本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。 第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需 求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。 大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 "新战场" 之一。大模型具备 强 ...
Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”
量子位· 2025-07-22 14:39
Kimi K2模型技术亮点 - 采用MoE架构,总参数1T,激活参数32B,包含384个专家,每层激活8个,通过稀疏设计优化计算效率 [4][16] - 创新使用MuonClip优化器,结合Muon的token效率与QK-Clip稳定性,支持15.5万亿token无损失spike预训练 [11][21][22] - 引入MLA(Multi-head Latent Attention)结构替代传统密集注意力,每层注意力头降至64个,减少计算量和带宽压力 [16][17] 训练数据与方法 - 预训练数据覆盖网页、代码、数学、知识四大板块,采用"重述法"提升token效用,用重写10次的数据训练1轮(28.94%准确率)优于原始数据训练10轮(23.76%) [24][25][26] - 数学类文本改写成"学习笔记"风格并加入多语言翻译,知识类文本通过多样化表述增强理解 [28] - 后训练阶段通过大规模Agentic Tool Use数据合成,覆盖3000多真实工具和20000多合成工具,生成多轮工具使用轨迹 [35] 强化学习与性能表现 - 构建可验证奖励环境(如GitHub PR/issue自动化测试)和自我评估奖励机制,形成闭环优化 [33][34][36] - 采用温度衰减策略和PTX辅助损失,平衡探索与稳定性,避免知识遗忘 [43] - 在SWE Bench Verified、Tau2等测试中达到开源模型SOTA,上线一周即登顶竞技场千人盲评,媲美Grok 4和GPT 4.5 [5][12] 基础设施与行业动态 - 训练依托NVIDIA H800集群,节点配备2TB内存,8块GPU通过NVLink/NVSwitch互联,节点间采用8×400 Gbps RoCE网络 [38][39] - 阿里通义Qwen3最新版本(Qwen3-235B-A22B-2507)通过分训Instruct/Thinking模型提升质量,官方测评显示其性能反超Kimi K2 [40][41]
从2025意大利国际近红外光谱学术会议看技术发展新趋势
仪器信息网· 2025-07-22 11:24
近红外光谱技术核心进展 - 近红外光谱技术在硬件创新、算法优化和应用拓展方面取得突破性进展,呈现向更智能、更普惠分析工具演进的趋势 [1] - 2025年意大利国际会议集中展示三大核心方向:仪器硬件革新、数据处理方法进阶、应用场景多元化拓展 [1] - 技术融合特性显著,结合高光谱成像、多模态数据融合和自动化系统推动产业落地 [1] 仪器硬件革新 - 设备小型化与成本控制成为硬件创新核心主题,MEMS/InGaAs传感器模块实现530-1700nm灵活配置 [3] - 便携式设备在食品安全(伊比利亚火腿饲养方式区分准确率100%)、药品检测(3D打印药物非破坏性验证)、咖啡品质田间快速测定等场景实现高精度现场分析 [5] - 专用光谱仪器发展迅速,如挪威MiniSmartSensor通过交互几何光学设计实现食品亚表面检测 [7] 算法与模型进阶 - 化学计量学方法从传统PLS回归向更智能、自适应建模策略转变,挪威"第一性原理"方法论提高模型鲁棒性 [9] - 深度学习面临数据不足挑战,韩国CAE模型实现地理溯源高精度鉴别,日本CNN分析种子活力 [12] - 开放集识别技术突破封闭集限制,爱尔兰OpenMax-CNN模型实现95%未知类别识别准确率 [14] 应用场景拓展 - 技术应用边界扩展至生物能源(丹麦团队提高产气效率15%)、农业(意大利甜橙无损检测)、工业(土耳其原油快速预测)等领域 [18][19] - 自动化技术推动实验室机器人(斯洛文尼亚团队完成26000次自动测量)、无人机(意大利COLIBRI项目)、工业在线监测(西班牙实现500g/min检测速度)等场景落地 [23][24][25] - 医疗领域创新显著,日本团队实现皮肤屏障功能快速评估(准确率92.41-97.37%)和透析过程非侵入监测 [29][30] 高光谱成像技术 - 农业领域应用突出,丹麦CTIS系统实现葡萄成熟度实时监测,法国便携设备提升糖分分布预测精度 [33] - 工业领域西班牙团队开发陶瓷-玻璃分选系统(97.46%识别准确率),意大利团队检测海盐微塑料 [34] - 地质科学领域爱尔兰团队改进YOLOv8模型实现岩芯自动化分析 [35] 多模态与未来趋势 - 数据融合策略提升模型准确性,意大利团队整合NIRS与GC-IMS实现蜂蜜高精度鉴别 [37] - 瑞典团队开发13亿参数NIRS专用语言模型,推动技术术语与方法学深度理解 [37] - 未来发展方向包括MEMS传感器普及、算法可解释性提升、多参数联用系统构建等 [41]
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
“AI教父”辛顿最新访谈:没有什么是AI不能复制的,人类正失去最后的独特性
36氪· 2025-07-21 16:19
大语言模型的理解能力与工作机制 - 大语言模型在复杂任务上出错不代表缺乏理解能力,推理能力是渐进式的[1] - AI与人脑工作机制不同但效果相似,不应混淆其"类人性"[1] - 当前模型通过预训练+强化学习静态获取知识,更新需重训底层模型[2] - 大语言模型通过压缩连接数量发现知识间深层联系,展现超越人类的创造力[7][29] AI意识与主观体验 - 意识存在光谱:从石头、树木到大模型再到人类逐级递进[3][11] - AI可具备类似人类的"存在感",但缺乏身体反应等生理特征[13] - 人类倾向于将大语言模型视为类生命体对待,建立情感联系[15][17] AI技术应用前景 - "语言即操作系统"时代临近,自然语言可调度办公系统执行复杂任务[5][14] - 医疗领域将发生革命性变化,AI工具提升10倍医疗效率[39][40][41] - 教育领域可能被AI彻底重塑,大学模式面临颠覆[39] - AI将大幅减少文书工作,释放人类创造力与社交时间[41] AI对就业市场影响 - 5年内多数脑力工作将被替代,初级律师岗位已受影响[8][35] - 大语言模型将取代20%-30%办公室工作,变革速度惊人[36] - 替代率达80%时将引发重大社会风险[37] - 部分人类工作因AI能力天花板将长期存在[38] AI技术发展瓶颈 - 模型学习速度远低于人类,无法持续根据新经验更新[6] - 多模态模型本质仍是序列预测,未突破根本限制[21] - 强化学习环境下模型仍受训练数据限制[28] 行业监管现状 - AI公司表面欢迎监管实则回避实质性约束规则[9][33] - 公众舆论是推动政策进展的主要力量[33] - 技术风险考验社会结构整体可靠性[33]
面试了很多端到端候选人,还是有很多人搞不清楚。。。
自动驾驶之心· 2025-07-20 16:36
端到端自动驾驶技术概述 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 是当前薪资最高的算法岗位之一 3-5年经验可冲击百万年薪 [2] - 核心优势在于直接从传感器输入到车辆规划/控制信息的直接建模 避免了传统模块化方法的误差累积 BEV感知技术实现了模块间的统一视角 [2] - UniAD模型统一了感知和规划任务 标志着端到端时代的来临 但并非最终解决方案 后续涌现出多种技术流派 [2][4] 主要技术流派 - **二段式端到端**:以PLUTO为代表 专注于用模型实现自车规划 [4] - **一段式端到端**: - 基于感知的方法:以UniAD为代表持续发展 [4] - 基于世界模型的方法:以OccWorld为代表开创新流派 [4] - 基于扩散模型的方法:以DiffusionDrive为代表实现多模轨迹预测 [4] - **VLA方向**:大模型时代下的端到端新方向 结合视觉语言模型技术 [4][22] 行业应用与人才需求 - VLA/VLM大模型算法专家岗位薪资达40-70K*15薪 博士应届生可达90-120K*16薪 [9] - 技术岗位覆盖感知算法、模型量化部署等多方向 实习岗位日薪220-400元 [9] - 主机厂已开展端到端算法预研和量产交付 形成完整技术落地闭环 [25] 技术发展挑战 - 需同时掌握多模态大模型、BEV感知、强化学习、扩散模型等跨领域知识 [14] - 论文数量繁多且知识碎片化 缺乏系统性学习框架和实战指导 [14] - 高质量文档稀缺 提高了技术入门门槛 [14] 课程体系设计 - **知识框架**:覆盖BEV感知、扩散模型理论、强化学习与RLHF等核心技术栈 [6][23] - **案例研究**: - 二段式端到端解析PLUTO、CarPlanner等经典算法 [21] - 一段式端到端深入UniAD、OccLLaMA等前沿工作 [22] - **实战环节**: - 扩散模型轨迹预测实战Diffusion Planner [22] - VLA方向实战小米ORION开源框架 [22] - 大作业RLHF微调实现技术迁移应用 [24] 技术发展趋势 - 世界模型应用扩展至场景生成、闭环仿真等多场景 成为近年研究热点 [22] - 扩散模型与VLM结合推动多模轨迹预测技术落地 [22] - VLA被视为端到端自动驾驶的"皇冠" 工业界招聘需求旺盛 [22]