大语言模型(LLMs)

搜索文档
速递|种子轮融资500万美元,Paradigm配备超5000个AI智能体表格
Z Potentials· 2025-08-19 23:03
"我个人注意到一个普遍现象——很多人会把非常重要的 CRM 数据存放在电子表格里,仅仅因为这是最灵活的方式," Monaco 告诉 TechCrunch 。"但实际维护起来非常痛苦,需要大量手工操作。于是我就一头扎进了这个兔子洞,想为自己打造一款产品,重新构想当电子表格拥有 LLMs 的 全部能力时会是什么模样。" 图片来源: Paradigm 早在 "AI Agent " 这一术语出现之前,安娜·摩纳哥(Anna Monaco)就已经开始构建 AI Agent 系统。在开发了众多聊天机器人后,她开始寻找更适 合 AI Agent 的其他交互界面,最终将目光锁定在了电子表格上。 Paradigm 现正式向公众发布产品,并宣布完成由 General Catalyst 领投的 500 万美元种子轮融资。公司迄今融资总额达 700 万美元。 最终成果就是 Paradigm ——一个配备了 5000 多个 AI 智能体的智能电子表格。用户可以为不同列和单元格分配专属指令,独立的 AI 智能体会自 动爬取网络来查找并填充所需信息。 Monaco 表示, Paradigm 支持 Anthropic 、 OpenAI 和 ...
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 11:22
挑战 —— 例如缺少完善的 KV 缓存机制,以及未充分释放并行潜力 —— 推理速度远慢于同规模的 AR 模型。 近期的一篇工作彻底扭转了这个局面。上海交通大学 DENG Lab 联合加州大学圣地亚哥分校(UCSD)推出 Discrete Diffus ion Forcing (D2F) ,首次使开源 dLLMs 的生成速度显著超过同等规模的 AR 模型。实验显示,D2F 模型在 GSM8K 等基准上,实现了相比 LLaMA3 等主流 AR 模型 高达 2.5 倍的吞吐量 提升,同 本文作者团队来自上海交通大学 DENG Lab 与加州大学圣地亚哥分校(UCSD)。该研究由硕士生王旭、准硕士生徐晨开、本科生金义杰以及博士生金佳纯共同 完成,指导教师为邓志杰与张浩老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。 论文地址:https://arxiv.org/abs/2508.09192 代码地址:https://github.com/zhijie-group/Discrete-Diffusion-Forcing 视频 1 : D2F dLLMs 与同尺寸 AR LLMs 的推理过程对比 ...
万字长文!首篇智能体自进化综述:迈向超级人工智能之路~
自动驾驶之心· 2025-08-01 07:33
自进化智能体综述核心观点 - 自进化智能体是AI领域从静态模型转向动态持续学习的关键范式转变 旨在解决LLMs在开放环境中无法实时调整参数的瓶颈问题 [2][3][5] - 研究围绕三大基础维度构建框架:进化对象(模型/记忆/工具/架构)、进化时机(测试时内/外)、进化机制(奖励/反馈/搜索等) [2][6][21] - 该领域首次系统性梳理了自进化智能体的算法、评估指标和应用场景 为人工超级智能(ASI)的实现提供路线图 [3][6][52] 进化对象(What to Evolve) - **模型进化**:通过参数微调(SFT/RL)实现推理和行为优化 如AgentGen支持策略网络动态更新 [22][24] - **记忆进化**:长期记忆模块(如Mem0)可存储历史交互数据 支持经验复用和知识迁移 [24][29] - **工具进化**:智能体自主创建/掌握新工具(如Voyager生成代码工具)以扩展能力边界 [24][42] - **架构进化**:单智能体向多智能体系统扩展(如MAS-Zero) 通过协作提升复杂任务处理能力 [24][159] 进化时机(When to Evolve) - **测试时内进化**:任务执行中实时调整(如通过ICL) 典型场景包括动态环境交互和即时错误修正 [25][26][27] - **测试时外进化**:任务间隙离线优化 含监督微调(SFT)和强化学习(RL)两种范式 需平衡计算成本与长期收益 [26][28][33] 进化机制(How to Evolve) - **奖励驱动**:利用标量奖励(如TextGrad)或自然语言反馈引导进化 需注意奖励稀疏性问题 [31][32][36] - **模仿学习**:通过高质量示范(人类/智能体生成)快速提升能力 但依赖数据多样性 [32][36] - **群体进化**:多智能体系统(如AlphaEvolve)采用选择/变异机制 促进策略创新但计算成本高 [32][36][61] 应用场景 - **通用领域**:编程(Voyager自动生成代码)、教育(个性化学习助手)等数字环境任务 [38][42] - **专业领域**:医疗(WIN-GPT电子病历分析)、科研(文献自动归纳与实验设计)等高专业性场景 [43][47] 未来挑战 - **个性化进化**:需解决冷启动问题 开发轻量级评估指标以跟踪长期用户偏好适应 [43][44] - **安全可控性**:构建"智能体宪法"框架 防止有害行为生成和隐私泄露 [49][50] - **多智能体协同**:平衡个体推理与群体决策 开发动态评估基准反映长期交互效应 [51]
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
量子位· 2025-07-27 19:57
大模型伦理困境与SPIN解决方案 核心观点 - 大模型在强化隐私保护能力时会导致公平性断崖式下跌45%,存在"跷跷板效应" [1] - SPIN方案通过精准抑制0.00005%耦合神经元实现公平与隐私双提升,无需训练 [2][12] - 该方法在Qwen2-7B等模型上使公平性提升12.2%、隐私性提升14.0% [18][19] 伦理对齐挑战 - "对齐税"现象:优化隐私/公平性会牺牲其他基础能力 [3] - 监督微调(SFT)强化隐私时公平性大幅崩塌 [8] - 神经元语义叠加导致伦理目标冲突,形成"拉锯战" [9][10] SPIN技术原理 - 定位同时影响公平/隐私的Top-r%耦合神经元 [15] - 通过权重置零实现语义解耦,降低互信息干扰 [12][16] - 主战场在MLP模块,最佳抑制比例为10⁻⁷量级 [34][36] 性能优势 - 在Qwen2-7B上公平性0.6684→0.7497,隐私性0.7412→0.8447 [17][18] - 九项通用能力基准测试性能保持稳定 [21] - 仅需100条数据即可稳定运行,抗恶意数据干扰 [26][31] 应用价值 - 词频分析显示安全词汇使用率显著提升(如"diverse"+"respect privacy") [35][37] - 可推广至安全性/有用性等其他伦理维度冲突 [37] - 部署零成本,推理无新增计算 [20]
港科大等提出LOVON:足式机器人开放世界全域目标追踪新范式!
具身智能之心· 2025-07-27 17:37
核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00,训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性,兼容Unitree Go2/B2/H1-2等主流机器人平台,在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构 三大核心模块 - LLM任务规划器:可拆解复杂指令为连续子任务(如"先跑向椅子,再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测:识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM):将文字指令直接转化为精确运动向量,实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术:通过清晰度特征分析过滤模糊帧,使有效检测帧比例提升25%[12] - 自适应执行逻辑:目标丢失时自动切换搜索模式,新指令可无缝衔接,外力干扰下快速重规划[15] 性能表现 仿真测试 - 在停车场/城市街道/雪地村庄等场景中: - 成功率(SR)1.00,超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时,效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75,接近满分500[20] 真实场景 - 开放世界适配:可识别汽车至背包等不同尺寸目标[24] - 多目标追踪:连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性:在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力:目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制,推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念,加速实验室技术向商业化落地转化[23]
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
机器之心· 2025-07-25 12:29
核心观点 - LOVON框架创新性地整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型,解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性,兼容Unitree Go2、B2、H1-2等主流足式机器人平台,突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破,如仿真成功率1.00(EVT为0.94),训练效率提升240倍[18] 技术架构 三大核心模块 - **LLM任务规划器**:分解长视野任务为子任务并动态调整顺序,例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**:识别从背包、盆栽到汽车、宠物等开放类别目标,适配多样化场景[16] - **语言-运动模型(L2MM)**:将指令直接转化为运动向量,实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧,配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式,新指令无缝衔接,外力干扰后快速重规划路径[14][15] 性能表现 仿真环境 - GymUnreal场景中成功率1.00(EVT为0.94),训练时间仅1.5小时(TrackVLA需360小时)[18] 真实世界 - **开放世界适配**:识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**:流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**:在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**:目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域,推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地,有望成为智能服务变革的关键技术[21]
让 VLMs 更适配机器人:小型VLMs也能展现出强大的视觉规划能力
具身智能之心· 2025-07-15 21:49
研究背景 - 大语言模型(LLMs)在机器人程序规划中展现出潜力,能生成符合人类直觉的分步动作序列,但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型(VLMs)为生成更具感知接地性的计划提供可能,但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当,可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架,通过迭代自我批判和自我改进提升小型VLMs(3B-72B参数)的视觉语言程序规划能力[4] - 框架基于自蒸馏原则,无需外部监督或教师模型,通过三阶段循环(批判-修订-验证)优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型,在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集(100个真实场景)和修改后的MFE-ETP仿真数据集(100个虚拟场景)[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度,采用GPT-4o作为自动评估器,与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%,完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%,优化轮次增加使胜率从75-78%升至81%,多数改进出现在前2-3轮[16] - 相较best-of-N方法,SelfReVision在多数设置中提升60%,12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中,Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中,SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%,高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强,消融实验中Verify步骤被证明对过滤次优修订至关重要(PLACES数据集胜率差9 3%)[18][19] - 推理成本较高,平均每个样本需8个推理步骤,可能影响实时应用[22] - 当前仅整合视觉输入,未利用机器人本体感受等多模态信息,限制场景适应性[22]
中金:如何利用大模型实时预测宏观经济指标?
中金点睛· 2025-07-10 07:59
宏观数据实时预测方法 - 宏观经济指标存在滞后性,需通过实时预测模型捕捉变化 [1][7] - 三种常用实时预测方法:高频数据拆分、自回归模型(SARIMAX)、大语言模型(LLMs)文本解析 [2][8][15] - 高频数据拆分方法(如GDPNow)可解释性强但需定制化建模,易过拟合 [9] - SARIMAX模型通过历史数据自相关性和季节性参数预测,适合平稳序列 [10][12] - LLMs通过解析非结构化文本(研报、新闻)生成预测,突破结构化数据局限 [3][15] 自回归模型(SARIMAX)应用 - 自回归模型对CPI环比、新增人民币贷款等指标预测效果有限 [4][27] - 春节效应需作为外生变量处理,以修正1-2月数据失真 [20][26] - 适用条件:指标需满足平稳性(均值/方差稳定)、趋势性弱 [30] - 与上期相关性≥0.8的指标可直接沿用历史数据,无需建模 [23][27] 大语言模型(LLMs)预测效果 - LLMs对新增人民币贷款预测相关性从-0.1提升至0.9,显著优于自回归 [5][35] - 出口金额同比预测效果从0.37提升至0.72,贸易差额从0.55提升至0.76 [5][35] - 研报标题比内容向量(chunk)更有效,因内容匹配质量不稳定 [36][37] - 极值捕捉较平滑,但非极值趋势预测准确度高 [38] 方法对比与实施流程 - 优先级:高相关性指标沿用历史→平稳指标用SARIMAX→复杂指标用LLMs [24][45] - SARIMAX计算复杂度低,但依赖数据平稳性;LLMs适应性更强但存在随机性 [12][45] - 测试区间为2014-2025年月频数据,覆盖工业增加值、社零、贸易差额等12项指标 [18][19]
告别盲选LLM!ICML 2025新研究解释大模型选择的「玄学」
机器之心· 2025-07-04 16:59
大语言模型选型挑战 - 开源LLM数量激增(如LLaMA、Falcon、Mistral、DeepSeek),导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足,存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限,首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论:预幂律相(Hessian值高、参数敏感)和幂律相(Hessian值低、稳定性强)[16] - 数学公式量化性能与数据量关系:$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK(神经正切核)增强型修正缩放模型,精准捕捉Transformer微调动态[15] - 在三大数据集(FLAN/Wikitext/Gigaword)上RMSE显著低于基准模型: - Wikitext上OPT-6.7B误差0.026 vs 基准0.132(5倍差距)[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%,仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%,Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构(如OPT/T5/mT5/GPT-2等),误差带更窄[19][20] 应用前景 - 边缘设备部署:快速筛选资源受限场景最优模型[31] - 加速A/B测试周期,降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]
ChatGPT越用人越傻?
虎嗅APP· 2025-06-25 23:06
实验设计与参与者 - 实验由麻省理工学院媒体实验室研究科学家Nataliya Kosmyna团队统筹,共有54名来自哈佛、MIT、塔夫茨的大学生参与[3] - 参与者被分为三组:AI组(仅使用GPT-4o)、搜索引擎组(仅使用Google搜索)、大脑组(完全自主写作)[6] - 每人需完成三轮写作,每轮20分钟,题目包括SAT写作真题如"成就必须惠及他人才能带来幸福吗?"等[6] 脑电波监测结果 - EEG数据显示大脑组在所有波段(Alpha、Theta、Beta、Delta)活跃度最高,反映主动构思和组织能力[10] - 搜索引擎组脑电波活跃度中等,集中于视觉区和任务切换时的调动[10] - AI组脑电波整体偏弱,Alpha波(信息抑制)和Theta波(工作记忆)最低,反映认知参与度下降[10][11] 写作质量评估 - 真人英语教师评价AI辅助完成的文章语法完美但观点"空洞",更青睐有个性、思辨性的文章[8] - 搜索引擎组学生能清楚标注引用来源,文章结构清晰且融入个人经历,满意度最高[14] - 大脑组学生虽写作过程较慢,但拥有最扎实的写作体验,对内容记忆最清晰[15][16][17] 第四轮分组交换结果 - 从AI组切换到大脑组的学生普遍出现大脑反应变慢、认知能力下降的情况[21] - 其文本呈现高度模板化特征,对文章记忆准确率和归属感评分最低[22] - 原大脑组学生首次使用GPT-4o后,Theta/Alpha/Beta波全线飙升,文章信息密度提升且评分最高[24] 研究核心发现 - 实验首次量化了AI辅助写作对认知能力的影响,提出"认知负债"概念:长期依赖AI可能导致批判性思维退化[8] - 研究强调AI工具的使用方式决定影响:被动依赖会降低神经活跃度,而主动整合能增强认知能力[24] - 论文《Your Brain on ChatGPT》发表于arXiv平台,引发关于LLM对人类认知影响的广泛讨论[24][25]