大语言模型（LLMs） - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型（LLMs）

搜索文档

速递｜种子轮融资500万美元，Paradigm配备超5000个AI智能体表格

Z Potentials· 2025-08-19 23:03

公司产品与定位 - 公司开发了配备5000多个AI智能体的智能电子表格Paradigm 支持用户为不同列和单元格分配专属指令 AI智能体会自动爬取网络查找并填充信息[3] - 产品支持Anthropic、OpenAI和Google Gemini的AI模型并能进行模型切换旨在提供最高质量推理输出和最经济方案[3] - 采用基于使用量的分级订阅模式吸引了从咨询顾问到销售专员及财务人员等各类用户[3] - 公司不将自身视为AI驱动的电子表格而是一种新型AI驱动的工作流采用电子表格形式但未来形态可能变化[5] 融资与商业进展 - 公司完成由General Catalyst领投的500万美元种子轮融资迄今融资总额达700万美元[3] - 早期客户包括咨询公司安永、AI芯片初创企业Etched以及AI编程公司Cognition[4] - 部分被推介对象持续付费使用产品包括投资方及未参与投资的潜在投资人[4] 行业竞争环境 - 竞争对手包括成立3年的初创企业Quadratic 已获得超过600万美元风投拥有相似目标[4] - 传统企业如谷歌和微软也正在为其电子表格应用添加AI工具[4]

大语言模型（LLMs）

Paradigm（配备超5000个AI智能体的智能电子表格）

大语言模型（LLMs）

Paradigm（配备超5000个AI智能体的智能电子表格）

开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍

机器之心· 2025-08-18 11:22

技术突破与性能表现 - 上海交通大学DENG Lab与加州大学圣地亚哥分校联合推出Discrete Diffusion Forcing（D2F）技术，首次使开源扩散大语言模型（dLLMs）的生成速度显著超过同等规模的自回归（AR）模型[2] - D2F模型在GSM8K等基准测试中实现相比LLaMA3等主流AR模型高达2.5倍的吞吐量提升[2][6] - 该技术为原始dLLMs带来最高达50倍的加速，同时保持平均性能不下降[4][22] 技术瓶颈与解决方案 - 现有dLLMs存在KV缓存不兼容性问题，导致无法直接应用AR模型的KV缓存加速技术，造成巨大计算冗余[8] - 块间解码存在串行限制，要求前一个块完全解码后才能处理下一个块，极大限制了并行潜力[8] - D2F通过块级因果注意力机制重塑双向注意力，使dLLMs兼容KV缓存，大幅减少冗余计算[12] - 采用自回归-扩散混合范式，协同设计模型架构、训练方法及推理策略[11] 核心技术创新 - 引入块级自回归生成架构，块间保持因果性，有效利用KV缓存[15] - 实现块内token间并行解码和块间并行解码，最大化并行生成潜力[15] - 设计双状态解码流水线（半激活状态和全激活状态），通过动态解码窗口最大化吞吐量[15][20][21] - 集成vLLM进一步优化推理速度[15] 训练方法优化 - 采用非对称蒸馏策略，将预训练dLLMs教师模型能力高效蒸馏到D2F学生模型[18] - 引入单调递增的结构化噪声调度，训练中序列靠前块施加较小噪声，靠后块施加更大噪声[18] - 该训练方式教会模型依据部分去噪的前文预测后文，解锁块间并行能力[18] 实测性能数据 - 在GSM8K测试中D2F-LLaDA实现52.5 TPS（7.3倍于基线）和2.8秒延迟（11.5倍加速）[23] - 在MBPP测试中D2F-LLaDA达到47.6 TPS（52.9倍于基线）和1.4秒延迟（51倍加速）[23] - 在HumanEval测试中D2F-LLaDA取得81.6 TPS（29.1倍于基线）和1.6秒延迟（24.3倍加速）[23] - D2F-Dream模型在GSM8K测试中实现91.2 TPS（9.6倍于基线）和2.8秒延迟（9.6倍加速）[24] 技术影响与未来展望 - D2F成功证明AR和Diffusion并非完全对立范式，通过混合框架设计可融合AR模型缓存优势与dLLMs并行优势[28] - 该技术为开源dLLMs社区注入新活力，展现dLLMs在推理速度上的巨大潜力[27] - 团队已开源代码和模型，旨在推动并行解码技术走向成熟和实际应用[27]

大语言模型（LLMs）

扩散大语言模型（dLLMs）

自回归（AR）范式

Discrete Diffusion Forcing (D2F)

Gemini Diffusion

大语言模型（LLMs）

扩散大语言模型（dLLMs）

自回归（AR）范式

Discrete Diffusion Forcing (D2F)

Gemini Diffusion

万字长文！首篇智能体自进化综述：迈向超级人工智能之路~

自动驾驶之心· 2025-08-01 07:33

自进化智能体综述核心观点 - 自进化智能体是AI领域从静态模型转向动态持续学习的关键范式转变旨在解决LLMs在开放环境中无法实时调整参数的瓶颈问题 [2][3][5] - 研究围绕三大基础维度构建框架：进化对象（模型/记忆/工具/架构）、进化时机（测试时内/外）、进化机制（奖励/反馈/搜索等） [2][6][21] - 该领域首次系统性梳理了自进化智能体的算法、评估指标和应用场景为人工超级智能（ASI）的实现提供路线图 [3][6][52] 进化对象（What to Evolve） - **模型进化**：通过参数微调（SFT/RL）实现推理和行为优化如AgentGen支持策略网络动态更新 [22][24] - **记忆进化**：长期记忆模块（如Mem0）可存储历史交互数据支持经验复用和知识迁移 [24][29] - **工具进化**：智能体自主创建/掌握新工具（如Voyager生成代码工具）以扩展能力边界 [24][42] - **架构进化**：单智能体向多智能体系统扩展（如MAS-Zero）通过协作提升复杂任务处理能力 [24][159] 进化时机（When to Evolve） - **测试时内进化**：任务执行中实时调整（如通过ICL）典型场景包括动态环境交互和即时错误修正 [25][26][27] - **测试时外进化**：任务间隙离线优化含监督微调（SFT）和强化学习（RL）两种范式需平衡计算成本与长期收益 [26][28][33] 进化机制（How to Evolve） - **奖励驱动**：利用标量奖励（如TextGrad）或自然语言反馈引导进化需注意奖励稀疏性问题 [31][32][36] - **模仿学习**：通过高质量示范（人类/智能体生成）快速提升能力但依赖数据多样性 [32][36] - **群体进化**：多智能体系统（如AlphaEvolve）采用选择/变异机制促进策略创新但计算成本高 [32][36][61] 应用场景 - **通用领域**：编程（Voyager自动生成代码）、教育（个性化学习助手）等数字环境任务 [38][42] - **专业领域**：医疗（WIN-GPT电子病历分析）、科研（文献自动归纳与实验设计）等高专业性场景 [43][47] 未来挑战 - **个性化进化**：需解决冷启动问题开发轻量级评估指标以跟踪长期用户偏好适应 [43][44] - **安全可控性**：构建"智能体宪法"框架防止有害行为生成和隐私泄露 [49][50] - **多智能体协同**：平衡个体推理与群体决策开发动态评估基准反映长期交互效应 [51]

自进化智能体

人工超级智能（ASI）

模仿与示范学习

基于群体和进化的方法

通用领域进化

专用领域进化

自进化智能体

人工超级智能（ASI）

模仿与示范学习

基于群体和进化的方法

通用领域进化

专用领域进化

大模型隐私安全和公平性有“跷跷板”效应，最佳平衡法则刚刚找到 | 人大&上海AI Lab

量子位· 2025-07-27 19:57

大模型伦理困境与SPIN解决方案核心观点 - 大模型在强化隐私保护能力时会导致公平性断崖式下跌45%，存在"跷跷板效应" [1] - SPIN方案通过精准抑制0.00005%耦合神经元实现公平与隐私双提升，无需训练 [2][12] - 该方法在Qwen2-7B等模型上使公平性提升12.2%、隐私性提升14.0% [18][19] 伦理对齐挑战 - "对齐税"现象：优化隐私/公平性会牺牲其他基础能力 [3] - 监督微调(SFT)强化隐私时公平性大幅崩塌 [8] - 神经元语义叠加导致伦理目标冲突，形成"拉锯战" [9][10] SPIN技术原理 - 定位同时影响公平/隐私的Top-r%耦合神经元 [15] - 通过权重置零实现语义解耦，降低互信息干扰 [12][16] - 主战场在MLP模块，最佳抑制比例为10⁻⁷量级 [34][36] 性能优势 - 在Qwen2-7B上公平性0.6684→0.7497，隐私性0.7412→0.8447 [17][18] - 九项通用能力基准测试性能保持稳定 [21] - 仅需100条数据即可稳定运行，抗恶意数据干扰 [26][31] 应用价值 - 词频分析显示安全词汇使用率显著提升（如"diverse"+"respect privacy"） [35][37] - 可推广至安全性/有用性等其他伦理维度冲突 [37] - 部署零成本，推理无新增计算 [20]

大语言模型（LLMs）

对齐税（Alignment Tax）

神经元语义叠加（Neuron Semantic Superposition）

大语言模型（LLMs）

对齐税（Alignment Tax）

神经元语义叠加（Neuron Semantic Superposition）

港科大等提出LOVON：足式机器人开放世界全域目标追踪新范式！

具身智能之心· 2025-07-27 17:37

核心观点 - LOVON框架通过整合大语言模型(LLMs)、开放词汇视觉检测和语言-运动映射模型，解决了足式机器人在动态非结构化环境中长程多目标导航的难题[4][6] - 该框架在仿真环境中成功率(SR)达1.00，训练效率比同类最优模型提升240倍(1.5小时vs 360小时)[19] - 具备"即插即用"特性，兼容Unitree Go2/B2/H1-2等主流机器人平台，在真实世界实现开放世界适配、多目标追踪等四大突破[21][24] 技术架构三大核心模块 - LLM任务规划器：可拆解复杂指令为连续子任务(如"先跑向椅子，再靠近行人")并动态调整顺序[18] - 开放词汇视觉检测：识别范围从背包/盆栽到汽车/宠物等非预定义类别目标[18] - 语言-运动模型(L2MM)：将文字指令直接转化为精确运动向量，实现"说走就走"的精准控制[18] 抗干扰设计 - 拉普拉斯方差滤波技术：通过清晰度特征分析过滤模糊帧，使有效检测帧比例提升25%[12] - 自适应执行逻辑：目标丢失时自动切换搜索模式，新指令可无缝衔接，外力干扰下快速重规划[15] 性能表现仿真测试 - 在停车场/城市街道/雪地村庄等场景中： - 成功率(SR)1.00，超越EVT(0.94)和TrackVLA(1.00)[19] - 训练时间1.5小时，效率较TrackVLA(360小时)提升240倍[19] - 平均性能得分499.75，接近满分500[20] 真实场景 - 开放世界适配：可识别汽车至背包等不同尺寸目标[24] - 多目标追踪：连续完成"找椅子→找行人→找背包"任务无中断[24] - 动态鲁棒性：在螺旋楼梯/杂草丛等复杂地形稳定跟踪移动目标[24] - 抗干扰能力：目标移动或碰撞后能快速重新锁定[24] 应用价值 - 打破传统机器人导航的场景限制，推动家庭服务/工业巡检/野外科研等领域的实际应用[21][23] - 通过"通用框架+轻量化部署"设计理念，加速实验室技术向商业化落地转化[23]

足式机器人开放世界全域目标追踪

大语言模型（LLMs）

LOVON (Legged Open-Vocabulary Object Navigator)

足式机器人开放世界全域目标追踪

大语言模型（LLMs）

LOVON (Legged Open-Vocabulary Object Navigator)

港科大&北京人形提出LOVON：足式机器人开放世界全域目标追踪新范式！

机器之心· 2025-07-25 12:29

核心观点 - LOVON框架创新性地整合大语言模型（LLMs）、开放词汇视觉检测和语言-运动映射模型，解决足式机器人在动态非结构化环境中长程目标导航的难题[2][5] - 该框架具备即插即用特性，兼容Unitree Go2、B2、H1-2等主流足式机器人平台，突破传统导航场景限制[2][19] - 在仿真与真实环境中均实现性能突破，如仿真成功率1.00（EVT为0.94），训练效率提升240倍[18] 技术架构三大核心模块 - **LLM任务规划器**：分解长视野任务为子任务并动态调整顺序，例如“先跑向椅子再靠近行人”[16] - **开放词汇视觉检测**：识别从背包、盆栽到汽车、宠物等开放类别目标，适配多样化场景[16] - **语言-运动模型（L2MM）**：将指令直接转化为运动向量，实现精准速度与方向控制[16] 抗干扰视觉处理 - 采用拉普拉斯方差滤波技术过滤模糊图像帧，配合滑动平均滤波提升有效检测帧比例25%[11][12] 自适应执行逻辑 - 目标丢失时自动切换至搜索模式，新指令无缝衔接，外力干扰后快速重规划路径[14][15] 性能表现仿真环境 - GymUnreal场景中成功率1.00（EVT为0.94），训练时间仅1.5小时（TrackVLA需360小时）[18] 真实世界 - **开放世界适配**：识别大小形态各异目标并在陌生环境快速适应[23] - **多目标长程追踪**：流畅执行“找椅子→找行人→找背包”等复杂任务链[23] - **动态环境鲁棒性**：在螺旋楼梯、杂草丛等复杂地形稳定跟踪移动目标[23] - **抗干扰能力**：目标移动或碰撞后快速重新锁定[23] 应用前景 - 覆盖家庭服务、工业巡检、野外科研等领域，推动足式机器人从实验室走向实际应用[21] - 通用框架设计加速技术落地，有望成为智能服务变革的关键技术[21]

足式机器人开放世界全域目标追踪

大语言模型（LLMs）

LOVON（Legged Open-Vocabulary Object Navigator）框架

足式机器人开放世界全域目标追踪

大语言模型（LLMs）

LOVON（Legged Open-Vocabulary Object Navigator）框架

让 VLMs 更适配机器人：小型VLMs也能展现出强大的视觉规划能力

具身智能之心· 2025-07-15 21:49

研究背景 - 大语言模型（LLMs）在机器人程序规划中展现出潜力，能生成符合人类直觉的分步动作序列，但缺乏机器人执行所需的精确感官或物理世界细节[3] - 视觉语言模型（VLMs）为生成更具感知接地性的计划提供可能，但现有方法存在仿真环境过度专门化或训练成本高的局限[3] - 小型VLMs若训练得当，可在教育、机器人技术等资源受限场景中展现出强大的视觉规划能力[3] 核心方法 - 提出SelfReVision框架，通过迭代自我批判和自我改进提升小型VLMs（3B-72B参数）的视觉语言程序规划能力[4] - 框架基于自蒸馏原则，无需外部监督或教师模型，通过三阶段循环（批判-修订-验证）优化计划[6][10] - 最终计划可直接用于推理或作为自监督数据微调模型，在灵活性与性能间实现权衡[9] 实验设置 - 评估数据集包括基于图像的PLACES数据集（100个真实场景）和修改后的MFE-ETP仿真数据集（100个虚拟场景）[14] - 新增Image Groundedness指标评估计划与视觉上下文的契合度，采用GPT-4o作为自动评估器，与人类标注一致性达0.52[12] - 基线对比包括初始计划、GPT-4o、PaliGemma领域特定模型和best-of-N算法[12] 主要结果 - SelfReVision在PLACES和SIMULATION数据集平均胜率分别达68%和72%，完整性和覆盖度提升常超80%[13] - 12B以上模型整体增益达74%，优化轮次增加使胜率从75-78%升至81%，多数改进出现在前2-3轮[16] - 相较best-of-N方法，SelfReVision在多数设置中提升60%，12B以上模型胜率比GPT-4o高25%[17] 实体代理任务应用 - 在仿真拾取放置任务中，Gemma 12B和27B模型分别提升26%和17%的成功率[21] - 真实世界场景中，SelfReVision计划使HAMSTER动作模型生成的成功轨迹达70%，高于基础模型的61%[21] - 通过新增必要步骤和移除错误步骤显著提升复杂任务的执行可靠性[21] 方法优势与局限 - 完整CRV流程性能最强，消融实验中Verify步骤被证明对过滤次优修订至关重要（PLACES数据集胜率差9 3%）[18][19] - 推理成本较高，平均每个样本需8个推理步骤，可能影响实时应用[22] - 当前仅整合视觉输入，未利用机器人本体感受等多模态信息，限制场景适应性[22]

大语言模型（LLMs）

视觉语言模型（VLMs）

SelfReVision框架

大语言模型（LLMs）

视觉语言模型（VLMs）

SelfReVision框架

中金：如何利用大模型实时预测宏观经济指标？

中金点睛· 2025-07-10 07:59

宏观数据实时预测方法 - 宏观经济指标存在滞后性，需通过实时预测模型捕捉变化 [1][7] - 三种常用实时预测方法：高频数据拆分、自回归模型（SARIMAX）、大语言模型（LLMs）文本解析 [2][8][15] - 高频数据拆分方法（如GDPNow）可解释性强但需定制化建模，易过拟合 [9] - SARIMAX模型通过历史数据自相关性和季节性参数预测，适合平稳序列 [10][12] - LLMs通过解析非结构化文本（研报、新闻）生成预测，突破结构化数据局限 [3][15] 自回归模型（SARIMAX）应用 - 自回归模型对CPI环比、新增人民币贷款等指标预测效果有限 [4][27] - 春节效应需作为外生变量处理，以修正1-2月数据失真 [20][26] - 适用条件：指标需满足平稳性（均值/方差稳定）、趋势性弱 [30] - 与上期相关性≥0.8的指标可直接沿用历史数据，无需建模 [23][27] 大语言模型（LLMs）预测效果 - LLMs对新增人民币贷款预测相关性从-0.1提升至0.9，显著优于自回归 [5][35] - 出口金额同比预测效果从0.37提升至0.72，贸易差额从0.55提升至0.76 [5][35] - 研报标题比内容向量（chunk）更有效，因内容匹配质量不稳定 [36][37] - 极值捕捉较平滑，但非极值趋势预测准确度高 [38] 方法对比与实施流程 - 优先级：高相关性指标沿用历史→平稳指标用SARIMAX→复杂指标用LLMs [24][45] - SARIMAX计算复杂度低，但依赖数据平稳性；LLMs适应性更强但存在随机性 [12][45] - 测试区间为2014-2025年月频数据，覆盖工业增加值、社零、贸易差额等12项指标 [18][19]

宏观经济指标实时预测

大语言模型（LLMs）

自回归差分移动平均模型（SARIMAX）

宏观经济指标实时预测

大语言模型（LLMs）

自回归差分移动平均模型（SARIMAX）

告别盲选LLM！ICML 2025新研究解释大模型选择的「玄学」

机器之心· 2025-07-04 16:59

大语言模型选型挑战 - 开源LLM数量激增（如LLaMA、Falcon、Mistral、DeepSeek），导致特定下游任务选型困难[4] - 传统选型方法计算资源消耗大且泛化能力不足，存在高度不确定性[4] LensLLM理论框架 - 基于PAC-贝叶斯泛化界限，首次揭示LLM微调中测试损失随训练数据量的"相变"动力学[6][11] - 提出双相演进理论：预幂律相（Hessian值高、参数敏感）和幂律相（Hessian值低、稳定性强）[16] - 数学公式量化性能与数据量关系：$L(f_{\hat{w}})\leq(1+\epsilon)\hat{L}(f_{\hat{w}})+C_{3}n^{-\beta_{3}}+O(n^{-\frac{3}{4}})$[10] LensLLM技术优势 - 引入NTK（神经正切核）增强型修正缩放模型，精准捕捉Transformer微调动态[15] - 在三大数据集（FLAN/Wikitext/Gigaword）上RMSE显著低于基准模型： - Wikitext上OPT-6.7B误差0.026 vs 基准0.132（5倍差距）[18] - FLAN数据集误差0.022-0.035 vs 基准0.087-0.15[18] - 计算成本降低88.5%，仅需0.48-0.97×10^21 FLOPs[23] 性能验证 - Gigaword数据集选型准确率91.1%，Pearson相关系数85.8%[21] - Pareto最优曲线显示LensLLM在低FLOPs下保持高相关性[25] - 覆盖14种架构（如OPT/T5/mT5/GPT-2等），误差带更窄[19][20] 应用前景 - 边缘设备部署：快速筛选资源受限场景最优模型[31] - 加速A/B测试周期，降低模型迭代成本[31] - 扩展至多任务场景及MoE架构研究[27]

大语言模型（LLMs）

PAC - 贝叶斯泛化界限

Artificial Intelligence

大语言模型（LLMs）

PAC - 贝叶斯泛化界限

Artificial Intelligence

ChatGPT越用人越傻？

虎嗅APP· 2025-06-25 23:06

实验设计与参与者 - 实验由麻省理工学院媒体实验室研究科学家Nataliya Kosmyna团队统筹，共有54名来自哈佛、MIT、塔夫茨的大学生参与[3] - 参与者被分为三组：AI组（仅使用GPT-4o）、搜索引擎组（仅使用Google搜索）、大脑组（完全自主写作）[6] - 每人需完成三轮写作，每轮20分钟，题目包括SAT写作真题如"成就必须惠及他人才能带来幸福吗？"等[6] 脑电波监测结果 - EEG数据显示大脑组在所有波段（Alpha、Theta、Beta、Delta）活跃度最高，反映主动构思和组织能力[10] - 搜索引擎组脑电波活跃度中等，集中于视觉区和任务切换时的调动[10] - AI组脑电波整体偏弱，Alpha波（信息抑制）和Theta波（工作记忆）最低，反映认知参与度下降[10][11] 写作质量评估 - 真人英语教师评价AI辅助完成的文章语法完美但观点"空洞"，更青睐有个性、思辨性的文章[8] - 搜索引擎组学生能清楚标注引用来源，文章结构清晰且融入个人经历，满意度最高[14] - 大脑组学生虽写作过程较慢，但拥有最扎实的写作体验，对内容记忆最清晰[15][16][17] 第四轮分组交换结果 - 从AI组切换到大脑组的学生普遍出现大脑反应变慢、认知能力下降的情况[21] - 其文本呈现高度模板化特征，对文章记忆准确率和归属感评分最低[22] - 原大脑组学生首次使用GPT-4o后，Theta/Alpha/Beta波全线飙升，文章信息密度提升且评分最高[24] 研究核心发现 - 实验首次量化了AI辅助写作对认知能力的影响，提出"认知负债"概念：长期依赖AI可能导致批判性思维退化[8] - 研究强调AI工具的使用方式决定影响：被动依赖会降低神经活跃度，而主动整合能增强认知能力[24] - 论文《Your Brain on ChatGPT》发表于arXiv平台，引发关于LLM对人类认知影响的广泛讨论[24][25]

大语言模型（LLMs）

Artificial Intelligence

大语言模型（LLMs）

Artificial Intelligence