学习

搜索文档
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化
机器之心· 2025-07-03 11:26
大模型元思维推理框架ReMA 核心观点 - 提出强化元思维智能体(ReMA)框架,通过多智能体强化学习实现大语言模型的"元思维"能力,即监控、评估和控制自身推理过程的能力 [3][4][6] - 将复杂推理解耦为元思维智能体(战略规划)和推理智能体(执行计算)的双层架构,通过多智能体协作提升探索效率和泛化能力 [10][11][12] - 在数学推理和LLM-as-a-Judge基准测试中,ReMA平均性能优于基线方法,如Llama3-8B在AMC23数据集提升20% [27][28] 方法论创新 - **架构设计**:采用层级化多智能体系统(MAS),相比单智能体方法(如DeepSeek R1)降低探索难度,避免动作空间过大问题 [8][12] - **训练机制**: - 单轮场景使用GRPO和REINFORCE++算法优化,奖励函数兼顾回答正确性与格式规范性 [19] - 多轮场景引入参数共享和轮次级比率(turn-level ratio)技术,提升训练稳定性 [20][22][23] - **数据生成**:从LIMO数据集转换800条多轮MAMRP样本作为冷启动数据 [37] 实验结果 - **单轮测试**: - Llama3-8B在7个数学基准平均提升6.68%,Qwen2.5-7B在AIME24提升13.33% [27] - 元思维指导使困难任务准确率提升更显著,如Llama3-8B在AMC23从2.5%提升至22.5% [27][33] - **多轮测试**: - 8B以上模型能自适应选择元思维动作(如DECOMPOSE/REWRITE),小模型(1B)则收敛至简单策略 [36] - 共享参数设计使训练效率提升2.3倍,轮次级比率技术加速收敛 [37] 技术局限 - 多轮训练存在不稳定性,测试集提升不明显且对超参数敏感 [40] - 当前基于Deterministic MDP的训练流程可能不适用于Stochastic MDP场景 [39] 资源信息 - 论文已发布于arXiv(编号2503.09501),代码开源在GitHub [8] - 实验涉及Llama3-8B、Qwen2.5-7B等模型,测试覆盖MATH、GSM8K等12个基准数据集 [27][28]
大会发布 | 世界人工智能大会青年菁英交流会学术研究成果征集通知
36氪· 2025-07-03 10:53
背景与目的 - 活动响应世界人工智能大会"智能时代 同球共济"主题,推动全球青年人工智能研究者学术交流与创新合作 [3] - 面向国内外高校、科研机构及企业征集人工智能领域前沿研究成果 [3] - 旨在为青年学者、技术开发者提供高规格学术交流平台,促进学术思想碰撞,打造顶级国际学术会议 [3] 征集内容 - 聚焦人工智能全领域前沿探索,涵盖大模型与生成式人工智能、计算机视觉与多模态学习、强化学习与机器人技术、人工智能伦理与安全、跨学科应用创新五大方向 [4][5][6][7][8] - 大模型与生成式人工智能包括新一代模型架构、强化学习模型、多模态生成模型、可控生成技术及行业场景适配研究 [4] - 计算机视觉与多模态学习涵盖空间智能、图像/视频理解、跨模态表征学习、视觉推理、自动驾驶视觉感知等核心技术 [5] - 强化学习与机器人技术包括深度强化学习算法、机器人自主控制、人机协作系统、智能无人系统等关键领域 [6] - 人工智能伦理与安全涉及算法公平性、数据隐私保护、技术治理框架、对抗攻击防御及社会影响评估 [7] - 跨学科应用创新鼓励医疗AI辅助诊断、教育智能系统、能源网络优化、金融科技等领域的交叉融合研究 [8] 成果形式提交 - 学术海报展示需涵盖研究背景与问题定义、方法论框架与技术路线、创新点突破与核心贡献、实验结果或应用价值 [8] - 学术海报推荐尺寸为90cm(宽)×120cm(高),支持PDF或高精度JPG格式(分辨率≥300dpi) [8] - 预印本论文提交需满足可在arXiv等公开预印本平台发布,包含规范学术结构,鼓励同步提交代码链接、数据集说明 [9] - 投稿格式要求英语投稿,双栏,Times New Roman,10号字,单倍行距,篇幅在6-10页 [9] - 两种成果形式可择一或同时提交,不影响后续向其他学术会议或期刊投稿 [9] 核心权益 - 入选成果将以Poster形式收录至《青年菁英交流会论文精粹集》,并在世界人工智能大会主会场及官网同步展示 [10] - 优秀论文作者受邀在交流会现场进行口头报告,与行业领军人物面对面交流 [10] - 论文可自愿申请通过主办方与《自然》杂志合作渠道,直接推荐至《自然・机器智能》等人工智能子刊主编,优先进入审稿流程 [10] - 推荐论文享受快速评审通道,部分成果可直接发表为期刊专刊文章 [10] - 参与交流会的作者将纳入世界人工智能大会青年学者库,优先获得国际合作、博士后及企业研发岗位推荐机会 [10] 投稿要求 - 提交材料需包含成果标题、作者信息(姓名、单位、邮箱、联系方式)、Poster设计文件或预印本论文全文、150字以内的研究亮点摘要 [11] - 投稿至邮箱waic@waicyes.cn,邮件主题需注明"青年菁英交流会 - 姓名 - 单位 - 成果类型" [11] 时间节点 - 投稿截止日期:2025年7月10日 [12] - 审核结果通知日期:2025年7月15日 [12] - 交流会举办:2025年7月27日(上海世博中心) [12] 特别说明 - 成果展示及精粹集发布不构成正式发表,作者可自由选择后续投稿至其他学术会议 [13] - 若论文已被其他会议接收,需在投稿时声明并提供录用证明 [13] - 作者需在投稿时注明是否申请期刊推荐,获得推荐的论文将呈送国际顶级期刊编辑团队进行独立评审 [14] - 投稿即视为同意主办方对成果进行非商业性展示与传播,若涉及保密内容需提前提交单位保密审查证明 [15]
学习实不实 事上见真章(大家谈·不断培土加固中央八项规定堤坝③)
人民日报· 2025-07-03 08:31
精简会议制度 - 多地推行"无会日"制度 通过压缩会议时长和数量让干部摆脱"会海"束缚 树立无事不开会 有事开短会的工作导向 [1] - 会议精简后要求提高会议效率 会前需做足功课摸清情况 会上重点讨论问题和方法 同时腾出时间让干部深入一线服务群众 [1] - "无会日"制度促使干部将更多精力投入基层治理 产业发展等民生实事 实现从"重开会轻落实"到真抓实干的转变 [1] 整改落实机制 - 整改中存在避实就虚倾向 部分台账回避复杂矛盾 问题清单大而化之 整改举措缺乏可操作性 [3] - 验收环节需防止"材料过关"现象 应坚持效果导向 对短期问题立行立改 对长期问题一抓到底直至解决 [3] - 整改应聚焦真问题 敢于动真碰硬处理深层次矛盾 确保问题不解决不松劲 解决不彻底不放手 [3] 科技成果转化 - 作风转变推动服务提质 领导干部带头跑高校进实验室 与科研人员直接交流转化需求 [4] - 实施"一线工作法"走访科技型企业 建立需求清单 为人工智能 生物医药等领域关键技术攻关提供支持 [5] - 精简报表材料 推广融合服务模式 多形式举办对接活动 提高中小企业科技成果转化成功率 [5]
市委常委会会议学习贯彻习近平总书记近期重要讲话重要指示精神 持之以恒推进党的自我革命 坚决筑牢意识形态安全屏障 马明龙主持并讲话
镇江日报· 2025-07-03 07:53
根据提供的新闻内容,没有涉及具体的公司或行业信息,主要是关于政府会议和政策方向的讨论。因此,无法按照要求输出关于公司和行业的内容。以下是新闻的核心要点总结: 会议核心内容 - 学习贯彻习近平总书记近期重要讲话重要指示精神 [1] - 审议通过《党中央决策议事协调机构工作条例》,明确决策议事协调机构的设立、职责、运行机制等关键问题 [1] - 强调持之以恒推进党的自我革命,持续推进正风肃纪反腐 [1] - 传达学习习近平总书记勉励西藏林芝市嘎拉村全体村民的重要回信精神,强调铸牢中华民族共同体意识 [2] - 学习《党委(党组)意识形态工作责任制实施办法》,强调意识形态工作极端重要 [2] - 传达全省老龄工作会议精神,强调做好老龄工作 [2] - 研究提升镇(街道)安全生产和消防安全综合治理能力 [2] 政策方向 - 加强议事协调机构管理,准确把握职责定位 [1] - 深入调查研究,力戒形式主义、官僚主义 [1] - 加强党对民族工作的全面领导,深化民族团结进步教育宣传 [2] - 高度重视意识形态工作,强化管理、压实责任 [2] - 深刻认识做好老龄工作的重大意义,实现老有所养、老有所乐 [2] - 以更强自觉筑牢安全生产底线红线,提升本质安全水平 [2] 工作要求 - 党员领导干部要坚决带好头,在提高认识、增强党性等方面落实到位 [1] - 各级党组织要认真履行政治责任,完善作风建设常态化长效化机制 [1] - 加强援藏干部人才管理,高标准高质量完成各项任务 [2] - 细化落实意识形态工作举措,建立健全工作机制 [2] - 以更实举措应对风险隐患,以更硬作风凝聚强大合力 [2]
马明龙在深入贯彻中央八项规定精神学习教育市委督导组工作座谈会上强调 动真碰硬 严督实导 推动学习教育取得更大成效
镇江日报· 2025-07-03 07:43
7月2日,市委书记马明龙主持召开深入贯彻中央八项规定精神学习教育市委督导组工作座谈会,强 调要深入学习贯彻习近平总书记关于学习教育的重要讲话和重要指示批示精神,认真落实中央指导组、 省委督导组工作座谈会精神,落实中央和省委最新部署安排,动真碰硬、严督实导,督促推动学习研讨 再深化、问题查摆再精准、整改整治再聚焦、制度建设再完善、责任落实再加强,确保学习教育取得更 大成效。 马明龙认真听取各督导组工作进展、下一步工作打算及意见建议,对督导组以点促面推动学习教育 健康有序开展给予充分肯定。他指出,要督促推动有关地方和单位把学习总书记关于加强党的作风建设 的重要论述和中央八项规定及其实施细则精神贯穿始终,在"及时跟进学、联系实际学、融会贯通学"上 下功夫,真正做到入脑入心、学出敬畏,引导党员干部从思想上正本清源、固本培元,进一步筑牢改进 作风的思想根基。 马明龙强调,要按照"全、深、准、实"的要求,督促领导班子和领导干部带头检视剖析、深挖根 源,做到见人见事见思想。要重点聚焦被督导单位领导班子确定的集中整治问题,以及立行立改的问题 等,动真碰硬抓好整改整治,推动单位全面建立"查、改、治"闭环管理和跟踪问效机制。要坚 ...
诺安基金孔宪政:以哲学思维理解金融市场,以科学手段获取超额收益
点拾投资· 2025-07-03 07:16
量化投资哲学与方法论 - 量化投资本质是用科学方法对证券市场建模,寻求可证伪且未来可复现的规律[6] - 遵循波普尔"猜想-反驳"科学发现方式,在不确定世界中寻找规律并规则化[7][16] - 将量化视为思维方式而非工具,适用于各类资产投资[16] - 通过机器学习捕捉非线性规律,突破人类线性思维局限[3][30] 投资策略与业绩表现 - 微盘股策略超额收益源自"注意力价值"而非小市值因子,诺安多策略混合A类过去一年收益率达100.74%[3][26][34] - 沪深300指数增强策略严控跟踪误差,过去一年收益率15.42%,跑赢基准2.06%[3] - 采用端到端神经网络构建模型,在沪深300增强产品中实现行业领先信息比率[33] - 淡化业绩增速预期,严格衡量风格因子性价比以提高收益稳定性[19] 模型构建与技术应用 - 从多因子策略迭代至机器学习,利用AI捕捉非线性规律[3][30] - 模型注重超额收益来源本质,避免对历史规律的简单归纳[45][46] - 在微盘股投资中通过选股产生超额收益,弥补公募交易限制[28] - 神经网络模型已超越主观判断能力,投资决策完全交由模型执行[43] 市场认知与差异化优势 - A股市场存在投资者注意力轮换特征,形成显著统计规律[26][27] - 科学化系统化思维方式能发现不拥挤的超额收益领域[11][45] - 微盘股长期超额收益不会收敛,与市值因子无关[34][35] - 坚持客观规律认知,避免"思想钢印"和预设历史终局[47] 团队管理与持续进步 - 团队核心方向是深度学习模型架构改进,基金经理需参与研究[49] - 通过记录和验证保持科学态度,聚焦重要问题[52][53] - 学习人类学心理学知识,克服大脑天然不客观性[61][62] - 坚持概率正确决策,在压力下保持清醒判断[50][51]
基于阿里最新开源的Qwen3-32B模型,DeepSWE开源AI Agent登顶榜首
快讯· 2025-07-03 07:00
大模型训练平台Together.ai与Agentica合作 - 公司联合开源创新AI Agent框架DeepSWE [1] - DeepSWE基于阿里最新开源的Qwen3-32B模型开发 [1] - 框架完全使用强化学习训练而成 [1] DeepSWE技术性能 - 在SWE-Bench-Verified测试中Pass@1准确率达42.2%(16次运行平均) [1] - 采用混合测试时扩展(TTS)后性能提升至59% [1] - 测试环境为64k最大上下文长度和100最大环境步骤 [1] 行业技术突破 - 框架在开源Agent框架中性能位列榜首 [1] - 证明仅用强化学习训练的有效性和潜力 [1] - 不依赖专有教师模型蒸馏或SFT即取得最佳性能 [1]
指数复制及指数增强方法概述
长江证券· 2025-07-02 19:07
根据提供的研报内容,以下是量化模型和因子的详细总结: 量化模型与构建方式 1. **优化复制模型** - **构建思路**:通过数学优化方法最小化跟踪误差,复制目标指数的收益[31] - **具体构建过程**: 1. 定义资产组合收益率: $${\tilde{R}}_{t}=\Sigma_{i=1}^{M}{\widetilde{W}}_{i,t}\cdot Y_{i,t}=Y_{t}\cdot{\overline{{W}}}_{t}$$ 其中${\widetilde{W}}_{i,t}$为持仓权重,$Y_{i,t}$为资产收益[31] 2. 目标函数为跟踪误差最小化: $$w=a r g\,m i n\;\;\;T E$$ 其中$TE=\sqrt{\frac{1}{T}\Sigma_{t=1}^{T}(\tilde{R}_t-R_t)^2}$[32] 3. 添加约束条件: 权重和为1:$$\Sigma_{i=1}^{N}w_{i}=1$$[33] 非负约束:$$0\leq w_{i}\leq1$$[35] 行业/风格中性约束: $$z_{l o w}\leq\frac{X_{s}^{T}w-X_{s}^{T}\tilde{w}}{s_{b}}\leq z_{u p}$$ $$w_{l o w}^{I}\leq X_{I}^{T}w-X_{I}^{T}\bar{w}\leq w_{u p}^{I}$$[36] - **评价**:灵活平衡成本与精度,但依赖历史数据可能产生模型风险[30] 2. **Barra多因子模型** - **构建思路**:基于CAPM和Fama-French三因子模型扩展,解释个股收益来源[47] - **具体构建过程**: 因子收益方程: $${\begin{bmatrix}r_{1}\\ r_{2}\\ \vdots\\ r_{n}\end{bmatrix}}={\begin{bmatrix}x_{11}\\ x_{21}\\ \vdots\\ x_{n1}\end{bmatrix}}f_{1}+{\begin{bmatrix}x_{12}\\ x_{22}\\ \vdots\\ x_{n2}\end{bmatrix}}f_{2}+\cdots+{\begin{bmatrix}x_{1m}\\ x_{2m}\\ \vdots\\ x_{n m}\end{bmatrix}}f_{m}+{\begin{bmatrix}u_{1}\\ u_{2}\\ \vdots\\ u_{n}\end{bmatrix}}$$ 其中$x_{ij}$为股票i对因子j的暴露,$f_j$为因子收益[46] 3. **TCN神经网络因子挖掘模型** - **构建思路**:通过时序卷积网络挖掘高频量价Alpha因子[52] - **评价**:相比遗传规划算法能发现更复杂的非线性关系[51] 量化因子与构建方式 1. **波动类因子** - 特异率:1减Fama-French三因子模型拟合优度[48] - 残差波动率:Fama-French三因子回归残差的标准差[48] - 换手率变异系数:换手率标准差/均值[48] 2. **空头意愿因子** - 每笔成交额:总成交额/成交笔数[48] - 高量每笔成交:高成交量区间的每笔成交额占比[48] 3. **交易拥挤度因子** - 量价相关性:成交量与价格的秩相关系数[48] - 高量交易成本:最高20%价格区间的成交量占比[48] 4. **质量因子** - 盈利因子:扣非ROE与资产报酬率的均值[48] 5. **成长因子** - 绝对净利润增长:单季度扣非净利润时间序列回归斜率[48] 模型的回测效果 1. **沪深300指数增强基金** - 年化超额收益:3.74%[23] - 信息比率(IR):1.51[23] - 跟踪误差:2.22%[23] - 超额胜率:72%[23] 因子的回测效果 1. **打新增强** - 2025年打新收益:2.13%(科创板4.34%,创业板2.52%)[67] 2. **股指期货增强** - 2025年基差:沪深300(-6.75%)、中证500(-13.60%)[72] 3. **大宗交易增强** - 历史折价率中位数:5.38%(2025年8.23%)[74] 4. **定向增发增强** - 历史折价率中位数:14.55%(2025年11.87%)[77]
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 17:49
ImageNet与深度学习革命 - ImageNet通过提供大规模高质量标记数据集(80000+次引用)为神经网络成功奠定基础 开创数据驱动范式转变[8][9] - 项目历时18年孵化 初期算法错误率达30% 直到2012年AlexNet结合GPU算力实现突破性进展[11][14][16] - 采用开源策略和挑战赛形式推动社区共建 加速计算机视觉从物体识别向场景描述演进[12][17][19] 空间智能与World Labs布局 - 三维世界理解被定义为AI下一前沿 进化史长达5.4亿年 远超语言进化维度[24][25] - World Labs聚焦构建3D世界模型 团队集结NERF作者等顶尖人才 解决组合复杂度更高的空间智能问题[25][27][28] - 应用场景覆盖元宇宙内容生成 机器人学习 工业设计等 需突破硬件与内容创作双重瓶颈[30][32] 人工智能发展路径 - 视觉智能发展轨迹清晰:物体识别→场景叙事→空间智能 每阶段需5-10年技术积累[17][19][22] - 语言模型与视觉模型存在本质差异 前者依赖序列数据 后者需处理不适定的3D→2D投影问题[27][28] - AGI定义存在争议 但空间智能被视为实现通用智能不可或缺的组成部分[23][44] 创新方法论 - "智识上的无畏"被反复强调为突破性创新的核心特质 贯穿从学术研究到创业全过程[6][37][42] - 数据质量优先于数据规模 需采用混合方法获取高质量3D空间数据[47][48] - 跨学科研究与小数据理论被视为学术界可突破的潜在方向[41][42] 行业生态观察 - 开源策略应根据商业模型差异化选择 Meta等平台型企业更倾向全面开源[46] - 学术机构在计算资源劣势下 需聚焦工业界尚未关注的底层理论问题[41][42] - 硬件迭代与生成模型结合将推动元宇宙等场景落地[30][32]