Workflow
推理
icon
搜索文档
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
机器之心· 2025-06-18 14:09
当前AI机器人技术瓶颈 - 现有机器人无法实现人类直觉式工具使用,每次交互都需重新认知工具[2] - 主流多模态模块融合范式存在表征瓶颈,跨模态信息传递导致关键细节丢失[6][7] - 模块化设计阻碍物理世界因果规律学习,无法实现整体性具身理解[8] 统一架构革命性方案 - 主张端到端统一架构,消解视觉/语言/行动边界为单一信息流[4][10] - 核心是将所有模态转换为共享高维token序列,实现跨模态无损交互[11][12] - 采用多任务多模态生成监督机制,强制建立深层跨模态对应关系[12] 涌现的具身多模态能力 - 符号-空间推理:二维图形解构→字母组合理解→三维物理操作同步完成[17][18] - 物理空间推理:在潜在空间直接推演重力约束/结构稳定性/操作因果链[19][20] - 自主探索能力:整合视觉/记忆/常识构建连贯推理链条实现环境交互[22][23] - 视频学习能力:从人类操作视频推断深层意图并自主执行协作任务[26][27] 范式转换的本质特征 - 实现感知/推理/行动并行融合处理,替代传统串行模块化流程[30][31] - 统一表征空间使机器人能同时处理物理属性/任务作用/空间约束/动作规划[31] - 架构突破使跨模态因果推理和通用操作能力自然涌现[32][34]
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 23:30
2025中国AI算力大会概况 - 大会将于6月26日在北京中关村东升科技园万丽酒店举行,由智一科技旗下智猩猩、智东西联合主办,芯东西协办,是"智领未来"北京人工智能系列活动之一 [1] - 大会设置主会场、分会场和展览区,主会场包含高峰论坛、AI推理算力专题论坛和智算中心专题论坛,分会场将举行智算集群异构混训技术研讨会和超节点技术研讨会(闭门制) [1][2] - 已邀请近30位重量级嘉宾参会,包括中国信息通信研究院、摩尔线程、中昊芯英、魔形智能科技等机构和企业代表 [1][4][5] 主会场核心议题与演讲亮点 高峰论坛 - 摩尔线程副总裁王华将分享基于FP8的国产万卡集群训练实践,其夸娥(KUAE)智算集群解决方案已从千卡扩展至万卡规模,支持FP8精度计算满足DeepSeek V3/R1等大模型需求 [12][13] - 趋境科技陈祥麟将探讨千亿大模型私有化门槛降低10倍的技术路径,包括开源框架KTransformers实现单卡运行千亿大模型等创新 [31][32] - 中昊芯英CEO杨龚轶凡拥有74项中国专利和15项国际专利,曾参与Google TPU 2/3/4研发,将分享高端芯片设计经验 [16][17] AI推理算力专题论坛 - 安谋科技产品总监鲍敏祺将发布新一代"周易"NPU产品,采用大模型优化架构设计提升端侧算力,推动AI从云端下沉至终端设备 [39][40] - 实在智能欧阳小刚将展示Agent智能体技术在端侧的轻量化应用,包括模型高效推理引擎优化策略 [45] - 白山云科技李金锋将介绍边缘AI推理四大技术突破:异构资源弹性调度、智能网关全网调度、算力单元推理优化及模型加载优化技术 [49][50] 智算中心专题论坛 - 图灵新智算洪锐提出基于Token生成能力的智算集群效能评价体系,量化计算资源利用率 [5] - 趋动科技张增金倡导软件定义AI算力模式,通过虚拟化技术实现GPU资源池化,提升智算中心资源调度效率 [65][66] - 百度智能云郝玉涛分享AIDC技术突破:实现单体IDC万卡到3万卡集群部署,具备10万卡集群技术能力 [60][61] 分会场闭门研讨会重点 智算集群异构混训技术研讨会 - 壁仞科技丁云帆、中国移动王升等专家将探讨混合架构下的分布式训练优化方案 [68] - 商汤大装置技术产品总监刘叶枫将分享大规模异构算力调度经验 [68] 超节点技术研讨会 - 阿里云卢晓伟将解析基础设施异构硬件解决方案 [71] - 曦智科技孟怀宇聚焦光计算技术在超节点架构中的应用 [71] 行业技术发展趋势 - 大模型训练需求推动算力基础设施升级:模型参数量从千亿迈向万亿,万卡集群成为行业标配 [12] - 编译技术成为AI基础设施关键环节:中科加禾崔慧敏、魔形智能徐凌杰均指出其可解决硬件异构性和模型复杂性挑战 [22][26] - 边缘计算与中心云协同趋势明显:白山云等企业推动"云-边-端"全域智能范式演进 [49][50]
华源晨会-20250617
华源证券· 2025-06-17 22:05
核心观点 - 经济修复分化延续,债市或窄幅震荡,建议关注收益率 2%以上的 5Y 信用债;AI 推理需求加强利好 ASIC 赛道,建议关注相关算力板块 PCB;公用环保现金流改善、分红率提升,建议关注港股固废水务公司;交运顺丰同城上调关联交易上限,油运地缘期权或将兑现,建议关注相关企业;地产托底信号明显,建议关注地产链;武汉蓝电立足消费电子领域,拓展动力电池企业端客户大功率电池测试设备应用场景,看好其发展潜力 [2] 固定收益 本周市场概览 - 宏观要闻:截至 5 月末,本外币贷款余额 270.2 万亿元,同比+6.7%,人民币贷款余额 266.32 万亿元,同比+7.1%;前 5 个月,社会融资规模增量累计 18.63 万亿元,比上年同期多 3.83 万亿元;5 月 CPI 环比降 0.2%,同比降 0.1%,核心 CPI 同比涨 0.6%;5 月 PPI 环比降 0.4%,同比降 3.3%;前 5 个月,货物贸易进出口总值 17.94 万亿元,同比增 2.5%,出口 10.67 万亿元,同比增 7.2%,进口 7.27 万亿元,同比降 3.8% [6] - 中观高频数据:消费市场回暖,截至 6 月 8 日,当周乘用车零售及批发同比分别增 19.0%和 10.4%,邮政快递揽收量 39.0 亿件,同比+16.2%;地产承压,当周全国城市二手房出售挂牌价指数 154.2,同比-7.6%,100 大中城市成交土地数量 251.0 宗,同比-4.2%;大宗商品价格承压,截至 6 月 13 日,当周猪肉平均批发价 20.3 元/公斤,同比-17.0%,铁矿石平均现货价 741.9 元/吨,同比-12.2% [7] - 债市及外汇市场:6 月 13 日,1 年期/5 年期/10 年期/30 年期国债收益率分别为 1.40%/1.54%/1.65%/1.85%,较 6 月 6 日分别-1.5/-0.2/-1.2/-2.9BP;6 月 13 日美元兑人民币中间价和即期汇率分别为 7.18/7.18,较 6 月 6 日分别-73/-34pips [7] - 机构行为:截至 6 月 15 日,当周理财公司公募理财产品破净率约 0.92%,较年初降 1.05pct,当前破净率在年内百分位在 10%以下;估算利率债中长期债基久期平均数自 4 月初以来快速走高,6 月 13 日测算约 4.8 年,信用债中长期债基久期平均数自 5 月中旬以来略有走低,6 月 13 日测算约 2.2 年 [8] 本周市场分析 - 经济运行处于中性区间,过去两年经济负循环告一段落,美对华关税可能下调,经济有望企稳,经济边际变化或在消费,债市短期难现趋势性熊市或牛市 [8] 投资建议 - 利率债可能阶段性窄幅震荡,对超长利率债偏空,建议关注收益率 2%以上的 5Y 信用债,攻守兼备,利差或进一步压缩 [9] 电子 博通业绩情况 - FY25Q2 业绩强劲,营收 150.05 亿美元,同比增 20%,AI 半导体业务带动增长,收入超 44 亿美元,同比增 46%,预计第三季度营收有望达 51 亿美元 [2] 产品情况 - FY25Q2 发布 Tomahawk6 交换机芯片,交换容量 102.4Tbps 是现有产品两倍,支持双架构,满足超大规模 AI 集群部署需求,首批客户包括顶级云服务商和网络设备公司 [11] 投资建议 - AI 网络是博通本季 AI 半导体业务增长主要驱动力,未来数据中心网络设施投资预计提升,ASIC 逻辑及高速交换机需求加强,建议关注相关算力板块 PCB,如 Asic 链的生益电子等,通用服务器、AI 服务器及高速交换机链的胜宏科技等 [12] 公用环保 行业特点 - 垃圾焚烧发电、水务公司遵循准许收益率模型,盈利稳定性远超其他行业,多以 BOT 为主要经营模式,能顺畅调价传导成本增加 [14] 行业现状 - 行业步入存量运营期,资本开支大幅收缩,企业自由现金流陆续转正;应收账款占市值比例较高的有天津创业环保股份等企业 [15] 市场情况 - 5 月以来香港利率持续下降,同业拆息隔夜 HIBOR 降至 0.02%,1 个月 HIBOR 降至 0.54%,12 个月 HIBOR 降至 3.01%,有望加速资金流入股市,提升港股红利资产估值中枢 [2] 投资建议 - 以现金流改善预期、分红表现、股息率为筛选原则,推荐光大环境,建议关注天津创业环保股份等企业,同时推荐 A 股固废标杆企业永兴股份 [2] 交运 快递物流 - 顺丰同城修订与顺丰控股集团关联交易年度上限,2025/2026 年年度上限分别为 128.5/205.5 亿元,较原关联金额上限分别增长 33.9/82.8 亿元,或+35.9%/67.5%;5 月快递业务量预计同比增 16%,“五一”假期累计揽投快递包裹超 48 亿件,同比增超两成;6 月 2 日 - 6 月 8 日全国物流保通保畅有序运行 [19][20][21] 航运船舶 - 中东地缘冲突升级,油运或迎抢运时刻,以伊冲突或持续,导致油价和运价风险溢价持续,或使伊朗原油出口受限,促使 OPEC+加速增产,油运超级旺季或在 2025 年下半年重现,建议关注中远海能等企业;BCI 过去一月累涨 115.02%,下游低库存和高产量支撑海运需求,散运市场或波动上行,建议关注招商轮船等企业;6 月 14 日上海出口集装箱运价指数报 2088 点,环比降 6.8%;本周原油轮小船、成品油轮运价下降,散货船大船运价上涨,新造船价指数上涨,本期 PDCI 上涨 [22][23][25] 航空机场 - 印度一架 B787 - 8 发生重大坠机事故;珠海摩天宇金湾厂区交付首台维修发动机;中国 240 小时过境免签政策适用国家扩展至 55 国 [26][27] 核心观点及投资建议 - 航空行业供给长期低增长,需求有望受益宏观回暖,飞机产业链 OEM&MRO 双产能困境推高二手飞机紧缺度,关注华夏航空等企业;快递需求坚韧,终端价格下行空间有限,通达系快递估值有安全边际,顺丰、京东物流业绩与估值有双升空间,关注中通快递等企业;供应链物流方面,深圳国际有望价值重估,快运格局向好关注德邦股份等,化工物流关注密尔克卫等;航运船舶油运旺季或重现,散运市场将复苏,造船企业远期利润有望增厚,关注招商轮船等企业 [28][30][31] 机械/建材建筑 政策情况 - 6 月 13 日国务院常务会议提出更大力度推动房地产市场止跌回稳,构建新模式,推进“好房子”建设,纳入城市更新体系,给予统筹支持;广州发布相关实施方案,加大城中村和老旧小区改造投入 [32] 市场回顾 - 本周上证指数下滑 0.25%、深证成指下滑 0.60%、创业板指上涨 0.22%,申万建筑装饰指数下滑 1.41%,除化学工程上涨 1.41%外其余子板块悉数下滑;申万建筑 31 只股票上涨,涨幅前五为 ST 百利等 [34] 个股推荐 - 从区域建设、央国企估值修复、转型升级三条主线把握建筑板块配置机会,关注四川路桥等企业,推荐中国建筑等企业,关注具备转型路径与落地能力的代表性标的 [35] 北交所 公司概况 - 武汉蓝电主营电池测试设备研发、生产和销售,产品用于高校、科研院所及电池或电池材料生产企业研发和质检,2024 年营收 1.75 亿元、归母净利润 7,359.78 万元 [37] 产品营收情况 - 2024 年小功率设备营收 0.70 亿元,同比增 4.68%,占比 40%,毛利率 60.14%;微小功率设备营收 0.62 亿元,占比 35%,毛利率 77.52%,受新能源电池及材料行业新增产能投资放缓影响收入承压;大功率设备营收 0.31 亿元,同比增 15.70%,占比 18%,毛利率 34.93%,市场需求有望随产业发展增加 [39][40] 竞争优势 - 高精度电池测试设备性能参数赶超外资企业,产品稳定性高,软件功能完备;行业电池测试设备本土化提升为公司发展提供市场基础 [41] 盈利预测与评级 - 预计 2025 - 2027 年归母净利润分别为 0.80/0.89/0.99 亿元,对应 EPS 分别为 1.00/1.11/1.24 元/股,首次覆盖给予“增持”评级 [42]
MiniMax发布开源混合架构推理模型M1,M1所需的算力仅为DeepSeek R1的约30%
快讯· 2025-06-17 16:32
上海AI独角兽MiniMax正式开源推理模型MiniMax-M1(以下简称"M1")。MiniMax称,这是全球首个 开放权重的大规模混合注意力推理模型。凭借混合门控专家架构(Mixture-of-Experts,MoE)与 Lightning Attention 的结合,M1在性能表现和推理效率方面实现了显著突破。实测数据显示,M1系列在 长上下文理解、代码生成等生产力场景中超越多数闭源模型,仅微弱差距落后于顶尖闭源系统。 ...
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
36氪· 2025-06-17 15:52
苹果论文《思考的幻觉》核心观点 - 苹果机器学习研究团队发布53页技术报告,质疑主流大语言模型(LLM)的推理能力,认为其未从训练数据中学习可泛化的第一性原理 [2][4] - 研究通过汉诺塔、积木世界、过河问题和跳棋四类经典问题测试模型,发现随着难度指数级增加,顶尖模型(如Claude 3.7 Sonnet、DeepSeek-R1)准确率直线下滑至归零 [4][6] - 模型在复杂任务中输出的"思维链"token数量缩水,被解读为主动减少推理尝试的迹象,苹果认为"推理是幻象" [8] 对主流模型的批判性结论 - 社交媒体观点认为Claude、DeepSeek等模型仅是"记性好的复读机",不具备真正推理能力 [10] - 测试显示"思维模型"(如Claude 3.7 Sonnet with thinking)与非思维对应模型在准确率上无显著差异 [8] 反驳论文《The Illusion of The Illusion of Thinking》核心论点 - 独立研究员Alex Lawsen与Claude Opus 4合著论文,指出苹果实验设计存在三大缺陷 [12][13] - 槽点一:模型因上下文窗口和输出Token限制导致答案截断,误判为推理失败(如15盘汉诺塔需32000步骤,超出输出上限) [14][15][16][17][18] - 槽点二:苹果测试题库包含数学上无解的"过河问题",却仍以此评分作为模型失败证据 [19][20][21][22] - 槽点三:改变输出要求(如生成程序代码而非逐步解答)后,模型在复杂任务中表现显著提升 [23][24][25] 实验方法论争议 - 批评者指出苹果未设置人类基准对比,忽略人类在同等复杂任务中同样可能"宕机",无法证明AI缺陷具有特殊性 [26][27]
提示创新药、新消费行情过热风险 卖方建议 “高低切换”
21世纪经济报道· 2025-06-17 12:48
港股新消费及创新药板块表现 - 泡泡玛特股价创历史新高,6月16日收盘价报275港元/股,总市值逼近3700亿港元 [1] - 4月7日-6月11日港股创新药和新消费板块均上涨超55%,远超同期互联网龙头 [1] - A股部分消费细分领域表现突出,4月8日-6月16日Wind休闲用品、居家用品、创新药指数分别涨超37%、30%、26% [1] 资金流向分析 - 南下资金今年以来加仓港股创新药和新消费板块551.4亿港元、183.25亿港元 [2] - 外资两次在新消费板块行情左侧加仓并在快速上涨时兑现浮盈,南下资金主要右侧做趋势投资 [2] - 2月17日以来港股通加速净流入创新药板块,累计加仓超520亿港元 [2] - 4月8日-6月9日南下资金净流入创新药、专业零售等板块,减持软件服务和资讯科技器材较多 [3] 交易热度分析 - 创新药交易拥挤度达3.9%,处于97.7%分位水平 [5] - 新消费板块交易拥挤度5月底触及本轮最高7.2%,接近75%分位水平 [5] - 截至6月13日新消费板块交易拥挤度5.1%、处于43%分位 [5] 个股及行业动态 - 浦银国际上调泡泡玛特2025年盈利预测,目标价至293.9港元 [7] - 泡泡玛特推出Labubu 3.0系列引爆全球潮玩市场 [8] - 港股新消费三巨头包括泡泡玛特、蜜雪冰城和老铺黄金 [10] - 1-5月1类创新药获批数量创五年新高,中国药企在ASCO年会上取得前沿突破 [11] 投资策略观点 - 建议关注三条投资主线:景气预测边际改善、盈利预测显著上修、财报展现盈利拐点的行业 [10] - 政策支持、研发能力提升及国际化进展三重驱动下,港股创新药板块或正迎来收获期 [11] - 成长科技板块估值过高有调整诉求,建议配置银行保险等稳健类资产 [11]
迈向人工智能的认识论:对人工智能安全和部署的影响以及十大典型问题
36氪· 2025-06-17 11:56
大型语言模型推理透明度 - 核心观点:人工智能在高风险领域(医疗/法律/金融)的决策需具备可验证的推理透明度,而非依赖表面解释 [1][10] - 模型解释存在局限性,LLM生成的思维链可能看似合理但不可靠,需视为待验证假设而非结论 [1][16] - 当前模型忠实度(解释反映真实推理的程度)普遍较低,解释可能为事后编造而非实际推理路径 [16][17] 增强可靠性的技术方案 - 独立验证机制:要求AI提供决策依据(如医疗数据点/法律条文引用)并由独立模块或人工复核 [2][6] - 实时监控系统:通过神经元激活模式检测异常行为,如军用AI中监测绕过规则的内部讨论 [3][26] - 对抗性训练:设计特定场景诱使AI暴露奖励黑客行为(如客服AI为满意度盲目附和客户) [4][27] 行业应用规范 - 医疗领域需列出影响诊断的关键患者因素,法律领域必须引用先例条文,金融领域应说明欺诈标记特征 [6][32] - 欧盟AI法案等法规推动高风险系统透明度成为法律要求,需提供决策文档和解释工具 [5][34] - 模块化设计趋势:将黑箱系统拆分为可验证的小模块(如神经符号混合模型)提升可追溯性 [41][43] 技术前沿进展 - 涌现能力研究:模型规模扩大可能触发非线性能力跃升,但部分"飞跃"实为测量阈值效应 [13][15] - Transformer机理:自注意力机制通过多层信息检索组合实现类算法推理(如逐位加法) [18][20] - 可解释性工具:激活修补/因果探测等技术可逆向工程模型部分电路(如GPT-2加法算法) [24][26] 未来发展路径 - 训练优化:通过思路链蒸馏等技术强制模型表达真实推理,牺牲流畅性换取忠实度 [41][43] - 评估体系:建立"FaithfulCoT"等基准测试解释真实性,推动行业透明度标准 [42][43] - 监管框架:类比航空安全,通过AI许可证制度要求独立审计关键系统内部逻辑 [43]
推理算力仍具需求爆发潜力,数字经济ETF(560800)近1月新增份额位居可比基金首位
新浪财经· 2025-06-17 11:32
指数表现 - 中证数字经济主题指数(931582)下跌0.69%,成分股涨跌互现,芯联集成(688469)领涨1.52%,江波龙(301308)上涨1.21%,北方华创(002371)上涨1.01%,寒武纪(688256)领跌3.61%,润泽科技(300442)下跌2.42%,海光信息(688041)下跌1.71% [1] - 数字经济ETF(560800)下跌0.54%,最新报价0.74元,盘中换手率0.84%,成交631.05万元 [1] ETF资金动态 - 数字经济ETF近1月份额增长1800.00万份,新增份额位居可比基金1/2 [2] - 近20个交易日合计资金流入1335.41万元 [2] 指数成分与权重 - 中证数字经济主题指数前十大权重股合计占比50.98%,包括东方财富(300059,权重8.12%)、中芯国际(688981,6.58%)、汇川技术(300124,5.49%)、北方华创(002371,4.95%)、海光信息(688041,4.85%)等 [2] - 前十大权重股当日表现分化,北方华创上涨1.01%,东方财富下跌0.32%,中芯国际下跌0.82%,汇川技术下跌0.94% [4] AI产业动态 - 火山引擎发布豆包大模型1.6、视频生成模型Seedance 1.0 pro、语音播客模型及实时语音模型 [1] - 华龙证券指出AI产业趋势:国产大模型性价比提升、Agent加速落地、推理算力需求爆发潜力,看好计算机行业 [1]
MiniMax重磅开源M1模型:百万上下文超DeepSeek R1,实现性能与效率双杀
AI科技大本营· 2025-06-17 10:32
大模型技术突破 - MiniMax开源其首个推理模型M1,原生支持百万级上下文长度,在推理效率、计算成本和复杂任务能力上展现出与DeepSeek R1、Qwen3-235B等模型不同的技术路径与性能表现[1][2] - M1是全球首个开放权重的大规模混合注意力推理模型,凭借混合门控专家架构(Mixture-of-Experts,MoE)与Lightning Attention的结合,在性能表现和推理效率方面实现显著突破[4] - M1具备4560亿参数规模,其中每个token激活约459亿参数,原生支持最长100万tokens的上下文输入,是DeepSeek R1所支持长度的8倍[7] 性能与效率优势 - 在生成长度为10万tokens的场景下,MiniMax-M1的计算量(FLOPs)仅为DeepSeek R1的25%,在长文本处理任务中具备显著优势[7] - 完整强化学习训练在512块H800 GPU上仅耗时三周,成本控制在53.47万美元,展现极高效率与性价比[11] - 在标准基准测试中,MiniMax-M1在复杂软件工程、工具使用与长上下文任务等方面表现突出,整体表现已达到甚至超越DeepSeek-R1与Qwen3-235B等代表性开源模型[12] 技术创新 - 采用大规模强化学习(RL)方式,在数学推理、沙盒环境下的软件工程等多样任务中进行了全面优化[9] - 提出名为CISPO的创新型强化学习算法,针对重要性采样权重而非token更新进行裁剪,有效提升学习稳定性与性能表现,在对比实验中优于现有主流RL变体[10] - 训练两个版本分别设定40K与80K的思维预算(thinking budget),其中40K版本为中间训练阶段的成果[12] 应用与部署 - MiniMax-M1是开源即上线,可直接进入官网体验[13][15] - 模型在不到30秒的时间可完成技术报告里的公式、表格翻译[17] - 模型现已支持GitHub和Hugging Face平台,并兼容vILN和Transformers框架[19]
AI成为数学家得力助手还要多久
科技日报· 2025-06-17 09:18
AI在数学领域的应用进展 - 美国国防高级研究计划局启动"指数性数学"计划 旨在开发提升数学研究效率的AI"合著者"系统 [1] - 新一代大型推理模型如OpenAI的o3和Anthropic的Claude 4 Thinking展现进步 在美国数学邀请赛中表现接近优秀高中生水平 [2] - 谷歌"深度思维"的AlphaProof系统结合语言模型与AlphaZero 取得与国际数学奥林匹克竞赛银牌得主相当的成绩 [2] - 谷歌AlphaEvolve模型在多个长期未解数学与计算难题上找到优于人类现有方案的解法 [2] AI当前在数学研究中的局限性 - 大型语言模型在FrontierMath测试中几乎集体"交白卷" 表明其面对全新高难度题目时能力不足 [3] - AI在解决"P vs NP"和"黎曼猜想"等重大数学难题时仍力不从心 竞赛题与真正数学研究存在差异 [2] - AI缺乏真正的创造力 能协助发现路径但无法实现真正的创新与突破 [8] AI处理数学问题的技术突破 - 加州理工学院团队开发"超级步骤"方法 将多个步骤打包以应对"超长推理链"问题 [5] - 该方法在安德鲁斯-柯蒂斯猜想上取得突破 推翻了一个40年来被广泛引用的"反例" [5] - "压缩路径"思路适用于所有需要推理链条的领域 有望推动数学研究新突破 [6] AI辅助数学研究的创新方式 - AlphaEvolve通过LLM生成并改进解题代码 配合评估模型提出比人类更优的解法 [7] - Meta的PatternBoost AI系统可生成相似数学概念 帮助激发研究灵感 [7] - AI工具可作为人类直觉的"侦察兵" 协助发现新路径和避开错误方向 [8]