大模型推理能力

搜索文档
股指期货将偏强震荡,黄金、白银、PVC期货将偏强震荡,原油、天然橡胶期货将偏弱震荡
国泰君安期货· 2025-09-19 10:17
报告行业投资评级 未提及 报告的核心观点 通过宏观基本面和技术面分析,对2025年9月19日期货主力合约行情走势作出预期,股指期货、黄金、白银、PVC期货将偏强震荡,原油、天然橡胶、热卷、玻璃期货将偏弱震荡,其他期货品种将震荡整理或宽幅震荡[1][2][3][4][5] 根据相关目录分别进行总结 期货行情前瞻要点 - 股指期货将偏强震荡,给出IF2512、IH2512、IC2512、IM2512合约阻力位和支撑位[2] - 十年期和三十年期国债期货主力合约大概率宽幅震荡,给出T2512、TL2512合约阻力位和支撑位[3] - 黄金、白银期货主力合约大概率偏强震荡,给出AU2512、AG2512合约阻力位和支撑位[3] - 铜、铝、氧化铝、螺纹钢、纯碱期货主力合约大概率震荡整理,给出CU2511、AL2511、AO2601、RB2601、SA601合约阻力位和支撑位[3][4] - 碳酸锂、铁矿石、焦煤期货主力合约大概率宽幅震荡,给出LC2511、I2601、JM2601合约阻力位和支撑位[3][4] - 热卷、玻璃、原油、天然橡胶期货主力合约大概率偏弱震荡,给出HC2601、FG601、SC2511、RU2601合约阻力位和支撑位[4][5] - PVC期货主力合约大概率偏强震荡,给出V2601合约阻力位和支撑位并将上攻阻力位[4] 宏观资讯和交易提示 - 商务部表明TikTok问题立场,回应欧盟对中国电车征反补贴税及对欧盟猪肉产品反倾销调查[6][7] - 科技部称“十四五”我国科技投入增加,2024年研发投入超3.6万亿,强度达2.68% [7] - 2025中国服务业企业500强2024年营收达51.1万亿,平均营收首破千亿[7] - 北京、上海公布2025年度社保缴费基数上下限[7] - 上海征求高成长企业发展细则意见,对瞪羚、独角兽企业给予奖励[7] - DeepSeek - R1推理模型研究论文登《自然》封面,中国AI获国际认可[8] - 特朗普和斯塔默签署美英科技合作协议,或助英创造超5000岗位[8] - 英石油未来五年每年美投资超36亿英镑,CoreWeave英投资达25亿英镑[8] - 美国上周初请失业金人数回落,持续申请人数仍处高位[9] - 美国拟推50亿美元矿产投资基金[9] - 英国央行维持利率4%不变,下调量化紧缩规模[9] 商品期货相关信息 - 中钢协围绕北京铁矿石交易中心进口铁矿石港口现货价格指数部署工作[9] - 9月18日国际贵金属期货收跌,黄金、白银因鲍威尔讲话和美元反弹回调[10] - 9月18日国际油价下跌,因市场对美国经济前景疑虑加剧[10] - 9月18日伦敦基本金属多数下跌,市场面临供需博弈[10] 期货行情分析与前瞻 股指期货 - 9月18日,IF2512、IH2512、IC2512、IM2512合约均震荡下行,短线上行动能减弱、下行压力增大[12][13] - 9月18日大盘冲高回落,三大指数跌超1%,A股成交3.17万亿,高盛维持A、H股“超配”评级[14] - 9月18日香港恒生指数等收跌,南向资金净买入62.88亿港元[15] - 9月18日美国三大股指创新高,科技股带动市场情绪回暖[15] - 预期9月股指期货IF、IH合约宽幅震荡,IC、IM合约偏强宽幅震荡,9月19日股指期货偏强震荡并给出各合约阻力位和支撑位[15][16] 国债期货 - 9月18日十年期国债期货主力合约T2512偏弱震荡,短线下行压力增大,央行开展逆回购操作净投放1950亿[33] - 9月18日三十年期国债期货主力合约TL2512震荡下行,短线下行压力增大[36] - 9月18日债市调整,国债期货收盘全线下跌,美债收益率集体上涨[38][39] - 预期9月19日T2512、TL2512合约大概率宽幅震荡并给出阻力位和支撑位[35][40] 黄金期货 - 9月18日黄金期货主力合约AU2512震荡下行,短线上行动能减弱、下行压力增大[42] - 预期2025年9月黄金期货主力连续合约震荡偏强并将创新高,9月19日AU2512合约偏强震荡并给出阻力位和支撑位[42][43] 白银期货 - 9月18日白银期货主力合约AG2512震荡下行,短线继续下行压力增大[46] - 预期2025年9月白银期货主力连续合约震荡偏强并将创新高,9月19日AG2512合约偏强震荡并给出阻力位和支撑位[46][47] 铜期货 - 9月18日铜期货主力合约CU2511震荡下行,短线继续下行压力增大[50] - 预期2025年9月铜期货主力连续合约偏强宽幅震荡,9月19日CU2511合约震荡整理并给出阻力位和支撑位[50] 铝期货 - 9月18日铝期货主力合约AL2511震荡下行,短线继续下行压力增大[55] - 预期2025年9月铝期货主力连续合约宽幅震荡,9月19日AL2511合约震荡整理并给出阻力位和支撑位[55] 氧化铝期货 - 9月18日氧化铝期货主力合约AO2601震荡下行,短线继续下行压力轻度增大[59] - 预期2025年9月氧化铝期货主力连续合约偏弱宽幅震荡,9月19日AO2601合约震荡整理并给出阻力位和支撑位[59] 碳酸锂期货 - 9月18日碳酸锂期货主力合约LC2511震荡下行,短线下行压力增大[62] - 预期2025年9月碳酸锂期货主力连续合约偏弱宽幅震荡,9月19日LC2511合约宽幅震荡并给出阻力位和支撑位[62] 螺纹钢期货 - 9月18日螺纹钢期货主力合约RB2601震荡下行,短线反弹动能减弱、下行压力增大[67] - 预期2025年9月螺纹钢期货主力连续合约偏强宽幅震荡,9月19日RB2601合约震荡整理并给出阻力位和支撑位[67] 热卷期货 - 9月18日热卷期货主力合约HC2601震荡下行,短线继续下行压力增大[72] - 预期9月19日HC2601合约偏弱震荡并给出阻力位和支撑位[72] 铁矿石期货 - 9月18日铁矿石期货主力合约I2601震荡下行,短线反弹动能减弱、下行压力轻度增大[74] - 预期2025年9月铁矿石期货主力连续合约偏强宽幅震荡,9月19日I2601合约宽幅震荡并给出阻力位和支撑位[74] 焦煤期货 - 9月18日焦煤期货主力合约JM2601偏弱震荡下行,短线继续下行压力明显增大[78] - 预期2025年9月焦煤期货主力连续合约震荡偏强,9月19日JM2601合约宽幅震荡并给出阻力位和支撑位[79] 玻璃期货 - 9月18日玻璃期货主力合约FG601偏弱震荡下行,短线继续下行压力明显增大[82] - 预期2025年9月玻璃期货主力连续合约偏强宽幅震荡,9月19日FG601合约偏弱震荡并给出阻力位和支撑位[82] 纯碱期货 - 9月18日纯碱期货主力合约SA601偏弱震荡下行,短线继续下行压力明显增大[88] - 预期2025年9月纯碱期货主力连续合约偏强宽幅震荡,9月19日SA601合约震荡整理并给出阻力位和支撑位[88] 原油期货 - 9月18日原油期货新主力合约SC2511震荡下行,短线下行压力增大[92] - 预期2025年9月原油期货主力连续合约宽幅震荡,9月19日SC2511合约偏弱震荡并给出阻力位和支撑位[92] PVC期货 - 9月18日PVC期货主力合约V2601震荡下行,短线反弹动能减弱、下行压力增大[97] - 预期9月19日V2601合约偏强震荡并将上攻阻力位,给出阻力位和支撑位[97] 天然橡胶期货 - 9月18日天然橡胶期货主力合约RU2601偏弱震荡下行,短线继续下行压力明显增大[99] - 预期9月19日RU2601合约偏弱震荡并将下探支撑位,给出阻力位和支撑位[99]
监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力
量子位· 2025-08-04 15:00
大模型推理能力研究进展 - 可验证奖励的强化学习(RLVR)技术取得突破,尤其是"一题强化学习"在多个任务中表现亮眼[1] - RL训练面临资源成本高(上百小时A100GPU)和训练不稳定的现实难题[2] - 传统监督式微调(SFT)在低数据量下易过拟合,效果难以保证[2] One-Shot CFT技术原理 - 滑铁卢大学TIGER Lab提出One-Shot Critique Fine-Tuning新方法,通过"逐步分析判断答案好坏"激发LLM推理能力[3] - 方法流程:选取代表性任务→多模型生成解答→强大模型点评→训练目标模型从点评中学习[4] - 仅需一题数据+多个解答+多个点评即可完成微调,训练仅需约5个GPU小时[5] 实验效果验证 - 在数学任务上,Qwen2.5-Math-7B经CFT微调后准确率提升+15%,超越使用4万多个样本的全监督微调模型[9] - Qwen2.5-Math-7B在MATH-500等基准测试中平均提升+14.9分,最高单任务提升+23.1分[9] - 在BBEH逻辑推理任务中获得+10~16%准确率增幅,展现跨任务迁移能力[10] - 效果对具体任务和种子选择不敏感,具有良好的稳定性和复现性[11] 技术优势分析 - 批判性学习:理解"答案为何正确或错误",学习信号更具深度[12] - 多视角输入:一个问题模拟多种推理路径与错误类型,接近人类学习方式[12] - 强泛化性:点评语言包含通用逻辑判断规则,更易迁移至新任务[12] - 更换问题、模型、点评风格时,提升幅度保持稳定[13] 应用前景 - 相比RL方法大幅降低资源需求(5 GPU小时 vs 上百小时)[14] - 为个人研究者、资源有限实验室和初创团队提供高性价比解决方案[15] - 全流程开源(训练脚本、模型参数、数据集等),极大降低复现门槛[17]
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 23:52
一、AI编程市场竞争加剧 - Cursor开发商Anysphere从合作伙伴Anthropic挖走Claude Code核心人物Boris Cherny和Cat Wu [1] - Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型 [1] - Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元 [1] 二、智谱开源视觉推理模型 - 智谱开源GLM-4.1V-9B-Thinking模型,在18项权威评测中超越72B模型 [2] - 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D/3D-RoPE位置编码 [2] - 训练分四个阶段:多模态预训练、长上下文训练、监督微调和课程采样强化学习 [2] 三、多模型协作算法突破 - Sakana AI提出AB-MCTS算法,通过深度和广度双向搜索提升推理能力 [3] - Multi-LLM系统在ARC-AGI-2基准测试上性能提升30%,整合Gemini 2.5 Pro等前沿模型 [3] - 算法动态选择最优模型,开源框架TreeQuest支持多种任务 [3] 四、AI视频生成商业化进展 - HeyGen推出"产品植入"功能,可生成逼真带货视频(如马斯克推销Labubu案例) [4] - 公司估值5亿美元,年收入8000万美元,月付29美元支持无限短视频制作 [5] - 竞品对比中,HeyGen在表情自然度和口型准确度表现更优 [5] 五、百度搜索AI化升级 - 搜索框升级为支持千字文本的AI智能框,保留传统搜索模式 [6] - "百看"功能优先呈现富媒体内容(视频讲解、智能总结等) [6] - 功能从信息检索升级为任务交付,支持一键打车或购买套餐 [6] 六、医疗AI诊断系统 - 微软MAI-DxO系统准确率85.5%,比10年经验医生高4倍 [7] - 通过5个虚拟医生角色协作模拟真实诊断流程 [7] - 发布SDBench基准,含304个挑战性诊断案例 [7] 七、多模态视频生成平台 - 百度MuseSteamer模型支持720p-1080p视频生成,刷新VBench-I2V榜单 [8] - 提供Lite/Turbo/Pro/有声四个版本,满足不同创作需求 [8] - 技术亮点包括中文语义精准理解和音视频一体化生成 [8] 八、AI爬虫内容变现新模式 - Cloudflare推出"Pay Per Crawl"功能,允许网站对AI爬虫收费或封锁 [10] - OpenAI需1500次抓取带回1次点击,Anthropic需73300次,生态失衡 [10] - 通过HTTP 402状态码实现收费控制,开创内容授权变现模式 [10] 九、AI药物发现突破 - Chai-2模型在抗体设计中实现16%命中率,比前技术提高100倍 [11] - 24孔板内为50%测试靶点找到有效抗体,研发周期缩短至两周 [11] - 微蛋白设计湿实验室成功率68%,解锁传统技术无法实现的开发 [11] 十、AI对文化创作影响 - AI写作使文章标准化,麻省理工实验显示学生大脑活动水平降低 [12] - 康奈尔研究证实AI导致文化同质化(如答案风格趋同) [12] - 长期使用AI工具会使用户转向"策展模式",削弱原创性思维 [12]
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 10:25
OpenAI o3-pro模型性能评测 - o3-pro在复杂推理测试中成功解答歌手Sabrina Carpenter歌曲名的字母谜题耗时4分25秒[2] - 与o3相比o3-pro在相同测试中仅能答对部分字母[3] - 前OpenAI AGI团队负责人Miles Brundage公开支持o3-pro的推理能力并暗讽苹果对AI推理的质疑[4][5] 模型基准测试表现 - 官方测评显示o3-pro成为OpenAI当前最强编码模型[8] - LiveBench榜单显示o3-pro与o3编码平均分仅差0.07分(76.78 vs 76.71)[11] - 智能体编码得分o3-pro显著落后o3(31.67 vs 36.67)[11] - 亚马逊云科技前高管指出o3-pro在智能体和工具使用方面存在不足[12] 上下文处理能力 - 短上下文场景下o3-pro表现优于o3[15] - 192k超长上下文处理Gemini 2.5 Pro得分90.6显著高于o3-pro的65.6[16] - 上下文长度测试显示o3-pro在60k以下场景保持94.4分以上表现[17] 实际应用案例 - 前苹果工程师Ben Hylak通过输入公司历史会议记录等完整背景信息o3-pro输出精准业务规划[24][25] - o3-pro在工具调用和环境认知方面表现提升能明确说明功能边界[30][31] - 相比o3的虚假承诺o3-pro更诚实地说明功能限制[33][35] - 在SQL等特定任务上o3表现仍优于o3-pro[38] 模型特性分析 - o3-pro需要更丰富的背景信息输入否则易出现过度思考[37] - 与Claude Opus和Gemini 2.5 Pro相比o3-pro输出质量更高维度不同[39] - OpenAI通过强化学习路径提升模型"何时使用工具"的决策能力[39] - 系统提示和语境设置对o3-pro表现影响显著[40][41] 商业动态 - o3模型价格下调成为昨日重要新闻[13] - 前苹果工程师Ben Hylak透露已提前一周接触o3-pro进行测试[23]
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
第一财经· 2025-05-29 22:10
模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩,接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升,在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%,非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化,能输出篇幅更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B,开源版本上下文长度128K(网页端/App/API提供64K),仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座,后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布,或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续,DeepSeek更新后行业关注下一家突破者 [19]
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
量子位· 2025-05-28 12:22
大模型数独能力研究 - Sakana AI推出全新基准测试Sudoku-Bench 包含4x4至9x9传统及变异数独问题 旨在测试AI创造性推理能力[1][6][15] - 测试结果显示大模型总体正确率仅15% 9x9数独中高性能模型o3 Mini High正确率低至2 9%[1][25] - 变异数独需多步逻辑推理 无法通过记忆模板解决 成为测试AI推理能力的理想选择[11][12] 模型表现分析 - 在辅助条件下部分模型表现较好 但原始谜题中先进模型平均连一个正确数字都难以放置[20][21] - 4x4网格模型正确率40%-73% 但9x9网格接近0% 常见错误包括错误解答 放弃解题及误判规则[25] - 多步推理模式下O3 Mini High在4x4数独正确率达60% 但单次推理模式总体正确率仅14%[23] Sakana AI技术布局 - 公司由Transformer作者Llion Jones创立 专注生成文本和图像的AI基础模型研究[24] - 已发布AI科学家和AI审稿人 前者可独立完成十篇学术论文 后者能评审AI论文[26][27] - 开发连续思维机器(CTM)模型 通过逐步思考解决复杂问题 如迷宫[29] 行业合作与数据 - 与Cracking The Cryptic合作 获取数独解题视频数据用于训练推理模型[31][32] - 数独公司Nikoli提供100道手工题目 出题人定制"奇偶鱼"变异数独游戏[16][34] - 项目在2025 NVIDIA GTC大会展示 黄仁勋认为此类谜题可提升AI推理能力[3][4]
清华学霸与AI比做高考压轴题,谁会赢?
第一财经· 2025-05-27 23:21
大模型理科能力提升 - 网易有道发布视频显示6位清华姚班学生与AI比赛做高考压轴题 姚班学生在10分钟内完成作答且仅1位做错 AI答疑笔在输入确认后几秒输出步骤并答对题目 [1] - 姚班学生认为AI做题思路与其一致 步骤更清晰 更有利于学生理解解题思路 [1] - 去年高考测试显示9家大模型中4家文科达到河南一本线 但无大模型理科达到一本线 今年AI在北京高考二模测试中获697分(总分750) 达"清北"水平 [2] 行业技术进展 - DeepSeek-R1带来推理模型大爆发 大模型推理和交互能力在教育场景适配性高 逐步解决个性化教学和答疑需求 [2] - OpenAI o3-mini在FrontierMath基准测试中首次尝试解决超过32%问题 包括28%挑战性(T3)问题 FrontierMath问题对专业数学家需数小时至数日解决 [3] - 谷歌AlphaProof和AlphaGeometry 2解决2024年IMO六题中的四题 达到银牌得主水平 [3] - 阿里巴巴Qwen3在AIME25测评中获81.5分 刷新开源纪录 [3] 市场前景 - 艾媒咨询报告指出2023至2027年在线教育市场AI贡献率预计从7%提升至16% [3]