推理

搜索文档
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 23:52
一、AI编程市场竞争加剧 - Cursor开发商Anysphere从合作伙伴Anthropic挖走Claude Code核心人物Boris Cherny和Cat Wu [1] - Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型 [1] - Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元 [1] 二、智谱开源视觉推理模型 - 智谱开源GLM-4.1V-9B-Thinking模型,在18项权威评测中超越72B模型 [2] - 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D/3D-RoPE位置编码 [2] - 训练分四个阶段:多模态预训练、长上下文训练、监督微调和课程采样强化学习 [2] 三、多模型协作算法突破 - Sakana AI提出AB-MCTS算法,通过深度和广度双向搜索提升推理能力 [3] - Multi-LLM系统在ARC-AGI-2基准测试上性能提升30%,整合Gemini 2.5 Pro等前沿模型 [3] - 算法动态选择最优模型,开源框架TreeQuest支持多种任务 [3] 四、AI视频生成商业化进展 - HeyGen推出"产品植入"功能,可生成逼真带货视频(如马斯克推销Labubu案例) [4] - 公司估值5亿美元,年收入8000万美元,月付29美元支持无限短视频制作 [5] - 竞品对比中,HeyGen在表情自然度和口型准确度表现更优 [5] 五、百度搜索AI化升级 - 搜索框升级为支持千字文本的AI智能框,保留传统搜索模式 [6] - "百看"功能优先呈现富媒体内容(视频讲解、智能总结等) [6] - 功能从信息检索升级为任务交付,支持一键打车或购买套餐 [6] 六、医疗AI诊断系统 - 微软MAI-DxO系统准确率85.5%,比10年经验医生高4倍 [7] - 通过5个虚拟医生角色协作模拟真实诊断流程 [7] - 发布SDBench基准,含304个挑战性诊断案例 [7] 七、多模态视频生成平台 - 百度MuseSteamer模型支持720p-1080p视频生成,刷新VBench-I2V榜单 [8] - 提供Lite/Turbo/Pro/有声四个版本,满足不同创作需求 [8] - 技术亮点包括中文语义精准理解和音视频一体化生成 [8] 八、AI爬虫内容变现新模式 - Cloudflare推出"Pay Per Crawl"功能,允许网站对AI爬虫收费或封锁 [10] - OpenAI需1500次抓取带回1次点击,Anthropic需73300次,生态失衡 [10] - 通过HTTP 402状态码实现收费控制,开创内容授权变现模式 [10] 九、AI药物发现突破 - Chai-2模型在抗体设计中实现16%命中率,比前技术提高100倍 [11] - 24孔板内为50%测试靶点找到有效抗体,研发周期缩短至两周 [11] - 微蛋白设计湿实验室成功率68%,解锁传统技术无法实现的开发 [11] 十、AI对文化创作影响 - AI写作使文章标准化,麻省理工实验显示学生大脑活动水平降低 [12] - 康奈尔研究证实AI导致文化同质化(如答案风格趋同) [12] - 长期使用AI工具会使用户转向"策展模式",削弱原创性思维 [12]
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 19:03
AI推理能力的发展与演进 核心观点 - AI行业进入新范式,推理能力成为智能下半场的关键驱动力,模型从表层关联跃升至复杂认知[4] - 推理是涌现能力,需pre-training达到阈值后才有效,小模型无法受益[11] - 未来数据将比算力更稀缺,强化学习可提升数据利用效率[5][25] - Multi-agent长期互动或催生"AI文明",规模扩大自然涌现复杂隐式模型[44][46] 推理能力的本质与演进 01 推理是涌现出来的能力 - 类比人类"系统一/系统二"思维:系统一为直觉快速反应,系统二为慢速深度推理[8] - GPT-2级小模型使用思维链无效,大模型才能展现推理增益,类似大脑皮层进化[11] - 多模态任务中,空间推理/多步整合需系统二,图像识别等依赖系统一[12] 02 超级智能的推理范式 - 仅靠pre-training scaling无法实现超级智能,需通用推理范式[20] - OpenAI内部曾分歧,领导层前瞻性押注推理与强化学习,放弃部分其他方向投入[21] - 决策关键:2016年押注scaling,2021年与Ilya共识需推理范式[22][23] 数据效率与训练方法革新 03 RL高效数据利用 - 人类5样本学会概念,模型需上百样本,强化学习可弥补效率差距[25] - 扑克AI依赖GTO策略效率低,人类能快速识别对手漏洞(剥削性策略)[26] - Diplomacy项目突破:AI需建模玩家行为动态调整,非固定策略[28][31] 06 Mid-training新范式 - Mid-training介于pre-training与post-training间,通过RLHF等干预模型内部表征[40] - 三阶段流程:pre-training半成品→mid-training能力拓展→post-tuning优化体验[42] - 直接交互pre-training模型体验差,mid-training后实用性显著提升[42] 技术瓶颈与未来方向 05 Test-time compute瓶颈 - 成本指数上升:思考时间从分钟延长至周,需提升单位计算质量非单纯延长时间[36] - Wall-clock时间限制:串行实验流程拖累研发效率,药物研发领域尤为突出[37][39] 07 Multi-agent与文明演化 - OpenAI团队探索multi-agent长期协作竞争,类比人类文明积累知识[44] - 反对人工启发式规则,主张规模化训练自然涌现心智理论[45][46] - 自博弈范式局限:非零和博弈缺乏明确目标,万智牌等复杂游戏需无模型强化学习[48][50] AI应用实践与挑战 Noam的AI编程实践 - 日常依赖Codex/Windsurf处理核心开发,模型独立完成PR生成[52][53] - 当前缺陷:无法积累任务经验,PR评审仍依赖人工,环境配置自动化待突破[54] - Sora多模态进展迅速,但推理速度限制即时响应场景适用性[53] 非共识观点与对齐 04 推理能力边界拓展 - 推理不仅限于可验证领域,Deep Research等主观任务仍可形成反馈闭环[33] - 推理助力AI对齐:Cicero案例显示可控推理系统可提升安全性[34][35] 注:所有数据与案例均来自OpenAI研究员Noam Brown的前沿实践,涉及GPT系列、Diplomacy AI Cicero等关键项目[4][20][29][31]
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位· 2025-07-02 12:46
模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
核心观点 - 提出单阶段监督-强化微调方法SRFT,通过基于熵的动态加权机制将监督微调(SFT)和强化学习(RL)结合,提升大语言模型(LLM)推理性能[1][3] - SRFT在5项数学推理任务中实现59.1%平均准确率,较zero-RL基线提升9.0%,在分布外任务上平均准确率达62.5%,提升10.9%[4][47] - 相比传统两阶段SFT→RL方法,SRFT训练效率提升2.28倍,实现更稳定的收敛和更优的泛化能力[21][48] 方法设计 - 采用熵感知自适应权重机制动态平衡SFT和RL的贡献:高熵时降低SFT权重防止专家数据过度干扰,高熵时增加RL正样本权重促进熵稳定[29][44] - 双重策略设计:SFT组件实现粗粒度行为策略逼近,异策略RL组件利用演示数据进行细粒度优化[23][24][26] - 统一损失函数集成四个组件:演示数据SFT损失、演示数据RL损失、自探索正样本目标、自探索负样本目标[39][41] 性能对比 - 在AIME24等5个数学基准上,SRFT以59.5%平均准确率超越SFT(54.3%)和最佳zero-RL方法(50.1%)[43] - 在ARC-C等3个非数学基准上,SRFT以62.5%平均分领先SFT→RL(54.6%)和LUFFY(57.8%)等组合方法[43][47] - 响应长度分析显示SRFT能生成更详细的推理过程,而纯RL倾向于简洁输出[48] 训练动态 - 可视化显示SFT使模型概率空间移动最远,RL需将其拉回最优区域,而SRFT路径更直接高效[15] - 熵变化曲线表明SRFT维持更稳定的熵水平,避免RL导致的过早收敛,保留探索能力[20][48] - 重要性采样和分布不匹配缓解策略确保演示数据与当前策略的协同优化[31][32] 技术突破 - 首次实现单阶段协同学习:同步利用专家演示数据和模型自探索试错数据,解决知识遗忘问题[3][23] - 理论揭示SFT通过全局调整token分布(50%以上token受影响)类似"大锤",RL仅针对性调整2%token类似"手术刀"[9][10] - 提出新型训练轨迹可视化方法,以teacher forcing距离量化模型在概率空间的移动[14]
深度|CEO详解亚马逊的AI路径图: 创收数十亿只是起点
搜狐财经· 2025-07-01 15:54
AWS业务成就与AI发展 - AWS过去一年最大成就是客户对新技术尤其是AI和生成式技术的快速采用,见证了大量企业将业务体系迁移至云端[4] - AI业务规模已达数十亿美元,包含客户运行自有模型业务、Amazon Bedrock平台服务以及应用层产品如Amazon Q[6] - 生成式AI技术被广泛应用于亚马逊内部,包括物流中心优化、零售网站用户评论总结、Alexa Plus服务升级等[7] AI工作负载趋势 - AI工作负载中推理占比已超过训练,长期预计将达80%-90%,推理功能正成为应用程序的基础设施组件[8][10] - AI深度融入应用开发与用户体验,未来难以区分业务收入中AI驱动比例,因其已成为核心部分[9] - 行业指标从单纯关注token生成量转向更复杂评估,因图像视频生成等场景运算强度远超token输出量[11] 技术创新与项目进展 - Project Rainier是与Anthropic合作打造的巨型计算集群,规模是前代5倍,采用定制处理器Tranium two训练下一代模型[13] - Tranium two在性能、性价比及扩展性方面突破极限,正部署并投入运营,Anthropic已开始使用部分资源[13] - 推出基于Nvidia GB 200的P6实例系列,性能表现优异,正全球扩展产能满足需求[16] 生态合作与市场扩展 - 市场空间足够容纳Tranium与Nvidia技术共存,AWS与Nvidia保持设计合作伙伴关系,提供最新技术选项[14][15] - 支持跨云平台策略,但观察到绝大多数AI应用仍运行在AWS上,典型案例如Mondelez全面迁移至AWS[17] - 在拉美地区积极扩展数据中心产能,包括墨西哥、智利新建区域及巴西现有区域[18] 未来机遇 - 即将推出"欧洲主权云",专为欧盟关键主权工作负载设计,预计创造巨大市场机遇[5] - AI技术仍处变革起点,当前数十亿美元业务规模仅是开端,将深度重构各行业运作方式[6]
深度|CEO详解亚马逊的AI路径图: 创收数十亿只是起点
Z Potentials· 2025-07-01 15:22
AWS的成就与AI业务发展 - AWS在过去一年见证了客户创新和新技术的快速采用,尤其是AI和生成式技术的爆发式增长[3] - AWS的AI业务已达到数十亿美元规模,包含基础设施业务、Amazon Bedrock平台以及应用层产品如Amazon Q[4] - AI已渗透到亚马逊业务的每个环节,包括物流中心优化、零售网站用户评论总结、Alexa Plus服务等[5] AI工作负载与推理经济 - 当前AI工作负载中推理的使用量已超过训练,预计未来80%至90%的AI工作负载将属于推理范畴[7][8] - 推理将深度嵌入应用程序,成为基础设施组件,如同计算、存储和数据库一样不可或缺[6][7] - token生成量是衡量AI工作负载的参考标准之一,但无法完全反映实际工作量,尤其在图像和视频生成领域[9] 技术创新与项目进展 - Project Rainier是与Anthropic合作的大规模定制服务器项目,用于训练下一代云端模型,规模是前代集群的五倍多[10] - Tranium two服务器已投入运营,在性能、性价比及扩展性方面表现突出[10] - AI成本仍然过高,需通过芯片级创新、软件优化及算法改进来降低计算资源消耗[11][12] 开放生态与合作策略 - AWS与Nvidia保持合作关系,提供最新的Nvidia技术如P6实例系列,同时发展自有技术如Trainium[14][16] - 市场空间巨大,AWS与Nvidia并非对立关系,客户需要技术选择的自由[14][15] - Anthropic模型在其他云平台的可用性不影响AWS的核心竞争力,多数相关应用仍运行在AWS上[17] 全球扩展与市场机遇 - AWS在拉美地区持续扩展产能,包括墨西哥、智利和巴西区域[19] - 欧洲市场将推出"欧洲主权云",专为欧盟关键主权工作负载设计,预计创造巨大市场机遇[6][19]
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 11:51
核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域 解决传统视频配乐技术难以捕捉动态细节和空间关系的难题 实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法 在核心指标上均实现显著提升 如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构 通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建 模仿人类音效师多阶段创作流程 精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集 包含2531.8小时精选音视频对 涵盖动物鸣叫、机械运转等真实场景 通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法 基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链 结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤 实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象 融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑 如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量 采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳 实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格 支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星 上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线 未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效 可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长 理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能 如去除人声、增强特定音效等 [23][48]
3D芯片堆叠,新方法
半导体行业观察· 2025-07-01 09:03
半导体封装技术进展 - 半导体封装的下一个重大飞跃需要新技术、新工艺和新材料,以实现性能数量级提升,对人工智能时代至关重要 [1] - AMD、台积电、三星、英特尔等公司在混合键合、玻璃芯基板、微通道冷却等方面取得显著进步 [1] - 人工智能对计算的需求将持续增长,芯片制造和封装创新将发挥核心作用 [2] 热管理与液体冷却技术 - 芯片级液体冷却技术正在兴起,以解决强制风冷技术的极限问题 [4] - 台积电的硅集成微冷却器 (IMEC-Si) 在10升/分钟水流条件下可实现超过3,000瓦的均匀功耗,功率密度高达2.5 W/mm² [6] - 佐治亚理工学院提出“芯片作为冷却剂”概念,采用5nm TSV的硅散热器冷却能力超过300W/cm² [9] - 三星在移动处理器中采用铜基散热块,散热性能提高20% [11][13] 混合键合技术 - 混合键合间距已从10µm微缩至1µm,英特尔展示了相关研究成果 [5][16] - 工研院和Brewer Science展示了五层堆叠结构,采用聚合物/铜RDL进行铜-铜混合键合,适用于高速数字应用 [14] - 晶圆间键合和芯片间键合各有优势,后者在贴装精度和翘曲控制方面面临挑战 [17] 背面供电技术 - 背面供电技术在晶圆背面构建供电网络,降低晶体管电压降,但加剧了热点问题 [19] - IBM开发了AI模型用于精确计算后端堆栈的传热,优化设计阶段的散热考虑 [21] - Imec模拟显示,背面供电网络在逻辑和存储器堆叠中的热影响显著,逻辑芯片位于顶层的配置受存储器温度限制 [23][24] 共封装光学器件 (CPO) - 共封装光学器件将光学引擎与GPU和HBM集成,传输速度从200 Gb/s提升到6.4Tb/s,带宽提高32倍 [26] - ASE展示了用于ASIC交换机和以太网/HBM的模块化CPO平台 [28] - 康宁和Fraunhofer IZM提出可扩展的平面二维波导电路,减少光纤电缆端接和手动组装需求 [28] 热模拟与封装设计 - 热模拟在多芯片组封装设计中发挥关键作用,用于选择最终设计并降低风险 [28] - Imec的3D堆栈模拟显示,层间冷却技术可将温度从500°C降至50°C左右 [24]
大家都在用AI,程度远超你想象
36氪· 2025-06-30 15:18
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:当公众的目光都聚焦在AI模型迭代时,一场真正的革命已悄然发生:全球企业级AI推理用量正呈指数级飙升,其商业变现能力远超预期。本文用 硬核数据揭示这场静默爆发的产业质变。文章来自编译。 很长时间以来,大多数AI服务(尤其是推理API)的使用量与收入的增长都极其迅猛。SemiAnalysis的Dylan Patel指出,这些API对企业来说利润非常高—— 毛利率有时候高达75%甚至更高。这在搞AI的人当中是众所周知的一个公开事实,但在新模型发布与功能炒作此起彼伏的喧嚣当中,广大公众反而可能忽视 了这一点。 我认为向普通用户提供订阅服务也是盈利的,但重度用户很可能会成为AI公司的成本负担,再加上训练尖端模型还需要明显的资本支出。尽管如此,即便 模型保持不变,其使用量也在呈指数级增长,而且其中很大一部分都在盈利范围内。 早在今年上半年我们看到整个行业取得诸多惊人进展之前,AI使用的极端(某些情况下是指数级)增长就已经发生了。推理模型将推理答案从几百个token 扩展到有时数万个token,这会让使用量图走势限 ...
算力硬件股反复活跃 景旺电子3天2板创历史新高
快讯· 2025-06-30 13:16
算力硬件股表现 - 算力硬件股反复活跃 PCB方向领涨 景旺电子走出3天2板创历史新高 澳弘电子涨停 源杰科技 中际旭创 生益电子 新易盛等涨幅靠前 [1] 行业驱动因素 - 英伟达瞄准AI基础设施平台商定位 海内外头部厂商持续发力基础设施建设以满足激增的推理算力需求 [1] - ASIC市场空间预期持续上调 算力产业链保持高景气 [1]