MicroCoder
搜索文档
全球大公司要闻 | 苹果拟推AI应用商店,Anthropic最强模型意外泄露
Wind万得· 2026-03-30 08:56
热点头条 - 软银集团宣布获得400亿美元过桥贷款,期限至2027年3月,由摩根大通、高盛、瑞穗银行等机构安排,资金将用于加大对OpenAI的投资及一般企业用途 [2] - Anthropic一款未发布的新AI模型“Claude Mythos”因数据泄露意外曝光,公司称其为迄今构建的最强大模型,性能实现阶跃式突破,但泄露文件显示其网络安全风险超出此前任何模型 [2] - 四家国有大行披露2025年财报:工商银行营收8013.95亿元同比增1.9%,净利润3707.66亿元同比增1.0%;建设银行营收7408.71亿元同比增1.69%,净利润3397.90亿元同比增1.04%;邮储银行营收3557.28亿元同比增1.99%,净利润876.23亿元同比增1.05%;交通银行营收2650.71亿元同比增2.02%,净利润956.22亿元同比增2.18%;四家银行合计净利润超9000亿元 [2] - 三星电子十大机构持股方之一的Artisan Partners管理董事表示,希望SK海力士的举动能鼓励三星采取同样行动,并称三星多年来一直在积极评估ADR上市的成本收益 [3] - 索尼宣布将再次上调PlayStation主机价格100美元,美国市场PS5售价调整为649.99美元,数字版调整为599.99美元,PS5 Pro涨价150美元至899.99美元,公司称原因为全球经济环境持续承压 [3] 大中华地区公司要闻 - 天山铝业2026年第一季度净利润同比预增107.92%,业绩增长得益于铝价回升、产能利用率提升及成本结构优化,新能源产业链需求带动电解铝业务盈利能力显著增强 [5] - 紫金矿业披露股东信息显示,邓晓峰管理的产品已从公司前十大流通股东名单中退出,此次机构持仓变动引发市场对资源类板块配置逻辑的关注 [5] - 洛阳钼业2025年营收2066.84亿元同比减少2.98%,净利润203.39亿元同比增加50.30%,连续两年营收超两千亿元,业绩逆势增长依靠铜、钴等核心金属价格上涨及矿山产能释放,海外资源布局成效显著 [5] - 台积电宣布扩产2nm晶圆厂以满足AI芯片需求,预计新增产能将于2027年逐步释放,以巩固其在先进制程领域的领先地位并缓解全球高端芯片供应紧张 [5] - 小米董事长兼CEO雷军介绍小米机器人灵巧手在拧螺丝、捏羽毛、抛接球等高精度工作上的进展,该产品采用全掌触觉手套、仿生结构设计、类人汗腺散热等创新方案,并通过15万次抓握循环可靠性测试 [6] - 腾讯云在峰会上首次对外发布Agent产品全景图,升级MaaS平台为TokenHub,并推出企业级Agent Infra治理方案,打造面向Agent时代的全栈AI引擎 [6] - 小鹏汽车公告自4月1日起中文名称由“小鹏汽车有限公司”变更为“小鹏集团”,业内分析认为此举标志公司战略从单一汽车业务向多元化科技集团转型,将拓展智能出行生态布局 [6] - 中国移动牵头发布量智融合应用技术北京市重点实验室,该实验室以量子科技与人工智能融合创新为核心,开展量子计算与量子通信的应用技术攻关,旨在打造量智融合创新策源地并加速培育“量子+”产业生态 [6] - 宇树科技具身智能体验馆亚洲首店将于5月底在上海久光百货开业,门店面积超100平方米,旨在通过沉浸式客户体验中心拉近科技与大众的距离 [7] 美洲地区公司要闻 - 苹果正推进多项战略布局,包括筹备首款折叠屏iPhone预计今秋亮相,拟推出AI应用商店且iOS 27将支持第三方AI集成,计划与长江存储合作使中国市场iPhone采用国产闪存芯片 [9] - 特斯拉FSD系统升级可预判行人横穿马路意图,马斯克称其安全性将超人类驾驶10倍;国内规模最大高速服务区超充站在重庆上线,含55座站点、212个V4充电桩;同时计划将日本服务中心网络规模扩大一倍 [9] - 英伟达CEO黄仁勋披露与台积电30年合作未签合约,凸显供应链信任关系 [9] - 微软Windows 11三月更新KB5079391因安装出错暂停推送,内核策略大改将封杀使用20年的旧驱动;同时与剑桥大学合作推出代码大模型MicroCoder优化训练效率,并拟推出专注Xbox第一方游戏的XGP新订阅档位 [9] - 亚马逊美国电商市占率达40%近乎垄断,旗下Ring推出电池供电门铃支持4K/2K视频,同时平台加强合规监管重点打击卖家避税行为 [9] - SpaceX计划于3月30日执行猎鹰9号“运输者-16”任务发射,据知情人士透露,埃隆·马斯克正在讨论将SpaceX首次公开募股中高达30%的份额分配给个人投资者,这一比例至少是常规散户配额的三倍 [10] 亚太地区公司要闻 - SK海力士凭借专利布局实现4300亿利润,在存储领域反超三星成为焦点,同时与三星共同应对氦气价格暴涨问题,加紧抢夺库存以保障芯片生产;美国国际贸易委员会决定对特定存储芯片启动337调查,SK海力士为列名被告 [12] - 丰田广汽丰田铂智7纯电轿车正式上市,限时补贴价14.78万元起,预售订单破万且真实大定超3100台,该车型搭载鸿蒙座舱、Momenta智驾及小米车载生态,定位20万级纯电核心市场,竞品直指Model 3与比亚迪 [12] - LG新款电竞显示器开启预约,1080P 144Hz版本定价649-799元,主打高性价比市场 [12] - 阿联酋环球铝业位于阿布扎比哈利法经济区的塔维拉生产基地遭伊朗导弹和无人机袭击,主要炼厂严重受损且有员工受伤,该基地作为中东最大铝生产设施之一,此次袭击可能影响全球铝供应链稳定,公司正利用境外库存满足客户需求并评估受损情况 [12][13] 欧洲及大洋洲地区公司要闻 - 芬坎蒂尼集团2025年实现营收91.94亿欧元同比增长13.1%,净利润1.17亿欧元较2024年增长超3倍创历史新高,全年新接订单203亿欧元同比增长32.4%,手持订单达631.95亿欧元,交付期排至2036年 [15] - 雀巢一辆载有12吨新款KitKat巧克力棒的卡车在欧洲运输途中被盗,货物总量达413,793根,车辆从意大利中部出发前往波兰,目前整车及货物下落不明,公司已与当地政府合作展开调查 [15] - 雪佛龙澳大利亚公司戈尔贡液化天然气项目的三条生产线全部正常运营,此前因纳雷尔风暴系统登陆导致澳大利亚偏远西北部地区数千人断电,液化天然气生产一度受阻 [15]
打破代码大模型训练瓶颈:微软&剑桥&普林推出MicroCoder,算法、数据、框架、训练经验全面升级
量子位· 2026-03-29 13:28
文章核心观点 - 新一代代码大模型的训练动态已发生代际性变化,导致基于旧模型的主流强化学习方法和数据集几乎“失效” [1][4] - 微软亚洲研究院、剑桥大学和普林斯顿大学联合推出的MicroCoder项目,通过算法、数据、框架和训练经验四个维度的全面升级,有效解决了新模型的训练瓶颈,并在最新代码测试集上取得显著性能提升 [4][26] 算法创新:MicroCoder-GRPO - 针对旧方法导致输出长度受限的问题,引入**条件截断掩码**,只对同时满足四个条件(达到最大长度、答案非错误、无尾部重复序列、随机抽取)的输出进行掩码,有效解锁模型的长输出潜力 [8] - 针对固定温度影响训练稳定性的问题,提出**多样性驱动的温度选择**,根据模型初始输出多样性动态确定训练温度,并发现“先低温后高温”的分阶段方法优于全程固定温度 [9] - 去除KL散度权重(设为0)并采用更高的裁剪比率,实验证明保留KL散度会限制输出长度增长并导致性能“先涨后跌”,去除后模型获得持续性能提升 [10] - 三项修改共同作用下,MicroCoder-GRPO在最新代码测试集上相比DAPO基线取得明显提升,且在拓展测试上下文长度时提升更为显著 [11] 数据升级:MicroCoder-Dataset - 构建包含**超过13K**道经严格筛选的真实竞赛题的数据集,全部来自实际竞赛平台而非LLM生成,与测试集无重合 [15] - 核心创新在于**自动难度过滤**:设计五维难度评估矩阵,由LLM打分后计算加权难度分,并以模型实际通过率为基准进行校准,使预测分布与实际分布几乎完全吻合 [14] - 过滤后,数据集中简单题占比降至**25%以下**,困难题占比提升至**50%以上** [14] - 在相同训练下,使用MicroCoder-Dataset在300步训练内取得的性能增益是使用DeepCoder数据集的**3倍** [16] - 以DAPO训练最新推理模型为例,相比DeepCoder,MicroCoder在LeetCode上整体提升约**6.0个百分点**,且难度越高增益越明显 [16] 评估框架:MicroCoder-Evaluator - 原版LiveCodeBench评估器采用严格精确匹配,会将大量格式正确但略有差异的正确答案判为错误,产生噪声干扰训练 [19] - MicroCoder-Evaluator采用由**6-7种方法**组成的回退链进行综合输出验证,支持自动类型转换、浮点近似比较、多行分割与空白规范化等,具有高容错性 [20] - 与LiveCodeBench原版评估器相比,MicroCoder-Evaluator将评估准确率提升约**25%**,减少了误判噪声 [21] - 通过优化并行处理策略,MicroCoder-Evaluator将每个训练步骤的执行速度提升约**40%**,显著提升训练效率 [22] 训练洞察与经验 - 项目通过超过30组受控实验,总结出**34条**跨越七大维度的训练洞察,是目前代码大模型后训练领域最为完整、有效的知识沉淀之一 [4][25][26] - 核心洞察覆盖七大维度:代码评估器、温度动态、训练数据、上下文长度与扩展、截断掩码策略、批大小与在线训练、KL散度与裁剪比率 [23][24] - 关键发现包括:数据难度影响泛化能力,只有挑战性更高的训练问题才能带来真正的泛化提升;早期训练阶段的输出长度限制会产生“不可逆”影响;去除KL散度是支持长期持续性能提升的重要条件 [24] 项目价值与影响 - 首次完整提出代码大模型强化学习训练存在**代际断层**,打破了该领域固有认知,明确了新一代代码模型的研究方向 [26] - 在算法设计层面,提出的条件截断掩码与多样性驱动温度选择,对强化学习训练中稳定性与探索性的平衡提出了可执行的方案,具有超出代码生成任务本身的方法论参考价值 [26] - 项目的研究内容整理与分享,被认为是模型训练社区最有影响力的开源项目之一 [26]