Workflow
量子位
icon
搜索文档
腾讯混元最新开源成“最强翻译”:国际机器翻译比赛获30个语种第一
量子位· 2025-09-03 13:49
国际翻译比赛表现 - 腾讯混元Hunyuan-MT-7B模型在ACL WMT2025比赛中获得31个语种中的30个第一名 处于绝对领先地位[4] - 该模型以7B总参数量击败了众多参数更大的模型 包括Gemini-2.5-Pro、GPT-4.1、Qwen3-235B等大型模型[4][5] - 比赛要求参数规模≤20B 且只能使用公开数据训练 在严格约束下取得优异成绩[5][29] 技术框架创新 - 采用协同增强策略优化(Shy)框架 包含基础模型开发和集成策略两大组成部分[15][19] - 基础模型开发通过持续预训练、监督微调和GRPO强化学习三阶段构建[16][17] - 集成策略采用学习型集成方法 通过生成多个候选翻译并训练专门模型进行智能选择或组合[18][26][27] 算法突破 - 首次在机器翻译领域应用GRPO(组相对策略优化)算法 采用组内相对优势替代全局基线[21][22] - GRPO算法显著降低梯度方差 提升训练稳定性 并提高样本效率加速模型收敛[23][24] - 采用复合奖励函数r=0.2×BLEU+0.4×XCOMET+0.4×DeepSeek 综合评估准确性、语义质量和流畅性[24] 模型性能优势 - 支持33个语种和5种民汉语言/方言互译 包括中文、英语、日语及捷克语、马拉地语等小语种[1][4] - 在Flores200测评数据集上表现卓越 明显领先同尺寸模型 与超大尺寸模型效果相当[6][8][9] - 在英语-简体中文翻译任务中AutoRank达到满分1.0 得分87.2 领先第二名Gemini-2.5-Pro的85.2分[5] 应用与部署优势 - 计算效率高 7B模型推理速度快 经FP8量化压缩后推理性能提升30%[30] - 部署友好 可在从高端服务器到边缘设备的多样化硬件环境中运行[30] - 已接入腾讯会议、企业微信、QQ浏览器、翻译君等多个业务产品[30] 开源生态建设 - 模型完全开源 基于Hunyuan-7B基础模型构建[2][31] - 使用OPUS Collection、ParaCrawl、UN Parallel Corpus等公开数据集训练[16][31] - 提供GitHub和HuggingFace等多个平台访问渠道 降低技术门槛[35] 行业方法论价值 - 为垂直领域专业化优化提供可借鉴模板 涵盖数据、算法、架构等多维度系统性设计[33][34] - 学习型集成方法实现从启发式到学习型的跃升 为模型融合提供新思路[26][34] - GRPO算法证明强化学习在序列生成任务中的潜力 具有行业推广价值[21][34]
Nano Banana官方提示词来了,附完整代码示例
量子位· 2025-09-03 13:49
Nano Banana技术功能概述 - 谷歌推出Nano Banana官方提示词指南 旨在优化AI图像生成效果[1][8] - 工具支持多模态生成能力 包括图像编辑、风格转换及高保真文本渲染[15] - 可生成动画视频及无缝换脸效果 展示技术突破性应用场景[5][6] 核心生成功能分类 - 文本转图像:通过详细场景描述生成高质量图像 如猫猫在星空餐厅的精细化场景[13][14][17] - 图像+文本编辑:通过文本提示添加/删除元素或调整风格色彩[15] - 多图像合成:将多张输入图像组合为新场景或进行风格转换[15] - 迭代细化:通过多次对话微调图像直至达到理想效果[15] - 文本渲染:精准生成带文字图像 适用于logo和海报等商业场景[15] 逼真场景生成方法论 - 采用摄影师思维模式 需指定相机角度、镜头类型及光线细节[19] - 标准提示模板包含镜头类型、主体动作、环境光照及画幅比例等要素[20] - 实际案例生成日本陶艺家特写 使用85mm人像镜头营造柔焦背景效果[21][23] 风格化内容创作应用 - 插画与贴纸生成需明确艺术风格并指定白色背景[24][25] - 文本渲染需描述具体内容、字体风格及整体设计规范[30] - 案例包括卡哇伊风格小熊贴纸和极简咖啡店logo设计[29][32][34] 商业摄影与产品建模 - 支持高分辨率产品摄影 适用电子商务与广告场景[35] - 标准模板包含灯光设置、拍摄角度及产品细节特写[35] - 案例展示哑光黑陶瓷杯在混凝土表面的工作室级拍摄效果[37] 极简设计与叙事创作 - 极简构图擅长创造负空间 适合作为文本覆盖的背景模板[38][39] - 案例呈现右下角红枫叶与灰白背景的简约设计[41] - 连环画生成功能可创建故事板 需定义艺术风格、角色动作及对话文本[44][45][47]
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
量子位· 2025-09-03 13:49
文章核心观点 - 研究团队提出了一种名为“金鱼损失”的新训练方法,旨在通过随机剔除部分训练文本中的token并阻止其参与损失计算,来防止大语言模型逐字死记硬背训练数据,同时保持其学习语言规律和下游任务的能力 [1][3][4][6] 方法原理与机制 - 金鱼损失的核心是在模型训练过程中,随机屏蔽一部分训练文本中的token,使其不参与损失计算 [6] - 在推理阶段,模型遇到被屏蔽的位置时只能进行“猜测”,而非复现完整训练序列 [7] - 为确保被剔除token的一致性,研究采用了基于哈希的掩码策略,使得相同的前h个token出现时,掩盖模式相同且可重复 [8][14][19] - 具体而言,在计算损失时,会以一定概率将某些位置的真实下一个token从训练目标中“抹掉” [17][18] - 研究人员采用了简单的静态掩码,例如剔除每个序列中的第4个token [19] 与传统正则化方法的区别 - 与Dropout等通过添加噪声防止过拟合的正则化方法不同,金鱼损失通过哈希掩码确保每次遇到同一段落时掩盖位置都相同,从根本上阻止模型通过累计学习拼凑出完整段落 [11][12][13][14] 实验设计与结果 - 研究设计了极端场景和标准场景来验证金鱼损失防止记忆化的效果 [20] - 使用RougeL得分和精确匹配率作为评估模型记忆化程度的指标 [21][22] - 在极端场景下,实验让LLaMA-2-7B在《哈利·波特》第一章或100篇维基百科文档上进一步训练100个epoch [24] - 极端场景结果显示,标准训练导致模型逐字记忆了100篇文章中的84篇,而使用金鱼损失的模型没有记忆任何文章 [22] - 在标准训练场景下,金鱼损失也明显减少了模型逐字复现训练语料库中目标序列的情况 [24] - 性能测试表明,金鱼损失模型、标准损失模型和对照模型之间的总体下游任务性能没有系统性差异 [26] 潜在影响与考量 - 金鱼损失的核心在于忽略部分token的梯度计算,模型需要通过更多数据来补偿这些空缺,这可能带来计算效率的下降 [28]
用“因果规划”解决多智能体协作中的任务依赖难题|港科广&腾讯
量子位· 2025-09-03 13:49
核心观点 - 针对长周期多步骤协作任务中单智能体任务成功率随步骤长度快速衰减、错误级联导致容错率低等问题,研究团队提出CausalMACE方法,通过将因果推理机制系统性地引入开放世界多智能体系统,为复杂任务协同提供可扩展的工程化解决方案 [1][2][3] 方法框架 - 提出全局因果任务图概念,使AI能够理解"如果-那么"的逻辑关系,确保任务执行符合因果依赖 [5][6] - 框架包含判断、规划、执行三个环节:Judger实时验证动作合法性并反馈成败;Planner将复杂任务拆解为小工单并绘制粗线条流程图,再通过因果推理精修任务图;Worker通过深度优先搜索和动态繁忙率指标实现多智能体实时任务分配 [7][11][12][13][14][15][16] - 因果干预模块引入平均处理效应量化依赖边与游戏规则一致性,自动剔除由大模型先验幻觉导致的错误依赖;负载感知调度基于DFS路径搜索与动态繁忙率指标实现多智能体实时任务再分配 [9][16] 实验效能 - 在VillagerBench三项基准任务(建造、烹饪、密室逃脱)中,CausalMACE相较AgentVerse与VillagerAgent基线任务完成率最高提升12%,效率提升最高达1.5倍 [17] - 具体数据表现:在2智能体配置下,建造任务平均得分56.59%(对比AgentVerse无数据/VillagerAgent 36.45%),烹饪任务完成率65.53%(对比AgentVerse 48.64%/VillagerAgent 58.11%);在6智能体配置下,平均完成率达到81.09%(对比VillagerAgent 3智能体68.82%) [17] - 效率指标显著提升:建造任务效率达8.94%/min(2智能体),远超VillagerAgent的3.88%/min;密室逃脱任务效率达276.67%/min(3智能体),对比VillagerAgent 227.4%/min [17]
刚刚,宇树科技IPO时间定了!
量子位· 2025-09-03 13:49
IPO计划与进展 - 公司预计在2025年10月至12月间提交IPO申报文件[2] - 公司于2024年7月18日在浙江证监局完成上市辅导备案 辅导机构为中信证券[11] - 公司选择传统IPO方式而非借壳上市 以更直观检验技术商业化成色和核心资产价值[14] 资本运作与股权结构 - 2024年6月注册资本从288.9万元增至3.64亿元 增幅达125倍[9] - 2024年C轮融资后估值达100亿元 2025年C轮融资后估值升至120亿元[9][34] - 投资方包括中国移动、腾讯、阿里、蚂蚁集团、红杉中国、美团等顶级机构[17][18] 财务表现与盈利状况 - 公司自2020年起连续五年实现盈利[16] - 2024年年度营收突破10亿元人民币[17] - 四足机器人Go1累计出货量突破5万台 占全球消费级足式机器人市场60%份额[26] 产品结构与市场分布 - 2024年收入结构:四足机器人占65% 人形机器人占30% 零部件占5%[4] - 四足机器人80%应用于科研/教育/消费领域 20%用于工业检测及消防[4] - 人形机器人全部应用于科研/教育/消费领域[4] 技术突破与产品里程碑 - 2016年首创电机直驱技术路线 突破液压驱动主流方案[46] - 2017年推出低成本高性能四足机器人Laikago[23] - 2021年发布全球首款消费级伴随仿生四足机器人Go1[25] - 2023年发布通用人形机器人H1 实现高难度后空翻动作[29] - 2024年推出9.9万元级人形机器人G1 打破高端实验室产品定价认知[31] 行业地位与影响力 - 公司为全球消费级足式机器人市场领导者[26] - 与智元机器人并列国内具身智能领域头部企业[35] - 产品多次登陆央视春晚(2021年牛犇犇、2024年H1转手绢)[37][39] - 首届人形机器人运动会获1500米冠军并摘得首金[43]
苹果机器人负责人也被小扎挖走了!浙大校友,任职Meta机器人技术一号位
量子位· 2025-09-03 11:20
核心观点 - 苹果公司近期出现显著的人工智能人才流失潮,特别是在其基础模型和机器人研究团队,多名核心研究员离职并加入竞争对手公司,反映出公司AI项目进展缓慢对团队士气造成负面影响[1][5][6][26] 近期AI研究员离职详情 - 机器人研究小组首席AI研究员Jian Zhang离职并加入Meta,担任机器人技术首席总监,其工作室属于Meta Reality Labs[2][7][11] - Jian Zhang在苹果工作十年,主导机器人智能与人机交互研究,奠定了苹果机器人方向从感知-运动到情感表达的完整技术栈[7][9] - 基础模型团队三名成员离职:John Peebles和Nan Du加入OpenAI,Zhao Meng加入Anthropic[3][11][16][19] - John Peebles是基础模型团队核心成员,直接负责大语言模型的训练与推理基础设施,与OpenAI Sora团队的Bill Peebles是亲兄弟[11][13] - Nan Du离职前是苹果基础模型团队高级研究员,主导3B端侧模型的KV-cache共享、2bit量化训练和PT-MoE服务器模型的并行化设计[17] - Zhao Meng离职前是基础模型团队高级研究员,核心职责是为Apple Intelligence训练与优化大规模语言模型[19] AI团队人才流失规模与背景 - 包括负责人庞若鸣(Ruoming Pang)在内,苹果AI团队在数周时间内已失去10名成员[6] - 自2025年7月起,离职人员包括基础模型团队负责人、多名高级研究员及总监,具体离职时间线显示人才流失持续数月[23] 苹果AI项目进展问题 - 苹果在2024年6月WWDC上高调发布Apple Intelligence,但2025年2月报道称Siri重构版因工程缺陷和大量Bug陷入停滞,原定早期测试被迫延期[24] - 2025年4月调查披露,WWDC2024演示的核心功能从未在内部真正跑通,团队成员在发布会后才看到脚本,该"纸面演示"动摇了外界与员工对项目的信任[24] - 2025年6月12日,苹果内部将"Siri AI升级"目标推迟到2026年春季,正式承认年度量产计划落空[25] - 2025年8月中旬曝光的信息显示,苹果正在评估接入Anthropic或OpenAI等第三方模型,其自研路线已被迫开放备选方案[25]
Claude估值暴涨300%!全球独角兽字节第三他第四
量子位· 2025-09-03 09:42
融资与估值 - F轮融资130亿美元 刷新AI行业单轮融资纪录[2][7] - 估值达1830亿美元 较年初615亿美元暴涨近300%[2][8] - 成为全球第四大估值初创公司 仅次于SpaceX、OpenAI和字节跳动[2] 投资方阵容 - 由Iconiq Capital领投 Fidelity Management&Research Company和Lightspeed Venture Partners联合领投[8] - 卡塔尔投资局、黑石、General Catalyst等全球顶级资本参与[8] - 出现主权财富基金身影 包括卡塔尔投资局和新加坡GIC[10] 业务增长表现 - 年化营收从10亿美元跃升至50亿美元 仅用半年时间[3][14] - AI编程业务Claude Code年收入突破5亿美元[3][15] - 企业客户超30万家 年收入超10万美元大客户数量同比增长近7倍[16] 产品与市场策略 - 推出Claude Code、Pro和Max套餐 覆盖开发者与个人用户[19] - 服务范围从财富500强公司到AI原生初创公司[17] - 融资资金将用于基础设施拓展、AI安全研究及全球市场推广[19] 行业趋势影响 - 大模型领域马太效应显现 融资集中度加剧[5][6] - 融资额远超初始50亿美元目标 最终达130亿美元[11] - 在资本市场趋谨慎背景下 此次融资规模凸显行业分化[10]
奥特曼给ChatGPT空降高管,11亿美元收购独角兽创始人加入OpenAI…这剧情好熟悉啊
量子位· 2025-09-03 09:42
收购与整合 - OpenAI以11亿美元全股票收购Statsig公司[2] - Statsig成立于2021年 总融资额达1.53亿美元 C轮融资1亿美元 估值11亿美元[8] - 收购后Statsig团队将保持独立运营 继续服务现有客户[17] 高管团队重组 - Statsig创始人Vijaye Raji加入OpenAI担任应用业务CTO 负责ChatGPT和CodeX产品工程[16] - Fidji Simo担任应用部门CEO 统管ChatGPT和CodeX产品线[21] - 原首席产品官Kevin Weil转岗至研究部门 负责AI for Science新业务[6][24] 组织架构调整 - 成立独立应用部门Application 专注ChatGPT和CodeX等产品开发运营[5] - 工程主管Srinivas Narayanan转任B2B应用CTO 加强企业客户业务拓展[28][29] - 新成立OpenAI for Science部门 同步开启AI加速科学探索方向招聘[24][25] 战略重心转移 - 公司战略重心进一步向应用程序业务倾斜[4] - 通过收购整合Statsig实验平台加速产品开发进程[16] - 此次调整标志着ChatGPT等明星AI应用进入重要转折点[7]
LeCun今后发论文得亚历山大王批准!Meta搞出大无语操作
量子位· 2025-09-02 18:45
Meta内部AI部门重组与权力调整 - Meta首席AI官Alexandr Wang通过TBD实验室审核FAIR论文 对FAIR论文发表和员工工作实施干预 若论文被认定高价值则暂停发表并将作者调至TBD进行技术落地[1][7][9] - 该政策导致FAIR内部人员流失 已有员工因无法忍受规定跳槽至AI初创公司[12] TBD与FAIR的定位与冲突 - Meta AI部门重组为四个平行部门:TBD实验室(Alexandr Wang负责 高风险高回报创新及大语言模型开发)、产品与应用研究(技术产品化)、基础设施(硬件与算力支持)、FAIR(Robert Fergus负责 长期基础性AI科学研究)[16] - TBD作为平行部门却获得审核FAIR论文的权限 打破原有平衡 引发内部冲突[14][37] Alexandr Wang的权力扩张与行事风格 - Alexandr Wang被扎克伯格赋予更高权限 以首席AI官名义发布内部重组备忘录 而非扎克伯格本人[22][42] - 其行事风格以目标导向和激进增长著称 曾因Scale AI的数据标注员薪酬与工时问题引发争议 被评价为"德不配位"和"扎克伯格翻版"[28][34][40] FAIR的历史地位与当前处境 - FAIR由Yann LeCun和Robert Fergus于2013年创立 专注开放研究 但近年被多次调整归属(元宇宙时期划归Reality Labs 生成式AI时期划归GenAI)[20][25] - 当前既要受TBD干预论文发表 又被要求借调人才实现技术落地 科研独立性受严重冲击[38] Meta的AI战略转向 - 扎克伯格将"让Meta的AI重振雄风"作为最高优先级 通过重金收购Scale AI 49%股份并任命Alexandr Wang为首席AI官 明确向应用落地倾斜的战略方向[27][42]
图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来
量子位· 2025-09-02 18:45
行业技术背景 - AI图像编辑技术发展迅猛 扩散模型成为行业主流但面临编辑精准度低和生成速度慢两大难题 [1] 公司技术方案 - 智象未来团队提出全新自回归图像编辑框架VAREdit 引入视觉自回归架构解决行业痛点 [2][3] - 将图像编辑定义为下一尺度预测问题 通过自回归生成多尺度目标特征残差实现精确编辑 [5] - 采用多尺度量化编码技术 将图像表征编码为空间规模递增的残差视觉令牌序列 [6] - 设计视觉自回归预测机制 使用VAR Transformer主干网络预测多尺度残差视觉令牌 [10] 技术创新亮点 - 提出尺度对齐参考模块 在第一层提供多尺度对齐参考 后续层仅关注最细尺度特征 [17] - 该混合方案解决了全尺度条件计算开销大和最大尺度条件尺度不匹配的问题 [13][14][17] - 自注意力分析显示浅层关注整体布局 深层转向局部优化 为模块设计提供理论依据 [15] 性能表现数据 - 在EMU-Edit基准测试中 VAREdit-8.4B的GPT-Balance指标达6.773 较ICEdit提升41.5% [17][19] - 在PIE-Bench测试中 VAREdit-8.4B的GPT-Balance指标达7.298 较UltraEdit提升30.8% [17][19] - 编辑速度显著提升 8.4B模型处理512×512图像仅需1.2秒 比扩散模型快2.2倍 [20] - 2.2B轻量模型仅需0.7秒 在保持高质量的同时实现即时编辑体验 [20] 技术优势 - 适用范围广泛 在大多数编辑类型上取得最佳效果 大模型有效弥补小模型在全局样式和文本编辑的不足 [23] - 编辑结果自然保真度高 过度修改更少 视觉对比显示明显优势 [25] - SAR模块带来显著优化 使EMU-Edit的GPT-Balance指标从5.248提升至5.565 [22] 发展计划 - 团队将继续探索新一代多模态图像编辑架构 推动技术向更高质量、更快速度、更强可控性发展 [27]