量子位
搜索文档
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
量子位· 2025-10-16 14:11
豆包语音大模型升级核心 - 火山引擎对豆包语音大模型进行升级,核心在于使语音学会思考,更能理解台词,情感表达更有张力[5] - 升级旨在推动AI语音从“像人”走向“懂人”,实现理解后的精准情感表达[11][23] 语音模型具体升级内容 - 主要升级两个模型:豆包语音合成模型2.0和豆包声音复刻模型2.0[7] - 豆包语音合成模型2.0提供三种操作模式:默认模式、语音指令模式和引入上文模式[9][12] - 豆包声音复刻模型2.0可在几秒内快速复刻指定声音[8] 语音模型升级效果实测 - 通过模仿《甄嬛传》角色华妃与甄嬛的对话,以及单依纯的声音对比,展示语音指令对情绪表达的显著提升[14][15][16][17][18][19][20] - 引入上文模式能有效改善AI对复杂台词停顿的处理,使表达更连贯自然[21][22][23] - 在复杂公式朗读方面,豆包语音大模型2.0版本准确率达到约90%,显著高于同类模型普遍低于50%的水平[24][25] 豆包大模型及多模态技术升级 - 豆包大模型1.6升级为国内首个原生支持分档调节思考长度的Thinking模型,提供四种思考模式[29][30][33] - 在低思考长度模型下,总输出tokens下降77.5%,深度思考时间大幅缩短84.6%[34] - 首次推出轻量化豆包大模型1.6 Lite,并发布智能模型路由,可根据任务复杂度自动匹配最优模型,在成本优先模式下综合成本最高可降71%[36][38][39] 技术应用与商业化落地 - 技术演进聚焦三大趋势:更强的思考与理解能力、更丰富的多模态交互、更实用的Agent智能体[41][43][44] - 小米小爱同学接入豆包大模型1.6后,终端设备具备结合现实场景进行对话和处理信息的能力[45] - 懂车帝应用“AI选车”功能,复杂需求搜索占比从10%大幅提升至79.4%[45] - OPPO、Keep、美图、洋葱学园等企业已应用火山引擎语音技术提升用户体验[45] 算力支撑与规模增长 - 豆包大模型日均tokens调用量在一年多内从1200亿增长至超过30万亿,实现253倍增长[47] - 增长背后依赖火山引擎AI云提供的稳定高效基础设施支撑[48]
库克人在北京,安卓AiPhone 4499元贴脸开卖!
量子位· 2025-10-16 09:33
产品发布与定价 - 荣耀正式发布Magic8系列,包括标准版和Pro版,起售价为4499元 [3][9] - 同时发布MagicPad3 Pro平板电脑,起售价为3799元 [45] 产品设计与配色 - 外观设计延续标志性“大背头”风格,变化不大 [10] - 推出金、黑、青、白四种新配色,灵感源自宋代汝窑,区别于行业常见的商务感配色 [12] 电池续航与充电 - 全系搭载新一代青海湖电池,容量突破7000mAh,为荣耀史上最大电池 [15] - 支持120W快充,旨在解决用户续航焦虑 [15] 核心性能与硬件 - 搭载台积电3nm工艺的第五代骁龙8至尊版处理器,并运行MagicOS 10.0系统 [16] - Magic8 Pro安兔兔跑分超过428万分,据称创下当前智能手机行业历史最高纪录 [19][20] AI智能体功能 - 全新YOYO智能体搭载魔法大模型3.0,具备自主学习进化能力,越用越智能 [4][24][25] - YOYO可实现智能购物辅助,如添加商品、领券,以最划算价格购买 [26][28] - 机身侧边新增专属AI物理按键,短按进入影像界面,长按唤醒YOYO,双击开启拍摄 [29][30] 影像系统升级 - Pro版搭载“2亿超夜神长焦”,配合超大底、超大光圈及顶级镜组工艺,提升暗光场景细节还原 [33] - 影像系统覆盖从望远镜级远拍到广角全景,实现“一机全焦段” [35] - 配备CIPA 5.5级防抖系统,通过主动理解画面、修复噪声细节来保留更多纹理和色彩信息 [42][44] - 官方样张显示其夜景及水下阴暗场景拍摄效果出色,对标iPhone17 Pro [38][40] 跨平台互联与未来规划 - MagicPad3 Pro同样搭载第五代骁龙8至尊版处理器,支持iOS、安卓、鸿蒙、Windows、Mac系统的文件互传与换机克隆 [46][47] - 荣耀预告一款面向未来的AI终端ROBOT PHONE,具备能想、会动、懂拍的特点,预计2026年在巴塞罗那亮相 [50] 公司战略定位 - 荣耀CEO表示,当行业其他公司仍在对标iPhone时,荣耀已致力于打造自己的“AiPhone” [53]
AI挖出癌症潜在新疗法!谷歌耶鲁联手突破免疫系统冷肿瘤难题
量子位· 2025-10-16 09:33
核心观点 - AI大模型Cell2Sentence-Scale 27B通过计算模拟发现激酶CK2抑制剂silmitasertib与低剂量干扰素联用可显著增强免疫信号 为冷肿瘤治疗提供新疗法 [1][2][4][12][16][17] 冷肿瘤的挑战 - 冷肿瘤周围免疫信号微弱 能伪装自己避免被免疫系统识别并抑制免疫细胞活性 导致针对热肿瘤的免疫疗法失效 [7][8][9][10][11] AI模型的研究方法 - 模型在免疫情境阳性(模拟患者体内低水平干扰素的肿瘤微环境)和免疫情境中性(模拟实验室无免疫信号环境)下对4000多种药物进行模拟测试 [12][14][15][16] - 模型锁定激酶CK2抑制剂silmitasertib 其在免疫情境阳性中能精准增强免疫信号 在免疫情境中性中保持安静以降低误伤正常细胞风险 [16][17] 实验验证与成果 - 在人类神经内分泌细胞模型上 silmitasertib与低剂量干扰素联用可显著增强抗原呈递效果 单独使用任一药物效果均平平 [17] - 模型及相关资源已向研究社区开放 [5]
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
量子位· 2025-10-15 18:20
文章核心观点 - 在大语言模型的结果监督强化学习中,传统的重要性采样机制存在权重错配问题,导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法,通过不对称翻转正样本的重要性采样权重,有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升,训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中,重要性采样不仅未带来分布修正好处,反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后,模型最终准确率无差异,但训练曲线更平滑稳定,熵值下降速度放缓,重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token,导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数,使低概率token获得更强更新,高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值,限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比,增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中,ASPO-Math-1.5B模型平均得分达59.3,优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上,ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩,显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显:数学任务平均性能提升12.5%,代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定,无显著熵坍塌现象 [26][27] - 模型输出重复率更低,KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓,避免了传统算法中的熵坍缩问题 [27]
Sora2不够香了!这款国产AI视频模型已经能边看边生成,生成快还互动佳
量子位· 2025-10-15 18:20
核心观点 - 百度蒸汽机模型实现了AI视频生成从“短片段、单向输出”到“长篇叙事、实时交互共创”的范式转变,在实时流式生成能力上超越Sora2等当前主流模型 [9][15][44][63] 技术能力与产品特性 - 模型支持“图生视频”和“视频生视频”两种生成模式,仅需一张图片和一个简单指令即可生成长视频,大幅降低操作门槛 [17][18] - 实现“边看边生、实时交互、无限续写”三大功能:生成过程流式呈现,用户可实时查看进展;支持随时中断生成并修改提示词,无需从头开始;可上传任意视频进行续写,打破生成长度限制 [6][7][22][24][39][40][42][43] - 生成有声视频时最长时长为5-10秒,生成无声视频时默认时长为20秒,可选择10-60秒 [21][27][28] - 在开放世界生成中表现优异,用户可通过WASD+鼠标控制视角进行自由探索 [31][32] 技术架构创新 - 采用自回归扩散模型架构,通过流式滑窗实现低成本无限外推和实时生成 [45] - 引入噪声重注入和历史帧扰动增强机制,提升模型应对突发调整的稳定性和准确性 [45][46] - 通过锚点帧引导和历史参考帧技术保障生成画面的全局一致性与连续性 [47] - 基于高压缩比生成技术,结合窗口attention优化和模型蒸馏,将推理延迟压缩至近乎实时 [47][48] 行业影响与市场定位 - 百度蒸汽机在5月份以89.38%的得分首次亮相即登上VBench-I2V图生视频全球榜单第一 [5][61] - 公司于7月发布支持音画一体生成的模型,于8月实现多人有声视频生成,于9月推出通用AI长视频生成功能,于10月将AI视频带入实时交互时代 [53][61] - 该技术推动AI视频能力向导购、直播、教育、影视制作等商业和应用场景延伸,使其从创意工具转变为创意伙伴和新型创作平台 [58][59]
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
量子位· 2025-10-15 18:20
文章核心观点 - 当前多模态大模型的后训练多以文本为中心,视觉信息常作为辅助信号,存在不足 [1] - 提出一种全新的、以视觉为中心的后训练范式“Visual Jigsaw”,旨在显式强化模型对视觉信息本身的细粒度深入理解 [1] - 该方法是一种无需额外标注、无需视觉生成模块的自监督学习任务,在图片、视频和3D三种视觉模态下均验证了有效性 [1] Visual Jigsaw 方法简介 - 该方法是一种通用的视觉信息排序重建任务,将视觉数据划分并打乱成拼图块,模型需预测正确顺序并以文字输出 [5] - 训练过程采用强化学习算法GRPO进行优化 [5] - 设计了分级奖励机制:预测完全正确奖励为1;部分正确按比例给予折扣奖励;输出无效排列则奖励为0 [6] 针对不同视觉模态的任务设计 - **Image Jigsaw**:将图片在2D空间划分为多个相同大小的子图,模型需恢复正确的空间顺序 [7] - **Video Jigsaw**:将视频在时间维度分割成等长片段,模型需重建原始的时间顺序 [8] - **3D Jigsaw**:从RGB-D图像采样深度点,在图片中标注其位置和打乱后的序号,模型需恢复由近到远的深度次序 [9] 实验结果:Image Jigsaw - 经过Image Jigsaw训练,模型在多项视觉中心基准测试上获得稳定提升 [10] - 在细粒度感知与理解、基于单目图像的空间感知和理解、组合式视觉理解与推理三类任务上均有效 [10] - 具体提升示例:在MMV测试集上,模型性能从55.33提升至60.66(+6.00);在VSR测试集上,从59.95提升至65.81(+6.06)[10] - 提升源于任务要求模型关注局部细节、推理整体空间布局并理解不同部分间关系,直接促进了细粒度、空间和组合式理解 [11] 实验结果:Video Jigsaw - 经过Video Jigsaw训练,模型在各类通用视频理解基准上均表现出稳定提升 [13] - 在需要时间维度推理和时间方向性理解的任务(如AoTBench)上提升尤为显著 [14] - 在CVBench上大幅提升,验证了模型在跨视频理解与推理上的增强 [14] - 具体提升示例:在nogroup mcq测试中,使用64帧时,模型性能从52.41提升至57.64(+3.40)[13] - 任务促使模型更好地捕捉时间连续性、理解视频间关联、推理方向一致性,从而提升整体视频理解能力 [14] 实验结果:3D Jigsaw - 经过3D Jigsaw训练,模型在各类3D基准任务上取得显著提升 [15] - 最突出的提升出现在与深度估计直接相关的DA-2K任务上,性能从54.45提升至71.56(+17.11)[15] - 在单视角基准(如3DSRBench)、多视角基准(如ViewSpatial)及第一人称视频基准(如VSI-Bench)上也观察到一致提升 [15] - 结果表明该方法不仅让模型掌握了深度排序技能,也有效增强了其整体的三维空间感知与推理能力 [15] 总结与意义 - Visual Jigsaw提供了一种以视觉为中心的轻量、可验证、无需标注的新型自监督后训练范式 [16] - 该方法为多模态大模型的视觉感知能力注入了全新活力 [16] - 该工作有望启发学界设计更多聚焦视觉信息本身的自/弱监督任务,以提升模型对各类视觉信息的感知和理解能力 [16]
波士顿动力狗gogo回来了!“五条腿”协同发力
量子位· 2025-10-15 18:20
核心技术突破 - 波士顿动力人工智能研究所开发出“结合采样与学习的动态全身操作”方法,使机器狗Spot能够执行需要手臂、双腿和躯干协同配合的动态力交互任务[11] - 该方法采用分层控制架构,将控制问题划分为高层任务规划和低层运动执行两个互补且同步的层级[12] - 高层控制根据任务类型灵活采用基于采样的控制(用于轮胎扶正、拖拽与堆叠)或强化学习(用于轮胎滚动),低层则通过强化学习的运动策略直接控制电机力矩以实现平衡与稳定性[13][14][15] 性能表现与能力提升 - Spot机器狗最快仅用3.7秒就能搬起重达15公斤的轮胎,平均每个轮胎用时5.9秒,几乎达到人类在该任务中的操作速度[3][31] - 搬运的轮胎重量相当于Spot自身重量的一半(32.7千克),并远超其最大臂力(夹持器峰值举升能力11千克,持续能力5千克)[4][35] - 机器狗在完成任务后还能将轮胎滚动到指定位置,甚至能把一个轮胎叠到另一个轮胎上面[5][7] 方法创新与优势 - 采样控制器通过并行模拟32个CPU线程的未来情境,在样条曲线空间中进行采样以生成更平滑、更自然的运动轨迹,同时降低搜索空间的维度[17][18][20] - 系统未预设任何固定操作模式,多肢体、多接触行为是在采样过程中优化自然涌现的结果,机器人可根据当前构型动态调整使用手臂、前腿或身体等部位组合[21][22] - 分层控制架构使高层控制器无需推理数十个自由度的关节力矩与稳定性约束,仅需在简化动作空间工作,极大降低了控制复杂度[37][38] 技术实现细节 - 轮胎滚动任务采用非对称演员-评论家架构,在单块GPU上经过约24小时训练得到高层技能策略,策略能够动态调整躯干与Spot Arm位置以稳定控制轮胎[26][27][29] - 为克服仿真到现实的差距,训练过程中对物体质量、摩擦系数与形状等属性引入随机化[30] - 该方法克服了传统操作策略在不同机器人形态学结构上的迁移限制,通过动态协调全身动作拓展了操作范围[9][36]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-15 18:20
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
腾讯发布超低成本AI训练法!120元效果秒杀70000元微调方案
量子位· 2025-10-15 14:27
文章核心观点 - 腾讯优图团队提出一种名为“无训练组相对策略优化”的新方法,该方法无需调整大语言模型参数,仅通过在提示词中学习简短经验即可显著提升模型性能 [1][2] - 该方法成本效益极高,在671B大型模型上应用仅需约18美元,远低于传统微调方法超过10000美元的成本 [5][28] - 实验证明该方法在数学推理和网页搜索任务上能实现显著的跨领域性能提升,例如将DeepSeek-V3.1-Terminus模型在AIME25上的得分从67.9%提升至73.3% [4][27][28] 技术原理与方法 - 该方法保持模型参数永久冻结,转而维护一个外部经验知识库,通过动态更新知识库而非模型参数来实现性能优化 [14] - 核心流程包括生成分析摘要、提取自然语言经验、以及通过添加、删除、修改或保留操作来更新经验库 [18][19][24] - 该方法通过改变上下文而非模型参数本身,将模型引向高奖励输出,被冻结的基础模型起到了强先验作用,保证输出的连贯性和稳定性 [22] 数学推理任务性能 - 在AIME24和AIME25基准测试中,应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型得分分别从80.0%提升至82.7%,从67.9%提升至73.3% [27][28] - 该方法仅使用100个跨域训练样本且无需梯度更新,成本约18美元,而传统强化学习方法需要数千个训练样本,成本超过10000美元 [28] - 随着每一步学习,模型表现持续提升,平均工具调用次数下降,表明模型学会了更高效地使用工具 [30][31] 网页搜索任务性能 - 在WebWalkerQA基准测试中,应用Training-Free GRPO的DeepSeek-V3.1-Terminus模型的Pass@1得分从63.2%提升至67.8% [34][35] - 完整的Training-Free GRPO方法取得了最佳表现,Pass@1为68.6%,Pass@3为78.4%,凸显了结合真实答案指导、语义优势和经验优化的重要性 [38][39] - 该方法的有效性依赖于基础模型的能力,在QwQ-32B模型上应用时性能提升不明显,甚至低于基线 [40] 成本效益分析 - 与传统微调32B模型相比,该方法在671B大型模型上所需训练数据更少、成本更低 [5] - 对于不同规模的模型,该方法都展现出高性价比,如在Qwen3-32B模型上应用成本仅约4美元,在Qwen2.5-72B-Instruct模型上成本约3美元 [27] - 该方法以极低的成本实现了显著的性能提升,被网友评价为“太划算了吧” [7]
开源模型TOP5,被中国厂商包圆了
量子位· 2025-10-15 14:27
中国开源大模型行业地位转变 - 中国开源大模型已占据全球榜单前五名,从追赶者转变为引领潮流的一方[1][6] - 阿里Qwen系列和DeepSeek自2024年下半年起在开源社区影响力持续扩大[1] - 行业普遍认为中国开源力量已对大模型格局产生冲击,重要节点是"DeepSeek时刻"[23] 文本能力表现 - 在LMArena文本排行榜中,智谱GLM-4.6和DeepSeek-v3.2紧随顶级闭源模型之后[7] - 阿里Qwen3-max-preview跻身文本排行榜TOP3,但该版本未开源[8] - 文本排行榜总投票数达4,222,042次,涵盖255个模型[9] 编程能力表现 - 前端开发排行榜中,国产开源模型与编程SOTA Claude分庭抗礼[10] - DeepSeek-R1/V3.1、GLM-4.6和Qwen3-Coder均进入前10名[10] - 前端开发排行榜总投票数为187,703次,涵盖49个模型[11] 多模态能力表现 - 视觉方面,腾讯Hunyuan-vision-1.5和Qwen3紧跟闭源SOTA,位列开源最强[12] - 视觉排行榜总投票数达532,681次,涵盖79个模型[13] - 视频模型领域,阿里Wan-v2.2在开源模型中表现最佳[13] - 国产闭源视频模型Kling-2.5、Seedance-v1-pro、Hailuo-02等位居榜单前列[14] 社区影响力与下载量 - 趋势榜中,蚂蚁Ling-1T和智谱GLM-4.6是最受关注的开源模型[16] - DeepSeek-R1是最受欢迎模型[17] - Qwen3是下载量最高的模型之一,在百亿参数级别领先包括gpt-oss在内的其他开源模型[18] - Qwen/Qwen3-0.6B模型下载量达6.86M,Qwen/Qwen3-32B下载量达6.24M[19] 全球竞争格局变化 - 开源模型领域主导地位转变可能重新定义全球创新格局[21] - Meta的Llama 4翻车为中国开源模型崛起提供了机会[24] - Meta以35亿美元offer挖走OpenAI前CTO公司联创Andrew Tulloch,引发对Llama 5的期待[25][26]