Workflow
量子位
icon
搜索文档
抢跑GPT-5,智谱开源新SOTA模型,一句话搞出能看视频、发弹幕的B站!
量子位· 2025-07-28 22:44
金磊 发自 上海 量子位 | 公众号 QbitAI 就在刚刚, 智谱GLM史上最大 开源大模型来袭—— 代码 和 Agent ,直接拿下开源模型的 SOTA , 推理 拿下开源模型 第二 。 更重要的是,这是 首次 在单个模型中把这三个能力进行了原生融合的那种。 它就是智谱最新发布的新一代旗舰大模型, GLM-4.5 。 从评测维度来看,榜单挑选了最具代表性的12个评测基准,包括: MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、 BFCL v3 和BrowseComp。 评测结果显示,GLM-4.5的综合平均分全球范围内第三(仅次于闭源的o3、Grok4),而在 开源 和 国产 两个维度均取得 第一 的成绩! 整体来看,GLM-4.5采用的是MoE架构,并且全面开源,包括2个产品: 这则预告字里行间所透露的信息,可见海外世界对GLM模型的关注。 然而在一番体验下来之后我们发现,相比于OpenAI,智谱这次做到了更超前。 因为有传闻GPT-5将在本周上线,也有网友已经开始晒 ...
WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开
量子位· 2025-07-28 14:42
西风 发自 凹非寺 量子位 | 公众号 QbitAI WAIC现场,这个展台被观众挤爆了! 凑近一瞧,好家伙,展台里摆满了各式新奇的"AI玩具",它们有个共同点—— 全都能实时与玩家 流畅对话, 延迟极低 。 比如这款"AI毛球",活脱脱一个电子宠物,不仅能实时理解你的话语,还能默默陪伴左 右,提供满满的情绪价值: 此外,现场还有数字人全息仓、能对话的卡皮巴拉等,赚足了观众眼球: 要知道,声网是做 RTE (Re al Time En gagement,实时互动) 技术起家的,在音视频处理和实时通信领域深耕多年,现在转身做多模态 AI交互,属实是"专业对口",一出手就有狠活。 这次对话式AI引擎升级背后到底带来了哪些AI交互新体验?接下来就为你详细揭秘。 三大升级,AI听得准看得清 量子位拿到demo app,直接体验了这波升级。 支持事先调整预设 : 使用对话式AI第一步,自然是考验它能否从各种干扰中准确识别出用户的指令,这直接决定了AI对话体验的好坏。 声网新版对话式AI引擎的第一个杀手锏,就是选择性注意力锁定功能。 其实它们有个共同的"幕后推手",这些产品的实时对话能力,全都依托于 声网的对话式AI引擎 ...
抗干扰能力提升近40% !无需对抗训练,北航上海AI Lab新蒸馏方法提升模型鲁棒性 | ICML 2025
量子位· 2025-07-28 14:42
ROME团队 投稿 量子位 | 公众号 QbitAI 在人工智能模型规模持续扩大的今天,数据集蒸馏(Dataset Distillation,DD)方法能够通过使用更少的数据,达到接近完整数据的训练效 果,提升模型训练效率,降低训练成本。 但是,通过数据集蒸馏训练的模型,要在安全性要求比较高的任务中(如医疗诊断、自动驾驶),实现不受干扰并保持性能效果,还有一定难 度。 来自北京航空航天大学、上海人工智能实验室和英国利物浦大学的研究团队,提出了名为 ROME 的新方法,这是首次将 信息瓶颈理论 引入 数据集蒸馏任务。该方法无需对抗训练,即可显著提升模型的对抗鲁棒性,最大提升近40%。 实验结果显示,在不同数据集上,相较于以往最优方法,ROME的鲁棒性均实现了大幅超越, 最高从此前43.97%暴涨至103.09% 。 目前,相关成果已被国际机器学习顶会ICML 2025正式接收,项目代码与数据已全面开源。 其核心思想是 通过最小化输入数据与其中间层潜在表示之间的冗余信息,同时增强该表示对于最终标签信息的有效性,从而从源头上提升合 成数据的对抗鲁棒性 。 此外,ROME还引入了基于条件熵瓶颈(Conditional ...
最高能效比!他又死磕“存算一体”2年,拿出全新端边大模型AI芯片
量子位· 2025-07-28 14:42
金磊 发自 WAIC 量子位 | 公众号 QbitAI 当他再次高调出现在大众面前,已经是时隔两年之久。 两年前,后摩智能带着第一代存算一体芯片惊艳亮相WAIC。 两年后,面对大模型时代带来的全新机遇与挑战,他们依旧稳健,选择继续死磕存算一体这条当时看来颇为"冷门"的赛道,并再次拿出了业 界第一的成绩。 他就是 后摩智能 CEO 吴强 博士,很多人好奇他和他的团队在这两年时间里都在做什么。 而就在今年WAIC期间,吴强终于给出了答案—— 发布潜心两年的成果: 后摩漫界®M50 ,一款 业界能效比最高 的存算一体端边大模型AI芯片。 △ 后摩智能CEO吴强发布后摩漫界®M50 M50拥有 160TOPS@INT8 的物理算力, 100TFLOPS@bFP16 的浮点算力,以及高达 153.6 GB/s 的超高带宽和最大 48GB 的内存。 更令人侧目的是,实现这一切的典型功耗,仅仅10W——相当于一个手机快充的功率。 用吴强的话来说就是: 我们希望让大模型算力像电力一样随处可得、随取随用,真正走进每一条产线、每一台设备、每一个人的指尖。 把存算一体推入了第二代 M50之所以能实现如此惊艳的能效比,其背后实则是后 ...
LeCun回应赵晟佳出任“首席科学家”
量子位· 2025-07-28 14:42
Meta AI组织架构调整 - 90后华人科学家赵晟佳被任命为Meta超级智能实验室(MSL)首席科学家,将主导公司AI战略[1][29] - 图灵奖得主LeCun仍担任FAIR首席科学家,但FAIR已被整合进MSL架构[3][5][15] - Meta将AI组织拆分为消费产品团队和AGI研究团队,FAIR角色边缘化[22][23] - 原Llama研究团队78%成员离职,FAIR核心人物Joëlle Pineau出走[21] FAIR历史定位演变 - FAIR由LeCun于2013年创立,在GANs、计算机视觉、NLP等领域有重大突破[17] - 2022年整合进Meta现实实验室,从纯学术转向产品研发[17] - 2024年与GenAI团队合作推进AGI,专注世界模型和具身智能研究[19] - 2024年7月被完全纳入MSL,失去独立部门地位[15][16] 赵晟佳背景与成就 - 清华本科、斯坦福博士,曾获ICLR杰出论文奖等多项荣誉[30] - OpenAI核心成员,参与ChatGPT、GPT-4及o3系列开发[32] - 思维链推理模型先驱,领导大模型合成数据生成策略[33] - 技术贡献推动行业范式革新[34] 行业技术发展动态 - Meta组建MSL整合所有AI团队,开发下一代模型[16] - FAIR持续输出高影响力开源成果如Segment Anything、SeamlessM4T[17] - 公司重点布局世界模型、具身智能等前沿方向[19] - AI研究从基础领域向产品应用加速转化[17][19]
只需一次指令微调,大模型变身全能专家天团,8B模型性能反超全微调基线 | ACL25 Oral
量子位· 2025-07-28 14:42
只需一次指令微调,即可让普通大模型变身" 全能专家天团 "? 当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;稀疏混合专家(SMoE)架构作为可扩展的性能- 效率平衡框架,虽能提升推理效率并灵活扩展模型容量,但其从头训练消耗巨大资源,因此复用密集大模型参数的 升级改造 (LLM Upcycling)成为更具成本效益的替代方案。 SIMoE团队 投稿 量子位 | 公众号 QbitAI 然而现有升级方法存在 两大局限 :一是依赖人工经验选择可扩展的专家位置(如固定替换FFN层),忽视模型层间动态差异与任务特性;二 是缺乏系统机制平衡专家专业化与协作,导致冗余或知识碎片化。 为此,来自浙江大学与Thomson Reuters的研究团队提出全新解决方案 稀疏插值混合专家 (SIMoE),只需单阶段指令微调,即可将普通 大模型自动升级为高性能稀疏专家模型。SIMoE通过 结构化稀疏优化 自动发现神经元级专家参数子集,创新性地结合专家 共享增量参数与 掩码正交惩罚 在多项基准测试中实现 性能、效率的双重突破 。 目前相关研究论文已被 ICML 2024、 ACL 2025 Oral 接收 ...
万万没想到,这家央企竟让香农和图灵又“握了一次手”
量子位· 2025-07-28 13:35
核心观点 - 中国电信人工智能研究院(TeleAI)研发的智传网(AI Flow)实现了信息技术与通信技术的融合,通过"计算换带宽"和智能体协作,显著降低通信带宽需求并提升效率 [4][14][19] - 智传网基于"三律"理论框架(信容律、同源律、集成律)突破传统通信限制,实现智能涌现 [5][33] - 该技术已在远洋通信场景实现视频通话带宽降低1-2个数量级,并具备向高铁、航空、偏远地区扩展的潜力 [19][34] 技术原理 信容律 - 通过同源AI模型参数替代原始数据传输,将通信过程从"像素搬运"转变为"意义理解与艺术重建" [16][18] - 采用"计算换带宽"模式,用本地计算减少远程传输数据量,实现视频通信带宽降低90%-99% [14][19] - 理论首次统一通信与计算的度量标准,实现多模态特征传输替代原始信息传输 [15][16] 同源律 - 构建"家族式模型"体系,云端大模型(千亿参数)与终端小模型(十亿参数)共享相同训练核心和知识结构 [22][25] - 小模型可生成中间推理结果交由大模型接力处理,实现端边云协同推理 [27] - 支持模型参数规模从1.5B到32B的灵活伸缩,保持语义理解一致性 [26][27] 集成律 - 通过多智能体(视觉/策略/生成专家)协作产生"1+1>2"的智能涌现效应 [30] - 实现双向进化机制:云端经验实时同步至所有终端设备 [31] - 已在反诈骗等领域验证多模型协同的实战效果 [32] 应用场景 - 远洋通信:在卫星信号微弱环境下实现流畅视频通话,带宽需求仅为传统方式的1/100至1/1000 [4][19] - 移动场景:解决高铁信号盲区、航空机载通信等传统痛点 [19] - 普惠连接:使偏远山区获得稳定流畅的智能服务接入 [19][34] 行业意义 - 标志通信技术从数据传输向智能传输的范式转变 [34][36] - 开创AI与通信深度融合的新技术路线,中国企业在领域取得领先突破 [35] - 为构建数字世界"神经系统"奠定技术基础,推动社会智能化进程 [34][36]
拆箱开源版Coze:Agent核心三件套大公开,48小时揽下9K Star
量子位· 2025-07-28 11:25
一水 发自 凹非寺 量子位 | 公众号 QbitAI 搞Agent开发也有开源一条龙了! 这不,扣子的两款子产品已于近期正式开源: 扣子开发平台 (Coze Studio)和 扣子罗盘 (Coze Loop)。 才过了一个周末,两个项目就拿下了9K Star~ 再加上此前 已经开源的开发框架Eino ,扣子这是把Agent从开发、评测到运维的完整链路,全都打包开源了,堪称一步到位。 有一说一,Agent在今年有多火大家都有目共睹。 不论是各种爆款Agent的相继涌现,还是各大厂商陆续发布MCP协议支持,种种迹象都在说明一件事:Agent正从"炫技的玩具",变成真正能 落地的应用工具。 在这个关键时刻,若要让Agent真正走向成熟,众所周知仅靠一家厂商是远远不够的。 而开源,正是破局的钥匙之一 ——通过吸引全球开发者共同参与,能够为Agent从工具走向生态注入强大动力。 所以这一次,扣子开源的几款产品,直接覆盖了Agent开发的完整生命周期: 打个比方来说,这就像Coze把底座全给你搭好了,以后开发者都能像拼乐高一样开发Agent。 而且更关键的是,它们采用的还是最为宽松的 Apache 2.0开源协议 : 开 ...
AI幻觉成WAIC首个关键词,Hinton敲响警钟,讯飞星火X1升级展示治理新突破
量子位· 2025-07-28 10:26
白交 发自 凹非寺 量子位 | 公众号 QbitAI 「幻觉」 成为今年WAIC首个热议词。 诺奖得主Hinton 中国首秀,就打响了第一枪,他谈到人类与大模型之间的的复杂对立与共生关系。 人类大脑和大语言模型对语言的理解几乎是同一种方式,所以人类有可能就是大语言模型,人类也会和大语言模型一样存在幻觉。 我们必须找到一种办法,训练AI,让他们不想消灭人类。 紧接着下午论坛上, 中国工程院院士、人机混合增强智能全国重点实验室主任郑南宁 表示,大模型目前仍存在着困境,在模型能力不断扩 展的同时,其"幻觉"现象已成为制约其可靠性与实用性的关键问题之一。 无独有偶,在产业界这边, 基于全国产算力大模型讯飞星火X1升级版 ,此次在WAIC的首秀,也将 幻觉问题 作为核心突破点。 他们的新版本模型,不管是「大模型自身生成内容是否符合客观事实」的事实性幻觉治理,还是「在用户给定额外参考资料时大模型回复是 否忠于原文」的忠实性幻觉治理,都取得了明显进步。 | 结果对比 | | | 慢思考 | | | 快思考 | | | --- | --- | --- | --- | --- | --- | --- | --- | | | | ...
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
量子位· 2025-07-27 19:57
Step 3是一个总参数321B的MoE模型,具备多模态推理能力,将于下周四 (7月31日) 正式开源。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 推理模型和具身智能,绝对是今年WAIC上最抢眼的存在。 一个抢占了现阶段AI发展的话语权,一个是外界给予重望的"下一件有形之物"——尤其是推理模型这条线,逛展刚第二天,我的脑子已经有 点"轰炸过载"了。 当迷失在各家的最新推理模型性能指标之中时,一个念头突然冒了出来。我把这个念头写在这里,同时也是想问问各位朋友们: 什么样的推理模型,能称得上真正好用? 在我这里,答案或许是: 多模态,推理强,用得起,最好还是开源的 。 几句话说起来简单,但真能兼顾这几点的模型,在市场上几乎处于空缺状态。 直到我发现了 阶跃星辰在WAIC期间发布的新一代基础大模型Step 3 ——市场上的这个空缺,终于被填上了。 在MMMU等多个多模态榜单上,它一现身就取得了开源多模态推理模型新SOTA的成绩。 更重要的是, Step 3不是单纯追求效果的"学术卷",阶跃称这款模型兼顾智能与效率 。 实测显示,Step 3的推理解码成本仅为DeepSeek的1/3,且效率更高;在国产芯 ...