Gemini Diffusion

搜索文档
AI展望:NewScaling,NewParadigm,NewTAM
华泰证券· 2025-06-10 09:43
报告核心观点 - 全球AI发展呈现模型端新架构探索、算力端需求上行与硬件设计进入新范式、应用端商业模式变革的趋势,持续看好AI产业投资主线,全球AI应用将进入业绩收获期 [1] 模型:预训练Scaling Law有望开启新起点 - 大模型技术路线从预训练到后训练发展,2018 - 2024年9月为预训练阶段,2024年9月后进入后训练阶段 [13][15] - 腾讯混元Turbo - S通过创新架构实现性能与效率平衡,Google Gemini Diffusion在文本生成上有突破,大厂在预训练参数量和数据量扩大上有尝试,大规模算力集群支持预训练探索,模型架构改进或使预训练Scaling Law开启新起点 [23][24][25] 算力:训练推理两条主线共同推动算力需求持续上行 训练端 - 后训练阶段Scaling Law成大厂共识,新Scaling路径不断涌现,新架构探索有望重启预训练阶段算力需求叙事 [33][34] - 以“星际之门”为代表的大规模算力集群进展顺利,中东版“星际之门”落地,主权AI逐步落地,台积电新产能规划预示算力需求乐观 [38][41][42] 推理端 - Agent需求增长或使推理算力提升几十至上百倍,大量工具调用和信息交互使tokens消耗量大幅提升,产品用户数量增长带动算力需求提升 [43][46][52] 算力硬件新范式 - 大模型对系统综合能力要求提高,NVLink Fusion强化英伟达硬件生态优势,国产算力加速迭代,华为云推出新服务器,高密度机架方案为性能追赶提供路径 [57][58][60] 应用:Agent进展提速,看好AI应用进入业绩收获期 Agent发展情况 - Agent可能是AI应用终极形态,目前雏形初具,但完成复杂长期任务能力有限,“任务长度”是关键衡量指标且提升速度快 [68][73][74] - MCP统一了Agent工具调用生态,促进其快速构建和发展 [79] 海外AI应用 - AI Coding是重要垂类赛道,细分垂类商业化效果好,25Q1业绩大部分超预期,头部2B软件AI产品存量客户渗透率接近10%,全年收入有望加速增长 [82][84][85] 国内AI应用 - 加速从简单环节到复杂环节产品升级,25Q1利润指标率先改善,AI商业化24年初步验证,25年有望加速复制推广,MCP有望加速产业节奏 [88][90][94] 落地节奏展望:商业模式变革有望成为共识,看好细分领域率先放量 商业模式变革 - Agent应用从交付工具转变为交付结果,按效果付费新范式有望成行业共识 [99] 细分场景放量 - 数据复杂度低、幻觉容忍度高的场景率先实现规模化商业落地,2C场景商业化进展领先,2B应用分场景和行业来看,数据复杂度和预算影响落地节奏 [103][104][110] AI + 营销/销售 - 数据丰富、可量化ROI和流程标准化驱动AI快速商业化,企业需求从单一工具向全链路智能中枢升级,市场格局分散,AI有望重塑格局 [113][114][119] 重点公司推荐 - 推荐金山办公、福昕软件、泛微网络等多家公司,均给予“买入”评级 [7]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
AGI的不归之途
虎嗅APP· 2025-06-03 21:52
以下文章来源于未尽研究 ,作者未尽研究 未尽研究 . AI,新能源,合成生物,地缘X 本文来自微信公众号: 未尽研究 (ID:Weijin_Research) ,作者:未尽研究,题图来自:AI生成 转眼之间,2025年即将过半。上半年OpenAI o3、Gemini 2.5 pro、Grok 3 mini和Claude 4的推出, 以及智能体MCP、A2A等协议的推出和融合,让前沿大模型、智能体、应用的进展再次提速。 上半年中国确立了在开源领域的优势。通义千问在2024年9月即已经开始超越Llama 3,DeepSeek R1从2025年初即开始赶上o1。Llama 4推出后,并没有改变开始形成的DeepSeek与通义千问之间在 性能上互卷的格局。 互联网女皇米克尔 (Mary Meeker) 发出了第一份AI趋势报告。她从PC、互联网、移动、云计算来 看AI,认为 所有后来的技术,都是之前技术的"复利",AI也不例外 。所以,押注"乐观"往往是最值 得的投资之一。 目前全球仍有26亿人没有接入互联网,米克尔看好更低成本的卫星互联网,加上直接带有AI功能的 网络体验。"想象一下,一个'首次上网体验'不再是输入 ...
AGI的不归之途
虎嗅· 2025-06-03 07:53
大模型技术进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等前沿大模型密集发布 智能体MCP、A2A等协议推动应用加速发展 [1] - 智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 正从初级白领工作开始逐步接管更多人类任务 [1][2] - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro并逼近OpenAI o3 在缺乏算力基础上通过后训练实现性能跃升 且具有开源和成本优势 [3] - 中国在开源领域确立优势 通义千问2024年9月超越Llama 3 DeepSeek R1 2025年初赶上o1 Llama 4推出未改变中企领跑格局 [4] - GPT-5将整合推理与生成功能 成为原生多模态模型 OpenAI已逐步拆分发布其部分功能 可能受DeepSeek竞争压力影响 [16] 行业竞争格局 - OpenAI年化收入达百亿美元 Anthropic半年内从10亿增至30亿美元 AI应用在编程、设计、医疗等领域初现规模产出 [2] - 美国科技七雄和中国阿里、腾讯等巨头创始人深度参与AI革命 中国响应速度明显快于1995年互联网时代 [8][9] - 中美前沿大模型差距从ChatGPT发布时的两年缩短至不足三个月 中国已建立全面对标的竞争态势 [10] - ChatGPT用户增长爆发显示技术优势不等于应用体验优势 开源模型如何打造杀手级应用成为中国AI创新者挑战 [22] - AI商业化将呈现高增长+高投入态势 中国科技大厂增加资本支出准备放手一搏 [35] 技术突破方向 - DeepSeek下一代模型可能采用原生多模态架构 聚焦代码、数学和自然语言 已探索数学证明模型Prover和多模态模型Janus [17] - DeepSeek研发NSA稀疏注意力机制和BSBR技术 支持端到端训练和长期记忆检索 提升代码生成和多轮互动能力 [18] - 程序合成技术成为AGI新探索方向 可通过少量示例实现问题泛化 谷歌AlphaEvolve已展示其在数学解题中的潜力 [27][28] - 文本扩散生成技术取得进展 Gemini Diffusion达每秒1500token 中国多所高校和企业推出相关模型探索技术边界 [30][31] 地缘政治影响 - AI领导力可能带来地缘政治领导力 中国在开源社区和国家级基础设施方面快速推进 形成与美国差异化优势 [9][39] - 全球AI竞争核心是美中战略博弈 两国都将AI视为经济杠杆和地缘政治影响力来源 [40] - ChatGPT主要用户来自亚洲人口大国 美国比中国更依赖全球市场 [11]
谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心· 2025-05-30 11:28
近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案 ,实现了推理速度的突破! 在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒 的生成速度震惊 学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因 缺乏 KV 缓存机制和并行解码质量衰退 ,实际推理速度长期被自回归模型压制. 通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核 心优势。 一、 核心技术 分块 KV 缓存与置信度感知并行解码 论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 项目地址:https://nvlabs.github.io/Fast-dLLM 论文链接:http://arxiv.org/abs/2505.22618 ...
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
文|周鑫雨 编辑|苏建勋 预训练还是不是王道?如今AI行业,这是最大的"罗生门"事件。 2023年,模型预训练,还是第一性原理。然而,从OpenAI前首席科学家Ilya公开喊话"预训练已走到尽头",到聚焦强化学习的DeepSeek R1出圈,又昭示着 预训练风光不再。 从人人追捧,到口碑滑坡,预训练境遇的变化,是AI行业"共识"与"非共识"不断流动的一个缩影。 针对AI技术的共识与非共识,2025年5月27日的"技术开放日"上,蚂蚁集团攒了一个交流局。 圆桌对话的参与者,是当下最热的创业者、技术高管和学者: 曹越,视频模型公司Sand.AI创始人,前光年之外联创。2024年7月完成两轮融资后,公司估值已经超过1亿美元; 林俊旸,阿里通义千问(Qwen)技术负责人。从2021年发布的M6,到2025年的Qwen3,他都是名副其实的模型一把手; 孔令鹏,香港大学助理教授、NLP LAB联合主任。其牵头研发的扩散推理模型Dream 7B,成为了开源扩散语言模型的新SOTA。 △图源:作者拍摄 某种意义上,曹越和孔令鹏,都在探寻AI"非共识"的过程中收获颇丰——他们都试图将语言模型和视觉模型训练的主流架构,分别应用到 ...
又一巨头推出其最强大模型,赶超OpenAI和谷歌
财富FORTUNE· 2025-05-26 21:06
部分早期测试者已通过实际任务体验新模型。该公司举例称,购物奖励公司乐天株式会社(Rakuten)的人工智能总经理表示,Opus 4在部署到一个复杂 项目后"自主编码近七小时"。 Anthropic发布了最新一代"前沿"或尖端人工智能模型Claude Opus 4和Claude Sonnet 4。图片来源:GETTY IMAGES 上周四,在旧金山举办的首届开发者大会上,人工智能初创公司Anthropic发布了最新一代"前沿"或尖端人工智能模型Claude Opus 4和Claude Sonnet 4。这 家估值超610亿美元的公司在一篇博文中表示,备受期待的新模型Opus是"全球最佳编码模型",能够"在需要持续专注且涉及数千步骤的长期任务中保持稳 定性能"。由新模型驱动的人工智能代理可对数千个数据源展开分析,并执行复杂操作。 此次发布凸显了科技公司在"全球最先进人工智能模型"领域的角逐之激烈——尤其在软件工程等领域——各企业纷纷采用新技术来提升速度与效率,谷歌 上周推出的实验性研究模型Gemini Diffusion便是例证。在一项对比不同大型语言模型软件工程任务表现的基准测试中,Anthropic的两款模型 ...
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
机器之心· 2025-05-26 17:40
近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的 新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大 化模型最终答案的正确率。不同于始终单向推理、线性生成的传统思维链(CoT),扩散式「发散思维链」允许模型以任意顺序非线性生成,且在生成过程中无需 严格遵从语法结构和可读性要求,能够鼓励模型以更加发散、创造性的方法开展推理。 扩散式「发散思维链」目前已成功应用于两种具有代表性的扩散语言模型中。在连续时间扩散语言模型中,该方法可以直接优化由模型输出的得分函数所确定的 策略分布;而在离散时间扩散语言模型中,团队将预测不同掩码 Token 的顺序当作模型决策的一部分,并基于 Plackett-Luce 模型设计去掩码策略。据此,团队成 功训练有序掩码生成扩散语言模型( L arge L anguage D iffusion with O rdered U nmasking, LLaDOU )。实验表明,仅用公开数据集和 16 张 ...
谷歌 I/O 大会:AI 从技术前沿到商业生态的验证
华泰证券· 2025-05-25 21:25
证券研究报告 科技 谷歌 I/O 大会: Al 从技术前沿到商业 生态的验证 华泰研究 2025年5月25日|美国 谷歌凭借多模态和推理能力持续提升基础模型,我们重点关注支持 Veo 3 和 lmagen 4 的 Flow, 或可在内容创作者中初见商业化成效: 1)Gemini 2.5 Pro 现已支持原生音频输出,提升多模态交互效率,已嵌入多个 AI IDE 工具 (如 Cursor 等); 推出增强推理模式 Deep Think,可生成多条推理链并互相交叉 审核:2)内容生成方面,Veo 3 支持原生音频生成功能,在口型同步、现 实物理建模等方向实现突破,Imagen 4 支持 2K 分辨率及复杂材质的高保真 图像生成,二者均可通过 Flow App 使用;Gemini Diffusion 作为新一代扩散 模型,生成速度为 2.5 Flash 的 5 倍,具备并行生成及迭代修正能力;此外 还新推出实验性交互式音乐生成的 Lyria Realtime 模型,并宣布将与三星、 Gentle Monster 和 Warby Parker 合作打造智能眼镜, 也展示了两款 Android XR 的第三方设备,分别 ...