Workflow
Gemini Diffusion
icon
搜索文档
开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
机器之心· 2025-08-18 11:22
挑战 —— 例如缺少完善的 KV 缓存机制,以及未充分释放并行潜力 —— 推理速度远慢于同规模的 AR 模型。 近期的一篇工作彻底扭转了这个局面。上海交通大学 DENG Lab 联合加州大学圣地亚哥分校(UCSD)推出 Discrete Diffus ion Forcing (D2F) ,首次使开源 dLLMs 的生成速度显著超过同等规模的 AR 模型。实验显示,D2F 模型在 GSM8K 等基准上,实现了相比 LLaMA3 等主流 AR 模型 高达 2.5 倍的吞吐量 提升,同 本文作者团队来自上海交通大学 DENG Lab 与加州大学圣地亚哥分校(UCSD)。该研究由硕士生王旭、准硕士生徐晨开、本科生金义杰以及博士生金佳纯共同 完成,指导教师为邓志杰与张浩老师。DENG Lab 隶属上海交通大学,致力于高效、跨模态生成模型的研究。 论文地址:https://arxiv.org/abs/2508.09192 代码地址:https://github.com/zhijie-group/Discrete-Diffusion-Forcing 视频 1 : D2F dLLMs 与同尺寸 AR LLMs 的推理过程对比 ...
AI展望:NewScaling,NewParadigm,NewTAM
华泰证券· 2025-06-10 09:43
报告核心观点 - 全球AI发展呈现模型端新架构探索、算力端需求上行与硬件设计进入新范式、应用端商业模式变革的趋势,持续看好AI产业投资主线,全球AI应用将进入业绩收获期 [1] 模型:预训练Scaling Law有望开启新起点 - 大模型技术路线从预训练到后训练发展,2018 - 2024年9月为预训练阶段,2024年9月后进入后训练阶段 [13][15] - 腾讯混元Turbo - S通过创新架构实现性能与效率平衡,Google Gemini Diffusion在文本生成上有突破,大厂在预训练参数量和数据量扩大上有尝试,大规模算力集群支持预训练探索,模型架构改进或使预训练Scaling Law开启新起点 [23][24][25] 算力:训练推理两条主线共同推动算力需求持续上行 训练端 - 后训练阶段Scaling Law成大厂共识,新Scaling路径不断涌现,新架构探索有望重启预训练阶段算力需求叙事 [33][34] - 以“星际之门”为代表的大规模算力集群进展顺利,中东版“星际之门”落地,主权AI逐步落地,台积电新产能规划预示算力需求乐观 [38][41][42] 推理端 - Agent需求增长或使推理算力提升几十至上百倍,大量工具调用和信息交互使tokens消耗量大幅提升,产品用户数量增长带动算力需求提升 [43][46][52] 算力硬件新范式 - 大模型对系统综合能力要求提高,NVLink Fusion强化英伟达硬件生态优势,国产算力加速迭代,华为云推出新服务器,高密度机架方案为性能追赶提供路径 [57][58][60] 应用:Agent进展提速,看好AI应用进入业绩收获期 Agent发展情况 - Agent可能是AI应用终极形态,目前雏形初具,但完成复杂长期任务能力有限,“任务长度”是关键衡量指标且提升速度快 [68][73][74] - MCP统一了Agent工具调用生态,促进其快速构建和发展 [79] 海外AI应用 - AI Coding是重要垂类赛道,细分垂类商业化效果好,25Q1业绩大部分超预期,头部2B软件AI产品存量客户渗透率接近10%,全年收入有望加速增长 [82][84][85] 国内AI应用 - 加速从简单环节到复杂环节产品升级,25Q1利润指标率先改善,AI商业化24年初步验证,25年有望加速复制推广,MCP有望加速产业节奏 [88][90][94] 落地节奏展望:商业模式变革有望成为共识,看好细分领域率先放量 商业模式变革 - Agent应用从交付工具转变为交付结果,按效果付费新范式有望成行业共识 [99] 细分场景放量 - 数据复杂度低、幻觉容忍度高的场景率先实现规模化商业落地,2C场景商业化进展领先,2B应用分场景和行业来看,数据复杂度和预算影响落地节奏 [103][104][110] AI + 营销/销售 - 数据丰富、可量化ROI和流程标准化驱动AI快速商业化,企业需求从单一工具向全链路智能中枢升级,市场格局分散,AI有望重塑格局 [113][114][119] 重点公司推荐 - 推荐金山办公、福昕软件、泛微网络等多家公司,均给予“买入”评级 [7]
挑战 next token prediction,Diffusion LLM 够格吗?
机器之心· 2025-06-08 10:11
挑战 next token prediction,Diffusion LLM 够格吗? - Gemini Diffusion 采用扩散架构进行文本生成,平均采样速度达1479 TPS,编码任务中可达2000 TPS,比Gemini 2.0 Flash-Lite快4-5倍 [4] - 扩散架构通过迭代去噪实现并行生成,与自回归架构不同,采用"从粗到细"的生成方法,具备并行处理能力 [6] - 扩散模型能并行优化整个序列,显著减少计算开销,有望在模拟硬件上运行从而降低能源成本 [6][7] - 此前已有Diffusion-LM、DiffuSeq、DiffusionBERT等探索,近期LLaDA系列在8B规模验证了Diffusion LLM的效果 [7][9] Diffusion LLM的潜在优势 - 并行生成机制可同时生成所有token,极大提升文本生成效率 [8] - 具备文本插值能力,可生成句子间衔接内容,提高流畅性和连贯性 [8] - 提供细粒度控制和高稳健性等优势 [8] - 本质上与自回归模型同为生成式模型,优良性质源于极大似然估计而非特定建模方式 [10] AI推理成本暴跌的影响 - AI模型训练成本与推理成本"剪刀差"将重塑行业竞争格局 [1] - 企业需平衡算力投入与商业化回报 [1] - 中国开源模型崛起对全球供应链有潜在影响 [1] - 人机协作时代需平衡劳动力结构转型与技能重塑 [1]
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 09:59
Google I/O 2025开发者大会与Gemini Diffusion - Google DeepMind推出采用扩散技术的语言模型Gemini Diffusion,提供更强控制力、创造力和文本生成速度[1] - Gemini Diffusion生成速度达到最快模型的五倍,采样速度高达每秒1479 token[2][8] - 该模型在多项基准测试中表现优异,如HumanEval(89.6%)、MBPP(76.0%)等,性能媲美更大规模的自回归模型[9] 扩散语言模型(dLLM)发展历程 - 早期探索包括斯坦福Diffusion-LM(2022)、上海AI实验室DiffuSeq(2022)和复旦大学DiffusionBERT(2022)[3] - 蚂蚁集团与人大团队推出首个8B参数扩散大模型LLaDA,性能比肩LLaMA3[4] - LLaDA成为dLLM研究基础模型,衍生出d1、LaViDa等后续模型[4][20] LLaDA模型技术特点 - 采用掩码扩散机制,通过前向加噪和反向去噪过程建模[14] - 预训练使用2.3T tokens,在MMLU(65.4%)、BBH(57.6%)等基准表现优异[19] - 1.5版本引入VRPO方法,在GSM8K(+4.7)、Math(+0.4)等任务取得进步[21][22] 扩散多模态LLM(dMLLM)进展 - 蚂蚁集团与人大推出LLaDA-V,集成视觉指令微调与掩码扩散机制[24] - 字节跳动开发MMaDA,兼具文本推理、多模态理解和文生图能力[31] - dMLLM正向蛋白质序列生成等更多模态扩展[33] 行业竞争格局 - 国内研究团队(蚂蚁、字节、人大等)在dLLM/dMLLM领域已跻身第一梯队[11] - 国际竞争者包括Google(Gemini Diffusion)、Meta(d1模型)等[6][8] - 初创公司Inception Labs推出商业级扩散模型Mercury[6] 技术发展趋势 - 扩散模型正从视觉生成扩展到语言理解和多模态交互[35] - 研究热点包括模型加速(Fast-dLLM)、推理增强(LLaDOU)等方向[6] - 量子计算与扩散模型结合(qdLLM)等创新方向正在探索[35]
AGI的不归之途
虎嗅APP· 2025-06-03 21:52
大模型与智能体进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等大模型密集发布 智能体协议MCP、A2A的融合推动AGI进程加速 [3] - 硅谷研究机构METR数据显示智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 初级白领岗位面临大规模替代风险 [3] - Anthropic创始人预测2026年将出现"一人独角兽公司" 智能体技术正在突破鲍莫尔病对服务业效率的限制 [3] 科技巨头战略调整 - 美国科技七雄大幅增加AI基础设施投入 同时裁撤可替代岗位 OpenAI年化收入达百亿美元 Anthropic收入半年内从10亿增至30亿美元 [4] - 中国科技巨头创始人深度参与技术变革 阿里、腾讯、字节等企业成为创新引擎 [10] - ChatGPT用户增长爆发 显示技术优势与用户体验并非完全正相关 [22] 中美AI竞争格局 - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro 逼近OpenAI o3 在开源模型领域建立成本优势 [5] - 中美前沿大模型差距从ChatGPT发布时的2年缩短至2025年上半年的不足3个月 [11] - 中国在开源社区和国家级基础设施方面快速推进 形成与美国全面对标的竞争态势 [11][36] 下一代技术突破 - OpenAI计划将GPT-5打造为推理与生成统一的原生多模态模型 已陆续拆分部分功能提前发布 [17] - DeepSeek下一代模型V4/R2将采用NSA稀疏注意力机制 支持端到端训练 提升长期记忆能力 [18][19] - 文本扩散生成技术取得进展 Gemini Diffusion实现每秒1500 token输出 中国高校及企业推出LlaDA-8B等创新模型 [31][32] AGI探索新路径 - OpenAI前成员创立SSI(估值320亿)和Thinking Machines Lab(估值90亿) 探索强化学习与思维链等新范式 [24][25] - 程序合成技术被视为突破传统范式局限的关键 AlphaEvolve已展示解决复杂数学问题的能力 [29][30] - 研究显示AI"思考时长"与"思考方式"同等重要 需建立自我规划思考深度的机制 [26] 商业化与生态演进 - AI行业呈现高增长+高投入特征 中国科技大厂增加资本支出准备大规模商业化 [35] - 智能体时代商业模式可能打破"赢家通吃" 横向平台与垂直专家的融合成为关键 [35] - 变现逻辑从使用频率转向注意力、语境与控制权的争夺 地缘竞争成为核心变量 [36]
AGI的不归之途
虎嗅· 2025-06-03 07:53
大模型技术进展 - 2025年上半年OpenAI o3、Gemini 2 5 pro、Grok 3 mini和Claude 4等前沿大模型密集发布 智能体MCP、A2A等协议推动应用加速发展 [1] - 智能体完成任务复杂程度每7个月翻倍 Claude-opus 4可连续工作7小时 正从初级白领工作开始逐步接管更多人类任务 [1][2] - 中国DeepSeek R1 0528性能超越Gemini 2 5 pro并逼近OpenAI o3 在缺乏算力基础上通过后训练实现性能跃升 且具有开源和成本优势 [3] - 中国在开源领域确立优势 通义千问2024年9月超越Llama 3 DeepSeek R1 2025年初赶上o1 Llama 4推出未改变中企领跑格局 [4] - GPT-5将整合推理与生成功能 成为原生多模态模型 OpenAI已逐步拆分发布其部分功能 可能受DeepSeek竞争压力影响 [16] 行业竞争格局 - OpenAI年化收入达百亿美元 Anthropic半年内从10亿增至30亿美元 AI应用在编程、设计、医疗等领域初现规模产出 [2] - 美国科技七雄和中国阿里、腾讯等巨头创始人深度参与AI革命 中国响应速度明显快于1995年互联网时代 [8][9] - 中美前沿大模型差距从ChatGPT发布时的两年缩短至不足三个月 中国已建立全面对标的竞争态势 [10] - ChatGPT用户增长爆发显示技术优势不等于应用体验优势 开源模型如何打造杀手级应用成为中国AI创新者挑战 [22] - AI商业化将呈现高增长+高投入态势 中国科技大厂增加资本支出准备放手一搏 [35] 技术突破方向 - DeepSeek下一代模型可能采用原生多模态架构 聚焦代码、数学和自然语言 已探索数学证明模型Prover和多模态模型Janus [17] - DeepSeek研发NSA稀疏注意力机制和BSBR技术 支持端到端训练和长期记忆检索 提升代码生成和多轮互动能力 [18] - 程序合成技术成为AGI新探索方向 可通过少量示例实现问题泛化 谷歌AlphaEvolve已展示其在数学解题中的潜力 [27][28] - 文本扩散生成技术取得进展 Gemini Diffusion达每秒1500token 中国多所高校和企业推出相关模型探索技术边界 [30][31] 地缘政治影响 - AI领导力可能带来地缘政治领导力 中国在开源社区和国家级基础设施方面快速推进 形成与美国差异化优势 [9][39] - 全球AI竞争核心是美中战略博弈 两国都将AI视为经济杠杆和地缘政治影响力来源 [40] - ChatGPT主要用户来自亚洲人口大国 美国比中国更依赖全球市场 [11]
三位顶流AI技术人罕见同台,谈了谈AI行业最大的「罗生门」
36氪· 2025-05-28 19:59
AI技术发展路径的共识与非共识 - 预训练技术从2023年的行业共识到2025年面临质疑,OpenAI前首席科学家公开认为"预训练已走到尽头",而DeepSeek R1等强化学习模型崛起[1] - 蚂蚁集团技术开放日圆桌讨论显示,行业分化成两派:曹越、孔令鹏等通过跨架构创新(如语言模型应用Diffusion、视频模型采用自回归)实现突破,阿里则坚持Transformer等传统路径[3][4][14] - 当前行业呈现多元探索态势,参与者形容为"摸彩票",不同技术路线本质是平衡模型偏差与数据偏差的尝试[7][17][18] 主流架构的技术突破 - 扩散模型创新:Dream 7B以7B参数量超越671B的DeepSeek V3,通过双向学习处理并行任务,在数学/代码任务表现突出[3][8][17] - 视频模型革新:曹越团队将自回归应用于视频生成,突破Sora无时序先验的限制,通过编码时间关系提升信息利用率[10][11][12] - Transformer持续主导:阿里内部多次"魔改"Transformer后仍确认其最优性,但承认MOE架构在扩展性上的潜力[5][14][16] 模型优化与效率挑战 - MOE架构进展:DeepSeek实现1:20+稀疏比,阿里测试显示1:10-1:20区间效果最佳,但专家数增加会降低训练稳定性[19][20][22] - 多模态融合创新:通过Attention稀疏化提升跨模态效率,端到端优化Tokenize到联合建模的全流程[24][25][26] - 硬件制约明显:GPU对Transformer训练非最优,行业呼吁软硬一体解决方案[34][35][36] 预训练与数据应用趋势 - 预训练价值分歧:2024年认为数据枯竭是共识,2025年美国新观点认为仍有潜力,阿里证实数据增量仍能提升模型性能[38][39] - 算力驱动创新:历史显示算力增长可激活曾被放弃的技术,当前需重点优化算力利用率[40][41] - 创造本质探索:将创作定义为搜索问题,通过可能性空间遍历实现智能生成[42][43] 行业现存问题与应对 - 幻觉控制难题:强化学习可能加剧错误推理模式,阿里尝试通过稀疏自编码器(SAE)定位并抑制相关特征[30][31] - 架构选择成本:模型结构需同时兼容预训练与强化学习,当前每次技术押注成本显著上升[20][33] - 技术迭代哲学:行业进步类似飞机航道调整,需动态修正而非预测终极形态[44][45]
又一巨头推出其最强大模型,赶超OpenAI和谷歌
财富FORTUNE· 2025-05-26 21:06
Anthropic发布新一代AI模型Claude Opus 4和Claude Sonnet 4 - Anthropic在首届开发者大会上发布最新AI模型Claude Opus 4和Claude Sonnet 4,估值超610亿美元 [1] - Opus 4被描述为"全球最佳编码模型",能在涉及数千步骤的长期任务中保持稳定性能,可分析数千个数据源并执行复杂操作 [1] - 在基准测试中,Anthropic的两款模型击败了OpenAI最新模型,谷歌的Gemini Diffusion表现落后 [1] 新模型的技术突破 - Opus 4实现"自主编码近七小时",完成复杂项目部署 [4] - 模型从"助手"升级为"代理",能更精准执行指令并提升记忆能力,采用类似文件系统的机制追踪进度 [4] - 两款模型可在推理与工具调用间切换,支持同步使用多种工具如网页搜索和代码测试 [5] 行业竞争与安全标准 - Anthropic视AI发展为"向巅峰进发的竞赛",强调以安全方式推动技术进步 [5] - Claude 4 Opus采用严格安全协议,遵循《负责任扩展政策》(RSP),确保不部署可能引发灾难性风险的模型 [5] - 新模型按ASL-3标准推出,强化防范滥用措施,但无需最高等级ASL-4保护 [6] 模型透明度与行业对比 - Anthropic将同步发布Opus 4和Sonnet 4的模型卡片,提供能力及安全评估详情 [7] - OpenAI和谷歌近期因延迟或简化模型卡片发布受到批评 [7]
谷歌 I/O 大会:AI 从技术前沿到商业生态的验证
华泰证券· 2025-05-25 21:25
报告行业投资评级 - 增持(维持) [6] 报告的核心观点 - 谷歌 I/O 大会对行业启示为 AI 搜索触发场景更浅层、Gemini 应用及模型覆盖率向好、生态整合力加强、商业化路径加快 [1] - 谷歌本次 I/O 大会核心是在搜索生态中让 AI 触发场景更浅层广泛,以重新夺回市场份额 [2] - 谷歌以 Gemini 为核心推进 AI 原生及 Agent 项目并融入应用生态,证明其具备从 AI 研究前沿落实到场景的工作链条 [3] - 谷歌凭借多模态和推理能力提升基础模型,支持 Veo 3 和 Imagen 4 的 Flow 或在内容创作者中初见商业化成效 [4] 根据相关目录分别进行总结 AI 搜索 - Al Mode 全面上线美国用户,支持个性化搜索结果、复杂数据可视化、购物体验整合等功能,管理层认为其将成搜索领域下一代交互范式 [1][2] - Al Overviews 覆盖 200 多个国家和地区,支持 40 多种语言,新增多种语言支持 [7] - Google Lens 年内使用次数超千亿次,同比增长 65%,引入 Search Live 可对话和读取摄像头内容 [2][7] 基础模型 - Gemini 2.5 Pro 支持原生音频输出,嵌入多个 AI IDE 工具,推出增强推理模式 Deep Think,引入 LeamLM 模型 [4][7] - Gemini 2.5 Flash Preview 在编程和复杂推理任务上表现更强,针对速度和效率优化 [7] - Veo 3 支持原生音频生成,在多方面实现突破,新增角色和摄像机控制功能,已在部分平台提供 [4][7] - Imagen 4 支持 2K 分辨率及高保真图像生成,升级版速度提升 10 倍,适配多场景,排版和文本渲染能力优化 [4][7] - Gemini Diffusion 生成速度为 2.5 Flash 的 5 倍,具备并行生成及迭代修正能力 [4][7] - Lyria RealTime 是实验性交互式音乐生成模型,可通过 Gemini API 或 Google AI Studio 使用 [7] AI Agent - Gemini Live(Project Astra)源自 Deepmind 团队,具备多种能力,将在 Android 和 iOS 全面上线,未来在无障碍应用场景扩展 [3][7] - Project Marina 是通用 Agent 交互系统,计算机使用能力已引入相关平台,预计 Q3 广泛向开发者推出,Gemini 将引入 Agent Mode,仍在试验阶段 [3][7] - Beam(Project Starline)是 AI 驱动的 3D 视频通话平台,预计今年向测试用户交付,核心技术将下沉至 Google Meet [3][7] Android XR - 谷歌与三星等合作打造智能眼镜,集成 Gemini 后具备多种功能 [4][7] - 展示两款基于 Android XR 的第三方设备,分别为三星的 Project Moohan 和 Xreal 的 Project Aura [4][7]
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性
机器之心· 2025-05-22 16:46
核心观点 - 大型语言模型在多模态任务中面临架构统一性与后训练方法的挑战,传统自回归架构存在跨模态协同效率低下问题 [1] - Gemini Diffusion首次验证扩散模型在文本建模领域的潜力 [1] - MMaDA作为首个系统性探索扩散架构的多模态基础模型,通过三项核心技术突破实现文本推理、多模态理解与图像生成的统一建模 [1] 模型性能 - 文本推理:MMLU准确率68.4%,超越LLaMA-3-8B、Qwen2-7B、LLaDA-8B [7] - 多模态理解:POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)与专用模型持平 [7] - 图像生成:CLIP Score达32.46,较SDXL、Janus提升显著,文化知识生成任务准确率提升56% [7] 技术突破 - 统一扩散架构:将文本与图像生成统一到扩散框架中,消除传统混合架构复杂性 [15] - 混合长链思维微调:解决复杂任务冷启动问题,提出跨模态混合CoT微调策略 [15] - 统一推理格式:定义特殊标记结构强制模型输出跨模态推理步骤 [18] - 统一策略梯度优化:UniGRPO算法使奖励值稳定上升,收敛速度提升40% [19][21] 开源信息 - 已开源训练、推理、MMaDA-8B-Base权重和线上Demo [4] - 后续将开源MMaDA-8B-MixCoT和MMaDA-8B-Max权重 [4] - 论文、代码、模型和Demo地址已公开 [6] 跨任务协同 - 在混合训练阶段(130K-200K步),文本推理与图像生成指标同步上升 [9] - 扩散模型无需额外微调即可泛化到补全与外推任务 [11] - 支持文本补全、视觉问答补全和图像补全三类跨模态任务 [14]