Workflow
推理
icon
搜索文档
文生图进入R1时刻:港中文MMLab发布T2I-R1
机器之心· 2025-05-09 10:47
核心观点 - 提出T2I-R1模型,基于双层次CoT推理框架(Semantic-CoT和Token-CoT)与强化学习,显著提升文本生成图像的质量和语义对齐 [1][3][9] - 首次将思维链(CoT)推理策略应用于自回归图片生成领域,解决跨模态对齐和细粒度视觉细节生成问题 [1][7] - 通过BiCoT-GRPO强化学习方法联合优化Semantic-CoT和Token-CoT,利用多专家模型集成作为奖励机制提升生成效果 [11][12] 方法架构 Semantic-CoT - 在图像生成前进行文本推理,设计全局结构(如对象外观和位置),显式规划Prompt以降低生成难度 [7][9] - 示例:生成冰屋时推理其"空气动力学穹顶形状""光滑半透明表面""入口斜坡隧道"等语义细节 [6][14] Token-CoT - 在离散空间中逐块生成图像Token,专注于底层像素细节和视觉连贯性 [7] - 与文本CoT类似,基于先前Token输出后续Token,维持相邻Patch的一致性 [7] 技术突破 - 统一理解与生成能力:基于ULM(Janus-Pro)框架整合双层次CoT,避免独立模型带来的计算成本增加 [8][9] - 奖励机制创新:集成多专家模型(如目标检测器、VQA模型)从提示对齐、美学吸引力、对象存在性等维度综合评估 [12] 性能表现 - 定量结果:在T2I-CompBench和WISE Benchmark上分别比基线模型提升13%和19%,部分子任务超越FLUX-1 [16] - 定性优势:处理非常规场景(如"火车底部的小猪")时展现更强鲁棒性,生成结果更符合人类意图 [13][14]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]
微软开源 Phi-4 推理模型:啰嗦AI,反卷出圈
36氪· 2025-05-08 17:15
微软开源小模型Phi-4-reasoning-plus - 微软研究院开源专为深度结构化推理任务设计的语言模型Phi-4-reasoning-plus 仅14B参数 不到DeepSeek 70B模型的五分之一 但在数学 科学 代码 逻辑推理等任务表现优异 首次尝试AIME 2025数学考试全题正确率超越70B大模型 接近DeepSeek 671B水平 [1] 创新训练方法 - 采用"推理链"(Chain-of-Thought)为核心训练目标 强制模型用<think>标签输出详细推理过程 模仿人类分步思考 反复验证的啰嗦模式 [2] - 强化学习阶段设计特殊奖励机制 答错时鼓励更长推理链 答对时奖励简洁输出 通过"慢思考"训练使模型答案正确且思路清晰 [2][5] - 基于规则的强化学习采用可自动验证的数学题 奖励函数直接关联推理链长度与答案正确性 训练模型具备"有错就多想多写多步反省"的能力 [6][10] 跨领域性能表现 - 在AIME OmniMath GPQA等数学科学基准测试中超越Distill-Llama-70B和DeepSeek-R1等更大体量模型 [8] - 在算法(TSP/3SAT) 规划(BA-Calendar) 代码(LiveCodeBench)等未专门训练的新领域展现强迁移能力 体现元推理能力 [8] - 在长文本问答 指令遵循 毒性检测等非推理类通用任务中也有显著提升 显示"慢思考"训练方式的广泛适用性 [8] 技术细节特征 - 推理链长度设计模拟人类"思考长度" 并非越长或越短越好 生物 化学 离散数学等领域仍存在推理瓶颈 [5] - 输出格式规范要求严格 思路紊乱会扣分 重复语句受惩罚 系统鼓励多样化和探索性推理 [10]
绝对零监督Absolute Zero:类AlphaZero自博弈赋能大模型推理,全新零数据训练范式问世
机器之心· 2025-05-08 09:37
在人工智能领域,推理能力的进化已成为通向通用智能的核心挑战。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌现出一 批 「Zero 」类推理模型,摆脱了对人类显式推理示范的依赖,通过强化学习过程自我学习推理轨迹,显著减少了监督训练所需的人力成本。然而,这些方法的学 习任务分布仍由人类预先设计,所依赖的数据依旧高度依赖专家精心策划与大量人工标注,面临着难以扩展与持续演化的瓶颈。 更重要的是,如果智能系统始终受限于人类设定的任务边界,其自主学习与持续进化的潜力将受到根本性限制,这一现实呼唤一种全新的推理范式,迈向超越人 类设计约束的未来。 为应对这一挑战, 清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学的研究者们提出了一种全新的推理训练范式 —— Absolute Zero,使大模型无需依赖人类或 AI 生成的数据任务,即可通过自我提出任务并自主解决,实现 「自我进化式学习 」。在该范式中,模型不仅学习如何生 成最具可学习性的任务(maximize learnability),还通过解决这些自主生 ...
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
量子位· 2025-05-07 17:33
FormalMATH基准测试 - 香港中文大学、西湖大学、MAP、浙江大学、马克斯·普朗克智能系统研究所等机构联合推出FormalMATH形式化数学推理基准测试,包含5560道经过严格验证的数学题,覆盖从奥数到大学水平的代数、微积分、数论等领域[1] - FormalMATH基准测试首次系统性评估当前LLM驱动的定理证明器的真实水平,结果显示表现最佳的模型Kimina-Prover成功率仅为16.46%[3] - FormalMATH包含5560个经过Lean4编译器验证的数学命题,涵盖12个子领域,规模是经典基准MiniF2F的22.8倍[5] 构建创新 - 研究团队提出"三阶段过滤"框架解决传统形式化数据依赖专家手动标注的瓶颈:多LLM协同翻译、自动化验证、否定反证过滤,该流程在人工审核前保留了72.09%的高质量命题[7][9] - 团队召集12名人类奥赛金牌级别的专家花费22天检测自然语言数学命题与Lean4形式化命题之间的语义一致性[9] LLM表现分析 - 主流LLM证明器在FormalMATH全量数据集上表现远低于预期,最佳模型Kimina-Prover成功率16.46%,次优模型STP成功率13.87%[10][15] - 现有模型在代数等领域表现较好,但在微积分等其他领域表现接近随机猜测,显示出明显领域偏差[11][12] - LLM证明器频繁滥用自动化策略,导致冗余假设(34%)、不完整证明(62%)、自动化策略误用(65.0%)、无法正确应对不等式(13.0%)等典型错误[16] 技术瓶颈与突破方向 - 自然语言引导可能反拖后腿,例如DeepSeek-V1.5-RL模型在普通CoT提示时表现优于引入人为自然语言引导的情况[17] - 未来提升LLM形式化推理能力需从三方面突破:强化多步规划、跨领域泛化、人机协同验证[19] 开源与行业影响 - FormalMATH基准测试的代码、训练数据及评估模型已向公众开放,研究团队呼吁学术界与工业界共同推进形式化数学推理技术发展[20][21]
北大、清华、UvA、CMU等联合发布:大模型逻辑推理能力最新综述
机器之心· 2025-05-07 15:37
大模型逻辑推理研究综述 核心观点 - 大模型研究从依赖扩展定律的预训练转向聚焦推理能力的后训练,逻辑推理能力成为解决幻觉问题的关键[1] - 大语言模型在逻辑问答和逻辑一致性方面存在显著缺陷,LLaMA 13B在FOLIO数据集上8-shot准确率仅33.63%,接近随机猜测水平[10] - 提升逻辑推理能力需结合外部求解器、提示工程、预训练微调等方法,并需满足否定/蕴涵/传递/事实/复合等多类逻辑一致性[15][21] 技术方法分类 逻辑问答 - **基于外部求解器**:将自然语言问题转换为符号表达式,通过求解器推理后集成答案[16] - **基于提示工程**:通过设计提示词显式构造推理链或实现自然语言与符号语言转换[17] - **预训练与微调**:纳入演绎证明样本增强数据集,针对性优化模型参数[18] 逻辑一致性 - **否定一致性**:禁止对命题p与其否定命题同时判定为真[22] - **蕴涵一致性**:确保前提p→q成立时,若p为真则q不得为假[23][24] - **传递一致性**:要求三段论推理链条自洽,如"喜鹊是鸟→鸟有翅膀→喜鹊有翅膀"需成立[25] - **事实一致性**:模型回答需与知识库事实对齐[26] - **复合一致性**:需同时满足多种逻辑规则组合的复杂推理要求[27][28] 典型案例 - 逻辑问答失败案例:给定"金属导电→铁是金属→钉子由铁制成"前提,模型无法推导"钉子导电"结论[6] - 逻辑不一致案例:Macaw模型承认"喜鹊是鸟"和"鸟有翅膀",却否认"喜鹊有翅膀"[11] 未来方向 - 扩展模态逻辑处理不确定性命题[30] - 开发高阶逻辑推理能力以量化谓词属性[31] - 设计同时满足多类逻辑一致性的高效算法[31] 研究基础 - 覆盖5所顶尖高校联合研究,论文被IJCAI 2025接收[1] - 建立完整分类体系并汇总FOLIO等基准数据集[12][15]
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
机器之心· 2025-05-06 16:04
机器之心报道 编辑:+0、刘欣 在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效 率,并采用对企业友好的开放许可方式。 该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。 这一系列模型可不简单,不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在 Hugging Face 上公开,遵循 NVIDIA Open Model License 和 Llama 社区许可,可商业使用。 Llama-Nemotron 系列模型是首批支持动态推理切换的开源模型,用户在推理时可在标准聊天模式和推理模式之间自由切换,极大地提升了交互的灵活性。 研究主要是利用推理类和非推理类这两类基准测试对 Llama-Nemotron 系列模型进行 ...
AI Agent:算力需求空间?
2025-05-06 10:28
纪要涉及的行业 AI算力行业 纪要提到的核心观点和论据 1. **算力需求增长逻辑** - **AI应用渗透推动推理需求**:AI应用逐渐渗透到生活和工作各环节,改变使用习惯,使算力推理需求快速增长,微软、谷歌等大厂推理需求占比可能达60%-70%,主要源于老应用改造而非开发全新APP [1][2] - **细分领域仍有增长潜力**:训练环节市场预期悲观,但实际可能更好,预训练边际效应减缓,后训练增速不明显,但细分领域如AI Agent有增长潜力 [1][4] 2. **市场预期情况** - **算力产业链与AI应用分化**:从2024年5月开始,除ASIC外,算力产业链边际走弱,英伟达股价未创新高,市场对整体算力需求预期悲观;而AI应用领域表现强劲,如Palantir股价创新高,市场对AI应用预期较高 [1][5] 3. **解决算力需求问题方向** - **训练与推理两手抓**:解决算力需求青黄不接问题需关注训练和推理两方面,训练算力需求短期难提升,推理依赖Agent发展,Agent在特定场景已有所起色 [1][7] 4. **2025年算力需求来源** - **老应用改造、新衍生应用与Post Training**:2025年算力需求主要来自老应用改造(如推荐引擎在海外大厂的应用)、新衍生应用(如Agent)以及Post Training阶段,Agent面向ToB/ToD场景,特定领域需求显现 [1][12] 5. **Chatbot与Agent对比** - **应用场景与爆款潜力不同**:Chatbot面向ToC市场,易形成爆款;Agent面向ToB和ToD场景,不易成为爆款,其算力需求难被资本市场迅速感知 [13] - **任务复杂度与交互方式差异大**:Chatbot单次交互量约1000个TOKEN,一对一、一问一答式交互;Agent完成单个任务所需TOKEN量达几万甚至十万个,多任务、多Agent协作执行,消耗数据量和TOKEN数量远高于Chatbot [25] - **存储和算力需求有别**:Chatbot对存储和内存要求低;Agent执行任务各步骤需连贯操作,对存储和内存要求高,对计算能力和存储都有较高需求 [27][28] 6. **算力需求计算与评估** - **训练与推理算力需求公式**:训练算力需求预期约为6ND,推理算力需求预期约为2ND,N代表模型参数量,D代表数据集 [16] - **评估服务器或GPU卡数量**:通过总需求除以单个GPU卡的算力估算所需设备数量,同时考虑设备实际利用率 [34] 7. **模型选择与优化** - **优先选择小模型**:选择模型参数时优先考虑小模型,大厂做推理应用倾向先上小模型,降低成本,提高可接受性 [31] - **优化模型访问和推理方法**:使用低精度计算、模型蒸馏,结合硬件优化如KV缓存优化,可降低内存消耗,提高整体效率 [35] 其他重要但是可能被忽略的内容 1. **后训练情况**:后训练自2024年9月推出,对市场影响不明显,从事厂商数量有限,数据难跟踪,在模型参数量上维持在几万亿量级,虽算力需求预期不明显,但能提升推理能力,如DeepSeek R1体现后训练扩展法则 [8][9][19] 2. **AI Agent产品表现**:一些AI Agent产品如Mariner在美国市场表现良好,融资和用户增长迅速,在海外人力成本高的地区受众广泛,但在中国市场难推广 [2] 3. **大型科技公司资本开支**:微软和Meta本季度未削减资本开支,对未来算力需求持坚定态度,若后续应用进展顺利,算力规划短期内不会下降 [40] 4. **过去一季度AI应用发展**:过去一个季度多个AI应用发展迅速,如Mariner 3月月活访问量达2310万,Cursor有2000多万,微软3月产生50万亿个TOKEN,占季度总量一半 [38]
Sambanova裁员,放弃训练芯片
半导体行业观察· 2025-05-06 08:57
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:本文编译自zach,谢谢。 四月下旬,资金最雄厚的AI芯片初创公司之一SambaNova Systems大幅偏离了最初的目标。与许 多其他AI芯片初创公司一样,SambaNova最初希望为训练和推理提供统一的架构。但从今年开 始,他们放弃了训练的雄心,裁掉了15%的员工,并将全部精力放在AI推理上。而且,他们并非 第一家做出这种转变的公司。 2017 年,Groq 还在吹嘘他们的训练性能,但到了2022 年,他们完全专注于推理基准。Cerebras CS-1 最初主要用于训练工作负载,但CS-2 和后来的版本将重点转向了推理。SambaNova 似乎是 第一代 AI 芯片初创公司中最后一个仍然认真专注于训练的公司,但这种情况终于发生了变化。那 么,为什么所有这些初创公司都从训练转向了推理呢?幸运的是,作为 SambaNova 的前员工(指 代本文作者zach,该作者自称 2019 年至 2021 年期间在 SambaNova Systems 工作),我(指代 本文作者zach,下同)有一些内部人士的见解。 SambaNova 非常重视在其硬件上训练模型。他们发布 ...
英伟达打响“股价保卫战” 黄仁勋回答了十个关键问题
搜狐财经· 2025-05-05 13:58
文章核心观点 - 英伟达CEO黄仁勋在GTC 2025大会演讲被赋予“股价保卫战”意义,他认为AI芯片需求持续增长,大会发布新产品和系统,搜狐汽车整理其试图回答的十大问题 [2][3] 生成式AI相关 - 人工智能过去十年进步惊人,先有感知型AI,后专注生成式AI,其改变计算模式,从检索型变为生成型 [3][4] AI发展方向 - 推出可与数字世界互动、代表用户执行任务的Agent AI,接下来是有望为人形机器人提供动力的物理人工智能 [5] 推理型AI相关 - 推理型AI可像人一样分步骤推理选最佳结果,通过强化学习和自监督学习发展,训练需处理数万亿级token,推动了模型发展 [6] - 推理型AI生成Token数量巨大,需提高系统计算速度十倍,意味着一百倍以上计算量,训练和推理服务所需计算资源过去一年爆炸式增长 [7] 数据中心业务 - 今年迄今Blackwell GPU已向四大云平台销售360万块,分析师预测全球数据中心资本支出到2030年达数万亿美元,建设规模1万亿美元时间点会更快到来 [8] - 数据中心业务增长动力是计算方式转型和从检索型计算到生成型计算转变,未来各行业公司将有AI工厂 [8][9] 边缘计算领域 - 英伟达与思科、T - Mobile和服务器ODC合作将AI带入边缘计算领域,利用无线电网络和通信数据中心资源,实现加速计算与AI融合,AI可优化通信效果 [10] 自动驾驶汽车领域 - 英伟达投入超十年,技术被广泛应用,与通用汽车在多领域合作,打造“Halos”安全体系,经安全评估且拥有超1000项专利 [11] - 通过Omniverse和Cosmos加速AI开发,采用模型蒸馏、闭环训练和合成数据生成等方法提升自动驾驶安全性和智能化 [12] Dynamo软件 - Dynamo是开源软件,可提高人工智能推理效率并降低成本,能让Nvidia Hopper平台为Meta的Llama型号提供服务的性能提高一倍,加速用户采用人工智能推理 [14][15] AI系统路线图 - Blackwell Ultra今年下半年上市,亚马逊AWS、谷歌云、微软Azure和甲骨文将首批提供支持服务 [16] - 下一代系统Vera Rubin预计2026年下半年推出,含144个独立Nvidia GPU;2027年下半年发布含576个GPU的Rubin Ultra,大幅提高AI计算能力和效率 [16]