Workflow
推理模型
icon
搜索文档
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
国产六大推理模型激战OpenAI?
创业邦· 2025-04-30 18:09
大模型行业发展趋势 - 2025年春节前DeepSeek-R1模型发布成为行业分水岭,重新定义中国大模型叙事逻辑 [8][10] - 2023年国内开启"百模大战",2024年"AI六小虎"成为主角,智谱累计融资40亿元,月之暗面融资超13亿美元 [10] - 2025年行业主题转变为"六大推理模型迎战OpenAI",百度、阿里、字节、腾讯、科大讯飞等厂商快速跟进发布推理模型 [10][19] 技术路线演变 - OpenAI模型体系分为GPT系列和o系列,2024年o1发布标志转向"结构化推理"能力 [12][15] - 大模型范式从预训练参数Scaling Law转向强化学习推理计算新Scaling Law [15] - GPT系列将逐步退出,GPT4将于2025年4月30日退役,完全被GPT4o取代 [15] 国内主要厂商动态 - DeepSeek-R1训练成本仅560万美元,远低于美国公司数千万美元投入,具有极致性价比 [23] - 百度文心X1采用"思维链-行动链"协同训练,可自动拆解复杂任务为20多个推理步骤 [23] - 科大讯飞星火X1基于全国产算力训练,在重点行业测试中超越OpenAI和DeepSeek [25] - 字节豆包模型价格降至0.0008元/千Tokens,主导行业价格战 [25] - 腾讯混元通过集团资源倾斜实现逆袭,2025年春节后获得重点推广 [25] 行业竞争格局 - 国内六大推理模型水平接近OpenAI o3,部分测试指标实现超越 [22] - 模型性能只是客户选择标准之一,还需考虑数据、生态等多方面因素 [25] - AI六小虎面临转型压力,方向与大厂重合但资源依赖大厂 [28] 国产化进程 - 英伟达可能暂停RTX 5090D供应,加剧行业"卡脖子"风险 [28] - 科大讯飞通过四大核心技术优化实现MoE模型集群推理性能翻倍 [28] - 全栈国产化大模型有望成为新主流,摆脱国际环境制约 [28][29]
不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究
量子位· 2025-04-29 16:02
实验数据显示,在低资源情况 (即少token数量、少模型参数) 或低延迟情况下,Nothinking方法得出的结果均优于Thinking方法的结果, 实现比传统思考方式更好的精度- 延迟权衡。 其他情况下,NoThinking方法在部分数据集上的表现也能超越Thinking。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 其实…… 不用大段大段思考,推理模型也能有效推理! 是不是有点反常识?因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。 这个过程往往用时很长,等同于需要消耗大量算力。已经有一些研究尝试提高推理效率,但大多仍依赖显式思考过程。 来自UC伯克利和艾伦实验室团队的最新研究结果打破了这一刻板印象—— 通过简单的prompt绕过「思考」这一过程直接生成解决方案,可能同样有效,甚至更好。 这种方法被称为 "无思考(NoThinking)"方法 。 「思考」和「无思考」 研究团队以DeepSeek-R1-Distill-Qwen模型为基础,提出了NoThinking方法。 咱们先来分辨一下Thinking和NoThinking的区别在哪里。 Thin ...
奥特曼自诩:达到或接近天才水平!OpenAI,重磅发布!
证券时报· 2025-04-17 12:31
模型发布概述 - OpenAI发布两款o系列推理模型o3和o4-mini,是o系列中首次可以使用图像进行思维链推理、实现“看图思考”的模型 [1] - o3是公司最强大的推理旗舰模型,在编程、数学、科学、视觉感知等多个维度基准测试中处于领先位置 [1] - o4-mini是针对快速高效、成本效益推理优化的较小模型,更具性价比 [1] 模型性能与能力 - o3和o4-mini经过训练可在做出反应前进行更长时间的思考,是公司迄今为止发布的最智能模型,代表ChatGPT能力的一次重大飞跃 [6] - 在STEM问答、图表阅读和推理、感知原语和视觉搜索方面均达到新的最先进性能 [8] - 在外部专家评估中,o3在困难的现实任务中比OpenAI o1犯的重大错误少20%,在编程、商业/咨询和创意构思等领域表现出色 [8] - o4-mini以其尺寸和成本实现卓越性能,是AIME2024和2025基准测试中表现最佳模型,支持比o3高得多的使用限制,具备高容量、高吞吐量优势 [8] 图像推理与工具调用 - o3和o4-mini可以直接将图像整合到思维链中,用图像进行思考,在多模态基准测试中展现顶尖性能 [10] - 模型可解读白板照片、教科书图表或手绘草图,即使图像模糊、反转或质量低下也能进行解读,并可动态操作图像进行旋转、缩放或变换 [10] - 模型可完全访问ChatGPT中的工具,以及通过API函数调用访问用户自定义工具,能够将多个工具调用串联起来自主执行任务 [13] 公司产品策略与路线图 - 公司在新模型发布上保持密集节奏,在推出o3系列前一天还推出三款GPT-4.1系列模型,包含标准版GPT-4.1、轻量款GPT-4.1mini及超小型版本GPT-4.1nano [15] - GPT-4.1系列是面对全球大模型厂商激烈价格竞争采取的策略,以更具性价比版本吸引用户,其最大优势在于多模态处理、代码能力、指令遵循和成本方面显著提升 [15] - GPT-4.1比GPT-4o价格降低26%,GPT-4.1Nano作为最小最快模型,每百万token成本仅为12美分 [15] - 公司预计在未来几周内将o3升级到专业版o3-pro [4] - GPT-5发布时间延迟,项目已开发超过18个月,成本花费巨大却未取得预期成果,因计算能力限制和整合困难无法按预期频率推出 [16] - 公司计划在未来几个月发布GPT-5,并预期发布后会非常受欢迎,需要提前做好准备 [16]
OpenAI最早本周发布“o3或o4-mini”,“博士水平AI”要来了?
硬AI· 2025-04-15 23:34
编辑 | 硬 AI OpenAI最新模型取得突破性进展:具备原创构思能力。 点击 上方 硬AI 关注我们 据介绍,最新模型不仅能总结研究论文或解决数学问题,还能够独立提出新构思,连接不同领域的概念,提出创新性实验 设计,完成需要科学家跨领域合作才能实现的成果,相当于"博士水平AI"。 硬·AI 作者 | 李笑寅 据媒体援引知情人士消息, OpenAI最早将在本周发布代号为o3或o4-mini的新模型, 该模型不仅能总结 研究论文或解决数学问题,还能够独立提出新构思,连接不同领域的概念,提出创新性实验设计。 据介绍,即将推出的新模型能同时利用物理学、工程学和生物学等多个领域的知识,提供跨学科的解决方 案,而科学家通常需要跨领域合作才能实现类似成果,相当"博士水平AI"。 硬·AI OpenAI总裁Greg Brockman在2月的"AI研讨会"活动上曾表示: "我们真正的方向是开发能够花大量时间认真思考重要科学问题的模型,我希望在未来几年内,这将 使所有人的效率提高10倍或100倍。" * 感谢阅读! * 转载、合作、交流请留言,线索、数据、商业合作请加微信:IngAI2023 * 欢迎大家在留言区分享您的看法 ...
智谱想给DeepSeek来一场偷袭
虎嗅· 2025-03-31 20:39
文章核心观点 智谱在3月31日中关村论坛闭幕式现场推出新模型反击DeepSeek,同时公司在商业化布局、技术研发等方面有相应规划和思考,以应对行业变化和挑战 [2][6] 公司动态 - 3月31日智谱在智能体产品和基座模型两大维度分别推出"AutoGLM沉思模型"和推理模型GLM - Z1 - Air,Air用32B参数比肩671B的DeepSeek R1模型,价格仅为其1/30,且将于4月14日正式开源 [2] - 智谱CEO张鹏称公司在为IPO铺路但无具体计划,商业化以端侧为切口渗透七大行业,还宣布与东盟十国及“一带一路”沿线国家共建“自主大模型共建联盟” [6] - 智谱2023年开始在Agent领域投入,现阶段认为进入可大规模应用和落地阶段 [16] - 智谱会对具身智能进行相应布局,但还需时间 [19] 行业现状 - 2025年大模型圈“预训练”难成关键词,大模型六小虎中百川智能大批核心成员离职并砍掉部分业务,零一万物放弃万亿参数赛道转向B端业务 [3] - 自2025年初DeepSeek以“成本优势 + 开源”撕开市场缺口,头部云厂商依托生态优势卡位,大模型创业公司用价格力挽狂澜 [9] - 第一季度资本对大模型初创公司失去耐心,除智谱连续拿到地方产投融资,无市场化资本进入其余大模型企业 [4] - 大模型企业面临商业化难题,预训练未能让基座模型厂商形成护城河 [5][6] 对话问答 开源策略与商业化 - 开源是智谱从第一天开始坚持的事,宣布2025年为开源年是考虑DeepSeek对技术生态和认知的影响,公司认为模型即服务(MaaS)会落地,开源与否不是关键问题 [12] 预训练与推理模型 - 预训练仍很重要,是RL等方法的基座模型天花板,其中预训练的架构、数据使用效率等有很多待研究点 [13] - 推理模型在泛用性任务上表现不及预期,但技术改进会产生新可能,其应用受技术发展阶段影响 [14] 融资计划 - 实现AGI路程长,从0到1开拓试错成本高,公司走在前面的部分需加大投入 [15] Agent领域 - Agent核心能力是模型本身能力和感知环境与环境智能交互能力,AutoGLM更早用于手机端,其他端侧也可接入,但存在设备交互方式和硬件适配问题 [17] 战略层面 - 公司定位技术驱动,技术研发和商业化两条腿动态调整,目前核心任务和资源投入仍侧重技术研发 [21] 落地预期 - 去年公司整体实现超100%增长,今年预计市场呈十倍以上增长,公司会保持稳定商业化落地速度和效益 [22]
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
文章核心观点 - DeepSeek R1作为高性能推理模型代表开源透明特性推动行业技术发展[3][4] - 推理模型通过多阶段训练实现自我反思和链式思维显著提升复杂问题解决能力[11][13][20] - 模型创新聚焦计算效率优化包括MLA架构和GRPO算法降低训练与推理成本[30][31] - 开源模型生态加速应用创新使本地设备运行高性能AI成为可能[36][37] DeepSeek技术架构 - 采用多头潜注意力机制(MLA)优化KV向量存储效率支持扩展上下文长度至128K[30] - 引入耦合绳(couple rope)技术解决位置向量丢失问题提升长文本处理能力[30] - 使用FP8混合精度训练和GRPO采样算法提升训练效率减少计算资源消耗[30][31] 多阶段训练流程 - 预训练阶段基于互联网全量数据使用H100 GPU集群进行下一代token预测[6][27] - 有监督微调(SFT)使用人类生成示例教导模型直接输出答案而非自动补全[7][9] - 基于人类反馈的强化学习(RLHF)通过偏好评分优化答案质量[9][10] - R1训练包含两次SFT和两次RL阶段累计使用80万条样本(60万数学代码+20万创造性写作)[26] 模型性能突破 - R1答案长度从1000 tokens增至1万 tokens实现20倍推理量增长[20] - 在数学编程等可验证领域通过自我纠错机制实现答案准确率提升[13][22] - 蒸馏版本在7B参数设备运行效果优于直接应用RL训练[35][38] 行业影响与趋势 - 推理模型需求推动GPU算力增长20倍测试时计算成为新瓶颈[31][33] - 开源模型促使多厂商性能差距缩小行业竞争从数据规模转向训练方法创新[34] - 550万美元训练成本显示高效实验设计重要性(最终测试仅占小部分成本)[27][29] 应用场景拓展 - 本地化部署支持MacBook等设备通过Ollama开源软件实现离线推理[36] - 量化技术进一步降低设备门槛推动边缘计算场景落地[37] - 可验证领域(数学/代码/谜题)成为推理模型优先落地方向[14][26]
解读英伟达的最新GPU路线图
半导体行业观察· 2025-03-20 09:19
高科技公司路线图的重要性 - 高科技公司通常拥有技术路线图以向关键投资者和客户展示未来技术发展路径 [1] - 路线图可降低技术规划和采用风险 尤其在芯片制造难度加大的市场环境中 [1] - 部分公司如Oracle、Nvidia和AMD曾通过公开路线图展示技术迭代计划 [2] Nvidia的技术路线图战略 - Nvidia通过公开路线图向超大规规模客户展示其持续领先的技术开发能力 [2] - 路线图涵盖GPU、CPU、纵向扩展网络和横向扩展网络等多领域技术 [3] - 公司未将Quantum系列InfiniBand交换机纳入路线图 因AI领域更倾向以太网解决方案 [4] Blackwell系列GPU技术细节 - Blackwell B100/B200 GPU实际发布于2023年 而非路线图标注的2024年 [5] - B300 GPU内存容量提升50%至288GB FP4性能提升50%达15千万亿次浮点运算 [7] - GB300 NVL72系统FP4推理性能达1100 petaflops FP8训练性能360 petaflops 计划2025年下半年上市 [7] ConnectX系列网络技术进展 - ConnectX-8 SmartNIC速度达800Gb/秒 是前代ConnectX-7的两倍 计划2024年推出 [8] - 2028年将推出ConnectX-10 NIC 速度进一步提升至3.2Tb/秒 [18] Vera Rubin架构创新 - 2026年推出的Vera CV100 Arm处理器采用88核设计 支持同步多线程至176线程 [8] - NVLink C2C带宽翻倍至1.8TB/秒 与Blackwell GPU的NVLink 5匹配 [8] - Rubin R100 GPU配备288GB HBM4内存 带宽提升62.5%至13TB/秒 [9][10] 机架级系统性能飞跃 - VR300 NVL144系统FP4性能达50千万亿次浮点运算 是GB200系统的5倍 [13] - 2027年Rubin Ultra GPU将集成4个芯片于单插槽 FP4性能100 petaflops 配备1TB HBM4E内存 [14] - VR300 NVL576系统采用Kyber液冷机架设计 推理性能达15百亿亿次浮点运算 是当前系统的21倍 [16][17] 未来技术规划 - 2028年"费曼"GPU将搭配Vera CPU和3.2Tb/秒ConnectX-10 NIC [18] - 路线图显示Nvidia将持续提升NVSwitch带宽 2028年达7.2TB/秒 [18] - 公司通过系统级创新保持AI计算领域的技术领先地位 [19]
从腾讯百度到车企券商,为何「万物」都想接入 DeepSeek?
声动活泼· 2025-03-14 13:45
DeepSeek模型的技术优势 - DeepSeek-R1作为推理模型具备深度思考能力,能够识别和反思错误[2] - 在Chatbot Arena基准测试中,DeepSeek-R1综合排名全球第6位,是国内排名最靠前的大模型[3][4] - DeepSeek-R1在数学、代码和自然语言推理性能上几乎比肩OpenAI o1模型正式版[3] 市场接入规模与范围 - 微信(月活跃用户13.8亿)等互联网大厂应用接入了DeepSeek模型[1] - 吉利、一汽大众等几十家车企以及华为等手机厂商已完成接入[1] - 银行、券商、公募基金以及深圳、广州等地方政府部门纷纷接入DeepSeek[1] 开源优势与本地部署特性 - 开源特性大幅降低本地部署门槛,只需少量硬件和算力即可安装[5] - 本地部署保证数据安全性,所有数据保存在本地且用户可自主控制权限[6] - 企业可训练和微调DeepSeek模型满足独特需求,如司法系统通过数据训练提升办案效率[5][6] 商业应用与市场影响 - 腾讯元宝接入DeepSeek后下载量攀升至中国区苹果应用商店前三位[7] - 车企将接入DeepSeek作为吸引消费者的关键卖点,帮助传统车企拉近智能化差距[8] - 云服务商通过接入流量大、价格低的DeepSeek在价格战中占据优势,吸引成本敏感客户[8] 行业挑战与潜在问题 - 大量企业接入可能导致服务同质化,削弱核心差异[9] - 数十亿级别API调用量可能影响DeepSeek系统承载能力和响应速度[9]