Workflow
推理
icon
搜索文档
速递|与微软再对弈,OpenAI向CoreWeave注资120亿美元
Z Potentials· 2025-03-11 11:27
OpenAI与CoreWeave的战略合作 - OpenAI与CoreWeave签署五年期协议,价值119亿美元,涉及3.5亿美元股权获取 [1] - CoreWeave为OpenAI提供AI专用云服务,拥有32个数据中心和超25万台NVIDIA GPU [2] - 交易助力CoreWeave缓解IPO前对单一客户(微软)依赖的担忧,微软2024年贡献其62%收入(19亿美元) [2] CoreWeave的财务与业务动态 - CoreWeave 2024年收入达19亿美元,较2023年2.289亿美元增长近8倍 [2] - 公司计划通过IPO筹集40亿美元,部分资金用于偿还79亿美元债务 [6] - 创始团队已套现4.88亿美元股票,每人获利超1.5亿美元 [6] 微软与OpenAI的竞争关系 - OpenAI通过合作CoreWeave减少对微软云服务的依赖,微软原为其唯一云提供商 [5] - 微软开发自有AI推理模型MAI,与OpenAI产品直接竞争,并聘请竞争对手Mustafa Suleyman [5] - 双方在企业客户市场存在竞争,OpenAI拟推出高价AI代理加剧紧张 [4] CoreWeave的行业背景 - 公司由加密货币挖矿转型,现专注AI云服务,获NVIDIA 6%持股支持 [2] - 已部署NVIDIA Blackwell等最新GPU,强化AI推理能力 [2] - 业务扩张与债务高企并存,IPO成败或影响其偿债能力 [6]
AI转向”推理模型和Agent时代“,对AI交易意味着什么?
硬AI· 2025-03-10 18:32
行业趋势转变 - AI行业正经历从传统大模型向推理模型和Agent的转变 强调"巧"而非"大" [2][4] - 模型进化方向从死记硬背转向链式思考(CoT) 实现多步验证和精准输出 [5] - 应用范式从聊天机器人升级为能执行任务的Agent 覆盖客户服务 金融分析等场景 [7] 技术路径分化 - 两种发展情景:Chinchilla缩放持续有效则2028年模型达65万亿参数 或预训练停滞转向推理优化 [10][11] - 推理模型代表如OpenAI的o1/o3和DeepSeek R1 已展现更高基准测试成绩及成本优势 [5] - 算力需求结构变化:推理计算占比将超50% 2028年推理算力缺口达2500亿exaFLOPS [13] 产业链影响 - 芯片需求从通用训练芯片转向定制推理芯片 网络设备商持续受益 [9][18] - 开源模型(Llama/DeepSeek)发展迅速 但微调成本仅为大模型训练的小部分 [15][16] - 科技巨头自由现金流可能改善 因推理成本下降减少资本支出压力 [19] 投资逻辑重构 - 缩放定律有效时优先布局芯片/设备供应商 警惕高资本支出科技企业 [1][18] - 预训练停滞则关注科技巨头现金流回升及用户基数大的应用类公司 [1][19] - ChatGPT两月新增1亿用户显示Agent应用爆发潜力 [7]
特朗普试图废除拜登芯片法案;麦当劳开始“AI改造” | 硅谷周报
创业邦· 2025-03-10 18:20
里程碑 - 特朗普主张废除拜登芯片法案,计划将527亿美元资金用于偿还债务,并提议以关税替代补贴 [5] - 台积电宣布未来四年在美国追加1000亿美元投资,用于新建三座晶圆厂、两座先进封装设施及一个研发中心 [5] - 微软积极开发AI推理模型,提升与OpenAI的竞争力,Azure AI平台已推出多种基础模型并提供模型即服务功能 [6][7] - 亚马逊AWS成立代理AI团队,目标成为下一个十亿美元业务,Alexa+已展示自动预订Uber等代理AI功能 [8] - 英国自动驾驶初创公司Wayve进军德国,在斯图加特设立测试和开发中心,此前完成10.5亿美元C轮融资 [10][11] - Figma计划2025年IPO,年度重复收入预计超7亿美元,2023年曾计划被Adobe以200亿美元收购未果 [12][13] - 麦当劳对全球43000家餐厅进行AI改造,优化服务流程并解决设备故障和订单错误问题 [14][15] 公司动态 - 苹果推出搭载M4芯片的新款MacBook Air并降价,Siri部分AI改进推迟至2026年 [17][18] - 马斯克xAI在孟菲斯购买100万平方英尺房产,支持超级计算机"巨像"扩建计划 [19][20] - 安森美半导体提出以69亿美元收购Allegro MicroSystems,报价较收盘价溢价57%但被拒绝 [21][22][23] - 供应链软件公司Logility收到每股15美元主动收购要约,较此前Aptean报价高出4.9% [24][25] - 康宁与Suniva、Heliene合作生产美国本土制造比例达66%的太阳能电池板 [26][27][28] - 罗技宣布20亿美元股票回购计划并确认2025年业绩指引 [29][30] - 自动驾驶公司Avride与现代合作扩大机器人出租车车队,2025年目标扩展至100辆现代IONIQ 5 [31][32] - CoreWeave收购AI开发平台Weights&Biases,估值或达17亿美元,整合后将提供更全面AI解决方案 [33][34] - 马来西亚政府与Arm Holdings达成十年协议,支付2.5亿美元获取芯片设计蓝图 [35][36] - MIPS战略转向机器人和芯片设计,推出Atlas产品组合聚焦物理AI解决方案 [37][38] - 美国微芯科技裁员2000人(占员工总数9%),应对汽车制造商需求放缓 [39][40] 投融资 - Anthropic完成35亿美元E轮融资,估值达615亿美元,资金用于开发下一代AI系统 [42][43] - 荷兰芯片制造商AxeleraAI获欧盟6600万美元资助,开发基于RISC-V的AI推理芯片 [44][45] - 国防科技公司Epirus完成2.5亿美元D轮融资,扩大反无人机系统Leonidas™生产规模 [46] - 瑞典基金管理公司Areim旗下EcoDataCenter融资4.78亿美元,推动可持续数据中心建设 [47][48]
草稿链代替思维链,推理token砍掉80%,显著降低算力成本和延迟
量子位· 2025-03-10 11:29
核心观点 - Zoom团队提出的"草稿链"(CoD)方法可替代传统思维链(CoT),显著降低推理token使用量80%-90%,同时保持准确率基本不变,某些任务中准确率甚至提升[1][2][8] - 该方法受人类解题过程启发,通过生成简洁、信息密集的中间token作为草稿,无需修改模型结构或训练流程,仅需更新提示词示例即可实现[3][4] - 在闭源黑盒模型上具有应用优势,相比"连续潜空间推理"等方法保留了可解释性[5] 技术原理 - 草稿链要求模型为每个推理步骤生成简洁且信息密集的token,类似人类解题时只记录关键中间结果[3][4] - 实现简单,无需模型微调或强化学习,仅需在提示词中更新示例,相关代码和数据已开源[4] 成本效益 - 相比思维链减少70%-90%的token使用量,直接降低推理成本[7] - 企业每月处理100万次推理请求时,成本从3800美元降至760美元,节省超3000美元[6][7] - 规模化应用后成本优势更显著,支持企业处理海量AI查询而不产生过高费用[7] 实验验证 算术推理(GSM8k数据集) - GPT-4o标准提示准确率53.3%,思维链提升至95.4%,草稿链保持91.1%[8][11] - Claude 3.5 Sonnet标准提示准确率64.6%,思维链提升至95.8%,草稿链保持91.4%[8][11] - 草稿链将token使用量从约200个/响应降至约40个,减少80%[9] - GPT-4o延迟降低76.2%,Claude 3.5 Sonnet延迟降低48.4%[10][11] 常识推理 - 日期理解任务中,Claude 3.5 Sonnet使用草稿链准确率从87.0%(思维链)提升至89.7%[12][13] - 运动理解任务中,GPT-4o草稿链准确率达98.3%,优于思维链的95.9%[13] 符号推理(抛硬币任务) - 草稿链在保持100%准确率的同时,GPT-4o token使用量从52.4个降至16.8个,延迟从1.4秒降至0.8秒[14][15] - Claude 3.5 Sonnet token使用量从135.3个降至18.9个,延迟从3.1秒降至1.6秒[15] 局限性 - 零样本设置下有效性显著下降,GPT-4o准确率从94.8%(思维链)降至84.4%,Claude 3.5 Sonnet从90.4%降至65.5%[16][17] - 参数量小于30亿的小模型上,与思维链性能差距更大[18] - 推测因训练数据缺乏草稿链风格推理模式,需few-shot样本指导才能生成有效草稿[19]
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
技术趋势 - 硅谷巨头形成新共识:推理能力应作为大模型的核心组成部分而非附加功能,OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光:结合GPT-4.5基础模型与推理模型o3,采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈:Grok 3(10万张GPU训练)、GPT-4.5(10亿美元投入)、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式:无监督学习(GPT-3.5/4/4.5主导)与推理能力(o1/o3-mini推动),OpenAI计划分层服务用户[6] - 模型封装引发争议:斯坦福学者批评系统黑箱化导致底层机制不可解释[7],中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆:OpenAI版本支持多层级订阅(20/200美元/月),分析师评价其接近AGI水平,效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键:强化学习驱动的端到端训练优于人工编排规则,高质量数据集决定模型上限[14] - 应用局限显现:热门话题易受低质信息污染,冷门领域价值更高,无法获取未公开信息[13] - Manus提出Agent开发哲学:主张"less structure, more intelligence",重构AI浏览器、搜索等产品形态[13][15] - 投资人观点:推理/编程/工具使用能力突破临界点,催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增:阿里宣布三年3800亿元(530亿美元)投入,字节2025年资本开支达200亿美元,腾讯GPU采购大幅增长[17] - DeepSeek成关键变量:6710亿参数模型推动部署需求,完整版R1需80台H800(月成本500-600万)[17] - 算力需求矛盾显现:黄仁勋称下一代模型算力需求增长100倍[18],微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡:2月先涨17%后跌20%,中国收入占比降至15%(禁令前30%)[19][20] 投融资动态 - 并购市场活跃:3笔超1亿美元交易包括Voyage AI(2.2亿被MongoDB收购)、Humane(1.16亿被惠普收购)、Kinara(3.07亿被恩智浦收购)[21] - 基础设施领域火热:CoreWeave拟IPO募40亿(估值350亿),Together AI获3.05亿融资(估值33亿),Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化:Safe Superintelligence(OpenAI系)寻求300亿估值融资,Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司:23家获超5000万融资企业中,仅2家成立于2023年后(Genspark、Eudia),医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新:OpenAI以100美元时薪雇佣300名专家生成高质量数据(如医学/物理问题,单问题耗时2小时)[32][33] - 数据质量决定上限:行业从AI生成数据(如DeepSeek专家模型)转向人工专家生产,Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升:GPT-4.5后训练阶段依赖高价专业数据,OpenAI投入超600万美元/月用于专家数据生产[33]
算力又演绎到了 熟悉的节奏
小熊跑的快· 2025-03-06 07:37
文章核心观点 算力演绎到23年云租赁逻辑,仍在云框架内,阿里新模型QwQ - 32B性能出色且开源,推动国内推理需求和应用部署 [1] 行业动态 - 算力发展演绎到23年云租赁逻辑,未脱离云的整体框架 [1] 公司动态 - 阿里Qwen团队发布QwQ - 32B大语言模型,拥有320亿参数,性能可与具备6710亿参数(370亿被激活)的DeepSeek - R1媲美,在约1/21参数量情况下用强化学习实现性能跨越 [1] - 阿里在推理模型中集成与Agent相关能力,使其能使用工具、批判性思考并根据环境反馈调整推理过程 [1] - QwQ - 32B在Hugging Face和ModelScope开源,推动国内推理需求和应用部署,模型更小成本更低利于垂直部署 [1]
雷军终于对绿牌下手了!两会提议优化绿牌设计;夸克AI上线「深度思考」,从找答案进阶给方案;罗永浩挖来小米前50号员工做AIOS
雷峰网· 2025-03-05 08:28
新能源车牌设计争议 - 雷军建议优化新能源汽车号牌设计,指出绿色号牌制约汽车设计效果且缺乏智能化功能,提出重启调研、拓展智能功能、做好试点三点建议 [2] - 理想汽车高管认为车牌最大问题在于缺乏设计感,建议引入区域个性花纹或图案提升层次感 [4] 腾讯元宝AI产品推广 - 腾讯元宝接入DeepSeek后半个月内投放近3亿元广告,DAU从几十万飙升至iOS免费榜第2名 [5] - 腾讯调整组织架构,将元宝团队从TEG划归CSIG,并整合QQ浏览器等产品线加速AI布局 [6] - CEO汤道生表示会抓住明确机遇加大投入,近期员工加班加点更新版本功能 [8] 奔驰中国战略调整 - 奔驰中国实施"N+6"裁员方案,签署协议员工可额外获3个月工资补偿,研发体系暂未受影响 [8] - 新任CEO佟欧福提出"卷2.0"计划提升效率,管理层将理想L9和智界S7作为对标产品 [9] - 苏州团队正封闭开发MB.OS系统,此前已扩招智能化团队 [9] 石头科技业绩表现 - 2024年营收119.27亿元同比增长37.82%,海外业务通过"扫地机上太空"等营销案例实现大幅提升 [9] - 优化销售结构聚焦高毛利渠道,在德国等竞争激烈区域加大投放力度 [10] - 净利润同比下滑3.42%,主因研发和市场投入增加导致增收不增利 [11] 小米高端化战略 - 小米15 Ultra欧洲定价1499欧元超越iPhone 16 Pro Max,卢伟冰称体现技术信心 [11] - 雷军两会提案聚焦新能源车牌设计优化,相关话题单日微博阅读量超2亿 [2][11] 自动驾驶领域动态 - 滴滴自动驾驶寻求50亿美元估值融资,用于Robotaxi量产和技术研发 [16] - 运营200+辆测试车,已在北京、广州、上海开展路测 [17] 半导体行业动向 - 英伟达博通测试英特尔18A工艺,可能转移部分芯片制造订单 [23] - 英伟达单日市值蒸发2650亿美元,股价较峰值缩水9000亿美元 [25] - OpenAI因GPU短缺推迟GPT-4.5全面发布,Pro版定价200美元/月 [22] 企业融资与重组 - Anthropic完成35亿美元E轮融资,估值达615亿美元,同期发布Claude 3.7模型 [27] - 惠普宣布新增裁员2000人,将90%北美产品生产移出中国 [21] - 比亚迪完成435亿港元H股配售,创汽车行业十年最大股权融资纪录 [15]
【海外TMT】优必选极氪5G智慧工厂实训效果突出,有望推动群体智能与规模化应用——海外机器人系列跟踪报告(五)(付天姿/黄铮)
光大证券研究· 2025-03-04 17:36
事件概述 - 优必选在极氪5G智慧工厂成功开展全球首例多台、多场景、多任务人形机器人协同实训,实现从"单机自主"向"群体智能"的跨越 [2] 技术突破 - 创新提出人形机器人群脑网络(BrainNet)软件架构,设计人形智能网联中枢Internet of Humanoids(IoH),包含云端协同的超级大脑和智能小脑 [3] - 超级大脑基于多模态具身推理大模型,突破智能混合决策技术,实现复杂产线级任务的高维决策 [3] - 智能小脑基于Transformer模型,研发跨场域融合感知技术和多机协同控制技术,支持多机并行分布式学习 [3] - 研发全球首个人形机器人多模态推理大模型,基于DeepSeek-R1深度推理技术,赋予机器人类似人类常识的推理能力 [3] - 模型依托Walker S系列在多个车厂积累的亿级高质量工业数据集训练调优,结合RAG技术快速训练专业工种 [3] 实训成果 - 2025年优必选工业人形机器人进入实训2.0阶段,数十台Walker S1机器人在极氪5G智慧工厂多场景开展协同实训 [4] - 协同分拣:应用跨场域纯视觉感知技术,实现动态目标跨场域连续感知与跟踪,群体协作构建并共享全局地图 [4] - 协同搬运:通过多机协同系统,整合智能路径规划与动态负载调整技术,显著提升搬运大尺寸及大负载工件的稳定性 [4] - 精密装配:凭借高精度感知与自适应控制技术,动态调整抓取力度与姿态,确保装配无损伤、无偏移 [4] - 精准质检:融合基于视觉感知的全局初对准和基于力感知的强化学习二次对准技术,完成精准操作类质检任务 [4]
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位· 2025-03-04 12:51
大模型评测新基准SuperGPQA - 字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决传统评测基准的局限性 [2] - SuperGPQA覆盖285个研究生级学科,包含26,529道专业题目,远超现有GPQA(448题)和MMLU-Pro(12,032题)[3][10] - 该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注 [2] 传统评测基准的局限性 - 传统基准如MMLU和GPQA覆盖学科数量不足50个,无法涵盖人类积累的多样化和长尾知识 [8] - GPT-4o在MMLU-Pro上准确率达92.3%,导致评测体系失去区分度 [1][8] - 传统基准42%的问题来自维基百科,缺乏专业深度,易被模型通过记忆机制"破解" [8] SuperGPQA的创新特点 - 学科覆盖全面:覆盖13个门类、72个一级学科和285个二级学科 [10] - 题目设计更具挑战性:每题平均9.67个选项,比传统4选项格式难度更高 [10] - STEM领域问题占比77.2%,确保在复杂推理任务中的高效评估 [12] - 42.33%的问题需要数学计算或严谨推理,有效评估模型在高难度任务中的表现 [12] 数据构建和质量控制 - 采用专家标注、众包注释和大模型协同验证三重流程确保题目质量 [6] - 来源筛选阶段由专家从教科书、权威练习网站等可信来源收集原始问题 [13] - 质量检测阶段采用基于规则的初步过滤、基于LLM的质量检测和专家复审三层机制 [16] 模型表现评估 - 在涵盖51个模型的横向评测中,DeepSeek-R1以61.82%准确率登顶,但仍显著低于人类研究生水平(平均85%+)[4][20] - 推理模型(DeepSeek-R1、O1-2024-12-17)包揽前3,领先聊天模型超10个百分点 [24] - 豆包大模型(Doubao-1.5-pro)以55.09%准确率位列聊天模型第一,超越GPT-4o-2024-11-20(44.40%)[24] 行业影响和未来展望 - SuperGPQA的开源发布填补了行业在全面评估大模型能力方面的空白 [7][22] - 该评测基准的推出反映了行业对大模型能力评估标准提升的需求 [22] - 字节跳动通过SuperGPQA展示了其在基础研究工作上的投入和追求模型智能上限的决心 [22][23]
天翼云CPU实例部署DeepSeek-R1模型最佳实践
量子位· 2025-03-03 15:58
英特尔至强处理器在AI推理领域的优势 - 英特尔至强处理器通过AMX加速器显著提升大模型推理性能,在DeepSeek 7B蒸馏模型上实现超过9token/s的生成速率 [12] - 至强6处理器支持T级超大内存,可高效部署DeepSeek-R1 671B满血版模型,单实例单socket部署下达到9.7~10 token/s吞吐量 [13] - CPU方案在GPU资源不足或利用率低的场景下更具成本优势,资源划分粒度更小且硬件获取门槛更低 [7] 天翼云部署实践 - 提供一键部署云主机镜像,内置DeepSeek-R1-Distill-Qwen-7B模型、vLLM推理框架及open-webui前端,5分钟内自动启动服务 [4][5] - 镜像预配置vLLM API接口,支持通过8000端口直接调用模型服务,并可通过修改API_KEY增强安全性 [9] - 测试环境采用24vcpu/64GB内存配置,AMX加速后实现30-60输入token与256输出token的高效处理 [10] 大模型CPU部署性能表现 - DeepSeek-R1 671B满血版在至强6980P处理器(128核)上通过llama.cpp优化实现9.7~10 TPS,双实例部署总吞吐达14.7 TPS [32][33] - 采用Q4_K_M量化版本模型(404.43GB)平衡性能与存储成本,社区同时提供Q8_0(713.29GB)等高精度选项 [26][27] - 通过numactl绑定CPU核心与内存节点、Intel oneAPI编译器优化等技术手段最大化硬件利用率 [32] 英特尔处理器技术升级 - 第五代至强处理器(Emerald Rapids)AI推理性能较前代提升42%,大语言模型场景加速达1.5倍,TCO降低77% [16] - 至强6处理器(Granite Rapids)支持DDR5-6400内存与MRDIMM技术,内存带宽提升至2.3倍,三级缓存达504MB [17][18] - AMX加速器新增FP16支持,配合AVX-512等指令集形成完整AI软件生态,兼容主流开源框架 [18][19] 行业应用价值 - CPU方案有效解决GPU显存不足问题,适用于医疗、金融、零售等需快速接入大模型能力的行业 [2] - MOE结构参数稀疏化特性与CPU计算特点契合,降低算力需求的同时保持模型性能 [14] - xFasterTransformer框架支持多节点分布式部署,兼容vLLM等主流Serving框架,加速大模型应用落地 [20]