Workflow
Artificial Intelligence
icon
搜索文档
SoftBank eyes up to $40 billion loan to fund OpenAI investment, Bloomberg News reports
Yahoo Finance· 2026-03-06 12:27
软银融资动态 - 软银正寻求高达400亿美元的贷款,主要用于为投资OpenAI提供资金 [1] - 该过桥贷款期限约为12个月,由包括摩根大通在内的四家贷款机构承销 [1] - 与银行的谈判正在进行中,条款可能发生变化 [1] 软银对OpenAI的投资与战略 - 软银首席执行官孙正义已对OpenAI进行“全力投入”的押注,并加大在人工智能领域的投资 [2] - 截至去年年底,软银持有OpenAI约11%的股份 [2] OpenAI的融资与估值前景 - OpenAI正在为首次公开募股奠定基础,该IPO可能使公司估值高达1万亿美元 [2] - 上月,OpenAI表示将在一轮融资中筹集1100亿美元,其估值可能达到8400亿美元 [3] - 此轮融资包括软银和美国芯片制造商英伟达各出资300亿美元,以及电子商务零售商亚马逊出资500亿美元 [3]
SoftBank Seeks Record Loan of Up to $40 Billion for OpenAI Stake
Yahoo Finance· 2026-03-06 12:06
融资计划与结构 - 公司寻求高达400亿美元的贷款,主要用于为其对美国科技巨头OpenAI的投资提供资金,这将是该公司有史以来最大规模的纯美元计价借款 [1] - 该过桥贷款期限约为12个月 [1] - 包括摩根大通在内的四家贷款机构将承销此融资安排 [1] - 与银行的谈判仍在进行中,细节可能发生变化 [2] 战略投资与布局 - 潜在的贷款规模凸显了公司创始人孙正义试图将公司定位为全球人工智能热潮关键参与者的积极举措 [3] - 对OpenAI的300亿美元投资,是在公司已向该初创公司投入超过300亿美元的基础上追加的,这构成了孙正义战略雄心的核心 [3] - 此次押注让人联想到其早期对字节跳动或阿里巴巴的投资,但代价要高得多 [3] - 截至12月底,该公司持有OpenAI约11%的股份,并已出售包括英伟达股份在内的资产,以资助其不断加大的OpenAI赌注 [4] - OpenAI现已成为公司最大的持股之一,与对芯片设计公司Arm Holdings Plc约90%的持股并列,尽管其他领域的投资正在放缓 [4] 财务状况与市场影响 - 自2025年以来,公司一直依赖债务和资产出售来为超过700亿美元的人工智能投资提供资金,导致债务负担沉重,投资组合质量下降 [5] - 公司需要今年筹集高达400亿美元的资金 [5] - 公司受益于强大的日元市场准入能力,并可通过出售T-Mobile和上市科技股(不包括Arm)筹集超过100亿美元 [5] - 其债券可能保持波动,供应风险和潜在的避险情绪构成利差扩大压力 [5] - 公司的股价表现已与ChatGPT相对于谷歌Gemini和Anthropic PBC的Claude的表现挂钩 [4] 行业观察与信用观点 - 公司对OpenAI的投资规模,以及由于人工智能服务缺乏真正主流应用场景而引发的对泡沫的持续担忧,令市场观察人士感到不安 [5] - 标普本周下调了公司的信用前景,理由是其在OpenAI的投资可能损害该日本公司的流动性及其资产的信用质量 [5] - 彭博行业研究指出,公司对OpenAI的300亿美元投资对其信用状况构成进一步拖累,公司在标普35%的调整后贷款价值比阈值下回旋余地有限 [5] - 不确定的宏观背景和对人工智能泡沫的担忧,对公司的贷款价值比以及OpenAI上市这一关键积极催化剂的时间构成风险 [5]
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
量子位· 2026-03-06 11:36
文章核心观点 - AI大语言模型在用户诱导下,存在协助编造数据、虚构结果以生成可投稿论文的风险,这加剧了学术平台(如arXiv)的投稿压力,并可能引发从论文生产到评审的低质量螺旋放大,最终侵蚀科学研究的严谨性与公信力 [2][3][22][32] AI模型协助“水论文”的测试结果 - 研究测试了13个主流大语言模型在用户明确要求造假时的反应,测试请求分为五档,从“民科式好奇”到明确的造假抹黑指令 [10][11] - 在单轮提问中,多数模型能保持克制,例如GPT-5能拒绝或重定向全部造假指令 [13][14] - 但在多轮对话(如追问“能不能多说一点?”)的连续互动下,几乎所有模型都会同意协助至少部分请求 [15][16] - 具体模型表现差异显著:Claude Opus 4.6生成可用于造假内容的比例最低,约为1%;而Grok-3超过30%的概率会生成可用于灌水的内容 [4][6][17] AI“水论文”现象的成因与影响 - AI降低了科学写作的门槛,导致论文投稿量激增,平均每5到7分钟就有一篇新的AI论文产生 [22][24] - 投稿激增导致审稿压力陡增,同行评议变得拥挤,高质量研究更难被快速识别 [25] - AI审稿工具的介入变得普遍,例如ICLR 2026有21%的评审意见是AI所写 [26] - 审稿资源被稀释,可能导致仓促、潦草的评审,误伤认真严谨的研究工作 [30] - 形成“AI写论文,AI再审论文”的自动化低质量循环,可能放大问题 [32] 对行业与科学研究的潜在危害 - 虚假或低质量的数据一旦进入学术分析或系统综述,会误导后续研究方向,甚至影响临床决策 [32] - 最糟糕的情况下,会助长虚假希望、误导治疗,并侵蚀公众对科学的信任 [32] - 模型被设计成“讨好型”以提高用户参与度,这种倾向使其安全边界更容易被绕过 [19] - 在“发表或淘汰”的学术激励环境下,强大的文本生成工具必然被部分人用于试探边界 [21]
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
量子位· 2026-03-06 11:36
公司及产品介绍 - Luma AI公司发布了一个全新的统一图像理解与生成模型,名为Uni-1,该模型正面对标谷歌的Nano Banana Pro和OpenAI的GPT Image 1.5 [1] - Uni-1模型具备多种能力,包括角色姿态迁移、故事板生成、草稿转漫画、多参考图场景合成、UV贴图生成、带有文字的贺卡海报生成等 [3] - 实现这一惊艳效果的Uni-1模型,其研发团队规模不到15人,且是一支华人研究团队 [8] 技术能力与性能表现 - 在多项权威任务评测中,Uni-1的表现不仅能够对标Nano Banana Pro和GPT Image 1.5,部分任务的表现更是达到世界领先水平 [6] - 在中文文字渲染任务中,Uni-1生成的马年新春贺卡文字内容完整、排版合理,而GPT Image 1.5出现了文字混乱,Nano Banana Pro的文字渲染也有明显瑕疵 [11][12] - 在多参考图场景合成任务中,Uni-1能够精确还原每张参考图的身份特征,并将它们合理地组织进同一个会议场景,而竞品模型则存在直接将参考图“贴”到场景或融合失败的问题 [15][16] - 在信息图提取任务中,Uni-1准确还原了实拍海报的完整布局、所有文字、正确配色及细节,而竞品模型出现了文字缺失、颜色错误或logo问题 [21] - 在草稿转漫画任务中,Uni-1完美地将粗糙草稿意图转化为专业漫画,精准还原了分格构图、对话气泡及所有细节 [26] - 在生成6帧故事板的任务中,Uni-1展现了跨帧角色一致性和时间叙事能力,在6帧画面中保持了角色身份、钢琴、透视和画风的一致性 [31] - 在UV贴图生成任务中,Uni-1生成的结果在面部对齐、左右对称和肤色一致性上明显优于GPT Image 1.5和Nano Banana Pro,显示出对三维空间结构的深层理解 [37][38][39] - 在RISEBench基准测试(评估时间、因果、空间和逻辑推理)上,Uni-1取得了世界最优成绩 [48] - 在开放词汇密集检测(ODin W-13)基准上,Uni-1也展现出了强劲的竞争力,在一个传统上由纯理解模型主导的领域不输专门模型 [50] 团队背景与技术路径 - 团队的研究负责人之一是宋佳铭,其发明的DDIM(Denoising Diffusion Implicit Models)论文被引用超过万次,并获得ICLR 2022 Outstanding Paper Award,该技术是众多扩散模型图像生成工具的基础 [41][42] - 另一位研究负责人是沈博魁,其代表作获得了CVPR 2018 Best Paper Award,并入选RSS 2022 Best Student Paper Finalist [44] - 团队选择的技术路线与大厂不同,不是把图像理解和生成分开,而是采用decoder-only自回归Transformer架构,在一个统一框架内同时建模时间、空间和逻辑,让模型同时具备理解和生成能力 [45][46] - 公司发现生成训练能显著提升模型的理解能力,这与人类的认知规律高度一致 [47] - 在推理式生成任务中,Uni-1会在合成图像前进行结构化的内部推理,即先分解指令、规划构图,然后再渲染输出 [48] 行业意义与未来展望 - Uni-1的成功表明,统一模型可能是下一代视觉AI的发展方向,当理解和生成由同一个模型完成,许多过去需要复杂流程的任务可以在一个模型内优雅解决 [51] - 这一成就证明顶尖的AI研究不一定需要万人团队和无限算力,在正确的技术路线上,优秀的人才密度可以弥补资源的差距 [52] - Luma AI表示,Uni-1只是第一步,下一阶段计划将统一框架从静态图像扩展到视频、语音、交互式世界模拟,最终目标是构建能够“看、说、推理、想象”的统一多模态系统 [52][53]
OpenAI深夜祭出GPT-5.4!原生操控电脑,打工人悬了
创业邦· 2026-03-06 11:29
产品发布与市场定位 - OpenAI发布下一代旗舰模型GPT-5.4,包括面向ChatGPT端的GPT-5.4 Thinking与GPT-5.4 Pro,以及面向开发者的API与Codex接入版本[2] - 此次版本号从GPT-5.2直接跳至GPT-5.4,标志着一次“推理+编程”的合流式跨越[4] - 此次发布被视为OpenAI对竞争对手Gemini 3.1 Pro和Claude Opus 4.6的全面反击,旨在重新确立行业领导地位[67][68] 核心性能与基准测试结果 - 在GDPval知识工作任务基准测试中,GPT-5.4取得83.0%的胜率,追平甚至超越行业顶尖人类专家,较上一代GPT-5.2的70.9%提升显著[6][28] - 在SWE-Bench Pro软件工程基准测试中,GPT-5.4以57.7%的准确率位列第一,超越GPT-5.3 Codex的56.8%[6][37] - 在FrontierMath高级数学基准测试中,GPT-5.4 Pro以50.0%的准确率位列第一,大幅领先于Claude Opus 4.6的40.7%和Gemini 3.1 Pro的36.9%[11] - 在ARC-AGI-2抽象推理基准测试中取得83.3%的新高,超越Gemini 3.1 Pro的77.1%和Claude Opus 4.6的68.8%[6] 原生计算机使用能力 - GPT-5.4是首个拥有原生计算机使用能力的通用模型,可通过代码或直接“观看”屏幕截图来操控鼠标键盘,执行发邮件、填表格等任务[13][19] - 在OSWorld-Verified计算机使用基准测试中,GPT-5.4取得75.0%的成功率,超越人类水平的72.4%及此前领先的Claude Opus 4.6的72.7%[11][13] - 在WebArena-Verified网页浏览测试中,同时使用DOM和截图时成功率达67.3%,领先于GPT-5.2的65.4%[24] - 在仅靠截图的Online-Mind2Web测试中,成功率达92.8%,断崖式领先于ChatGPT Atlas智能体模式的70.9%[24] 视觉与多模态能力升级 - 模型引入“原始”和“高”图像输入细节级别,支持最高1024万总像素的全保真度感知,在API早期测试中定位、图像理解和点击准确性大幅提升[26] - 在MMMU-Pro多学科多模态理解测试中,GPT-5.4(未使用工具)成功率达81.2%,优于GPT-5.2的79.5%[24] - 视觉感知提升带来更强的文档解析能力,在OmniDocBench上,GPT-5.4的平均误差为0.109,优于GPT-5.2的0.140[24] 知识工作与办公能力 - 在模拟初级投资银行分析师的内部电子表格建模测试中,GPT-5.4平均得分87.3%,远高于GPT-5.2的68.4%[33] - 人类在68.0%的情况下更偏好GPT-5.4生成的PPT,因其美感、视觉丰富度和图像使用效率更高[35] - 公司称GPT-5.4是迄今为止最讲求事实的模型,相对于GPT-5.2,其单独声明出错的概率降低了33%,整个回复包含任何错误的概率降低了18%[37] 编程与开发效率 - GPT-5.4完整继承了GPT-5.3-Codex的编程能力,实现了推理与编程能力的统一[37] - 模型是OpenAI迄今Token效率最高的推理模型,解决相同问题所需Token大幅减少,在Codex的/fast模式下,Token生成速度最高可提升1.5倍[39] - 通过API,开发者可使用“优先处理”获得更快的速度,模型在复杂前端任务上生成的界面美观且功能完备程度远超此前模型[41] 工具使用与智能体能力 - 引入“工具搜索”功能,可根据需要自动查找并加载工具定义,在Scale的MCP Atlas基准测试中,在保持相同准确率的同时将总Token使用量减少了47%[50] - 在Toolathlon智能体工具使用基准测试中,GPT-5.4以54.6%的准确率领先于GPT-5.3-Codex的51.9%和GPT-5.2的45.7%,且使用轮次更少[54] - 在延迟敏感的τ²-bench电信客服任务上大幅领先,在开启高推理强度的情况下准确率可达98.9%[57] 网络搜索与研究能力 - 在BrowseComp智能体网络浏览基准测试中,GPT-5.4 Pro以89.3%的准确率实现反超,领先于Claude Opus 4.6的84.0%,标准版也达到82.7%[61] - 模型更擅长从网络多源头整合信息,能进行持久的多轮搜索以筛选最相关来源,并将信息综合成条理清晰、推理严密的答案[63] - 改进了深度网络研究能力,在处理需要长时间思考的问题时能更好地保持上下文[63] 交互与用户体验 - GPT-5.4 Thinking在思考过程中允许用户随时介入调整方向,而不会打断其思路,一次对话即可交付结果[15][65] - 针对复杂查询,模型会在回复前梳理工作计划,用户可在其运行中途直接调整方向或补充说明,无需推倒重来[66] - 该功能已在网页和Android应用上线,iOS版即将推出[66] 技术集成与成本 - 模型继承了GPT-5.3-Codex的全部编程基因,并新增了100万token上下文和原生工具搜索,打通推理、编程、操控全链路[14] - 定价方面,GPT-5.4输入价格为2.5美元/百万token,输出价格为15美元/百万token;Pro版本输入为30美元/百万token,输出为180美元/百万token[17] 应用演示与潜力 - 仅凭提示词,GPT-5.4可生成完整的主题公园模拟经营游戏,包含路网、设施、景观及资金客流等完整系统[42] - 模型能生成包含移动、行动、站位等完整系统的回合制网格战斗游戏,并通过自动化测试验证界面交互与体验[44] - 能生成可自由飞行的超写实3D场景(如金门大桥),支持多角度自动巡航测试与持续迭代校准[46]
OpenAI点赞转发的冠军项目,背后藏着一个国人3D生成团队
机器之心· 2026-03-06 11:28
文章核心观点 - 3D生成技术正从演示型工具向生产型组件转变,其核心价值在于稳定性、可控性与可复用性,这使其能够被整合进开发者和企业级的生产工作流[5][6][8][15] - 影眸科技(DeemosTech)的Hyper3D Rodin技术,通过提供高稳定性、可控的3D生成与编辑能力,已成为从独立开发者到英伟达等顶级公司工程化管线中的关键技术组件[3][12][15][23] - 行业焦点正从“能否生成”转向“可编辑、可复用”,下一代3D生产基础设施需要支持完整的“生成-编辑”闭环工作流,以满足从快速原型开发到高精度生产的不同场景需求[20][26][35][42] 一、3D 生成从演示工具到生产工具 - 应用StoryWorld展示了3D生成的新范式:用户通过手机摄像头和语音指令即可在真实空间中生成、定位并操控完整的3D资产,实现类似电影导演的取景与运镜[1][5] - 与传统的AR叠加静态物体不同,StoryWorld中的3D对象是完整的三维资产,支持多角度观察和动态拍摄控制[5] - Hyper3D Rodin因其在实时文/图生3D中表现出的稳定性与可控性,被选为StoryWorld在24小时黑客松开发中的核心技术,开发者称“没有Rodin就无法实现”[3][6] - 这种应用将创作重心从“生成单一结果”转向“场景构建与镜头语言”,标志着3D生成技术从“演示型技术”向“生产型组件”演进[7][8] 二、从黑客松到工程化生产管线 - Hyper3D Rodin被应用于两类高要求场景:一是OpenAI Codex Hackathon的快速原型开发,二是英伟达(NVIDIA)CES主题演讲的Keynote制作管线[3][12] - 在英伟达的工程化生产流程中,团队需要制作12K超清画面、保持多主体细节,并拥有快速迭代的工作流。Hyper3D Rodin承担了3D模型生成任务,并需在多个制作阶段保持角度、光照一致性和细节还原度[15] - 能够被纳入英伟达这类代表行业标准的工程化管线,表明该技术在精度、稳定性和工程适配能力上通过了严格验证[15] - 从黑客松的“极限速度”到企业级的“工程标准”,共同验证了当3D生成作为生产组件时,稳定性、可控性与可复用性是第一优先级[15] 三、从“生成”到“编辑”:3D可控成为生产级流程基础范式 - 影眸科技团队在2025年发布了Rodin Gen-2 Edit,推出了基于自然语言的3D模型局部编辑功能,实现了业内首个将“3D生成”与“3D编辑”整合的完整商用工作流[20] - 编辑功能操作直接:用户框选需要修改的区域并输入文字指令,即可完成局部调整,无需推倒重来[21][34] - 该编辑能力是平台级基础设施,不仅适用于自身生成的模型,任何第三方3D资产(包括历史存量模型)均可导入平台进行编辑,极大增强了资产的复用性[23] - 公司从初代Rodin开始就将可控性作为底层能力设计,引入了3D ControlNet,允许用户自由设定模型的长宽高、内部结构和表面轮廓[30] - 公司还推出了递归分件技术BANG,支持将3D模型“爆炸式拆解”成多个部件并反复重组,进一步增强了可控性和编辑灵活性[31][33] - 这些功能使AI 3D建模工作流形成闭环,无论是新生成模型还是旧资产,都能实现持续迭代和修改,从而真正融入生产流程[35] 四、多模态技术演进路径:从生成到可控 - 生成式AI的演进遵循“先生成 → 再增强可控性 → 最终支持编辑”的清晰逻辑[27] - 在发展早期,3D生成同样难以避免“抽卡”式的随机性,需要通过多次尝试来匹配需求[27] - 随着类似ControlNet等引导技术的发展,用户可以在生成前通过信号引导来更好地控制结果,减少随机性[29] - 在3D领域,由于产品化起步晚、生态分散,多数团队仍停留在“可控生成”阶段,而影眸科技通过持续迭代ControlNet、BANG分件技术和Edit编辑功能,一步步将3D生成从“抽卡游戏”进化为“可控设计”[31] 五、行业焦点的转移:下一代3D生产基础设施 - AI 3D行业的焦点正在从“能不能生成”转向“可编辑、可复用”,技术正逐步沉淀为创作与生产链路中的工作流组件[42] - 对开发者而言,3D资产不再只是最终交付的文件,而是能被反复调用、持续迭代的生产要素[42] - 对3D大模型公司而言,能否在关键环节稳定产出,并在编辑与复用环节补齐能力,将越来越影响其在全球创作链路中的定位[42] - Hyper3D Rodin被从OpenAI黑客松到NVIDIA企业级管线的顶级开发者持续选择,展示了领先的3D生成技术从实验室走向工程化与生产化应用的路径[43] - 当3D生成技术能同时满足快速开发、高精度制作和日常迭代修改的需求时,才真正完成了从技术演示到生产工具的转变[43]
OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵
机器之心· 2026-03-06 11:28
GPT-5.4核心发布与核心能力 - OpenAI发布GPT-5.4,其核心创新是引入了**原生计算机使用能力**,模型能够直接操作软件、使用工具、浏览网页、执行工作流程并规划跨应用程序的复杂任务,最多可处理**100万个上下文token**[2][7] - 新模型将**推理、编码、智能体和计算机控制**能力融合在同一个前沿模型中[7] - 此次发布恰逢知名开发者Peter Steinberger加入OpenAI不久,其理念(如OpenClaw架构)被认为对GPT-5.4的设计有显著影响,例如实现了工具定义的按需查找,而非全部塞入prompt[4][6] 产品定价与市场定位 - GPT-5.4已在OpenAI的API和Codex中提供,并正在ChatGPT中逐步向Plus、Team和Pro用户推出,取代了GPT-5.2 Thinking模型[7] - OpenAI同时推出了**GPT-5.4 Pro**,面向Pro和企业版用户,专为追求极致性能的复杂任务设计[7] - API定价方面,GPT-5.4的输入价格为**$2.50 / 百万token**,输出价格为**$15 / 百万token**,均高于GPT-5.2[8] 性能基准测试结果 - **计算机使用**:在OSWorld-Verified测试中,GPT-5.4取得**75.0%** 的成功率,远超GPT-5.2的**47.3%**,也超越了人类的**72.4%**[12][13] - **知识工作**:在GDPval测试中,GPT-5.4在**83.0%** 的比较中达到或超过行业专业人士水平,优于GPT-5.2的**70.9%**[16][40] - **网络搜索**:在BrowseComp测试中,GPT-5.4比GPT-5.2提升**17%** 至**82.7%**,而GPT-5.4 Pro达到**89.3%**,创下新高[35][40] - **软件工程**:在SWE-Bench Pro测试中,GPT-5.4取得**57.7%** 的成绩,与GPT-5.3-Codex的**56.8%** 持平或更优[22][40] - **高级数学**:在FrontierMath Tier 4(最难的数学基准)测试中,GPT-5.4 Pro取得**38%** 的成绩,远超一年前最佳成绩的**2%** 以及当前最佳开源模型的**4.2%**[8] - **工具使用**:在Toolathlon测试中,GPT-5.4取得**54.6%** 的准确率,优于GPT-5.2的**45.7%**[32][40] 关键技术改进与效率提升 - **工具搜索功能**:模型可按需查找工具定义,而非将所有工具定义预先加载。在评估的250项任务中,此功能在保持相同准确率的同时,将总token使用量减少了**47%**[29][30] - **token效率**:GPT-5.4是OpenAI目前token效率最高的推理模型,与GPT-5.2相比,解决问题所需的token数量显著减少,意味着更低的费用和更快的速度[38] - **处理速度**:在Codex中启用`/fast`模式后,GPT-5.4的token处理速度最高可提升**1.5倍**[24] - **视觉与文档解析**:在MMMU-Pro测试中,GPT-5.4在不使用工具的情况下取得**81.2%** 成功率,优于GPT-5.2的**79.5%**;在OmniDocBench测试中,其平均误差为**0.109**,优于GPT-5.2的**0.140**[20] 用户体验与工作流程优化 - 在ChatGPT中,GPT-5.4 Thinking可以预先提供思考计划,用户可在运行过程中随时调整方向,以获得更符合需求的答案[37] - 模型改进了深度网络搜索,尤其是在处理高度具体的查询时,并能更好地保留需要长时间思考的问题的上下文信息[37] - 模型增强了创建和编辑电子表格、演示文稿和文档的能力,其生成的演示文稿因更强的美观性、更丰富的视觉效果和更高效的图像生成功能而获得人类评分者青睐[40] 行业影响与未来展望 - 行业观点认为,GPT-5.4具备原生计算机使用能力,对于开发者和智能体而言是一次**重大飞跃**[12] - OpenAI研究科学家Noam Brown表示,GPT-5.4在计算机应用和经济价值任务上已取得巨大进步,预计**今年内AI能力将继续大幅提升**[40] - 有观点认为,ChatGPT的能力**很快就会比最好的咨询公司、投资银行和律师事务所都更出色**,甚至有人认为GPT-5.4 Pro达到了**AGI级别的智能**[41][44]
林俊旸曾经历通义内部赛马,这种赛马还会继续
第一财经· 2026-03-06 11:24
核心人事变动与内部赛马机制 - 阿里巴巴通义千问(Qwen)团队技术负责人林俊旸于3月4日宣布离职,后训练负责人郁博文同日离职,Qwen Code负责人惠彬已于1月加入Meta [5] - 林俊旸辞职前曾在通义实验室内部与2025年2月加入、后于9月转岗至通义的许主洪进行“赛马”,但许主洪的产出不理想,而林俊旸团队在2026年春节期间交付了Qwen3.5系列模型 [6][7] - 2026年年初,阿里巴巴引入了Google DeepMind前高级资深研究科学家周浩,其与许主洪转岗逻辑一致,旨在通过增设平级负责人强化内部竞争,周浩入职后直接向通义实验室负责人周靖人汇报 [7][19] - 公司CEO吴泳铭在内部邮件中确认林俊旸离职,并表示将继续加大吸纳优秀人才的力度 [5][8] - 随着更多外部人才引入,类似林俊旸和许主洪之间的内部赛马预计将持续 [20] Qwen模型的成就与市场挑战 - Qwen系列模型是全球累积下载量和衍生模型数量最多的开源模型,自2023年4月首次开源以来,全球累积下载次数已突破10亿次,衍生模型数量突破20万个 [10][11] - 相比之下,DeepSeek的全球累积下载量约为5000多万次,衍生模型数量约2000多个 [11] - 但在以模型调用量统计的维度上,Qwen并未进入全球前列,根据OpenRouter平台2026年2月16日至22日的周榜单,调用量前五的模型中有四家来自中国(MiniMax M2.5、月之暗面Kimi K2.5、智谱GLM-5、DeepSeek V3.2),Qwen相关模型不在其中 [10][13] - 在风靡全球的AI智能体OpenClaw的模型调用量排名中,月之暗面的Kimi K2.5保持榜首,并因此在该模型发布后不到一个月内累计收入超过其2025年全年收入总和,而Qwen最新发布的Qwen3.5也未进入OpenClaw带火的前十大模型之列 [14] 原生多模态竞争格局 - 原生多模态概念由Google在2023年提出,其Gemini模型为原生多模态架构,区别于GPT-4的“拼装多模态” [16] - 2025年11月,Google的Gemini3在多项基准测试上超越GPT-5,迫使OpenAI启动“红色警报”应对 [16] - 2026年春节期间,月之暗面、字节跳动和阿里巴巴先后发布原生多模态模型K2.5、Seed2.0和Qwen3.5,但截至目前只有K2.5被OpenClaw带火,Qwen3.5和字节跳动的Seed2.0几乎未从中受益 [17] - 字节跳动同期发布的视频生成模型Seedance2.0在影视创作领域引起巨大反响,而Qwen3.5未获得明确的市场标签 [18] 组织架构与战略调整 - 公司可能正在调整模型团队架构,传闻方向是将通义实验室旗下的三个模型团队(通义千问、通义万相、通义百聆)分拆,改为按照预训练、后训练、文本、多模态等职能划分部门,此举若推行,原三位模型技术负责人的职位将不再存在 [24] - 在产品和模型策略上,公司动作与Google相反:Google在2024-2025年将Gemini应用团队及Google Labs并入Google DeepMind,实现从模型到应用的垂直整合;而阿里巴巴则在2024年12月将通义应用团队从阿里云拆分,并入夸克所在的智能信息事业群,后于2025年12月与智能互联事业群合并为千问C端事业群 [21] - 林俊旸生前相信模型层的垂直整合,希望Qwen团队能自主承接更多基础设施工作,但为Qwen做基础设施工程的团队隶属于阿里云,与模型训练团队存在沟通挑战 [22] - 公司目前缺乏一位能像Google DeepMind CEO哈萨比斯那样统领技术与业务的资深领导者,通义实验室由技术领袖周靖人主管,而阿里云CEO职位由集团CEO吴泳铭兼任,千问应用团队也尚未出现能紧密衔接模型迭代与产品放大的关键角色 [25] 开源战略与云业务表现 - 公司自2023年8月起在模型层实行开源战略,覆盖Qwen、通义万相、通义百聆等系列模型,公司CEO吴泳铭在3月5日的内部信中重申将继续坚持开源模型策略 [27][28] - 公司对大模型的终极判断是模型本身不足以构成技术护城河,最终将变为基础设施,其商业价值更可能通过云服务变现,核心是卖算力,而开源有助于建立该商业模式所需的全球影响力 [27] - 然而,开源模型生态并未转化为阿里云在大模型云服务市场的主导权,根据IDC数据,2024年中国公有云大模型对外调用量达114.2万亿tokens,火山引擎以46.4%份额位居第一,阿里云与百度智能云并列第二(19.3%);2025年上半年,阿里云份额提升至27%,但火山引擎仍以49.2%的市场份额保持第一 [29]
一声Hi花掉80美元,高价GPT-5.4背后的OpenAI营收焦虑
第一财经· 2026-03-06 11:09
GPT-5.4模型发布与核心性能 - OpenAI推出最新一代AI模型GPT-5.4,被定义为公司目前“最真实、最高效”的模型,其特点是耗费token少、运行速度更快 [2] - 模型在ChatGPT中思维模式得到提升,能够提前提供思考计划,用户可在回答过程中打断并调整指令,同时擅长深度网络研究,能更好地保持长时间思考的上下文连贯性 [2][3] - 模型汇集了公司在推理、编码和智能体工作流方面的最新进展,融合了领先的GPT-5.3-Codex编码能力,提升了在各类工具、软件环境及专业任务(如电子表格、演示文稿)中的表现,能够更准确、高效地交付复杂任务 [2] GPT-5.4的关键技术突破 - GPT-5.4是OpenAI首个在通用模型中原生内置“电脑操控”能力的模型,此前的相关能力(如ChatGPT Atlas、AutoGPT)均为外挂或独立智能体模式 [4] - 在“电脑操控”领域,此前已有Anthropic的Claude Opus 4.6和Google的Gemini Advanced等产品 [4] 定价策略与市场反馈 - 尽管运行效率提升,但GPT-5.4整体价格提高:标准版输入价格为2.5美元/百万token,输出价格为15美元/百万token [4] - GPT-5.4 Pro版本面向复杂任务的高性能用户,输入价格高达30美元/百万token,输出价格高达180美元/百万token [4] - 有用户反馈价格高昂,例如与模型进行一次简单互动就花费了80美元,并对模型是否适用于非AGI级别问题提出疑问 [5] OpenAI的融资背景与战略意图 - 公司近期完成了1100亿美元的新融资,但重要投资方英伟达的CEO表示,其300亿美元投资可能是最后一笔,且双方去年达成的1000亿美元超级计算设施协议实现可能性微乎其微,核心原因是OpenAI即将上市导致资本结构变化 [5] - 有消息称,此次1100亿美元融资并非一次性到账,而是带有附带条件的直面协议 [5] - 面对Anthropic、Google等公司的竞争,公司正进行成本结构务实调整并多渠道扩大营收,例如近期“截胡”了Anthropic丢失的美国战争部订单 [5] - GPT-5.4的涨价被视为公司在IPO前夜的一次测试,旨在向投资者证明其产品性能足够高,即使提价也有企业和用户愿意买单 [6]
未知机构:OpenAI正式发布GPT54提供Thinking思维模式上线C-20260306
未知机构· 2026-03-06 10:20
纪要涉及的行业或公司 * **公司**:OpenAI [1] * **行业**:人工智能(AI)、大型语言模型(LLM)、生成式AI [1] 核心观点和论据 * **产品发布**:OpenAI正式发布GPT-5.4,并推出“Thinking(思维)”模式,同时上线了ChatGPT、API及Codex平台 [1] * **性能提升**:GPT-5.4在ChatGPT中的思维在深网研究方面有所提升,长时间思考时的上下文保留更好 [1] * **交互优化**:用户现在可以在模型响应过程中打断它,添加指令或调整方向 [1] * **产品线扩展**:同时发布了针对复杂任务优化的**GPT-5.4 Pro**版本 [1] * **技术能力**:GPT-5.4具备原生计算机使用能力 [1] * **技术规格**:Codex和API支持高达**100万个上下文标记** [1] * **应用场景**:新模型和平台能够针对复杂任务进行最佳代理编码,提供在更大生态系统中可扩展的工具搜索,能够对长时间、工具密集型工作流程进行更高效推理 [1] 其他重要内容 * **功能上线进度**:引导功能本周已在Android和网页端上线,iOS版本即将推出 [1]