Workflow
Artificial General Intelligence (AGI)
icon
搜索文档
GPT-5.2考赢人类,OpenAI警告:大模型能力已过剩,AGI天花板不是AI
36氪· 2026-01-12 09:08
ARC-AGI-2基准测试与AI推理能力评估 - ARC-AGI-2基准测试旨在评估AI是否具备AGI所必需的抽象、归纳与迁移推理能力,而非记忆或统计模式匹配[1] - 该基准没有大规模训练集,每道题目都是新任务,因此AI无法通过“刷数据”获得高分,直击大模型依赖数据统计的“软肋”[1][2] - 人类在该基准测试上的平均准确率约为60%[5] Poetiq元系统架构的性能突破 - Poetiq通过其元系统架构,自动构建“会调用模型的系统”,而非训练更大的模型[5] - 其系统Poetiq (GPT-5.2X-High)在ARC-AGI-2上实现了75%的准确率,每问题成本不到8美元[5] - 该系统将GPT-5.2(X-High)的得分从约60%提升至75%,超越前SOTA 15个百分点,且未对基础模型进行任何训练或特定优化[5][6] - 这证明了通过优秀的软件架构,无需堆算力也能大幅提升AI性能[8] 主要AI模型在ARC-AGI-2上的表现对比 - GPT-5.2(X-High)在Poetiq系统加持前,准确率已接近人类平均水平的60%[5] - Gemini 3 Deep Think (Preview)在ARC-AGI-2上的成绩约为46%,明显落后于GPT-5.2系列,且成本相对更高[5] OpenAI提出的“能力过剩”时代 - OpenAI预测行业正进入“能力过剩”阶段,即模型“能够做到的事情”与人们“实际使用AI的方式”之间存在巨大断层[9][10] - 未来AGI的进展将不仅取决于模型突破,更取决于AI的有效使用、融入现实工作生活以及系统将模型能力转化为实际价值的能力[10] - 因此,OpenAI在2026年将重点投入应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景[10] 人机协同成为AGI发展的关键 - 实现AGI需要模型和人协同发挥作用,不仅要升级模型,更要“教人用AI”[11] - 挑战在于如何将AI真正融入工作流程,而非仅仅购买技术却不改变任何流程[12] - 下一阶段的AI竞争,将是系统、流程与人机协同的竞争,而不仅是模型参数之争[19] 对“能力过剩”现象的分析 - 从Poetiq提升基础模型性能15个百分点来看,大模型存在“未被充分释放的能力”,从该角度看能力已严重过剩[14] - 能力未被充分释放的原因可能包括:模型设计未紧跟用户场景、前沿模型在推理和创新上缺乏根本性突破、以及模型迭代过快导致用户不断弃用已上手的模型[14][15][17] - 尽管GPT-5等大模型在解决复杂跨学科问题上已达到“博士级智能”的专家级基准,但从实际应用效果看,其能力仍未完全发挥[14]
姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
新浪财经· 2026-01-10 22:39
清华大学AGI-Next前沿峰会核心观点 - 峰会由清华大学基础模型北京市重点实验室发起,汇集了智谱、Kimi、阿里等中国AI领域核心公司的领军人物,探讨了AGI发展的现状、挑战与未来方向 [1][3] - 与会专家普遍认为,大模型的发展正从“对话”范式转向“做事”范式,即从通用聊天能力转向解决具体任务、提升生产力的智能体 [4][18][19] - 中国在开源大模型领域已形成显著影响力,但在整体AI赛道上反超美国仍面临巨大挑战,需要关注技术创新与新范式探索 [4][28] 大模型技术发展路径与现状 - 大模型智能水平持续快速提升,发展轨迹类似人类成长:从2020年前后的简单问答,到2021-2022年的数学计算与基础推理,再到2023-2024年能处理研究生层级问题与真实世界编程任务 [8][9] - 模型能力正从知识记忆走向复杂推理,并在SWE-bench等真实环境评测中表现出可用性,代码能力已能实质性地辅助高级工程师 [8][17] - 当前的核心挑战是从规模扩展走向真正的泛化能力,并解决强化学习可验证场景逐渐耗尽的问题 [11][16] - 到2025年,模型的整体能力仍在快速提升 [10] 智谱AI(唐杰)的技术策略与展望 - 公司发展基于“像喝咖啡一样做研究”的理念,强调AGI需要长期专注与持续投入 [5][6][7] - 判断Chat对话范式已基本结束,下一步是“走向做事”,因此优先选择强化思维、结合编程与智能体的技术路径 [4][18][20] - 通过整合编码、智能体与推理能力,并利用可验证环境进行强化学习,显著提升了模型在真实任务中的稳定性,在SWE-bench等评测中取得领先成绩 [21][22][24] - 面对智能体大规模落地,公司采用API与GUI操作结合的混合方案,并引入交替训练机制以应对强化学习的风险与冷启动问题 [25][26][27] - 认为未来AGI的突破方向可能在于:原生多模态、记忆与持续学习、反思与自我认知能力 [31][34][36] - 提出参考人类双系统认知的AI结构:系统一(模式匹配)、系统二(复杂推理)和自学习模块,并通过数据规模、推理时间和自学习环境三个维度的扩展来提升智能 [37][40][42][43][44][45] - 指出Transformer架构存在计算复杂度高的问题,需探索新型架构以实现高效的知识压缩 [47][48] - 展望2026年将专注于区分已知与未知路径的扩展、推进全新模型架构、发展多模态感统能力,并判断2025年可能成为AI for Science的重要突破年份 [55] Kimi(杨植麟)的技术创新与核心理念 - 认为大模型发展的第一性原理是Scaling Law,即把能源转化为智能,Transformer因其在扩展律上更优的表现而成为主流架构 [56][58][59] - 提出评估模型架构的两个关键维度:Token效率(用更少的Token达到相同效果)和长上下文能力,两者的结合是实现优秀智能体的基础 [60][61][62][63] - 公司通过采用MUON二阶优化器,实现了2倍的Token效率提升,等效于用50%的数据达到相同的测试损失,或用相同数据获得更低的损失 [64][67] - 通过创新的kimi Linear线性注意力架构,在保持线性计算复杂度的同时,实现了在长短程任务上效果均优于全注意力机制,并在百万上下文长度下具有6到10倍的端到端速度优势 [65][73][74][75] - 认为做模型本质是在创造一种世界观和审美,智能具有不可交换性,不同模型会发展出不同的“品位” [4][77] - 公司开发的kimiK2是中国首个智能体模型,可完成两三百步的工具调用,在HLE评测中达到45%的准确率,并声称比OpenAI更高 [72] 阿里通义千问(林俊旸)的进展与方向 - 公司致力于开发通用智能体,训练范式已发生变化,不再完全依赖传统标注,而是通过解决推理和评估来驱动 [81] - 在文本模型上,Qwen3系列总体能力提升,重点增强了推理能力,并支持119种语言及方言,上下文长度已做到1M以上并内部实现数个M [88][89] - 在代码能力上,聚焦于具有生产力的软件工程任务,在SWE-bench评测中达到70分,在相关榜单中排名前列 [91][92][93] - 在多模态方面,视觉理解模型在保持语言智力不下降的前提下,提升了操作手机/电脑的能力,并致力于实现文本、视觉、音频的统一理解与生成 [85][94][95][104] - 图像生成模型进步显著,Qwen-Image系列在内部盲测中排名靠前,12月版本生成的图像已接近真人,并具备强大的图像编辑能力 [99][100][101] - 语音模型Omni能达到文本模型2.5的水平,支持声音定制 [102][103] - 下一代模型将采用新的架构,并探索通过环境反馈进行多轮强化学习,以实现长视野推理,最终让智能体走向数字世界和物理世界 [104][105][106] 行业路线分化与未来思考 - 行业出现明显分化:to C产品对极致智能的需求不强烈,更像搜索引擎加强版;to B市场则强烈追求最强模型,因为智能直接等同于生产力,导致强弱模型分化加剧 [4][113][114] - 在商业模式上,to C场景模型与产品垂直整合依然紧密;但在to B场景,模型层与应用层可能出现分层,强大的模型会被不同的应用层产品在各生产力环节中使用 [113][115] - 学术界与工业界需要协同,工业界在前沿狂奔,学术界应跟进解决基础理论问题,如智能上界、资源分配、幻觉与资源的平衡、持续学习中的噪声清理等 [119][120] - 自主学习的定义多样,它更关乎具体的数据和任务场景,而非单一方法论,目前已在特定场景中逐渐发生 [126][127][128]
姚顺雨对着唐杰杨植麟林俊旸贴大脸开讲!基模四杰中关村论英雄
量子位· 2026-01-10 21:17
清华大学AGI-Next前沿峰会核心观点 - 峰会由清华大学基础模型北京市重点实验室发起,汇聚了智谱、Kimi、阿里等中国AI领域核心公司的领军人物,信息密度极高[1][4][5] - 核心讨论围绕大模型技术发展轨迹、当前范式转变(从Chat到做事)、未来AGI发展方向以及中美竞争格局展开[7][54] 大模型技术发展轨迹与范式转变 - 大模型智能水平发展轨迹类似人类成长:2020年前后解决简单问题,2021-2022年进入数学计算和基础推理,2023-2024年走向复杂推理并处理真实世界任务(如SWE-bench)[18][19] - 2025年模型整体能力仍在快速提升,但核心问题是从规模扩展(Scaling)走向真正的泛化能力[21][22][25] - DeepSeek的出现标志着“Chat”范式基本结束,行业共识是下一步从“对话”走向“做事”,让AI完成具体任务[7][32][33][34] - 智谱AI在2025年7月28日发布的4.5版本中,整合了Coding、Agentic和Reasoning能力,在12个Benchmark评测中取得领先,但面对真实复杂任务(如一句话生成植物大战僵尸游戏)仍频繁出Bug[37][38][39] - 通过引入可验证强化学习(RLVR)在真实编程和Web环境中获取反馈,智谱AI的模型在SWE-bench等评测中成绩提升,并于2025年底在ArtificialAnalysis榜单取得不错综合成绩[39][40][41][43] 智能体(Agent)与编程(Coding)能力发展 - 智能体的基础能力是编程,但复杂任务(如数十步、上百步的异步长链路任务)需要全新的能力形态[44][45] - 面对冷启动问题(缺乏现成数据),行业采用混合方案:对AI友好场景优先调用API,对人友好场景让AI模拟GUI操作,通过采集交互数据进行全异步强化学习[46][47] - 智谱AI在2025年12月开源了9B规模的AutoGLM模型,该模型在Agent任务上能力显著增强,但部分通用语言能力下降,显示出强化特定能力与保持通用性之间的权衡[51] - 代码能力发生质变:2021年模型写十个程序才能跑通一个,如今在复杂任务中往往可以一次性跑通,实质性辅助高级工程师工作[30][31] - 阿里通义千问在2025年专注于打造通用智能体(Generalist Agent),其Coding模型在SWE-bench评测中达到70分,并关注贴近实际生产任务[123][141][142][144] 模型架构与训练技术的创新 - Transformer成为主流架构的核心原因是在Scaling Law上表现优于LSTM,尤其是在长上下文(Long Context)场景下[94][95][97] - 模型架构迭代的目标是追求更高的Token效率(用更少的Token达到相同效果)和更强的长上下文能力,这两者是实现优秀Agent智能的关键[96][98][99][100] - Kimi团队在2025年采用MUON二阶优化器,相比传统的Adam优化器,实现了2倍的Token效率提升,相当于用50%的数据达到相同的Test Loss[100][102] - Kimi团队研发了kimi Linear架构(一种线性注意力机制)和kimi Delta Attention,旨在实现线性复杂度的同时,在长短程任务上的效果超越原始Transformer全注意力机制,并带来6到10倍的端到端速度优势[101][110][112][115] - 训练体系面临挑战,智谱AI开发了全异步强化学习训练框架来解决不同RL任务调度难题,并于2025年开源[41] 未来AGI发展方向与挑战 - 人类领先于当前模型的几类能力可能是突破方向:1) 原生多模态感统机制;2) 记忆与持续学习(从个体记忆扩展到文明级记忆);3) 反思与自我认知能力[57][59][61][63][64] - 参考人类双系统认知(系统一处理95%任务,系统二处理5%复杂任务),AI系统可规划为系统一(大规模模型)、系统二(推理机制)和自学习模块[65][66][67][68] - 未来的Scaling包含三个维度:1) 扩展数据与模型规模;2) 扩展推理(延长思考时间);3) 扩展自学习环境(增加与外界交互反馈)[74][75][76][77] - Transformer的O(N²)计算复杂度是瓶颈,需要寻找像人脑一样用更小“容量”承载更大知识量的新压缩方法和模型架构[78][79][80] - 行业思考的五层能力演进:从函数映射,到学会推理,再到具备自反思与自学习能力,最终可能发展出自我认知甚至意识[83][84][85][86][87] - 2026年及以后的重点方向包括:区分已知路径与未知路径的Scaling、推进全新模型架构解决超长上下文和知识压缩、重点发展多模态感统能力,并判断2025年可能成为AI for Science的重要突破年份[89] 中美竞争格局与行业分化 - 在Artificial Analysis榜单前五名中,蓝色模型几乎全部来自中国,说明中国在开源大模型领域已形成显著影响力[53] - 阿里通义林俊旸认为,中国想在AI赛道反超美国很难,20%这个数字已经很乐观[7] - 行业出现明显分化:1) to C 和 to B 市场分化。to C用户大部分时候不需要那么强的智能,而to B市场智能直接等同于生产力,用户愿意为最强模型支付高溢价(例如200美元/月 vs 50美元/月)[170][173][175][176] - 2) 垂直整合与模型应用分层出现分化。to C应用(如ChatGPT、豆包)模型与产品强耦合,垂直整合成立;但to B场景趋势相反,强大的模型层与专注应用层的公司可能各司其职[170][176] - 学术界与工业界需要协同:工业界领头疯跑后,学术界应跟进解决基础科学问题,如智能上界、资源分配平衡、持续学习中的噪音清理(类似人类睡眠机制)、以及“无免费午餐定理”等[182][183][184][185] - 腾讯姚顺雨指出,做Coding Agent消耗量在中国没有美国那么大,市场认知存在差异[181] 开源生态与公司实践 - 智谱AI自2019年成立以来持续推动开源,涵盖模型、工具和开发者API体系,2025年成为GLM的“开源年”,陆续开源了包括GLM-4.6、4.6V、4.5V等多条模型线[9][10][52] - 阿里通义自2023年8月3日开始做开源,开源了从1.8B到大规模模型等多种型号,初衷包括帮助资源有限的硕士生、博士生完成实验毕业,并响应手机厂商等客户需求[125][126][127][128] - 阿里通义在2025年支持119种语言及方言,并致力于服务全球用户,包括收集难度较大的非洲语言数据[136][137] - 阿里通义在2025年推出Qwen3系列模型,重点提升推理(reasoning)能力,并致力于打造全模态模型,集成文本、视觉、语音的理解与生成能力[134][135][158][159] - 阿里通义的视觉模型(VL)在2025年达到与235B语言模型持平的智力水平,解决了多模态模型常伴有的“变笨”问题,并增强了GUI操作、视觉推理等能力[145][147][148] - 阿里通义的图像生成模型Qwen-Image在2025年12月的版本相比8月版本有显著提升,生成图像更接近真人,并重点优化了图像编辑功能(如精确对象移除、光线调整)[152][153][154]
刚刚,AI企业IPO最速纪录刷新!MiniMax的技术野心,价值超800亿港元
AI前线· 2026-01-09 11:37
公司上市与市场表现 - 公司于2025年1月9日挂牌上市,股票代码00100,成为全球从创立到IPO用时最短的AI企业,仅用时4年 [1] - 此次IPO计划发行约2540万股H股,开盘价235.4港元,上市后股价飙升超60%,市值超过820亿港元(约合人民币738亿元) [2] - IPO公开发售部分获得市场热烈追捧,超额认购倍数高达1209倍,投资者通过保证金方式认购的金额累计超过2533亿港元 [4] 用户与客户规模 - 截至2025年9月30日,公司累计个人用户超过2亿,覆盖200多个国家和地区 [3] - AI原生产品月活跃用户(MAU)约为2760万 [3] - 企业与开发者客户超过10万家 [3] 业务模式与收入结构 - 公司的ToC收入已经反超ToB收入,这在中国大模型公司中极为罕见 [1] - 相比行业其他公司以ToB与ToG为核心并已跑出稳健盈利能力的路径,公司展现出另一种取向,模型更强调产业化落地,并在ToC端取得了不错的成果 [9] 技术研发与核心成果 - 公司定位为技术驱动,最大的成本是研发成本 [6] - 2025年已通过至少两篇公开科研论文系统阐述其大模型架构与推理优化方案,核心成果包括基于Lightning Attention与MoE的超长上下文大模型MiniMax-01,以及针对推理计算效率优化的模型MiniMax-M1 [7] - 2024年初,在稠密模型为主流的背景下,公司率先推出了中国首个混合专家系统大模型abab6,比竞争对手早了约一年 [8] - 在行业普遍依赖Softmax Attention时,公司开始在模型中大量引入自研的Lightning Attention,具体做法是在每8层模型结构中,只保留1层传统注意力,其余7层改用线性注意力,以降低长上下文推理的计算压力 [8] - 该技术改动使模型在面对超长文本、长代码或多轮复杂推理时,不再随上下文变长而指数级变慢,与MoE架构叠加后进一步放大了效率优势 [9] - 截至上市前近一年,公司完成了从MoE架构探索到基础大模型开源,再到高级推理模型的连续迭代 [10] - 以MiniMax-01系列为例,模型总参数规模达数千亿量级,但单个token实际参与计算的参数仅为几十亿,使得模型可在控制成本的前提下原生支持百万级乃至更长的上下文窗口 [10] 产品矩阵与市场地位 - 围绕自研大模型,公司已形成包括MiniMax Agent、海螺AI、MiniMax语音、星野以及开放平台在内的产品矩阵 [10] - 在海外市场已有实质进展,产品和服务覆盖200多个国家和地区,累计触达超过2.12亿名个人用户,并服务超过13万家海外企业与开发者 [10] - 按2024年基于模型的收入计算,公司是全球第四大pure-play大模型技术公司,也是全球第十大大模型公司,覆盖文本、视觉、音频、视频的全模态模型体系 [10] 最新技术进展与竞争力 - 2025年12月23日,公司对外发布了最新旗舰级Coding & Agent模型M2.1 [11] - 在衡量多语言软件工程能力的Multi-SWE-bench测试中,M2.1模型在仅约100亿激活参数的前提下取得49.4%的成绩,超越了Claude Sonnet 4.5等国际顶尖竞品,拿下全球SOTA [12] - M2.1模型的关键变化在于其能力边界首次延伸至更完整的后端开发规范,旨在补足过去模型在工程能力上的短板 [14] - 公司选择了一条更偏效率驱动的技术路线,其Lightning Attention + MoE的投入旨在解决如何在成本可控的前提下,把上下文和工程复杂度拉到“真实软件世界”的尺度 [22] - 对于Coding模型,长上下文被视为入场券而非加分项,M2.1的表现回应了Claude Codex的“主战场”,即完成跨语言、跨模块、带验证的软件工程任务 [22] 团队构成与背景 - 截至2025年9月底,公司员工385人,平均年龄29岁,研发人员占比近74%,董事会平均年龄32岁 [15] - 核心团队由来自商汤科技、全球一流高校和顶级科研机构的技术骨干组成 [15] - 创始人闫俊杰拥有东南大学本科、中科院自动化所博士及清华博士后背景,曾担任商汤副总裁与研究院副院长 [16] - 联合创始人杨斌具备加拿大博士及Uber ATG与国际初创工程经验;周彧聪则是商汤早期算法团队核心成员 [18] - 团队多数成员来自AI与深度学习前沿领域,在NLP、语音、视觉、生成模型等方向拥有丰富经验和多项全球发明专利 [19] 研发投入与财务状况 - 公司研发投入在过去三年持续攀升:2022年为1060万美元,2023年增至7000万美元,2024年进一步扩大至1.89亿美元 [23] - 截至2024年及2025年9月30日止的九个月,研发开支分别达到1.387亿美元和1.803亿美元,相关投入主要用于模型训练过程中产生的云服务费用 [23] 行业竞争与挑战 - 公司尚未实现整体盈利,在全球AICoding市场需直面与Claude Codex的直接竞争 [21] - Claude Codex由Anthropic公司推出,上线仅6个月已创造近10亿美元年化营收 [21] - 在头部云厂商和海外独角兽的夹击之下,公司同时承受着ToB与ToC两个市场的竞争压力 [24] - 模型技术仍在快速演进,上市只是把比赛带入了下一个赛段 [25] - 公司曾基于对自身交付能力的判断放弃过一些ToB订单,若ToB领域的工程化交付当下不是其“长板”,则短期来看只剩“技术登顶”一条路能帮助公司走到终局 [25]
光合创投被投企业智谱上市:捕捉Top 1%的超线性回报
36氪· 2026-01-08 21:35
智谱公司概况与市场地位 - 智谱于2026年1月8日在港交所主板上市,股票代码2513,成为全球首家以通用人工智能(AGI)基座模型为核心业务的上市公司,上市当天收盘价131.5港元,公司市值近580亿港元 [3] - 公司成立于2019年,由清华大学技术成果转化而来,依托自研的GLM预训练架构,构建了覆盖语言、代码、多模态及智能体的全栈模型矩阵 [3] - 按2024年收入计,公司在中国独立通用大模型开发商中位列第一,在所有通用大模型开发商中位列第二 [3] - 公司的核心竞争力在于坚持自研路线,不依赖OpenAI技术,从底层搭建全新的GLM系列通用语言模型,实现了大模型技术的完全自主可控 [3] 光合创投的投资逻辑与决策过程 - 2022年8月,光合创投合伙人通过线下演示首次接触智谱的自研模型GLM-130B,认为其“vision足够大”,并在与国内几乎所有大模型团队交流对比后,笃定智谱是Top 1%的大模型公司 [4] - 光合创投在2023年5月领投了智谱的B3轮融资,并在后续轮次中持续加注 [4] - 投资决策基于深度行业研究,团队在Transformer架构出现时便开始系统性关注新一代AI,意识到传统“小模型+调优范式”可能终结,新范式正在兴起 [15] - 团队通过四个月的对比测试,发现当时智谱的模型能力处于领先水平,并坚信其在高人才密度和自研技术驱动下能保持领先 [11] - 投资理念是“翻看每一块石头”,超前挖掘各赛道Top 1%的公司,并提供“战友型”的长期主义耐心资本支持 [5] 智谱公司的核心优势与团队特质 - 技术路线独特,GLM-130B采用了全新的自研自回归填空架构,而非沿用OpenAI的自回归解码架构,被评价为当时国内大模型的“争气机” [10] - 公司兼具学术严谨性与商业实战能力,承袭了清华KEG实验室的严谨学术基因,技术底座扎实,同时又很早走出实验室,通过知识图谱等服务直面商业考验 [10] - 团队具有高人才密度和年轻化特征,研发团队和管理层中年轻人占比极高,许多成员来自清华计算机系,例如GLM-130B的项目负责人当时还在读大四 [10] - 公司重要中文大模型的核心作者很多都是其核心研发人员,大模型领域的竞争被认为是人才密度的竞争 [11] 行业背景与投资环境 - 2022年ChatGPT-3.5爆火开启国内大模型狂飙浪潮,但生成式AI发展迅猛让许多投资人来不及反应 [14] - 大模型自研所需的高昂成本(“钞能力”)让不少风险投资机构望而却步,2022年至2023年上半年,市场上虽有成百上千AI相关项目,但有融资进度的仅63个 [14] - 当时大部分基金对大模型初创公司持悲观态度,认为大厂入局后将严重挤压初创团队的生存空间 [15] - 港股市场对硬核科技的接纳度在2025年达到了新的高度,加速了智谱这类公司的上市进程 [7] 光合创投的投资策略与布局 - 投资策略强调“认知驱动”,通过大量深度行业研究建立认知壁垒,并格外关注不同技术路线交叉的关键点 [19] - 团队内部有一份动态更新的“Top 1%公司”清单,每周讨论全球范围内符合标准的标的,认为只有这类公司能为风险投资带来超线性回报 [19] - 在AI与硬科技结合领域,除智谱外还投资了中际旭创、沐曦股份、禾赛科技、宇树科技等头部企业 [20] - 在AI应用领域,布局了视频内容AI生成工具Opus Clip、AI智能搜索引擎秘塔科技、智能表格应用Sheet 0等公司 [20] - 明确押注To B赛道,认为初创公司能在此找到属于自己的市场空间,并选择投资有更大技术视野、想做难而正确之事的团队 [16][17]
Aurora Mobile Congratulates Zhipu on Successful Hong Kong Listing
Globenewswire· 2026-01-08 20:00
文章核心观点 - 极光(Aurora Mobile)祝贺其合作伙伴智谱(Zhipu)作为全球首家以通用人工智能基础模型为核心业务的公司成功在香港主板上市 并强调人工智能商业化浪潮催生了对其自身提供的客户互动与营销技术服务的需求 [1][2][3] 行业趋势与需求 - 人工智能在基础模型、应用和平台层面的快速商业化正在改变整个行业的基础设施需求 [3] - 市场对高并发消息推送、关键任务通信可靠性以及一次性密码和双因素认证等安全身份验证解决方案的需求日益增长 [3] - 这些不断演变的需求突显了强大数字基础设施在支持人工智能创新中的关键作用 [3] 公司业务与定位 - 极光致力于支持像智谱这样的人工智能驱动企业的增长与安全需求 [4] - 公司通过全球部署的产品和交付能力 持续为可靠的用户互动和账户保护提供所需的基础设施 [4] - 极光是中国领先的客户互动和营销技术服务提供商 自2011年成立以来专注于为企业提供稳定高效的消息服务 并凭借先发优势成为领先的移动消息服务提供商 [5] - 随着客户触达和营销增长需求的增加 公司开发了云消息和云营销等前瞻性解决方案 以帮助企业实现全渠道客户触达与互动 并提供人工智能和大数据驱动的营销技术解决方案以助力企业数字化转型 [5] 合作公司事件 - 智谱(Zhipu)成功在香港交易所主板上市 被广泛认为是全球首家核心业务围绕通用人工智能基础模型的上市公司 [2] - 根据公开文件 智谱全球发售定价为每股116.20港元 募集资金总额约为43.5亿港元(未计超额配股权)[2]
China's AGI Pioneer and Leader Z.ai Listed on Hong Kong Stock Exchange
Prnewswire· 2026-01-08 16:41
Z.ai was founded in 2019 as a commercialization of technological achievements from Tsinghua University. With the mission "to make machines think like humans", the company has remained dedicated to AGI research and development. Since its inception, Z.ai has launched China's first 10-billion-parameter model, its first open- source 100-billion-parameter model, its first conversational model, its first multimodal model, and the world's first device-control AI agent. It has built one of the world's most advanced ...
光合创投蔡伟:智谱是国内大模型的「争气机」,盼持续引领全球AGI产业发展
IPO早知道· 2026-01-08 10:18
智谱华章上市与行业意义 - 北京智谱华章科技股份有限公司于2026年1月8日在港交所主板挂牌上市,股票代码“2513”,成为“全球大模型第一股” [3] - 光合创投合伙人蔡伟认为,智谱的上市是中国AGI(通用人工智能)产业发展的重要转折点 [3] - 智谱用6年时间证明了中国在人工智能底层技术领域的自主创新性及其模型性能的全球竞争力 [3] 光合创投的投资逻辑与决策过程 - 光合创投对新一代AI的关注始于Transformer架构出现之时,意识到基于海量数据的新范式正在兴起 [4] - 团队在深入研究海外动态并接触国内几乎所有大模型团队后,确信这是一场前所未有的技术变革,决定投身其中 [4] - 光合创投于2022年8月8日首次与智谱创始团队会面,当时智谱展示了其自研的GLM-130B模型效果,被视作国内大模型的“争气机” [4] - 在随后的四个月里,光合创投将智谱与市面上所有已崭露头角的大模型进行对比测试,发现其模型能力处于领先水平 [4] - 投资决策的关键依据包括:智谱拥有自研的GLM架构,实现大模型完全自主可控 [4];以及团队拥有高人才密度,重要的中文大模型核心作者很多是智谱的核心研发人员 [4] - 蔡伟判断,大模型领域的竞争最终是人才密度的竞争,这条长期主义的赛道极度依赖人才迭代 [4] 智谱华章的核心竞争优势与战略 - 智谱的关键决策之一是构建开源生态,通过提供更普惠的模型让更多开发者使用,进而建立自己的生态 [5] - 光合创投认为,大模型产业的核心竞争源于长期的研发投入与开放共赢的生态构建,智谱在技术追求和开源生态上的战略布局建立了自身的护城河 [5] 光合创投在AI领域的整体布局 - 光合创投在中国科技赛道长期深耕,持续关注人工智能浪潮带来的生产力范式改变 [4] - 在AI与硬科技结合领域,投资了中际旭创、沐曦股份、禾赛科技、宇树科技等头部企业 [5] - 在AI眼镜领域,早期布局了MicroLED领域领军企业JBD显耀显示 [5] - 在AI应用领域,投资了视频内容AI生成工具OpusClip、AI智能搜索引擎秘塔科技、智能表格应用Sheet0等公司 [5] - 光合创投将围绕AI主线,凭借深度产业研究建立认知壁垒,通过前瞻性投资布局,系统性抓住技术范式转移中的发展机遇 [5]
推理之父走了,OpenAI七年元老离职:有些研究这里没法做
36氪· 2026-01-06 15:45
核心观点 - OpenAI研发副总裁、核心技术奠基人Jerry Tworek于2026年初离职,其离职理由“想做在OpenAI做不了的研究”引发对公司研究方向与内部文化的深度担忧 [1][6][7] - 此次离职是OpenAI核心人才持续流失的最新案例,此前已有多位联合创始人、研究副总裁、安全负责人等关键人物因理念不合、商业化压力或安全分歧而离开 [1][8][10][11][13] - 公司正面临从理想主义研究机构向商业化巨头转型所带来的内部撕裂,核心矛盾集中在商业化压力与前沿研究/安全优先的理念冲突上,这可能动摇其最核心的资产——人才基础 [14][20][21][23] 关键人物离职详情 - **Jerry Tworek离职**:作为OpenAI七年老兵、研发副总裁,其离职标志着一位“开国功臣”级别的人物离开 [1][6] - **Jerry Tworek的技术贡献**:他是公司两大核心技术路线的奠基人和掌舵者,具体贡献包括:1) 作为“推理模型”之父,是o1/o3系列项目的团队负责人;2) 作为“编程代码”之父,是Codex模型的核心研究员;3) 是GPT-4解决复杂编程能力的关键贡献者;4) 在2025年主导了GPT-5的部署及ChatGPT Agent的研发;5) 其论文是AI解决数学难题的关键研究,在“代码生成”和“强化学习(RLHF)”领域拥有极高的学术引用数 [2] - **历史核心人才流失**:近年来离职的关键人物包括:前研究副总裁Dario Amodei(2021年出走创立竞争对手Anthropic及Claude)、联合创始人兼首席科学家Ilya Sutskever(政变后离开)、强化学习大牛及ChatGPT核心技术推手John Schulman、超级对齐团队负责人Jan Leike(因安全理念不合离职),以及产品、政策、安全等多条线的副总裁级别人物 [8][10][11][13] 公司内部环境与挑战 - **商业化转型的冲击**:公司从确保AGI造福全人类的非营利研究组织,在ChatGPT爆火和微软百亿美金注入后,转变为需要不断推出产品、追求商业回报的赚钱机器,这导致研究文化发生变化 [14] - **研究方向与安全优先级的变化**:部分核心研究人员感到工作重心转向赶产品发布截止日期、卷产品化功能以及讨好投资人和用户,与最初的研究乌托邦理想相悖 [14] - **安全问题的分歧**:前安全团队负责人Jan Leike因公司“把安全放在了次要位置”而“摔门而出”,凸显了在AI安全治理上的内部撕裂 [14] - **领导层与团队稳定性**:Sam Altman在2023年底权力斗争后虽巩固了控制权,但导致反对其的董事被清洗,并与多位元老级研究员关系破裂,权力核心变得“越来越孤独” [15][17][23] 行业竞争格局 - **竞争对手的壮大**:Anthropic(Claude)在编程等领域紧逼OpenAI,谷歌的Gemini在多模态领域不断迭代,Meta、xAI以及开源势力也在后面穷追猛打,行业竞争日益激烈 [17] - **人才流向竞争对手**:OpenAI流失的核心人才(如Dario Amodei)直接加强了竞争对手的实力 [8][17] 公司现状与未来展望 - **冰火两重天的人才流动**:在核心老将持续流失的同时,公司也在吸引新鲜血液,例如AI图像搜索引擎Lexica的创始人Sharif Shameem近期宣布加入,认为OpenAI是“改变世界的最佳舞台” [18] - **市场观点的分歧**:看多观点认为公司拥有GPT系列的技术领先、微软的坚定盟友支持、增长的用户规模与商业收入以及雄厚的技术人才储备;看空观点则指出核心人才持续流失、安全问题悬而未决、商业化透支技术信用以及竞争对手日益逼近等风险 [19] - **根本性挑战**:文章指出,科技公司最核心的资产是“人”,当最聪明的大脑开始“用脚投票”,创始元老纷纷离去,这本身就是一个危险的信号,可能预示着更深层次的危机 [20][21][23]
LeCun预言成真?这有一份通往AGI的硬核路线图:从BERT到Genie,在掩码范式的视角下一步步构建真正的世界模型
量子位· 2026-01-01 10:13
文章核心观点 - 一篇题为《From Masks to Worlds: A Hitchhiker's Guide to World Models》的论文提出,构建真正的世界模型(True World Model)最有希望的技术路径是从掩码预训练出发,经过统一架构与可交互式闭环,并设计持久的记忆系统[3][4] - 论文认为,真正的世界模型并非单一模型,而是一个由生成系统、交互系统和记忆系统三大核心子系统合成的有机整体[6][8] - 掩码(Masking)是贯穿世界模型演进五个阶段的灵魂线索,它已从一个预训练技巧进化为跨模态通用的生成原则和优于自回归的“创世法则”[4][10][13] 世界模型的定义与构成 - 真正的世界模型需要是一个由三大核心子系统合成的有机整体[6] - **生成系统**:是世界的物理法则载体,负责预测下一帧、模拟世界状态演化、将隐变量映射为观测,并预测任务相关的回报[8] - **交互系统**:包含推断器和策略,是让世界“活”起来、实现可交互闭环的关键,没有它,模型只是视频而非模拟器[8] - **记忆系统**:负责通过循环状态更新确保世界在时间轴上的持久连贯,是对抗熵增的防线[8] 世界模型的演进阶段 - 论文将世界模型的演进划分为五个阶段,并用一张全景图串联起了从BERT到Genie-3的十年AI进化史[4][9] - **第一阶段:基于掩码的模型** - 确立了“Mask-Infill-Generalize(遮挡-补全-泛化)”作为构建世界模型的地基[23] - **第二阶段:统一模型** - 目标是用同一个骨干,在同一个范式下,处理和生成所有模态[24] - **第三阶段:交互式生成模型** - 模型开始响应用户动作,从“放映机”变成“模拟器”[36] - **第四阶段:记忆与一致性** - 解决长程推理中的“灾难性遗忘”和“状态漂移”问题[46][48] - **第五阶段:真正的世界模型** - 当生成、交互和记忆系统完美融合,模型将涌现出持久性、主体性和涌现性三大本质特征[51][52] 第一阶段:掩码范式的统治力 - 掩码被证明是跨模态通用的“生成原则”和优于自回归的“创世法则”[13] - **在语言领域**:以Google的Gemini Diffusion为例,离散扩散模型将掩码进化为迭代去噪过程,在生成质量和推理速度上可比肩甚至超越传统自回归基线[16][17] - **在视觉领域**:MAE通过高比例像素遮挡学习到了极强的语义表征;MaskGIT和MUSE利用掩码生成变换器实现了并行解码,在保持高保真度的同时带来极致效率;最新的Meissonic证明掩码生成变换器可在高分辨率文生图任务上与顶级扩散模型竞争[19] - **多模态普适性**:从VideoMAE的时空管道掩码到wav2vec 2.0的音频掩码,再到Point-BERT的3D点云掩码,掩码是能统一所有数据形态的通用语言[22] 第二阶段:统一架构的路径博弈 - 实现统一模型存在两大阵营的博弈:语言先验与视觉先验[25] - **语言先验建模**:主流是自回归路线,但存在处理图像全局结构的局限;新兴的掩码/离散扩散路线(如MMaDA、Lumina-DiMOO、LaviDa-O)在保持语言理解能力的同时,利用掩码的双向注意力提升视觉生成质量,被视为掩码范式在语言建模内部的一次胜利[26][28][30] - **视觉先验建模**:从视觉模型出发反向兼容文本,例如基于潜在扩散模型的UniDiffuser和基于掩码图像建模的Muddit[32][35] - Lumina-DiMOO和Muddit等工作证明,掩码/离散扩散架构能在双向上下文中实现更精细的生成控制,是让“语言逻辑”与“视觉生成”完美兼容的最大公约数[34] 第三阶段:交互式生成模型 - 此阶段模型开始响应用户动作,从预测下一帧变为可交互的模拟器[36] - **从GameGAN到Genie**:Genie-1基于MaskGIT的离散掩码生成架构,从互联网视频中无监督学习“潜在动作”,通过预测被掩码的未来帧学会物理规律[37][38] - **Genie-3的突破**:实现了720p分辨率、24fps帧率的实时交互,并能维持分钟级的连贯游玩[41] - **效率优势**:掩码架构的并行解码能力使得Genie等模型能在极短时间内生成高质量下一帧,从而闭合低延迟的“感知-行动”回路;相比之下,传统的自回归视频生成模型在实时性上捉襟见肘[42][43] - GameNGen和Matrix-Game等基于扩散的实时引擎共同证明,要造可玩的世界,掩码/扩散范式是目前最有希望的路线之一[43] 第四阶段:记忆与一致性的挑战 - 当前视频生成模型依赖隐式的KV Cache或有限的上下文窗口,在长程推理中容易导致“灾难性遗忘”和“状态漂移”[47][48] - 论文梳理了三类解决方案以构建持久的世界[49] - **外部化记忆**:如RAG和MemGPT,给模型外挂一个可读写的硬盘,让知识可编辑、可追溯[49] - **架构级持久化**:探讨Mamba这类线性时间状态空间模型以及Ring Attention等技术,试图从架构底层实现“无限上下文”[49] - **一致性治理**:针对视频生成中的漂移,利用FramePack、Mixture of Contexts以及VMem等技术,通过显式的3D结构或稀疏注意力为像素世界打上稳固的“时空桩”[49] 第五阶段:真正的世界模型与终极难题 - 当生成、交互和记忆系统完美融合,真正的世界模型将涌现出三大本质特征:持久性、主体性和涌现性[51][52] - 要到达此阶段,需攻克三大终极难题[53] - **连贯性/评估难题**:当世界是自生成的,需要新的评估体系来衡量虚构世界的逻辑自洽性[58] - **压缩/扩展难题**:世界模型必须学会“抽象记忆”,只保留因果相关的状态,否则计算量将导致系统崩溃[58] - **对齐/安全难题**:不仅要对齐世界的“物理法则”,还要对齐世界中涌现出的亿万智能体社会的“社会动态”,难度远超对齐一个ChatGPT[58] - 跨越此门槛后,世界模型将从娱乐工具升级为“科学仪器”,可用于运行经济、社会、认知等领域的虚拟实验[55]