AGI
搜索文档
MiniMax叩响港股大门:4年累计亏损5亿?账上现金超过10亿美金!
智通财经网· 2025-12-22 00:28
公司财务与运营概况 - 公司在过去三年半累计净亏损5.11亿美元,其中最近半年亏损1.86亿美元 [1] - 公司累计融资约15亿美元,截至2024年9月底账面现金及现金等价物高达11.02亿美元,意味着实现全球顶级技术布局的实际净消耗仅约5亿美元 [3][4] - 2025年前九个月,公司营收达5344万美元,同比增长170%,经调整净亏损同比下降8.6%,同期收入增长174.7% [11][12] - 公司训练成本占收入的比例从2023年的1342%显著降至2025年的266.5% [12] - 公司应收账款周转天数仅38天,远低于行业平均的60-90天,应收账款余额仅806万美元 [11] 技术实力与研发效率 - 公司以约5亿美元的实际花费,跻身全球全模态AGI四强,而行业领袖OpenAI的投入估计在400亿至550亿美元之间,公司成本仅为前者的约1% [1][3] - 公司技术路径坚持多模态均衡发展,成果包括:M2文本模型发布即登Artificial Analysis全球前五、开源第一;Speech 2.6语音模型在权威评测中稳居全球第一;Hailuo 2.3视频模型位列全球第二,累计生成视频超5.9亿个;Music 2.0实现专业级AI作曲 [8][9] - 公司是一支AI原生团队,拥有385名员工,平均年龄29岁,研发人员占比74%,董事会平均年龄32岁,组织架构扁平,CEO之下不超过三层职级 [1][9] - 公司超过80%的代码由AI生成,从根本上重构了工作方式,将人效推至极致 [9] 市场与商业化表现 - 公司收入高度全球化,70%收入来自海外,服务覆盖全球200个国家与地区的2.12亿用户 [1][3] - 公司自诞生之初便是生而全球化的,其研发、产品与市场策略从一开始就面向全球场景构建 [3] - 2025年前九个月,公司C端订阅收入占比超过71%,B端API业务毛利率高达69.4%,而同行同口径业务毛利几乎为零 [11][16] - 公司拥有2.12亿个人用户和13万企业客户,是唯一被亚马逊AWS Bedrock唯一点名引入的中国大模型,同时也登陆了谷歌Vertex AI、微软AI Foundry三大云平台 [11] - 公司B端客户横跨科技、创意、硬件、广告等多个领域,例如LinkedIn用其生成广告视频,Veed用其驱动数字人 [11] 战略定位与行业影响 - 公司避开了国内大模型公司陷入的“免费内卷”陷阱,不将DAU奉为核心指标,而是聚焦于模型能力的真实突破 [6] - 公司选择在港股上市,意图成为“全球AGI第一股”,以填补港股市场缺乏拥有AGI核心技术与成熟商业化能力标杆企业的空白 [12][13] - 公司的股东阵容豪华,包括米哈游、阿里、腾讯、小红书等战略投资者,以及高瓴、红杉、IDG等顶级财务资本,形成“技术+生态+资金”三重护航 [14] - 公司的“中国研发+全球造血”模式,在地缘政治背景下,为资本配置AGI赛道提供了风险对冲的最优解 [15] - 公司以极致效率、全球化视野和年轻化的组织,重新定义了AGI公司的成长范式,走出了不同于复制硅谷或困守本土的第三条路 [17]
腾讯研究院AI速递 20251222
腾讯研究院· 2025-12-22 00:01
摩尔线程新一代GPU与AI产品发布 - 发布新一代全功能GPU架构“花港”,算力密度提升**50%**,能效提升**10倍**,支持FP4到FP64全精度计算,可支撑**十万卡以上**智算集群 [1] - 即将发布“华山”AI训推一体芯片和“庐山”高性能图形渲染GPU,夸娥万卡智算集群算力达**10EFLOPS**,S5000单卡推理刷新国产GPU性能纪录 [1] - 发布搭载“长江”SoC芯片的AI算力本MTT AIBOOK,提供**50TOPS**异构AI算力,可本地运行最高**30B**端侧大模型,今日起在京东预售 [1] OpenAI与谷歌发布新一代AI模型与工具 - OpenAI发布GPT-5.2-Codex,在SWE-Bench Pro和Terminal-Bench 2.0基准测试中取得SOTA性能,相比GPT-5.2提升了指令遵循、长上下文理解和网络安全能力 [2] - OpenAI正式宣布Codex全面支持Agent Skills,接入Anthropic主导的全行业标准规范,支持显式调用和隐式调用,并提供内置工具自动生成或安装技能 [5][6] - 谷歌开源T5Gemma 2和FunctionGemma两款Gemma 3家族小模型,T5Gemma 2提供**270M-270M、1B-1B和4B-4B**三种规模,FunctionGemma专为函数调用优化,仅**2.7亿**参数可在手机等设备运行 [3] 英伟达与Luma AI发布创新AI应用 - 英伟达开源NitroGen基础模型,训练目标是玩**1000款以上**游戏,以游戏视频帧作为输入输出手柄操作信号,模型基于GR00T N1.5架构,采用**5亿**参数,从**4万小时**公开游戏视频中训练 [4] - Luma AI发布Ray3 Modify功能,主打“真人先行、AI跟随”的视频制作方式,支持关键帧控制和角色参考能力,已集成进Dream Machine平台,面向影视制作与广告创意 [7] 人形机器人商业化与AI编码能力进展 - 宇树G1人形机器人在王力宏演唱会完成高难度空翻表演,视频获**4000万**网友围观,G1机器人零售价**9.9万元**起,身高**132厘米**,小跑速度超**2m/s**,拥有**23至43个**关节 [8] - 人形机器人租赁市场**2024年**全球收入规模**112.2亿元**,预计**2031年**达**171.2亿元**,年复合增长率**6.1%** [8] - METR报告称Claude Opus 4.5的**50%**任务完成时间跨度约**4小时49分钟**,超越GPT-5.1-Codex-Max的**2小时53分钟**,AI编码智能体任务时长呈指数级增长 [9] AI行业趋势与关键人物 - Karpathy提出2025年六大转折,包括RLVR、Cursor成为应用层“包工头”、Claude Code作为“赛博幽灵”、Vibe Coding让编程门槛消失等,强调LLM是新操作系统 [10][11] - 谷歌AI产品负责人Josh Woodward通过Nano Banana功能让Gemini应用月活从**3月3.5亿**飙升至**10月6.5亿**,一度超越ChatGPT登顶App Store榜首,其推动NotebookLM等项目并强调AI创新与社会责任并重 [11]
海外市场收入贡献占比超70% MiniMax何以用385人“小团队”撬动全球AGI市场?
每日经济新闻· 2025-12-21 22:49
上市进程与市场地位 - 公司成立仅四年,或将创下AI企业从成立到IPO的最快纪录 [1] - 公司于12月21日首次刊发港交所聆讯后资料集,有望以“全球化AGI第一股”身份挂牌上市 [2] - 公司是全球唯四具备全模态能力的企业,也是亚洲首家、全球首批实现MoE架构商用的企业 [14] 全球化战略与市场表现 - 公司自创立之初即锚定全球化发展路径,产品为全球一体化发布,支持多语言 [5] - 截至2025年9月30日,公司AI原生产品累计为来自超过200个国家及地区的逾2亿名个人用户,以及来自超过100个国家及地区的10万家企业提供服务 [3] - 2025年前九个月营收同比增长超过170%,海外市场收入贡献占比超70% [3] - 旗下产品星野Talkie在全球累计用户超2.12亿,深度渗透北美、东南亚及欧洲市场 [7] 产品矩阵与商业化进展 - 公司推出了包括Talkie星野、海螺AI、MiniMax Agent、MiniMax Audio在内的AI原生产品矩阵,覆盖C端与B端市场 [3][7] - 已形成订阅服务、应用内购买、企业API等多元化盈利渠道 [9] - AI原生产品的付费用户数从2023年的约11.97万名增至2024年的约65.03万名,并于截至2025年9月30日止九个月进一步增至约177.16万名 [8] - 用户可通过海螺视频创造出播放量过亿的高收入剧集或单笔高价AI广告片,表明已找到愿意付费的用户群体 [7] 技术实力与研发成果 - 公司自主研发的多模态通用大模型矩阵初具规模 [2] - 2025年6月发布MiniMax-M1系列模型,并在随后四个工作日内实现“一日一更”的产品技术迭代 [14] - 2025年10月发布的开源文本大模型M2,在权威测评榜单Artificial Analysis中总分位列全球前五、开源赛道第一 [2][14] - 同月发布的新一代视频生成模型海螺2.3,在Artificial Analysis视频评测中位列全球第二,累计生成视频超5.9亿个 [14] - 语音模型Speech 2.6和音乐模型Music 2.0也相继发布 [14] - 研发人员占比近74%,团队凭借扁平化管理实现高效研发与运营 [11] 团队构成与运营效率 - 截至2025年9月底,公司员工总数385人,平均年龄仅29岁 [11] - 董事会平均年龄仅32岁 [11] - 团队在不到四年时间里实现了文本、视频、语音全模态模型的领先优势,同时完成全球化产品的研发与运营,人效稳居行业前列 [11] 发展理念与行业认知 - 公司创始人认为,将技术能力做到行业必需的程度,商业化自然会水到渠成,融资和变现是结果而非原因 [4] - 公司创立之初定下三条原则:直接服务客户、必须做国际化、坚持技术驱动 [6] - 团队早期预判,若AI行业受关注,国内可能先陷入纯免费模式,创业公司无法生存,因此坚定走国际化路线 [9] - 公司认为多模态融合是明确趋势,其技术积累和跨模态人才协作的优势能支撑其率先实现突破 [15] - 公司以可商业化的方式践行AGI理想,致力于让AGI成为“与所有人共享的智能” [12][15][16]
MiniMax冲击港股:现金储备超11亿美元,海外收入超七成
贝壳财经· 2025-12-21 22:12
公司财务与运营表现 - 公司2023年、2024年及2025年前9个月总收入分别为346万美元、3052.3万美元、5343.7万美元,营收稳步增长[1] - 公司同期分别亏损2.69亿美元、4.65亿美元、5.12亿美元,亏损随收入增长而增多[1] - 若参考经调整净亏损指标,公司2025年前9个月数据为1.86亿美元,与2024年同期的1.7亿美元近乎持平,显示亏损有收窄趋势[1] - 2025年前九个月,公司收入同比增长超170%,研发开支同比增幅为30%,销售及营销开支同比下降26%[1] - 公司自成立至2025年9月累计花费5亿美元,远低于OpenAI的400亿至550亿美元累计花销[3] - 截至2025年9月30日,公司拥有超11亿美元现金储备,可支持超50个月运营[3] 产品与收入结构 - 公司打造了覆盖C端与B端的AI原生产品矩阵,包括MiniMax、MiniMax语音、海螺AI、Talkie/星野以及开放平台服务[2] - 海螺AI和Talkie/星野是主力营收产品,2025年前9个月收入分别达到1746.4万美元和1875万美元[2] - 同期,开放平台及其他基于AI的企业服务营收达到1541.7万美元[2] - 2025年前九个月,海外市场收入贡献占比超70%[1] 组织架构与行业地位 - 公司成立于2022年初,有望成为从成立到IPO历时最短的AI公司[1] - 截至2025年9月底,公司员工385人,平均年龄29岁,研发人员占比近74%,董事会平均年龄32岁[3] - 公司在不到四年时间里实现了文本、视频、语音全模态模型领先,以及全球化产品的研发与运营[3] - 公司获得米哈游、阿里、腾讯、小红书、高瓴、IDG、红杉、经纬、明势、云启等多家顶尖机构的投资和支持[3] - 公司是目前成长最快、估值最高的AI科技公司之一[3] - 随着全球AGI赛道进入整合期,具备全模态技术能力、已验证全球化商业化路径且组织高效的公司,其上市进程备受市场瞩目[3] - 此次赴港IPO,公司不仅即将成为全球AGI赛道中的稀缺标的,也有望成为具有全球竞争力的AI领军企业[3]
MiniMax通过港交所聆讯:有望成为从成立到IPO历时最短的AI公司
IPO早知道· 2025-12-21 20:45
公司概况与市场地位 - 公司MiniMax Group Inc(稀宇科技)已通过港交所聆讯,有望成为从成立到IPO历时最短的AI公司[2] - 公司员工平均年龄29岁,董事会平均年龄32岁,组织架构极致年轻化与扁平化,展现出“硅谷式”的灵动与高效[3] - 公司是全球唯四实现文本、视频、语音全模态模型进入第一梯队的大模型公司[6][7] 技术实力与产品矩阵 - 基于自研大模型,公司构建了覆盖C端与B端的AI原生产品矩阵,包括海螺AI、Talkie和星野等,并为企业用户和开发者提供开放平台服务[4] - 在语音领域,2024年推出的Speech 02模型综合性能位列全球第一,累计已生成超过2.2亿小时的语音[7] - 在视频生成领域,2025年6月推出的Hailuo-02模型在权威评测中位列全球第二,累计生成视频超5.9亿个[7] - 在文本模型领域,2025年10月发布并开源的新一代文本大模型MiniMax M2,在Artificial Analysis榜单位列全球前五、开源第一,是中国开源大模型首次跻身全球前五[8] - 该文本模型M2在全球平台OpenRouter上,编程场景排名全球token用量第三[8] 用户规模与市场拓展 - 截至2025年9月30日,公司拥有超过200个国家和地区的逾2.12亿名个人用户,以及超过100个国家的13万企业客户[4] - 公司践行“生而全球化”战略,海外市场收入贡献占比超过70%,这一数据在当前大模型赛道中极为罕见[4][11] - 产品Talkie在海外AI娱乐应用市场表现出统治级吸引力,视频生成产品Hailuo AI多次在全球社媒平台引发亿级爆款视频刷屏[11] 财务表现与增长 - 2023年至2024年,公司营收从350万美元增长至3,050万美元,2024年同比增幅高达782.2%[4][10] - 截至2025年9月30日的前九个月,公司营收同比增长超过170%[11] - 同期,To C收入同比增长181%,To B收入同比增长160%[10] - 2025年前九个月,在收入同比增长超170%的同时,研发开支同比增幅为30%,销售及营销开支同比下降26%,显示出高效的费用控制[13] - 经调整净亏损在2025年与上年同期相比近乎持平,实现了在高速增长下的亏损有效收窄[13] 运营效率与资本状况 - 公司自成立至2025年9月累计花费5亿美元,对比OpenAI累计400亿至550亿美元的花销,公司用不到1%的资金实现了全模态全球领先[13] - 截至2025年9月30日,公司现金结余合计达11.02亿美元(包含现金及理财产品)[14] - 基于目前的现金消耗率预测,即便在没有IPO募资的情况下,公司现金也足以支撑营运超过53个月的时间[14] 发展战略与愿景 - 公司商业化模式为B+C双轮驱动,通过订阅服务与云端API构建高质量可持续收入矩阵,所有产品具备极强的全球化规模化能力[10] - 公司创始人强调AGI应是“与所有人共享的智能”,创业初衷是“Intelligence with Everyone”,让每个人都用得起AI[9] - 公司获得米哈游、阿里巴巴、腾讯、小红书、小米、金山、高瓴、IDG、红杉、经纬等众多知名战略投资方和机构的投资[5]
计算机周观察20251221:豆包模型重磅升级,智谱通过港股聆讯
招商证券· 2025-12-21 19:39
行业投资评级 - 推荐(维持)[4] 报告核心观点 - AI大模型迭代加速,超级OS入口争夺日益激烈,建议持续重视AI应用[2][8][28] - 更强的模型、更低的价格正推动大模型产业落地高速增长[8][11] - 智谱通过港交所上市聆讯,将成为港股首家以AGI基座模型为核心业务的上市公司,标志性意义重大[2][8][18] 周热点更新总结 - **豆包大模型重磅升级**:火山引擎发布豆包大模型1.8及豆包视频生成模型Seedance 1.5 pro,其多模态理解与生成能力、Agent能力已位于全球第一梯队[2][8][11] - **豆包模型调用量领先**:截至2025年12月,豆包大模型日均Tokens使用量已突破50万亿,居中国第一、全球第三,已有超过100家企业在火山引擎上累计Tokens使用量超过一万亿[8][11][32] - **豆包大模型1.8能力提升**:专门面向多模态Agent场景优化,在多项多模态理解任务上表现超越全球顶尖模型,在通用智能体测评集BrowserComp中取得全球领先成绩[14][15][16] - 工具调用、复杂指令遵循、OS Agent能力大幅增强[15] - 视觉理解基础能力提升,单次视频理解帧数从640帧提升至1280帧[15] - 原生支持智能上下文管理[15] - **豆包Seedance 1.5 pro能力升级**:支持音画同步输出、多人多语言对白配音,具备影视级叙事张力[16][17] - 即将上线的Draft样片功能可提升整体创作效率65%,减少60%的无效创作成本[16] - **火山引擎推出“AI节省计划”**:业内首个大模型节省计划,覆盖所有按量后付大模型产品,设置阶梯式折扣,最高可节省47%的使用成本[8][17] - **智谱公司通过港交所聆讯**:是内地企业赴港上市“报备制”落地以来最快通过聆讯的案例之一[8][18] - **智谱业务规模与市场地位**: - 截至2025年6月30日,模型已为逾8000家机构客户提供支持[8] - 截至最后实际可行日期,已为约8000万台设备提供支持[8] - 按2024年收入计,在中国独立通用大模型开发商中位列第一,在所有通用大模型开发商中位列第二,市场份额为6.6%[18] - **智谱商业模式**:以MaaS(模型即服务)平台为核心,提供语言、多模态、智能体及代码四类模型,以及模型微调、部署等集成工具[8][20] - **智谱财务表现**: - 收入由2022年的0.57亿元增长至2024年的3.12亿元,年复合增长率超过130%[8][23] - 业务持续增长但亏损扩大,主要因研发投入导致[8][23] - 2025年上半年收入为1.9088亿元,利润为-23.5785亿元[26] - 研发费用持续高增,2025年上半年研发费用达15.9466亿元,占收入比例达835%[27] - 综合毛利率从2022年的54.6%波动至2025年上半年的50.0%[27] 市场表现回顾总结 - **行业指数表现**:计算机板块近1个月绝对表现-4.2%,近6个月绝对表现13.5%,近12个月绝对表现15.3%[6] - **近期板块表现**:2025年12月第3周,计算机板块下跌0.68%[29] - **个股周度涨跌**: - 涨幅前五:星环科技(+29.29%)、万集科技(+27.86%)、古鳌科技(+23.94%)、智莱科技(+23.30%)、嘉和美康(+18.97%)[30] - 跌幅前五:立方*ST(-25.17%)、品茗科技(-19.41%)、品高股份(-14.74%)、慧辰股份(-13.77%)、德明利(-10.92%)[30] - **重点公司公告**: - 协创数据:拟斥资不超过90亿元采购服务器,主要用于提供云算力服务[31] - 彩讯股份:出资500万元参与设立投资基金,专项投资于某人形机器人公司[31] - **行业重点新闻**: - 蚂蚁集团AI健康应用“蚂蚁阿福”月活用户超1500万,每天回答超500万个健康提问[32] - 阿里发布新一代万相2.6系列模型,是国内首个支持角色扮演功能的视频模型[32] 投资建议 - 持续重视AI应用,重点关注:阿里巴巴、金山办公、合合信息,以及AI Infra领域的达梦数据、深信服、星环科技[8][28]
“蚂蚁阿福”冲上苹果应用总榜第三;Temu跃居英国电商访问量第三丨Going Global
创业邦· 2025-12-21 18:33
出海四小龙动态 - Temu在英国电商市场快速崛起,2024年5月单月访问量达2840万次,仅次于亚马逊(4320万次)和eBay(3070万次),跃居英国访问量第三的零售网站[5] - Temu用户规模在英国实现翻倍增长,截至2024年5月已覆盖英国58%的成年网民,过去一年净增约830万新用户,用户增长幅度约为亚马逊的4.8倍、eBay的16.6倍[5] - Temu用户人均访问时长仅为1分10秒,低于Vinted的2分42秒、亚马逊的2分15秒、SHEIN的1分50秒和eBay的1分18秒,表明其用户黏性和浏览深度有待提升[6][7] - 速卖通平台上国产电视机销售额过去一年同比激增300%,成为大家电品类中增速最快的品类[8] - 小米、TCL、海信、创维、康佳五大国产电视巨头已集体将速卖通列为出海战略核心阵地,小米电视在2024年“海外双11&黑五”大促期间登上速卖通欧洲市场电视品类销售额榜首[8] - 速卖通推出“超级品牌出海计划”,承诺以一半成本为品牌商家带来增量,吸引了一批原亚马逊头部品牌将库存向速卖通倾斜,部分品牌在双11前将速卖通库存翻了两到三倍[8][9] 大公司与产品进展 - 蚂蚁集团旗下AI健康应用“蚂蚁阿福”下载量猛增,冲上苹果应用总榜第三位,其月活用户规模已超1500万,每天回答用户500多万个健康提问[11][12] - “蚂蚁阿福”月活复合增长率高达83%,远超行业13.5%的平均增速,已跻身国内AI App前五,并成为第一大健康管理AI App[13][14] - 蜜雪冰城美国首店在洛杉矶好莱坞正式开业,产品延续“高质平价”定位,招牌冰淇淋售价1.19美元,冰鲜柠檬水1.99美元,拿铁咖啡2.99美元,珍珠奶茶3.99美元起,整体价格显著低于当地同类品牌[15][16] - 蜜雪冰城自2018年开出海外首店以来,海外门店已拓展至13个国家,总数约4700家,2024年先后开放日本加盟、进入哈萨克斯坦市场,并与巴西签订采购意向[20] - 通用人工智能公司MiniMax已通过港交所上市聆讯,有望成为全球首家AGI上市公司,其业务覆盖全球超200个国家和地区,累计拥有超2.12亿用户,并服务超100个国家和地区的企业客户与开发者[23][24] - 小米开源模型MiMo-V2-Flash总参数为309B(激活15B),在代码和Agent评测基准上已跻身全球开源模型Top2行列,在大部分评测基准上超越了DeepSeek V3.2和K2-Thinking,而参数量减少了1/2至2/3[27] 海外大公司与行业事件 - 埃隆・马斯克身家突破7000亿美元,达到创纪录的7490亿美元(约合5.28万亿元人民币),主要因特拉华州最高法院裁决使其持有的价值1390亿美元的特斯拉股票期权恢复全额估值[30] - 马斯克持有特斯拉12%的普通股,价值1990亿美元,加上股票期权,其在特斯拉的持股总价值达3380亿美元;其持有的SpaceX约42%股份估值约3360亿美元,略低于特斯拉持股价值[31][32] - SpaceX计划于2026年启动IPO,目标募资金额远超300亿美元,整体估值将接近1.5万亿美元,有望成为史上募资规模最高的IPO之一[41][42] - 苹果首款可折叠iPhone预计于2025年9月上市,采用“阔折叠”方案,外屏5.5英寸,内屏7.8英寸,目标实现“近乎无折痕”的视觉效果,美国市场起售价预计1800-2500美元(约1.3万-1.8万元人民币)[33][36][39] - 行业预测显示,苹果入局折叠屏市场后,将直接以22%的份额跻身全球折叠屏前三,超越华为[39] - OpenAI正与亚马逊洽谈融资至少100亿美元,此交易将使OpenAI估值超过5000亿美元;作为合作一部分,OpenAI计划采用亚马逊自研的Trainium人工智能芯片[44] - OpenAI上月宣布,未来七年内将向亚马逊云科技支付380亿美元的服务器租用费用[44]
LeCun离职前的吐槽太猛了
量子位· 2025-12-21 13:45
文章核心观点 - 人工智能领域知名学者Yann LeCun在离职Meta前,公开批评当前以大语言模型为主导的AI发展路线,认为其无法通往通用人工智能,并宣布将创办一家专注于开源世界模型研究的新公司[1][2][4][8] LeCun对当前AI发展路径的批判 - 严厉批评仅通过扩展大语言模型和合成数据训练来实现超级智能的路径,认为这“完全是胡说八道”且“根本行不通”[2] - 认为大语言模型擅长处理离散的文本数据,但在处理高维、连续且嘈杂的现实世界数据如图像或视频时表现“完全糟糕”[29] - 断言仅靠训练文本数据,AI永远不可能达到人类智能水平[31] - 指出当前AI领域最难的问题是达到狗的智能水平,而非人类的智能水平[7][88] LeCun的创业计划与新公司AMI - 宣布将创办新公司Advanced Machine Intelligence,专注于世界模型的研究,并坚持开源路线[8][9][10] - 新公司AMI的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[19] - 创业动机源于对Meta转向封闭和短期项目导向的不满,认为公开发表成果是做出有价值贡献的唯一途径[3][14][15][17] 世界模型的理论与优势 - 主张构建智能系统的正确方式是世界模型,其核心是预测和规划,让机器像婴儿一样通过观察世界来构建内在的可预测模型[20][35][37] - 世界模型的关键是在抽象的表示空间中进行预测,而非直接生成像素,这能消除不可预测的细节和噪声,实现更长期可靠的预测[38][41][42][43] - 提出通过联合嵌入预测架构在抽象表示空间中进行预测,并认为“LeJEPA+SIGReg”是训练抽象表示非常有前途的技术集合[44][77] - 通过数据对比强调现实世界数据的丰富性:LLM训练所需的约30万亿tokens文本数据,其信息量仅相当于约15000小时的视频,而这只是一个4岁孩子一生中接收的视觉信息总量,仅相当于YouTube半小时的上传量[32][33] 对Meta现状及FAIR未来的评价 - 指出Meta在领导层变更后正变得更加封闭,从开源先锋转向封闭,且FAIR更倾向于短期项目和为内部实验室提供支持[3][11][24] - 透露其离职后,FAIR将由Rob Fergus领导,内部减少了对论文发表的重视,标志着Meta长达十年的“学院派”研究黄金时代结束[24][26] - 澄清自己在Meta的继任者并非“亚历山大王”,后者职责更偏向整体运营管理[23] 对AGI及智能发展的看法 - 认为AGI的概念本身无意义,人类智能是高度专业化的,实现机器在人类擅长领域超越人类需要一个渐进的过程,而非突发事件[80][82][83] - 预测未来几年世界模型和规划能力可能取得概念性突破,为实现人类水平AI铺平道路,但仍需大量新的理论创新[84][85] - 强调实现狗的智能水平是比实现人类智能更难的挑战,因为那需要具备大量的基础理论,而在此基础上增加语言能力则相对容易[88][89] - 认为单靠LLM或单靠世界模型都无法实现真正的人类智能,需要多种研究的结合与长时间积累[90] LeCun的职业生涯与理念 - 其职业生涯的核心目标是提升人类智能,认为智能是世界上最稀缺的资源,因此拒绝退休并选择继续创业贡献[91][94][95] - 始终坚持开源的技术路径,认为科学的进步源于开放交流中思想的叠加延伸,如果不公开发表就算不上真正的研究[15][103] - 回顾职业生涯有遗憾,如曾想到反向传播算法的核心思路但未及发表,但认为好的想法是集体智慧的产物[99][102]
Codex负责人打脸Cursor CEO“规范驱动开发论”!18天造Sora爆款,靠智能体24小时不停跑,曝OpenAI狂飙内幕
搜狐财经· 2025-12-21 10:38
Codex的爆发式增长与市场表现 - 自2024年8月GPT-5发布以来,Codex用户增长**20倍**,每周处理**数万亿**tokens,成为OpenAI最受欢迎的编程智能体 [1][13] - 在Codex的助力下,Sora团队仅用**28天**从零到一完成Android应用开发并上线,直接冲到App Store排行榜第一 [2][4] - 产品负责人Alexander Embiricos指出,Codex的快速增长不仅源于模型能力提升,更得益于模型、API和框架三层系统的协同作用 [1][20] Codex的产品定位与核心哲学 - Codex被定位为开源编码智能体,是VS Code的IDE扩展,旨在参与软件开发的**全流程**,从构思、规划到验证、部署与维护 [10] - 当前阶段的Codex被比喻为一个“聪明但不会主动的实习生”,写代码很快,但需要工程师监督和结对编程 [3][11] - 长期愿景是让Codex成为工程师的“主动队友”,能够理解上下文并主动提供帮助,而不仅仅是被动响应用户指令 [12][21] 技术突破与三层系统结构 - 为实现长时任务能力,团队设计了“压缩”机制:模型负责提炼关键信息,API承接任务链路,框架负责稳定运行,使Codex能连续工作**24到60多个小时** [1][7][18] - 增长的关键解锁点在于将Codex从云端异步交互模式,迁回至工程师本地的IDE环境中工作,使其更“接地气”,此举推动了用户量的爆炸式增长 [3][7] - 最新发布的GPT-5.1.1 Codex Max模型,在处理相同任务时速度提升约**30%**,且在解决复杂bug方面表现更智能 [18] OpenAI的组织文化与运作模式 - OpenAI的组织文化被描述为“先射击,再瞄准”,即快速发布产品,再根据真实使用反馈进行迭代优化,而非追求完美后再发布 [3][9] - 公司采用高度**自下而上**的运作方式,汇集了世界顶尖人才,个人动力与自主性极强,推动了前所未有的迭代速度 [8][10] - 内部通过“吃自己的狗粮”来推进产品发展,Codex在过去一年显著加速了公司内部的工程进程 [17] AI对软件工程与产品开发的影响 - AI正在改变工程师的工作内容,从创造性编写代码转向更多时间**审查AI生成的代码**,这成为新的工作体验挑战和瓶颈 [7][31] - 开发方式向更高抽象层级演进,出现了“规范驱动开发”和“聊天驱动开发”等新模式,人工智能能够根据高层描述或日常对话来执行任务 [32][33] - 角色边界变得模糊,例如OpenAI的设计师现在可以编写并发布自己的代码,设计团队维护着由AI辅助构建的功能齐全原型 [7][40] Codex的实际应用案例与生产力提升 - Sora安卓应用从开始到员工可试用仅用**18天**,**10天**后正式发布,总计**28天**完成上线 [4][41] - Atlas浏览器开发中,过去需要**2-3名工程师花2-3周**完成的功能,现在仅需**一个工程师一周时间**,实现巨大加速 [42][43] - Codex被用于处理“一次性代码”任务,如数据分析和原型制作,显著提升了非核心编码任务的效率 [40] 行业未来趋势与竞争关键 - 未来几乎所有强大的智能体最终都会通过**编写代码**来完成任务,因为这是最自然、最高效且能力可积累、可复用的行动方式 [27][28] - 在AI时代,真正的竞争优势从“擅长构建”转向“深刻理解特定客户问题”,垂直领域的AI初创公司更具潜力 [7][46] - 限制AGI发展的主要瓶颈可能并非模型能力,而是**人类的输入与审查速度**,解决验证环节的自主性是解锁生产力爆发曲线的关键 [4][54][56] 产品发展评估与用户反馈 - 评估Codex发展的关键指标包括用户留存数据,特别是**D7**留存率,以及来自Reddit、Twitter等社区的**真实用户反馈** [47][48] - 使用Codex的最佳实践是让其处理最**棘手、最真实的问题**,例如调试复杂bug,而非简单任务,以评估其真实能力 [7][51] - 公司致力于构建“情境化助手”,例如开发Atlas浏览器,旨在为智能体提供完整的工作上下文,并在用户最需要的时刻智能介入 [49][50]
深度|DeepMind CEO Demis: AGI还需5-10年,还需要1-2个关键性突破
Z Potentials· 2025-12-21 10:24
文章核心观点 - Google DeepMind联合创始人兼CEO Demis Hassabis认为,通用人工智能(AGI)可能在五到十年内实现,但仍需一到两个关键性突破,公司正致力于推进多模态AI、Agent系统和世界模型等前沿方向,以构建一个在日常生活中真正有用的通用助手 [6][30][31] - 公司认为AI是人类历史上最具变革性的技术之一,其最佳前景是带来“激进式丰裕”,解决能源、疾病等重大问题,但同时也需严肃应对AI安全、恶意滥用及系统失控等风险 [14][15][20] - 公司将其在激烈竞争中的优势归因于植根于科学方法的严谨性,以及将世界级研究、工程能力和基础设施相结合的能力 [9] 科学家与诺奖得主:从科学方法到公共责任 - Demis Hassabis获得诺贝尔奖后,其最大的变化在于该荣誉成为与领域外人士(包括政府高层)沟通时的“捷径”,能迅速确立其专家身份,这为其就AI安全等关键议题发声提供了重要平台 [5][7] - 公司强调科学方法是其面对一切问题的默认思维方式,认为这是人类历史上最重要的思想之一,并尝试将这种方法推向极致,这成为其作为研究组织和工程组织的优势来源 [9] - 除了长期AGI安全,公司关注的议题还包括当下AI的负责任使用,以及让整个社会为即将到来的变革做好准备,认为各国政府及其他关键领导者将发挥决定性作用 [6][8] 接下来的一年:多模态与Agent - 公司在接下来12个月将全力推进多模态能力的融合,其核心基础模型Gemini从一开始就是多模态的,能够同时处理并生成图像、视频、文本和音频,多模态本身正在带来有价值的交叉增益 [11] - 公司正在重点投入世界模型方向,例如其Genie 3系统是一种交互式视频模型,用户不仅可生成视频,还能在其中“行走”并保持长达一分钟的整体一致性 [11] - 公司希望Gemini最终成为一种“通用助手”,在接下来一年中会出现在更多设备上,可能通过眼镜等设备真正伴随用户生活,目标是打造一个每天都会被多次求助、成为生活结构一部分的系统 [12] - 目前Agent还不够可靠,无法独立完成完整任务,但预计一年后会开始看到接近这一能力水平的Agent出现 [11][13] 理想与担忧:AI带来的乌托邦与失控 - 公司设想的AI最佳前景是带来一种“激进式丰裕”状态,解决当今社会和人类面临的许多重大问题,如实现廉价可持续的清洁能源、治愈大量疾病,使人类进入后稀缺时代并真正繁荣 [14] - 公司担忧的风险主要来自两个方面:一是恶意行为者利用AI从事有害活动(如制造病原体、发动网络攻击);二是当AI接近AGI、变得更具自主性时,可能在某种情况下“失控”并对人类造成伤害 [15][18] - 公司认为AI突破安全边界的风险概率并非零,因此必须投入大量资源和注意力去应对,但精确量化这种灾难性风险(如P(doom))是没有意义的 [6][20] - 在AI安全研究上,随着具备持续学习能力的系统变得更具自主性,如何确保其始终保持在设定的安全边界内是一个活跃的研究领域,同时市场机制(如企业要求行为保障)也会自然奖励更负责任的参与者 [19] 行业竞争与现状 - 目前美国和西方在AI整体上仍然处于领先位置,但领先优势并不遥远,中国并没有落后太多,当前的领先可能只是以“月”为单位 [21] - 在算法创新和原创性方面,西方仍然具有优势,中国的模型或公司在快速跟进最先进技术方面做得非常出色,但在展示超越当前最前沿水平的原创突破方面目前仍略逊一筹 [22] - AI产业中的某些部分可能确实存在泡沫,例如一些规模极其夸张的早期融资看起来并不太可持续,但从长期来看,AI作为最具变革性的技术之一,其投入将被证明是完全值得的 [32] - AI领域的人才争夺战相当激烈,公司更看重那些被使命驱动的人才,并相信始终站在技术最前沿会形成对顶尖人才的吸引力正反馈 [33] Gemeni3: 实证引导下的强大模型 - 公司对近期发布的Gemini 3模型非常满意,认为其在智能水平和实用性上带来了明显跃迁,其回答风格简洁直接,并能在用户观点不合理时温和地提出不同意见 [25] - Gemini 3体现了对高层次指令的深度理解以及生成高度细节化输出的能力,其在前端开发和网站构建方面表现尤为突出,在美学、创造力和技术实现上都达到了很高水平 [26][27] - 公司认为创新速度过快,以至于在发布新版本时,内部甚至还没来得及探索现有系统十分之一的潜力,最终往往是用户将模型能力发挥到远超内部测试的程度 [28] - 公司决定全力押注LLM是基于科学方法和实证证据的指引,当看到scaling开始显现效果时,便逐步将更多资源投入到这条研究路径上 [28][29] AGI的十年之约:还需关键突破 - 公司认为目前尚未达到AGI,但已相当接近,预计还需要五到十年的时间 [6][30] - 公司对AGI的标准设得相当高,定义为一个系统能够展现出人类所具备的全部认知能力(包括发明和创造),且在各个维度上都具备一致性,而非当前“锯齿状”的智能形态 [30] - 当前系统缺乏一些关键能力,如持续学习、在线学习、长期规划和推理能力,这些能力可能还需要一到两个关键性突破才能实现 [6][31] - 实现AGI的路径上,必须把现有系统的scaling能力推到极限,但公司更倾向于认为除了scaling之外,还需要一到两个类似Transformer或AlphaGo那样的范式级重大突破 [31] 其他洞察与展望 - 公司认为当前AI最令人震撼却被严重低估的一点是模型所具备的多模态理解能力,尤其是多模态视频理解,能够在概念层面理解视频中发生的事情 [23][24] - 公司对人类大脑的适应能力充满信心,认为人类大脑已成功从狩猎采集社会适应到现代文明,理应具备持续适应AI变革的能力,未来或可通过脑机接口等新技术保持竞争力 [34] - 体育领域拥有极其丰富的数据且追求极致精英表现,天然适合引入AI进行优化,例如在角球进攻中,AI系统可通过分析球员的精确站位来帮助进更多的头球 [37][38]