Gemini 2.5 Pro
搜索文档
中美AI行业的关键时刻
虎嗅APP· 2026-01-29 22:10
文章核心观点 - 2025年是中美AI竞争格局发生深刻变化的一年,中国AI力量(如DeepSeek、Manus、Qwen、K2)在工程能力、开源和商业化方面赢得全球认可,开始与美国并行竞争 [7][8][72] - 地缘政治(如美国反向投资审查OIR)深刻影响资本与人才的流动,迫使华人AI创业者在“中国公司”与“美国公司”之间做出明确选择,全球化创业模式发生根本性转变 [12][18][22] - 中国一级市场在2025年迎来AI早期项目的短暂春天,资本狂热涌向具身智能、AI应用与Agent、多模态、AI硬件四大方向,其中硬件投资尤为火爆 [32][40][44] - 硅谷巨头(OpenAI、谷歌、Meta、英伟达)的竞争进入生态团战新阶段,模型能力差异缩小,竞争焦点从单纯的技术领先转向资本、基建和生态的整合 [57][64][65] - 技术演进面临Scaling Law的天花板争议,行业探索从预训练数据堆砌转向推理侧扩展、智能体协作及物理世界融合,同时高昂的算力成本仍是商业化的核心挑战 [75][76][80] 一、不平凡的春节 - 2025年春节期间,DeepSeek R1和宇树机器人展示了中国团队卓越的工程能力,以更少算力、更高效率做出了媲美GPT-4o的模型,震撼硅谷 [10][11] - DeepSeek的成功在美国引发政策分歧:一派认为算力卡脖子无效,另一派(以Anthropic CEO Dario为代表)主张对华加强管制 [11] - 随着美国政治变化,针对中国AI的算力限制、投资限制和AI扩散规则升级,将中美科技竞争推向新高潮 [12] 二、Manus的7500万美元融资 - 2025年第一季度,DeepSeek、宇树和Manus让硅谷热议中国,市场情绪高涨 [14] - 硅谷顶级风投Benchmark创始人来华,以7500万美元投资Manus母公司蝴蝶效应,将其估值推高至5亿美元,此举被视为针对中国背景AI项目的“超级支票”,极具象征意义 [15][16] - DeepSeek和Qwen等中国开源模型将AI推入普惠的推理时代,降低了使用成本,而Manus则展示了产品定义和工程创新的力量,共同宣告AI应用时代到来,重新激活了美元VC的投资热情 [15][16] 三、Reverse CFIUS下,华人的AI创业 - 美国“反向投资审查”(OIR)规则限制美国资本投资中国AI公司,且“中国公司”的界定范围被扩大,导致如Benchmark投资Manus的交易面临美国财政部的审查风险 [18] - 规则造成寒蝉效应,顶级美元机构(如红杉、GGV)已通过设立独立分支应对,而纯美元机构则形成新默契:追求“资本与人才的脱钩”,即投资华人团队的前提是项目必须在法律、数据和市场上彻底剥离“中国属性” [19] - Manus在收到问询函后,裁撤武汉团队并将总部迁至新加坡,被视为一种示范,但律师指出这并非成为“美国公司”的标准答案,美国的核心关切是企业最终是否会完全站在美国一边 [20][21] - 地缘政治张力下,立场必须明确,上一代利用中美成本洼地的全球化创业模式终结,若想获得本土美元大额投资,必须彻底成为一家美国公司 [22] 四、3亿美金前很热闹,3亿美金后融不到 - 中国AI创业公司估值达到3亿美元后,面临国内融资天花板,因为市场缺乏PE资金,只有VC和投机资金,促使许多创始人考虑前往硅谷融资 [23][24] - 融入硅谷面临语言表达、文化差异和思维模式挑战,需要数年时间适应,而非简单认为硅谷“人傻钱多” [25][27] - Hygen(诗云科技)是成功范本:作为华人团队,在实现产品市场匹配(PMF)和强劲现金流(ARR逼近1亿美元)后,通过资本隔离(回购早期股份)、物理隔离(总部迁至洛杉矶)和吸引顶级美元机构(Benchmark合伙人入董事会),跑通了“华人团队+中国技术红利+硅谷资本+全球市场”的路径 [26][27] - 新一代华人创业者更具野心和全球视野,DeepSeek等中国项目的成功也助力打破了硅谷的“竹子天花板” [27][28] 五、中国一级市场的短暂春天 - 2025年初,受美股AI龙头估值飙升的溢出效应影响,中国AI一级市场情绪高涨,资本主要流向具身智能、AI应用与Agent、多模态、AI硬件四个方向 [32] - **具身智能**:因宇树机器人春晚表演爆火,成为年度关键词,头部公司账上现金不少于10亿元人民币,大量吸收国资人民币基金,因其符合长周期、硬科技的国家战略导向 [33] - **AI应用与Agent**:基础模型格局收敛及开源普惠推动应用时代成熟,头部美元基金(如红杉、高瓴)上半年投资活跃,中东主权基金也加大投资,案例显示liblib日收入达15万美元,下一轮融资额预计达8亿美元 [36] - **多模态**:中国市场急需视觉AI底座模型,快手因推出可灵模型市值重估,创业公司Vivix.AI因创始人稀缺的大规模模型训练经验,估值在一年内从1-2亿美元飙升至13.4亿美元 [37][38] - **AI硬件**:2025年是AI硬件投资爆发元年,技术成熟、政策推动(“人工智能+行动”)、中国供应链红利共同催生热潮,5月份流向硬件的资金占AI领域总投融资额50%以上,截至8月,具身智能与AI硬件领域投融资总额突破386亿元 [40][44] - 投资机构策略分化:高瓴等机构“口袋深”,广泛孵化大厂精英创业;云启等机构则发起专项计划投资“98后”年轻创业者,认为年轻人将带来无穷可能 [45][46][47] 六、顶尖项目的融资窗口,只在几个月内 - AI时代形成共识的窗口期极短,顶尖项目的融资机会往往只在几个月内,类似十年前的自动驾驶行业 [50][53] - 创业对融资的依赖度降低,优质标的稀少导致资本集中化,市场上绝大部分资金被少数项目拿走 [52] - 投资风格分化为两种:一是在热门赛道“矮子里面拔将军”以求参与;二是坚持寻找能定义未来的颠覆性项目,批评许多项目只是用AI技术重做传统应用 [53] - 年轻一代投资人更为积极,在浪潮中渴望投出代表作以丰富个人履历 [53] 七、硅谷风云:属于巨头的棋局 - 2025年基础模型竞争如季度排位赛,格局变化极快,令二级市场难以定价 [57] - **王者对决**:OpenAI与谷歌是主要竞争者。OpenAI保持先发优势但GPT-5显示Transformer架构 Scaling Law 天花板初现;谷歌凭借Gemini系列(尤其是2.5 Pro和Nano Banana)实现翻身,在多模态和记忆方面表现稳定优异 [58] - **生态博弈**:OpenAI与主要投资者微软关系出现嫌隙,Sam Altman转而联合英伟达启动“星际之门”项目,被视为去微软化举措 [61] - **英伟达的合纵连横**:承诺向OpenAI分批投资1000亿美元(前提是部署英伟达系统),并收购AI推理芯片公司Groq的LPU资产以巩固生态,其与OpenAI、甲骨文形成的“星际之门”闭环导致甲骨文自由现金流转负,股价大幅波动 [62][63][64] - **其他巨头的挣扎**:Meta在基础模型上全面掉队,内部组织分散,为追赶不惜重金挖人;马斯克的X.AI通过错位竞争争取门票 [67][68][66] - **Meta收购Manus的意图**:可能意味着其竞争重心从自研模型转向打造最强智能体执行层,以资本兑换技术时间和市场势能 [70] 八、中国的开源之路 - 2025年,中国AI体系在国际报告中首次从“外围追赶者”被提升为“平行竞争者”,被认为在开源AI和商业化部署方面设定节奏 [72] - 尽管在绝对SOTA水平上因算力基础设施受限而落后,但中国开源模型(DeepSeek、Kimi、Qwen)在多项关键性能上实现对Meta Llama系列的反超,“开源看中国”成为全球共识 [72] - 中国模型凭借更高性价比成为全球选择,例如智谱的coding能力全球靠前,定价仅为Anthropic的1/7,借此获得多国主权大模型订单;下半年硅谷创业公司也开始切换使用Qwen、Deepseek和K2 [73] 九、技术的演进:从2023~2025,以及2026的预判 - 技术演进路径从2022年底的预训练爆发、2024年底的强化学习爆发,到2025年中外模型在预训练和后训练上各有侧重 [75] - 围绕Scaling Law是否到达天花板出现两派思潮:“撞墙派”(如LeCun、Ilya)认为堆算力和数据的边际效应递减;“不死派”(如Hinton、Dario)认为Scaling Law依然有效,正转向推理侧扩展(Inference-time Scaling) [76] - Scaling Law正经历从“模型尺寸大小”扩展,过渡到“模型思考深度”扩展,未来将走向“智能体协作网络效应”扩展 [76] - AI正从数字世界迈向物理世界,商业公司致力于在现实与数字世界间架设桥梁,通过传感器获取数据、构建数字孪生,并探索如“世界模型”等前沿方向 [77][83] 十、回归商业的现实 - 大模型行业仍处早期,巨额算力成本带来巨大盈利压力:OpenAI 2025年年化收入200亿美元,但算力租卡成本高达160亿美元,经营亏损119.2亿美元,相当于每赚1美元净亏损0.6美元 [80] - 推理成本随着推理侧扩展而暴涨,将成为全行业趋势,但新时代AI的商业模式仍在探索中 [80] - 中国算力供给面临瓶颈,进口受限,焦点从“卡的数量”转向“算力可得性”,蚂蚁、米哈游等大企业开始自建算力,但有能力者屈指可数 [84] - 底层算力和基建的自控权是竞争决定性因素,美国正通过债券等形式将算力资产化 [82] - 对于创业公司,追求“模应一体”和产品化是现实选择,模型编排(协调多个模型工作)可能成为其优势所在,而用户增长与留存是检验产品的金线 [85]
Gemini加持!新版Siri下月亮相,iOS 26.4测试版同步启动
环球网· 2026-01-28 10:47
苹果与谷歌合作升级Siri - 苹果选定谷歌Gemini模型重构其经典语音助手Siri,合作成果最快将于2月中下旬通过活动或媒体简报会展示,标志着Siri正式迈入AI升级新阶段 [1] 新版Siri的技术与部署 - 新版Siri将搭载基于谷歌定制化Gemini 2.5 Pro模型打造的内核,苹果内部将其命名为“Apple Foundation Models 10”(AFM-10)[4] - 技术全程部署于苹果私有云计算服务器,用户数据经去标识化处理,谷歌无法接触或用于模型训练,兼顾智能提升与隐私安全 [4] 新版Siri的功能与发布计划 - 功能实现关键突破,可调用用户个人数据并识别屏幕内容执行操作,例如提取网页重点、跨应用同步信息等 [4] - 新版Siri将随iOS 26.4版本首次亮相,该系统预计2月启动beta测试,3至4月面向全球用户正式推送 [4] - 兼容设备包括iPhone 15 Pro及以上机型、搭载M1芯片的iPad和Mac [4] Siri的长期升级路线 - 此次亮相仅为阶段性升级,完全重构的聊天机器人式Siri需等到2026年全球开发者大会(WWDC),随iOS 27系统同步发布 [4] - 届时将搭载升级后的AFM-11模型,性能对标Gemini 3,交互体验更贴近自然对话 [4]
又见印奇
36氪· 2026-01-27 08:25
文章核心观点 - 旷视科技联合创始人印奇基于AI 1.0时代商业化无法闭环的教训,认为AI 2.0时代必须找到明确的商业模式,其当前担任董事长的阶跃星辰选择“AI+智能终端”的软硬结合路径,旨在实现商业闭环,并已获得超过50亿元人民币的融资 [1][3][4][6][7] AI 1.0时代的教训与反思 - 旷视科技在AI 1.0时代是资本宠儿,曾获得7500万美元C轮融资并拥有高人才密度,但商业化上被认为不够主动饥渴 [1][2] - AI 1.0“四小龙”的共同宿命是缺乏自己的“印钞机”,无论如何商业都不能闭环,这对创始人伤害巨大 [2][3] - 印奇反思“拿着锤子找钉子”的模式,认为商业模式一旦试错很难回头,必须在3年内验证为合理的生意,商业闭环的结果比上市更重要 [3][4] 对当前AI商业化的观察与判断 - 不看好国内“六小虎”中大多数以及硅谷多数AI新贵的商业化,认为它们仍处于早期“拿着锤子找钉子”的阶段 [4] - 认为Google的Gemini能扳回一局是依靠搜索业务的“印钞机”,但其自身商业化也尚无清晰想法 [4] - 目前唯一看到成型且可能跑通的AI商业模式是xAI,因其与特斯拉结合,具备先天多模态和软硬结合基因,能服务企业客户 [5] 阶跃星辰的战略与商业模式 - 阶跃星辰获得超过50亿元人民币的新一轮融资,刷新了过去12个月国内大模型单笔融资规模记录 [6] - 公司战略是“AI与智能终端的结合”,旨在实现商业闭环,其“产品”是真正的硬件,而非单纯的AI代理 [7] - 公司放弃了“to 大B”的模式,认为在中国面向消费者的硬件产品才是实现商业闭环的路径,其to B收入已是“小虎”中最高的 [8][9][10] - 具体路径是用多模态基座模型能力服务手机厂商(实质是to C),并尝试推出未来形态的AI硬件 [10] 阶跃星辰的技术与团队 - 发布了Step3-VL-10B模型,仅100亿参数但在多项基准测试中碾压参数规模10-20倍的同行,部分能力可比肩GPT-4o等顶流闭源模型 [8] - 这种多模态能力出众的小参数模型是AI硬件的最佳搭档,可部署在端侧 [8] - 公司团队“骨骼清奇”,算法团队来自旷视,数据团队来自微软搜索,拥有顶尖研究人才,人才密度高且平衡 [12] - 公司有AGI信仰,目前是“多模态卷王”,计划在2026年使基座模型能力重返第一梯队 [13] 千里科技与协同愿景 - 印奇同时担任千里科技和阶跃星辰的董事长,两家公司合作密切 [6] - 千里科技围绕AI与车的关系,其目标是让千里智驾成为国内最好的智驾系统,跑在100万辆车上 [7][13] - 阶跃星辰与千里科技的协同,类似于xAI与特斯拉的关系,旨在通过软硬结合实现AI商业闭环 [5][7] 创始人的心态与理念 - 印奇自称已是“老登”,拥有“老灵魂”,信奉静水深流和长期主义,不再相信没有明确客户价值或商业价值的东西 [4][15] - 相较于“热血”,更强调商业闭环和交付离商业成果更近的成果 [14][15]
数据漂亮
小熊跑的快· 2026-01-18 21:21
AI大模型行业第三方API调用数据概览 - 统计周期内,第三方API平台上的AI大模型总调用量(Tokens)达到7.11万亿(7.11T)[2] - 统计周期内,行业总调用量的周度增长为5470亿(+547B),显示出强劲的扩张势头[2] 主要AI模型市场份额与排名 - “Others”类别以3.32万亿的调用量占据主导地位,远超其他单一模型[2] - Anthropic公司的Claude Opus 4.5模型以5990亿的调用量位列第二[2] - 国产模型MiMo-V2-Flash以5060亿的调用量在该第三方平台排名全球第三[2][3] - 紧随其后的模型包括:Claude Sonnet 4.5(5800亿)、Grok Code Fast 1(4320亿)、Gemini 3 Flash Preview(4140亿)、Gemini 2.5 Flash(3580亿)、DeepSeek V3.2(3330亿)、Gemini 2.5 Pro(3050亿)和Grok 4.1 Fast(2670亿)[2] 行业趋势与预测 - 第三方API调用数据创下新高,符合两周前的市场预测[3] - 国产AI模型MiMo-V2-Flash在全球第三方平台中取得领先的市场地位,位列第三[3]
Nancy Pelosi bets big on 2 Dividend Stocks in 2026
Yahoo Finance· 2026-01-16 11:03
南希·佩洛西的投资组合与关注点 - 南希·佩洛西的股票投资组合因其精准的时机而受到市场密切关注 [1] - 其股票投资组合价值约为3250万美元 其中微软和Alphabet两家大型科技股占其2026年投资组合的22% [2] - 这两家公司均支付股息 并深度参与人工智能革命 是面向人工智能和云计算未来的战略性投资 [3] 微软的业务表现与人工智能驱动 - 微软最新季度营收达777亿美元 同比增长18% [8] - 微软云业务营收达491亿美元 增长26% 其中Azure平台增长40% [8] - 公司正以接近每季度350亿美元的速度投资于数据中心、GPU和人工智能基础设施 但仍无法满足客户需求 产能紧张状况预计将持续到本财年末 [5][6] - 人工智能产品已带来实际收益 GitHub Copilot拥有2600万用户 每月接受数十万行AI生成的代码建议 [7] - 微软365 Copilot已被超过90%的财富500强公司使用 该产品每月为每位用户额外带来30美元收入 [9] - 公司的商业剩余履约义务(已签约未确认收入)达3920亿美元 近两年内几乎翻倍 合同加权平均期限约为两年 [11] - 微软支付每股0.91美元的季度股息 自2004年以来每年增加股息 同时每年在AI基础设施上的支出超过1000亿美元 [12][13] Alphabet的业务表现与人工智能驱动 - Alphabet最新季度营收首次突破1000亿美元 达1023亿美元 同比增长16% [14] - 谷歌搜索业务营收达566亿美元 增长15% [14] - 谷歌云业务营收达152亿美元 增长34% 运营利润率从去年同期的17%扩大至近24% [16] - 谷歌云的未确认收入积压达1550亿美元 同比增长82% 在2025年前九个月签署的十亿美元级交易数量超过前两年总和 [18] - AI Overviews等人工智能功能提升了搜索体验并促进了查询增长 AI Mode功能使查询量在本季度翻倍 该功能已拥有7500万日活跃用户 [15][21] - 公司最新AI模型Gemini 2.5 Pro已处理1.3 quadrillion tokens 速度比前一版本快20倍 Veo视频生成模型已生成超过2.3亿个视频 [17] - 谷歌云提供业界最广泛的AI芯片选择 十大AI实验室中有九家使用谷歌云 Anthropic承诺使用高达100万个谷歌TPU [22] 财务实力与股东回报 - 微软支付季度股息 收益率为0.79% 并持续增长股息 [12] - Alphabet在最近十二个月内产生近740亿美元的自由现金流 [19] - Alphabet上一季度运营现金流达450亿美元 增长32% 自由现金流达257亿美元 增长33% [20] - Alphabet在三个月内通过回购和股息向股东返还了107亿美元 [20] - Alphabet季度股息为每股0.21美元 收益率为0.25% 今年将股息提高了5% [19][23] - 根据预测 Alphabet的年股息每股预计将从2025年的0.84美元增加至2029年的1.13美元 [24] - Alphabet季度末持有985亿美元现金及有价证券 当季回购了115亿美元股票 [24] 行业趋势与投资主题 - 人工智能革命需要数千亿美元的基础设施投资 只有少数公司拥有参与竞争的资产负债表和现金流 [27] - 当前支出有实际客户承诺和当前收入支撑 不同于互联网泡沫时期的未来利润承诺 [27] - 需求超过供给导致的产能紧张 对企业而言是最佳问题 [27] - 微软和Alphabet处于拐点 AI基础设施建设正在进行中 需求通过数十亿美元的签约合同得以具体衡量 [25] - 这两家公司是成熟、能产生现金的业务 在赢得AI竞赛的同时支付股息并回购股票 [26]
2025人工智能发展现状报告:超级智能与中美大模型PK,限制与超越 | 企服国际观察
钛媒体APP· 2026-01-12 13:39
报告概览与核心预测 - 报告为《人工智能现状报告 2025》,长达300多页,由业界顶尖从业者评审,涵盖技术、产业、政策、安全、市场等多个维度[2] - 报告对下一年度做出多项预测:中国研究机构在前沿AI模型研究上将超越美国;开放式AI智能体(Agent)更值得获得进一步科研发现;基于AI生成欺诈视频的网络攻击将引发国际讨论;美国某头部AI研究架构将转向开源生态以获得政府支持[2] 技术发展与模型竞争 - 2024年末至2025年,随着GPT-o1发布,基于深度推理的大模型发展热潮兴起,多家厂商快速面世多个推理模型[3] - 以Meta为代表的科技巨头定义了“超级人工智能”(Superintelligence)一词,“通用人工智能”(AGI)成为过去时[3] - 顶尖模型仍保持闭源,如GPT-5、GPT-o3、Gemini 2.5 Pro、Claude 4.1 Opus、Grok4等,其中OpenAI的GPT-5在多个基准测试中保持领先[5] - 中国基础模型虽未取得突破性进展,但在开源模型领域颇具竞争力,DeepSeek、Qwen和Kimi等模型崛起,在推理和编程任务方面正逐步缩小与领先者的差距[6] - 开源为中国厂商提供了快速追赶的契机,越来越多的开发者选择基于Qwen进行开发[6] - 曾作为开源模型标杆的Meta Llama,其市场份额已从2024年末的约50%大幅下滑至目前的15%[6] - 近期推理模型的方法改进完全处于基准模型的误差范围内,可能意味着其进步并不真实,且强化学习带来的实际收益微乎其微,容易过拟合[9] - 前沿AI实验室正探索将强化学习、可验证奖励机制、可验证推理与新环境结合,赋予模型规划、反馈、自我修正及长期执行任务的能力[11] - AI研究正考虑利用小语言模型构建智能体,因其成本显著降低且能满足实际操作需求,策略是采用小语言模型构建有限的异构智能体架构,仅在必要时调用大模型[11] AI智能体与产业应用 - AI智能体框架发展迅速,LangChain仍是众多选择之一,各细分领域涌现数十种框架,如研发领域的AutoGen、camel,软件工程领域的MetaGPT等[13] - AI智能体的研究正赋予其记忆能力,实现从拓展上下文窗口到结构化、持久性终身记忆的转变,并延伸至动态整合、遗忘和反思[13] - AI在跨学科领域应用价值凸显,例如DeepMind基于Gemini 2.0构建的AI系统“Co-scientist”能生成、辩论并进化其假设生成与实验规划过程[13] - AI在物理世界涌现,如艾伦人工智能研究所的MolmoAct和谷歌的Gemini Robotics 1.5,能提升物理机器人的可解释性和可靠性[13] - AI产业应用迅速普及,AI优先企业营收远超其SaaS同行,在各个行业展现出发展势头[13] - 2025年,随着AI采用率上升,用户留存率上升,企业支出增加,特别是在音视频、虚拟形象、图像生成领域,AI公司收入有望实现爆发式增长[13] - 企业内部AI应用场景以内容生成、代码生成、研究及分析密集型任务最为常见[18] - 使用频率最高的工具包括ChatGPT、Claude、Gemini/Google和Perplexity,DeepSeek覆盖率略低但使用频率相对较高[18] - 在开发者工具中,Cursor、Claude Code和GitHub Copilot备受青睐;非编程工具中,Deep Research、ChatGPT、ElevenLabs、Perplexity和Claude使用频率非常高[18] - 对1183名AI从业者的调研显示,95%的专业人士现在在工作或生活中使用AI,76%的人自掏腰包购买AI工具,且大多数人表示生产力持续提高[25] 市场竞争、风险与基础设施 - AI编程工具可能主动覆盖企业生产代码,导致开发成果受损[21] - 从事AI编程开发的初创公司面临严峻的单位经济效益挑战,盈利受制于上游模型价格和竞争对手,可能采取突然提价或限制用户功能等措施[21] - 浏览器正成为AI应用的最新焦点和企业竞争的新战场,OpenAI、Google、Anthropic和Perplexity均推出了能在浏览器中导航和操作的助手功能,将浏览器重新定义为智能操作系统[21] - 谷歌在其产品中嵌入Gemini能力,其每月Token消耗数量在2025年同比增长了50倍,达到千万亿个Token[22] - 电力供应正成为制约AI发展的新因素,若电力供应不足,国家AI计划将面临崩溃风险,未来1-3年内美国几个主要地区可能会出现电力短缺[22] - 美国能源部警告,由于电力供应不稳定和AI需求增长,到2030年,停电频率可能会增加100倍[22] - 2024年末DeepSeek搅动市场,市场重新认识“杰文斯悖论”,即更便宜的智能带来更高的需求,进而提高对芯片的消耗[22] - GPU至关重要,英伟达市值突破4万亿美元,占据90%的AI研究论文市场份额,定制芯片与新云服务同步崛起[25] - 除英伟达外,上市公司Coreweave、Nebius以及私企Lambda、Crusoe因客户对优惠价格、灵活合同条款及AI专用软件套件的需求增加而实现快速增长[25] - TPU和AMD的GPU普及程度并不高[25] 劳动力市场影响 - AI主要挤压入门级岗位市场,在软件和客服领域,这类岗位极易受AI技术影响,其招聘岗位持续下降,经验丰富的劳动力暂时保持工作稳定性[25] - 研究发现当前劳动力市场变化早于2022年ChatGPT的问世,AI自动化目前并未削弱经济领域对认知型劳动力的需求[28] 政策、安全与监管 - 美国推行“美国AI优先”战略并调整出口政策,中国加速推进自主研发与本土芯片制造,中美AI竞赛愈演愈烈[28] - 2025年,特朗普政府将人工智能安全研究所更名为人工智能标准与创新中心,并启动了5000亿美元的“星门计划”,同时美国政府发布《人工智能行动计划》力求保持其全球主导地位[28] - AI芯片出口限制政策用“反复”形容,美国政府需在国家安全目标与供应链依赖、供应商游说间寻求平衡,英伟达和AMD成为政治焦点,英伟达在中国市场并未达到稳定状态[28] - 美国监管措施在巨额投资浪潮中被边缘化,国际外交陷入僵局,《人工智能法案》实施遭遇重重阻碍[31] - AI数据中心建设陷入邻避主义瓶颈,美国公众对新建大规模数据中心的反对声日益高涨[33] - 政府《人工智能行动计划》提及需自主AI领域“基础科学”,但其核心研发资金远低于专家建议的2026年320亿美元投资目标[33] - 硅谷科技巨头采取“逆向”并购政策:通过快速引进人才(创始人及团队高薪)以规避并购限制,同时保留原业务精简的公司转型拓展小众市场,例如微软收购Inflection,谷歌收购Character AI,亚马逊收购Adept,Meta收购Scale AI[33] - 美国联邦贸易委员会对这类“逆向”并购行为的担忧日益加剧[35] - 美国就AI安全相关的政策议题发生转变,加之实验室间商业竞争激烈,某些安全规程已被列为非优先事项[36] - 外部安全机构年度预算甚至不及顶尖实验室单日总支出,曾以安全为核心的机构开始将重点转向产品化[36] - 报告估算,外部AI安全研究投入仅约1.3亿美元,而同期全球AI研发支出接近千亿美元,比例极低[36] - AI实验室为防范生物安全风险和网络攻击部署了空前防护,部分实验室却因错过自我设定的截止日期或悄然放弃测试方案[36] - 网络攻击能力每五个月翻一番,远超防御措施的更新速度,犯罪分子利用AI智能体的勒索软件已渗透至世界500强企业[39] - 涉及生成式AI的安全事件正呈急剧增长态势,大量报告事件涉及AI换脸技术,与大模型的滥用密切相关,AI代理正日益成为网络安全防御的重大挑战[39]
谷歌看了都沉默:自家“黑科技”火了,但为啥研发团队一无所知?
36氪· 2026-01-07 19:04
Gemini 3 Flash模型性能与定价 - 谷歌推出新一代AI模型Gemini 3 Flash,其核心特点是模拟人类“直觉”,而非单纯模拟思考[1] - 该模型速度是Gemini 2.5 Pro的3倍,且在某些基准测试中推理能力超越了自家的Pro版本[1][2] - 模型定价为:输入每百万tokens 0.50美元,输出每百万tokens 3.00美元[2] 关键基准测试表现对比 - 在学术推理测试(Humanity‘s Last Exam,无工具)中,Gemini 3 Flash得分为33.7%,低于Gemini 3 Pro的37.5%和GPT-5.2 Extra high的34.5%[2] - 在科学知识测试(GPQA Diamond,无工具)中,Gemini 3 Flash得分为90.4%,略低于Gemini 3 Pro的91.9%和GPT-5.2的92.4%[2] - 在数学测试(AIME 2025,无工具)中,Gemini 3 Flash得分为95.2%,略高于Gemini 3 Pro的95.0%,但低于GPT-5.2的100%[2] - 在代码能力测试(LiveCodeBench Pro,Elo评级)中,Gemini 3 Flash得分为2316,低于Gemini 3 Pro的2439和GPT-5.2的2393[2] - 在代理工具使用测试(t2-bench)中,Gemini 3 Flash得分为90.2%,与Gemini 3 Pro的90.7%相近[2] 关于“并行验证循环”技术的传闻与争议 - 有网络传闻称,谷歌DeepMind团队(AlphaGo团队)未使用思维链(Chain-of-Thought),而是采用了一种名为“并行验证循环”的机制[3][4] - 该传闻描述,并行验证循环允许系统同时生成和验证多个候选解决方案,进行交叉验证并迭代,而非线性思考[10][12][16] - 传闻声称,相比标准思维链,该框架在复杂推理基准测试中性能提升37%,捕捉逻辑错误能力提升52%,收敛到正确解的速度快3倍[13][14] - 该框架被描述为具备自我纠错优势,能在不中断流程的情况下回溯修正错误,适用于科学推理、数学证明、代码调试和战略规划等场景[18][22][23] - 然而,该传闻来源(网友Jainam Parmar)并非AI研究领域权威人士,也未提供明确的DeepMind官方信源,其内容被部分网友怀疑是AI生成的虚假信息或蹭热度的不实言论[26][27][33][35][37] - 有网友指出,相同的可疑内容被不同账号(如Chris Laub)发布,进一步增加了其为“AI垃圾”信息的可能性[43][45] 行业技术现状与反思 - 思维链技术本身已非最前沿,长思维链技术具备深度推理、广泛探索和可行反思等关键特征,能更有效地处理复杂任务[47] - 目前没有可靠证据表明DeepMind已用“并行验证循环”全面取代思维链作为核心推理框架[49] - Gemini 3 Flash的性能跃迁可能源于渐进式优化,而非传闻中的“黑魔法”,行业需警惕对单一技术解释的过度迷信[49]
喝点VC|a16z谈AI的“玻璃鞋效应”:大量模型都能把事情“勉强做好”,却没能够激发用户忠诚度
Z Potentials· 2025-12-30 11:09
文章核心观点 - AI领域正在出现一种颠覆传统SaaS增长模式的“玻璃鞋效应”,即某些AI产品在发布之初就能吸引并长期锁定一批“基础用户群”,实现异常出色的早期用户留存,其核心在于产品与特定高价值、未被解决的工作负载实现了完美匹配,而非遵循先推出MVP再迭代改善留存的传统路径 [4][6][9] 传统SaaS模式与AI新常态的对比 - 传统SaaS行业普遍遵循“老派剧本”:先推出功能极简的MVP,接受早期用户必然流失的现实,再通过高强度迭代试图提升留存率,高留存被视为难以在起步时达成的“黄金指标” [3][4] - 在AI世界中,一种新常态正在浮现:部分AI产品在第一批用户中即实现了异常亮眼的留存表现,用户仿佛一开始就找到了真正所需,这种现象被称为“玻璃鞋效应” [4][5] “玻璃鞋效应”的机制与表现 - 效应核心是“工作负载—模型匹配”:当一款前沿模型以反直觉的精准度,真正解决一个长期棘手、价值极高的工作负载时,就像为灰姑娘找到了合脚的玻璃鞋,特定用户会深度嵌入工作流并形成锁定效应,不再轻易更换 [7][9] - 基础用户群行为特征:他们在产品刚上线、模型被视为最先进时迅速出现,一旦承诺被兑现,便展现出异常出色的长期留存,例如Gemini 2.5 Pro在2025年6月的首发用户群,在5个月后仍有接近35%持续活跃使用 [9][15] - 后续用户行为差异:晚于基础用户群进入的用户更多是出于尝试心态,若其核心需求未被满足或已被其他方案覆盖,则会迅速流失,例如Gemini 2.5 Pro在2025年9月或10月的用户群留存曲线迅速下探至底部 [10][15][16] 实证案例:模型发布与用户留存 - **成功案例(具备“玻璃鞋效应”)**: - **Google Gemini 2.5 Pro**:2025年6月首发用户分群在发布5个月后仍有接近35%持续活跃,表明他们找到了真正需要的能力(如编程表现或准确性提升)[15] - **Anthropic Claude 4 Sonnet**:2025年5月首发用户分群在第4个月时仍保留了约40%的用户,可能因其在高级推理或超长上下文窗口上的能力解决了特定问题 [17] - **警示案例(缺乏“玻璃鞋效应”)**: - **Gemini 2.0 Flash 或 Llama 4 Maverick**:发布时能力尚可但未形成清晰的前沿跃迁,所有用户分群留存曲线在底部重叠,呈现商品化特征,未能锁定长期用户 [19][20] AI时代用户留存的新规则与影响 - **基础用户群的价值与锁定效应**:一旦形成匹配,基础用户群极难被撬动,因为切换模型需付出重新训练、工程改造等高摩擦成本,形成了由高切换成本驱动的经典商业锁定效应 [23][24] - **前沿窗口期极其短暂**:每一代新模型只在极短时间内被视为前沿,AI公司仅有有限的一次性机会去捕获最具价值的基础用户群,错过则可能陷入渐进式改进的竞争 [18][28] - **产品构建的新方向**:目标应是率先彻底解决一个高价值、未被解决的聚焦问题,打造不可替代的“玻璃鞋”,而非在拥挤赛道做一个“勉强够用”的泛化产品 [25][26] 对行业与公司的启示 - **重新定义产品-市场匹配**:在AI领域,匹配的关键不是功能全面,而是在某一高价值工作负载上形成压倒性的解决能力,深度突破比横向堆叠特性更重要 [28] - **以留存作为北极星指标**:在追求增长的同时,应高度重视留存曲线,观察是否存在留存显著优于其他分群的“基础用户群”,这能指引产品路线和核心叙事 [28] - **先发优势的重新定义**:成功的关键不在于率先进入市场,而在于率先将能力提升到全新高度以解决迫切问题,从而锁定高度忠诚的用户群体 [28]
倒反天罡,Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
36氪· 2025-12-22 18:12
Gemini 3 Flash性能表现 - 在SWE-Bench Verified测试中获得78%的分数,超越自家旗舰Gemini 3 Pro的76.2% [1][5] - 在AIME 2025数学测试中,结合代码执行能力得分高达99.7%,逼近满分 [5] - 在Humanity's Last Exam测试中,不使用工具得分为33.7%,与Pro版37.5%的成绩处于同一梯队 [5] - 在多项核心基准测试中表现超越上一代旗舰Gemini 2.5 Pro,并在编程和多模态推理等维度反超GPT-5.2 [5] - 响应速度是Gemini 2.5 Pro的3倍,Token消耗量减少30% [7] 产品定价与成本效益 - Gemini 3 Flash输入价格为每100万Token 0.50美元,输出价格为每100万Token 3.00美元 [2][6] - 价格高于Gemini 2.5 Flash(输入0.30美元/百万Token,输出2.50美元/百万Token),但考虑到性能和速度提升,仍具吸引力 [7] - 其成本显著低于Gemini 3 Pro(输入2.00美元/百万Token,输出12.00美元/百万Token) [2][6] - 在竞品中,其输入成本低于Claude Sonnet 4.5 Thinking(3.00美元/百万Token)和GPT-5.2 Extra high(1.75美元/百万Token),但高于Grok 4.1 Fast Reasoning(0.20美元/百万Token) [6] 技术战略与模型发展路径 - 公司团队揭示战略逻辑:Pro模型的主要作用是“蒸馏”出Flash模型,探索智能上限,而Flash则通过蒸馏技术继承Pro能力并优化延迟、成本和吞吐量 [8][9][11] - 未来Pro模型可能主要作为“生成器”,专门生产高质量的Flash模型 [11] - 团队认为Scaling Law并未失效,通过持续扩大规模仍能实现性能飞跃,前方“看不到墙” [11] - 未来扩展重点将从预训练阶段的算力堆叠,转移到推理侧的扩展(Test-time Compute) [12] - 后训练(Post-training)被认为是目前最大的“未开垦绿地”,在开放式任务上提升空间巨大 [12] 行业影响与技术启示 - Flash的表现打破了“模型越大越好”和“参数至上”的迷信,证明了更便宜、更快的模型可以更聪明 [3][13] - 这一结果标志着“帕累托前沿”发生反转,挑战了行业对“旗舰版”的盲目崇拜 [3][14] - 技术关键在于强化学习,Flash集成了最新的Agentic RL研究成果,而非Pro的简单蒸馏版 [13] - 证明提升模型能力不单纯依赖堆砌参数,通过先进的后训练算法(如RL),小模型可实现“降维打击” [14]
倒反天罡!Gemini Flash表现超越Pro,“帕累托前沿已经反转了”
量子位· 2025-12-22 16:01
文章核心观点 - Gemini 3 Flash 模型在多项关键性能基准测试中超越了其旗舰版本 Gemini 3 Pro 及上一代产品,同时具备显著的成本和速度优势,这挑战了“模型越大越好”的传统观念,并揭示了谷歌在模型开发战略上的重大转变,即通过旗舰模型“蒸馏”出更高效、更强大的轻量版模型 [1][4][6][19] 模型性能表现 - **编程能力反超**:在衡量软件工程能力的权威测试 SWE-Bench Verified 中,Gemini 3 Flash 获得 **78.0%** 的分数,超越了 Gemini 3 Pro 的 **76.2%** 以及上一代 Gemini 2.5 Pro 的 **59.6%** [1][2][6] - **数学能力顶尖**:在 AIME 2025 数学基准测试中,结合代码执行能力的 Gemini 3 Flash 得分高达 **99.7%**,已无限逼近满分,不使用工具时也达到 **95.2%**,略高于 Pro 版的 **95.0%** [2][7] - **多模态与推理能力强劲**:在 Humanity‘s Last Exam 学术推理测试中,Flash 在不使用工具的情况下获得 **33.7%** 的分数,与 Pro 版的 **37.5%** 处于同一梯队;在 MMMU-Pro 多模态理解测试中,Flash 以 **81.2%** 的成绩与 Pro 版的 **81.0%** 基本持平 [2][7] - **全面领先上一代**:Gemini 3 Flash 在几乎所有基准测试中的表现都全面超越了上一代的 Gemini 2.5 Pro 和 2.5 Flash [2][6] 成本与速度优势 - **定价极具竞争力**:Gemini 3 Flash 的输入成本为 **0.50美元/百万Token**,输出成本为 **3.00美元/百万Token**,显著低于 Gemini 3 Pro 的 **4.00美元/百万输入** 和 **12.00美元/百万输出** [2][8][9] - **速度与效率提升**:Gemini 3 Flash 的推理速度是 Gemini 2.5 Pro 的 **3倍**,同时 Token 消耗量减少了 **30%** [9] - **性价比突出**:相较于性能提升,其价格虽略高于 Gemini 2.5 Flash,但仍被认为极具吸引力 [9] 战略定位与技术路径 - **Pro 模型的新角色**:谷歌团队明确表示,旗舰 Pro 模型的主要作用之一是作为“蒸馏”轻量版 Flash 模型的来源,旨在不计成本地探索智能上限,而 Flash 则负责继承能力并极致优化延迟、成本和吞吐量 [10][12][13] - **技术实现路径**:Flash 的性能超越并非简单蒸馏的结果,而是集成了大量最新的代理强化学习研究成果,证明了通过先进的后训练算法,小模型可以实现对更大参数模型的“降维打击” [20][21][22] - **Scaling Law 的演变**:团队认为单纯依靠预训练阶段堆砌参数的路径正在逼近极限,未来的扩展重点将从预训练算力堆叠转移到推理侧的计算扩展和后训练优化 [15][16][17] 行业影响与竞争格局 - **挑战传统观念**:Flash 的表现直接打破了“参数至上”和“旗舰版迷信”,证明了更便宜、更快的模型可以同时是更聪明的模型,引发了关于“帕累托前沿”反转的讨论 [4][19][23] - **横向对比保持竞争力**:在与主要竞品的对比中,Gemini 3 Flash 在多项测试中表现优异,例如在 SWE-Bench Verified 测试中得分 **78.0%**,高于 Claude Sonnet 的 **77.2%**,接近 GPT-5.2 Extra high 的 **80.0%** [8] - **未来演进方向**:行业认为后训练是目前最大的“未开垦绿地”,在代码、推理等封闭任务被“击穿”后,提升模型在开放式任务上的能力将成为关键 [17][18]