LLM
搜索文档
深度|谷歌DeepMind CEO:中国在AI技术能否实现重大突破尚未验证,发明新东西比复制难一百倍
搜狐财经· 2026-02-02 15:26
公司战略与组织架构 - Google DeepMind是Google所有AI研究的整合实体,汇集了Google Research、Google Brain和DeepMind,作为公司的“发动机室”负责所有AI技术的研发,然后扩散到各个产品中[41] - 公司内部进行了大规模重组,将所有AI团队整合到Demis Hassabis领导下的DeepMind,形成了高度统一的技术体系和紧密的迭代闭环,这被认为是2025年通过Gemini 3取得显著成效的关键[42][53] - 公司与三星等主要设备制造商建立了深度合作,Gemini已成为三星手机的核心AI和主要聊天机器人,并且也将成为苹果新版本Siri的核心引擎,这为技术提供了巨大的部署平台[43][52] 技术进展与产品竞争力 - Gemini系列模型表现强劲,最新版本Gemini 3让公司重新回到了AI排行榜的前列,被认为几乎可以与ChatGPT平起平坐,甚至在某些方面表现更好[3][30] - 公司认为实现AGI(通用人工智能)还需要5到10年时间,并且需要一两项重大的创新,而不仅仅是对现有理念(如Scaling Laws)的规模化提升[6][10] - 当前AI系统(如LLMs)的智能是碎片化的,缺乏持续学习、在线获取新知识和真正创造原创内容的能力,要实现AGI需要发展“世界模型”以理解物理规律和因果关系[7][8] - 公司正在开发名为Genie的交互式模型以及先进的视频模型,这些被视为早期“胚胎”世界模型,是迈向AGI所需的其他关键技术和能力[9][10] 行业竞争格局 - AI领域的竞争环境被描述为科技行业有史以来最激烈的,几乎所有最有能力的参与者和大型科技公司都已入场[28] - 中国在AI领域的进展迅速,其模型(如DeepSeek、阿里巴巴的模型)与美国和西方的前沿模型相比可能只落后几个月,但在实现真正的原创性突破方面尚未得到验证[35][36][37] - 行业部分领域可能存在估值泡沫,特别是私募市场中一些几乎没有产品或业务的项目筹集了数十亿美元资金,但从长远看不可持续[32] - 拥有强大资产负债表和稳定现金流的大型科技公司(如Google、Microsoft、Meta)在激烈的竞争中处于更有利的位置,能够调整方向并持续投入[40][53] 研发重点与未来展望 - 公司长期致力于将AI作为科学的终极工具,其AlphaFold项目解决了存在50年的蛋白质折叠难题,被超过300万研究人员使用,是AI应用于科学的最佳案例[4][48] - 公司正在多个科学领域推进类似AlphaFold的变革性项目,涵盖材料科学、物理学、数学以及天气预测等,有望开启科学发现的新黄金时代[48] - 预计2026年AI领域的重要进展包括:能够自主执行任务的智能体系统开始变得可靠并真正发挥作用;机器人领域将出现有趣进展;设备上的AI助手将在现实世界中发挥作用;世界模型将得到进一步推进[49] - AI被视为解决社会重大挑战(如气候变化、疾病、能源问题)的关键工具,同时其自身的发展也是一项需要谨慎管理的挑战[11][17] 基础设施与算力 - 公司除了使用GPU,还拥有自研的TPU芯片,通常用于内部训练性能最强的模型,而GPU则用于探索新的架构或应用(如AlphaFold)[11][48] - 算力和能源是AI发展的关键瓶颈,AI本身也能帮助提高基础设施效率、改进材料设计(如更高效的太阳能材料)甚至推动核聚变等突破性技术发展以解决能源问题[11] - 通过模型蒸馏等技术创新,AI系统的效率每年以约10倍的速度提升,推动每瓦特计算性能大幅增长[12]
中泰证券:Agent有望催化CPU需求快速提升 关注产业机遇
智通财经网· 2026-01-29 14:43
文章核心观点 - 人工智能模型正从单体大语言模型向智能体演进,这将催生对并行处理的巨大需求,并使得中央处理器成为支撑智能体发展的关键硬件,其需求量有望持续提升 [1][3] 人工智能智能体发展趋势与预测 - 据IDC预计,活跃智能体的数量将从2025年的2860万攀升至2030年的22.16亿,年复合增长率达139% [1] - 智能体年执行任务总数将从2025年的440亿次暴涨至2030年的415万亿次,年复合增长率达524% [1] - 智能体年Token消耗量预计从2025年的0.0005P暴增至2030年的152667P,年复合增长率高达3418% [1] - 海内外模型加速智能体发展,例如Kimi发布新一代开源模型K2.5,在智能体等领域取得开源SOTA;Anthropic推出Claude in Excel插件,将模型嵌入高频办公场景 [1] - 智能体是单体大语言模型的升级,增加了决策编排器并能使用外部工具,可自主规划任务、调用工具、记忆历史步骤并实时调整策略 [2] - 多智能体系统成为智能体的新形态,例如Kimi K2.5通过并行强化学习训练能自主管理100个子智能体,执行1500次工具调用的并行工作流,较单一智能体最多可将执行时间缩短4.5倍,使端到端运行时间减少80% [2] 中央处理器在智能体趋势下的核心作用 - 中央处理器将成为智能体发展的核心支撑,其工具处理占总延迟最高达90.6%,大批次场景下中央处理器动态能耗占比达44%,吞吐量受中央处理器核心超载、缓存一致性等因素制约 [3] - 在智能体运行任务中,中央处理器可承接图形处理器无法处理的外部工具执行、系统级任务编排等功能,负责Python/Bash代码执行、网页搜索与URL抓取、精确近邻检索等工具的全流程执行 [3] - 中央处理器具有系统级调度能力,可解决异构任务协同问题,负责工具调用顺序、任务分解、结果聚合,并通过多进程/多线程自适应调度为不同密集型任务分配资源 [3] 投资建议 - 随着智能体发展,中央处理器需求量有望持续提升,建议关注供应链核心标的:海光信息、龙芯中科、广合科技、通富微电、澜起科技等 [4]
LeCun创业0产品估值247亿,回应谢赛宁入伙
量子位· 2026-01-23 15:44
公司概况与战略定位 - 杨立昆(Yann LeCun)离开Meta后创立新公司Advanced Machine Intelligence(AMI),法语意为“朋友”[9] - 公司总部位于巴黎,并计划在纽约、蒙特利尔、新加坡等地设立运营机构[10] - 公司坚定选择开源路线,与当前硅谷的闭源趋势相反,认为开源是构建人工智能平台的正确道路[11][13] - 公司前期将专注于研发,核心方向是“世界模型”,而非当前主流的大语言模型(LLM)[17][19] - 公司的终极目标是成为未来智能系统的主要供应商之一,不仅做研究,还会推出围绕世界模型和规划能力的实际产品[38] 技术理念与路径 - 公司认为构建智能系统的正确方式是“世界模型”,而非LLM[19] - LLM虽然有用,但仅通过处理语言无法实现人类水平的智能,因其受限于文本的离散世界,缺乏对物理世界的系统认知,无法进行真正的推理或规划[20][22][23] - 世界模型的核心在于理解世界背后的认知逻辑和抽象表征,而非生成精美的像素(如李飞飞的Marble公司所追求的像素生成路线)[30][31][32] - 公司技术基础是杨立昆此前提出的联合嵌入预测架构(JEPA),该架构不是生成式AI,无法预测未来所有细节,但能从世界的抽象表示中学习,并在抽象空间进行预测[34][36] - JEPA将使用文本、视频、音频和传感器等多种数据,通过学习世界的底层规则来实现真正的现实世界推理和规划[37] 融资与估值情况 - 公司(AMI Labs)正以30亿欧元(约合人民币247亿元)的目标估值寻求融资[45] - 预计将在未来几周内完成3.5亿欧元的初期融资,最终目标是首轮融资5亿欧元[46] - 一旦融资完成,公司将步入“商业成果0,但估值超10亿美元”的初创公司行列[50] - 当前风险投资(VC)圈的投资逻辑发生变化,从看产品或技术路径转向看重创始人背景,例如Ilya Sutskever和Mira Murati离开OpenAI后创办的零产品初创公司均获得了约20亿美元的估值[52][53] 人才招募与团队建设 - 公司正在积极招兵买马,已从Meta挖走前副总裁Laurent Solly[40] - 有消息称,公司有意邀请研究员谢赛宁加入并担任首席科学家一职[7][42] - 杨立昆在访谈中高度认可谢赛宁,称其为杰出的研究者,并曾两次成功聘请他(之前在FAIR和纽约大学)[43] 与Meta的关系 - 杨立昆对Meta的某些决策表示不满,例如解散机器人团队被认为是战略性错误,并认为Meta擅长研究但不擅长将技术转化为产品[15] - 尽管理念存在分歧,但Meta可能成为新公司的第一个客户,双方有望达成合作,Meta将有权访问其创新成果[5][47][48] - Meta将不会成为公司的投资者之一[47]
咖啡机变聪明后,我连咖啡都喝不上了
机器之心· 2026-01-18 14:48
文章核心观点 - 以大型语言模型为核心的生成式AI语音助手在智能家居控制场景中,其固有的随机性与不确定性导致了基础指令执行可靠性的显著下降,引发了用户不满[1][18][27] - 尽管新技术在理解复杂指令和上下文方面能力更强,代表了从“单指令执行器”到“代理式AI”的能力范式切换,但其在需要高度确定性的控制任务上表现不佳,揭示了当前技术部署的边界问题[29][31][32][44] 行业现状与用户反馈 - 亚马逊Alexa升级至生成式AI版本后,在执行如“煮咖啡”、“开灯”等基础、预设的智能家居指令时频繁失败,且每次拒绝的理由都不同[3][4][5][6][7] - 用户社区中抱怨声广泛,基础控制功能如开灯、播放歌曲、设定计时器等成为“重灾区”,部分用户甚至因此换回本地红外控制的传统设备[8][9][11][12] - 2025年即将过去,AI在复杂任务上表现卓越,却在清晨一句简单的“煮杯咖啡”指令上失败,与现实预期形成鲜明反差[8][14] 技术原理与挑战 - 传统语音助手本质是模板匹配器,通过识别关键词和填充参数来执行指令,虽然笨拙但结果高度确定[15][19][20] - 生成式AI助手基于LLM,其核心价值在于理解与生成的灵活性,但这也引入了大量随机性,导致对同一指令的解释空间被放大,输出不一致[18] - 在要求即时、可重复、零容错的设备控制场景下,概率性模型本身存在缺陷,微小的输出偏差就可能导致API调用失败,进而使整个操作失败[18][22][23][24] - 理论上通过大量工程投入、约束设计和失败兜底可以提升可靠性,但在资源有限和商业诱惑下,行业选择了先将技术推向市场再逐步修正的策略[25][26] 新技术的优势与潜力 - 生成式AI助手在理解复杂、模糊或多任务指令方面能力显著增强,例如能同时理解并执行“调暗灯光”和“调高温度”的复合命令[34][35] - 具备一定的上下文理解和探究能力,例如当被质问为何不关音乐时,会尝试查询原因[36] - 在信息归纳与通知方面表现更智能,例如摄像头检测到运动后,能提供“门口出现不熟悉面孔”等更具描述性的通知,而非笼统的“检测到运动”[38][39][40] - 代表“代理式AI”方向,具备服务链式调用能力,能理解复杂任务关系并动态生成执行逻辑,这是旧有基于固定规则的系统无法实现的范式切换[30][31][32] 行业发展的共识与方向 - 用户讨论中形成的温和共识是:问题关键不在于是否引入AI,而在于界定其应用的“边界”,不应试图用AI替代一切已被验证的确定性执行机制[42] - 更合理的方向可能不是“去按钮化”,而是让AI辅助人类理解系统,而非完全取代传统的可靠控制接口[42] - 当前的混乱可能并非生成式AI的失败,而是将其放置在了并不适合其特性的核心控制位置[44] - 如何让LLM学会区分何时需要精确执行、何时可以随机发挥,仍是行业尚未解决的根本问题[1][27]
互联网-2026 年影响行业的十大争议与核心标的--Internet-10 Debates to Shape the Sector and Key Picks in '26
2026-01-13 10:11
行业与公司 * 行业:北美互联网行业 [1][2] * 涉及公司:AMZN, META, GOOGL, DASH, EBAY, RBLX, RDDT, ABNB, EXPE, BKNG, SNAP, TTD, YELP, FIGS, MTCH, BMBL, UBER, LYFT, CART, WMT, U, TTWO, EA, PLTK, COMP 等 [1][3][4][7][8][9][10][11][13][14][15][16][67][113][143][151][165][167][180] 核心观点与论据 **2026年行业主题展望** * 2026年市场主题将与2025年相似,市场将奖励那些能展示生成式人工智能带来实质性正投资回报率的公司,例如更快的收入增长、用户参与度提升、更大的每股收益/自由现金流等 [2] * 对于面临颠覆不确定性的子行业,如网约车、电子商务、旅游以及规模较小、未经证实的广告平台,其估值倍数可能维持在较低区间 [2] * 总体上对2026年超大规模云服务商的增长持乐观态度,并列举了5个理由认为2026年将出现人工智能技术采用和扩散的加速 [2][56][58] **关键投资标的观点** * **AMZN:首选超大盘股** * 目标价315美元,隐含约27%上行空间 [3][6] * 市场低估了其在AWS和零售领域的生成式人工智能领导地位 [3] * **AWS方面**:预计将实现持续20%以上(可能达到20%中段)的增长,市场对Trainium芯片的忽视可能带来上行期权 [3] * **零售方面**:在智能代理、推荐算法、库存物流、机器人、广告工具等方面的投资将带来更持久和盈利的增长,预计将占据消费者支出的更大份额 [3] * 估值:当前股价基于市盈增长比率较同行有约40%的折价,目标价对应31倍2027年每股收益10美元,市盈增长比率1.4倍,仍较同行有约20%折价 [6] * **META:关注超级团队执行力与产品管线** * 目标价750美元,隐含约15%上行空间 [7] * 投资者情绪因Llama模型在2025年的失误而过度悲观,估值低于20倍2027年每股收益 [7] * 预计2026年核心参与度、货币化能力以及新大语言模型的交付将扭转情绪,驱动收入预期上修和估值倍数扩张 [7] * 模型和产品管线的表现将决定其估值是达到23倍每股收益(基础目标价)还是25倍以上(看涨目标价1000美元) [7] * **GOOGL:关注搜索业务预期上修** * 目标价330美元,隐含约0%上行空间,看涨目标价415美元 [8] * 搜索核心和GCP的加速增长是看涨基础,预计GCP在2026年可能增长50%以上 [8] * 当前股价对应24倍2027年每股收益,高利润的付费搜索业务增长预期上修将是推动股价向看涨目标价迈进的关键,目前模型预测2026/2027年付费搜索增长约13%/9% [8] * **DASH:投资于优势领域以变得更强** * 目标价300美元,隐含约39%上行空间 [9] * 对统一技术平台、ROO业务及其他长期机会的投资持乐观态度,因其有实现投资回报的历史记录,且业务逻辑合理 [9] * 核心业务加速使其有能力为投资提供资金并实现息税折旧摊销前利润 [9] * 目标价对应27倍2027年息税折旧摊销前利润,按增长调整后较同行溢价约10%,而当前股价按增长调整后较同行有约20%折价 [9] * **EBAY:市场对其增长可持续性和盈利性过度悲观** * 目标价112美元,隐含23%上行空间 [13] * 2025年固定汇率计商品交易总额同比增长8%,市场对2026年持续增长持怀疑态度 [13] * 增长驱动力包括:收藏品领域的持久顺风、新举措的扩展、消费者支出从服务转向商品的韧性、垂直和水平改进的持续叠加 [13] * 当前股价对应14倍2027年调整后每股收益,低于其他具有双位数每股收益增长的成熟市场平台(约15-25倍),其在智能代理商务中的强势地位可能有助于提升估值倍数 [13] * **RBLX:机遇强于以往,短期风险已被充分定价** * 目标价155美元,隐含约100%上行空间 [14] * 2025年证明了其用户生成内容平台的力量,预订量和参与度估计均同比增长超过50% [14] * 尽管2026年计划投资和艰难同比数据对股价构成压力,但近期爆款游戏的成功强化了其持续推出新热门游戏的能力,且历史表明在用户快速增长后留存率高于担忧 [14] * 当前股价对应约20倍2027年息税折旧摊销前利润,而2025-2028年息税折旧摊销前利润增长预计超过30% [14] * **RDDT:收入和用户增长前景可期** * 目标价265美元,隐含约8%上行空间 [10][12] * 广告工具套件改善,与Gemini和OpenAI的合作增强了其在产品搜索漏斗中的重要性 [12] * 预计第一季度可能推出的新用户引导流程将带来更持久的美国用户增长,从而推动估值倍数扩张 [12] * 其商业搜索查询价值正在增长,可能推动与Gemini/GPT的合作伙伴关系在2027年到期前续签,或与亚马逊等公司达成新合作 [12] **持谨慎态度的领域** * **ABNB:评级减持,目标价130美元,隐含约7%下行空间** * 其市盈增长比率较BKNG有约80%的溢价,尽管收入增长水平相似且BKNG每股收益增长略快 [15][16] * 需要微观层面的创新来驱动增长重新加速、持久性和利润预期上修,以证明其溢价估值的合理性 [16] * **YELP:评级减持,目标价28美元,隐含约9%下行空间** * 对其向服务转型驱动持续预期上修的能力信心有限,同时餐厅、零售和其他业务份额持续流失 [16] * 新产品如Yelp Assistant的上行期权被人工智能驱动的消费者行为变化所带来的结构性风险所抵消 [16] * **EXPE:评级中性,目标价270美元,隐含约9%下行空间** * 与最接近的同行BKNG的估值差距已显著收窄,EXPE交易于约17倍2027年公认会计准则每股收益,而BKNG为约18倍 [16] * 认为EXPE相对于BKNG/ABNB面临更多相对风险,例如更多美国连锁酒店业务、更低的直接流量,可能受到GOOGL/OAI创建更先进智能代理旅游产品的影响,且此风险尚未被定价 [16] * **FIGS:评级中性,目标价8美元,隐含32%下行空间** * 认为市场高估了其近期收入加速的持续性,估值拉伸至21倍2027年息税折旧摊销前利润 [16] 其他重要内容 **十大主题辩论摘要** 1. **前沿模型格局演变**:2026年重点将从基准测试超越转向产品化和货币化,关注GOOGL、META、AMZN的模型产品化进展,Blackwell芯片驱动的模型改进和META的超级智能实验室是关键变量 [40][47][48][49] 2. **生成式人工智能投资回报率证据**:预计企业生成式人工智能工具采用将加速,技术扩散将拓宽,超大规模云服务商增长将加快,列举了5个看涨理由 [52][56][58] 3. **生成式人工智能效率降低巨头招聘**:预计META/AMZN/GOOGL等巨头与人力相关的运营支出增长将在2026和2027年显著减速 [60][63] 4. **智能代理对电子商务的影响**:智能代理购物即将到来,可能为2030年基准电子商务预测增加高达6%,杂货是最大支出机会,垂直领域参与者可能更早受益 [65][68][69] 5. **自动驾驶进展及对UBER/LYFT的影响**:2026年是自动驾驶可用性的拐点年,覆盖城市人口比例将从2025年底的15%提升至32%,关注服务、安全、每英里成本 [77][80][83] 6. **物理人工智能的重要性**:AMZN新兴的机器人仓库可能在2026/2027年产生最大影响,预计到2027年增加约40个机器人仓库,可能带来约20亿美元经常性成本节约 [96][98][101][102] 7. **在线杂货的未来**:美国约1.4万亿美元的线下杂货支出是智能代理商务的最大解锁领域之一,杂货/消费品预计将驱动2026-2030年基准/看涨情况下48%/53%的智能代理支出 [112][113][121] 8. **生成式人工智能与搜索格局变化**:预计2023-2026年搜索查询量复合年增长率为14%,高于2021-2024年的约5%,Gemini在商业行为上略优于ChatGPT,需关注ChatGPT广告的影响 [126][128][131][132][138][139] 9. **人工智能世界模型对游戏制作的影响**:交互式视频生成模型可能改变游戏内容制作方式,对U、RBLX、TTWO、EA等构成潜在颠覆风险,而AMZN、GOOGL等云和人工智能工具提供商可能受益 [141][143] 10. **在线交友用户增长重新加速**:经过约2-3年用户负增长后,2026年可能因产品迭代速度改善、新的对用户结果而非货币化的关注以及生成式人工智能改进匹配而最终迎来增长拐点 [150][151][154] **目标价与评级调整** * 上调EXPE目标价从180美元至270美元,评级中性,因每股收益上修及估值倍数提升 [4][171] * 上调SNAP目标价从8.50美元至9.50美元,评级中性,因新增许可/订阅收入预期 [4][171] * 下调TTD目标价从50美元至42美元,评级中性,因竞争风险和估值折扣 [11][171] * 上调RDDT目标价从250美元至265美元,评级增持 [11][174] * 上调PINS目标价从32美元至35美元,评级增持 [11][174] * 下调DUOL目标价从300美元至275美元,评级增持 [4][174] * 下调MNTN目标价从22.50美元至20.50美元,评级中性 [4][174] * 下调CRTO目标价从36美元至34美元,评级中性 [11][174] * 上调CHWY目标价从48美元至51美元,评级增持 [4][174] * 上调EBAY目标价从102美元至112美元,评级增持 [4][174] * 上调APP目标价从750美元至800美元,评级增持 [11][176] * 下调RBLX目标价从170美元至155美元,评级增持 [11][176] * 上调ABNB目标价从120美元至130美元,评级减持 [4][176] * 恢复对COMP的覆盖,评级中性,目标价10美元 [11][180][182] **具体数据与指标** * **AMZN**:AWS Connect客服代理业务收入运行率超过10亿美元 [45] Rufus购物助手拥有2.5亿活跃客户,带来100亿美元的年化增量销售额运行率 [42][45] * **META**:Reels收入运行率超过500亿美元,端到端人工智能广告工具运行额600亿美元,Meta AI月活跃用户超过10亿 [45] * **GOOGL**:Gemini API自Gemini 3发布以来每日处理1万亿个令牌,人工智能模式日活跃用户超过7500万,Google Cloud积压订单在第三季度环比增长46%达1550亿美元 [45] * **自动驾驶**:预计到2026年,自动驾驶服务覆盖城市人口比例将从2025年底的15%提升至32% [80][83] 预计到2032年,UBER/LYFT仅占美国自动驾驶市场的30% [91] * **食品配送**:平均每单30美元的订单中,约5美元(占比中双位数百分比)支付给配送员,自主配送节省的成本可提升每单息税折旧摊销前利润或降低消费者费用以刺激需求 [108][110] * **在线交友**:MTCH和BMBL的2026财年自由现金流收益率分别为11%和33% [151] 调查显示,约40%寻找关系的单身人士曾使用过在线交友但目前未使用 [159]
人均不到3元!被AI作弊逼急的教授玩“邪修”:“花105元,给全班36人办了场AI口试”
猿大侠· 2026-01-10 12:11
文章核心观点 - 生成式AI的普及导致传统课后作业和笔试等评估方式失效,教育行业面临评估模式变革的迫切需求[2] - 利用语音AI代理进行规模化口试,是应对上述挑战的有效且经济可行的创新解决方案[4][5] - AI口试系统不仅能以极低成本实现大规模实时评估,还能通过多模型评审和结构化反馈,更精准地检验学生的真实理解与能力,并反哺教学改进[13][14][29][30] AI对传统教育评估的冲击与挑战 - 学生利用LLM(大语言模型)完成作业的质量异常提升,但被随机提问时却无法解释自己的作业内容,表明传统书面作业已无法有效评估真实能力[1] - 在小组项目中,学生可利用Gemini 3.0、NotebookLM等工具生成无破绽的演示文稿,即使未参与项目也能进行完美展示,教师难以分辨[2] - 传统通过课后作业衡量学生理解程度的旧模式已经彻底失效[2] 口试作为评估新方案的价值与障碍 - 口试能要求学生进行实时推理、灵活应用知识并为自己决策辩护,且没有LLM辅助,能更真实反映学生水平[3] - 口试规模化落地的核心障碍是后勤协调困难,例如协调36名学生的考试时间已具挑战,班级规模扩大十倍后问题将更严峻[4] AI口试系统的设计与实施 - 采用ElevenLabs的对话式AI平台构建“语音口试智能体”,其基础版AI考官仅需几分钟即可搭建上线[5] - 系统关键功能包括:利用动态变量传入学生个性化信息实现“个性化口试”[6];采用多子Agent协作的工作流设计,防止对话偏离轨道并使调试可控[7][12] - 具体口试流程分为两部分:围绕学生结课项目细节提问[9];随机抽取课程案例进行现场分析提问[10] - 工作流由三个子Agent组成:身份验证Agent、项目讨论Agent、案例讨论Agent[11][12] AI口试的成本与效果数据 - 在36名学生的实践中,总成本为15美元,人均成本0.42美元(约人民币2.9元)[13][14] - 若采用纯人工口试,需2名考官,总工时30小时,按助教时薪25美元计算成本高达750美元,教授时薪成本更高[14] - 9天内完成全部口试,平均耗时25分钟,每场对话平均交互65轮[13] - 三个AI模型评分一致度达89%(误差在1分以内)[13] - 口试时长与得分完全不相关(相关系数r = -0.03),耗时最短的9分钟考试获得最高分19分(满分20分),耗时最长的64分钟考试仅得12分[13][31][32] 多模型评分委员会机制与效果 - 采用Claude、Gemini、ChatGPT组成“LLM评分委员会”,模型先独立评分,再互相参考评分和理由进行修正,最后由Claude担任主考官生成最终评分[22] - 第一轮评分一致性差:三个模型评分完全一致为0%,仅23%的评分误差在2分以内,最大平均误差接近4分[22] - 模型初始打分风格差异大:Gemini平均分17.0,Claude平均分13.4,OpenAI平均分14.0[22][23] - 进入审议环节后,评分一致性飞跃,Gemini在参考其他模型依据后平均分下调2.0分至15.0分[23][24] - 在不同考核维度上,模型评分一致率不同:“问题框架设计”和“评估指标选择”维度一致率达100%,“实验设计”维度一致率仅57%,后者反映了学生回答本身存在模糊性[26][28] AI口试系统的优势与教学反馈 - AI系统能自动生成包含“优点/不足/改进行动”的三段式结构化反馈,并直接引用学生原话作为证据,其反馈质量远超人类水平[29][30] - 通过考点成绩分析,精准暴露教学漏洞,例如“实验设计”考点平均分仅1.94分(满分4分),远低于“问题框架设计”考点的3.39分,促使教师意识到课程中A/B测试方法论讲解过于仓促[30][31] - 具体分数分布显示:8%的学生(3名)在“实验设计”考点得0分,42%的学生(15名)得2分,无人得满分4分[31] 实践中的问题与优化 - 初期选用声音过于“吓人”,优化方向是进行A/B测试,优化理解体验而非强调权威感[16][17] - AI曾一次性提出包含4个问题的复合问题,增加学生认知负荷,优化方案是在Prompt中规定一次只提一个问题[18] - AI在重复问题时擅自改写问题,导致题目变更,解决方案是要求AI在重复时必须逐字复述[19] - AI不给学生思考时间,将短暂沉默视为没听懂,优化措施是延长触发追问的超时等待时间从5秒至10秒[20] - LLM无法保证真正的随机性,例如在案例选择中“Zillow”被选中的概率异常高达8%,解决方案是将随机性逻辑从Prompt转移至代码层面实现[21] 学生反馈与未来展望 - 学生问卷调查显示:仅13%的学生更喜欢AI口试,57%倾向于传统笔试,83%认为AI口试比笔试更有压力[33] - 但同时,70%的学生认同AI口试能更准确地检验他们的真实理解水平,这是所有调查选项中认可度最高的一项[33] - 课后作业时代已经落幕,退回传统线下考试是技术倒退,教育需要能奖励真正理解、决策和实时推理能力的评估方式[35] - AI使得曾经因规模问题被淘汰的口试重新变得规模化、可落地,且系统可开放给学生用于反复练习,因为考题是实时生成的[36] - 核心思路可行,但执行细节仍需迭代优化[35]
每日机构分析:12月18日
搜狐财经· 2025-12-18 18:41
马来西亚经济与货币展望 - 澳新银行预计马来西亚2026年GDP增长4.5%,受益于强劲内需、人工智能带动的电子出口及稳健财政政策[1] - 澳新银行预测林吉特有望走强,年底美元兑林吉特汇率或达到4.00[1] 菲律宾经济与货币政策 - 马来亚银行证券预测菲律宾比索或于2026年下半年走软,主因美元重拾强势及国内负面因素持续拖累[1] - 防洪资金腐败丑闻正抑制菲律宾政府支出与经济增长,并打击外资信心,加剧资本外流和本地资产压力[1] - 增长乏力或迫使菲律宾央行在2026年底前额外降息50个基点,削弱比索利差优势[1] 美国通胀与美联储政策 - 美国银行指出,关税推高商品通胀,而医保因素或令服务通胀趋缓,这可能促使美联储在2026年1月维持利率不变[1][2] - 阿波罗资管首席经济学家指出,美联储官员在2026年展望中日益警惕滞胀风险,即增长放缓与通胀高企并存[1][2] - FOMC预测显示,通胀与失业率均面临上行风险,这一罕见组合令货币政策进退两难[2] 印度人工智能市场 - 美国银行指出,印度凭借低廉数据成本、超7亿年轻网民及电信运营商免费人工智能订阅策略,已成为全球大型语言模型普及率最高、最活跃的人工智能消费市场[2] - 印度正成为“代理人工智能”技术的关键试验田,但本土初创企业面临国际巨头加剧的竞争压力[2] 韩国汇率市场与政策 - 友利银行经济学家指出,仅靠非核心措施无法遏制韩元贬值,当局需明确干预红线并采取实质性行动抑制做多美元情绪[2] - 韩国国民年金公团自12月起抛售美元进行战术性对冲,释放前瞻性维稳信号[2] - 韩国央行行长李昌镛警告,当前韩元“不必要地”走弱,对通胀与增长构成双重风险,呼吁通过政策协调应对[2] 美国金融市场与美联储操作 - 金融博客Zerohedge指出,摩根大通单家银行的大规模提款已足以扰动全美流动性,其行为与2019年回购市场危机如出一辙,正迫使美联储重启“轻量化量化宽松”救市[3] - 美联储因向银行支付高额准备金利息(2024年达1865亿美元)引发批评;参议员Rand Paul称摩根大通一年获150亿美元“闲置资金利息”[3] 美元汇率走势 - 道富集团指出,今年初美元走弱主因是美国投资者大幅削减海外投资外汇对冲比例已减半,而非外资增持美国资产所致[3] - 地缘与政策不确定性正推动去风险化讨论[3] 通胀前景观点 - LPL金融首席经济学家罗奇认为,当前通胀高于目标属暂时现象,未来数月需求降温将缓解物价压力[1]
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 10:30
文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - **2024年初的强化学习语境**:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - **工程化能力拆解**:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - **概念外推与通用化**:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - **概念边界模糊化**:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - **技术路线分化(2024年2月)**: - **OpenAI的Sora路线**:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - **Meta(LeCun)的V-JEPA路线**:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - **核心争议转移**:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - **对现有路线的批评**:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - **地位提升至与LLM同级**:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - **与LLM及VLA的差异**: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - **概念同名但内核分裂**:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - **融资热潮放大歧义**:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - **技术路线三分法**:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - **布局动机各异**:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]
小米集团:近期豆包 AI 智能手机助手发布后的观点
2025-12-05 14:35
行业与公司 * 行业涉及智能手机与人工智能AI代理领域 公司重点关注小米集团[1][7][10][11][22] * 报告由高盛Goldman Sachs发布 涵盖对小米公司的投资评级与财务预测[23][25][33] 核心观点与论据 AI智能手机助手发展动态 * 字节跳动于12月1日发布了豆包AI智能手机助手的预览版 该系统级图形用户界面GUI代理集成豆包大模型 具备视觉屏幕内容解读和执行跨应用多步骤任务的能力[1] * 豆包AI助手采用混合处理模式 结合端侧AI用于实时任务和云侧AI用于复杂决策 并具备多模态能力[7] * 除字节跳动外 StepFun等AI初创公司也专注于硬件AI助手 并在11月底发布了首个完全开源的GUI代理GELab-Zero 其GELab-Zero-4B-preview模型在多项GUI基准测试中达到SOTA水平[2][8] * 硬件AI助手在豆包大模型上生成巨大流量 5月日均生成1.3万亿tokens 占豆包总token消耗的8%[7] 行业竞争格局与挑战 * 中国智能手机市场集中度高 前六大厂商占据90%以上的出货份额 新进入者市场空间有限[10] * AI与消费电子终端融合趋势持续 主要中国智能手机品牌年内已在操作系统升级中嵌入原生AI助手[10] * AI助手进一步集成面临三大挑战:主流手机厂商的系统级操作权限和内存能力优势 以及跨应用接口连通性问题[9] 小米公司的AI战略与进展 * 小米积极布局AI 研发端侧和云侧大模型 2025年AI研发投入预计超过70亿元人民币 占其总研发费用320亿元人民币的22%[11] * 公司已发布多个专业大模型 涵盖视觉、音频、语音等领域 并于11月21日新推出跨具身基础模型MiMo-Embodied[11][21] * 小米的AI代理"超级小爱同学"是中国市场月活跃用户数排名前三的原生AI助手之一 在小米智能手机用户中的渗透率达到71%[11][19] * "超级小爱同学"具备多场景能力 包括社交媒体互动、电商购物、生产力服务以及本地信息记忆[11] * 小米拥有全球最大规模的互联AIoT设备生态 截至2025年第三季度连接设备数约10亿台[11] 其他重要内容 投资观点与财务数据 * 高盛对小米给出"买入"评级 12个月目标股价为53.5港元 相较当前价格有33%上行空间[22][23][25] * 看好小米基于"人车家全生态"战略的长期生态系统扩张 预计2024-2027年营收和每股收益复合年增长率分别为24%和28%[22] * 财务预测显示 公司2025年预期营收为4694.089亿元人民币 每股收益为1.60元人民币[25] 市场数据对比 * 与中国智能手机市场高度集中相比 中国新能源汽车市场更为分散 前14大厂商份额总和为89% 为新进入者提供了更多机会[10][16][17] * 中国智能音箱市场也呈现高集中度 小米份额从2019年的28%扩大至2025年的45%以上[14][15]
ChatGPT三岁生日,谷歌却为它准备了“葬礼”
虎嗅APP· 2025-12-03 07:55
文章核心观点 - ChatGPT发布三年后AI行业格局发生颠覆性变化,谷歌Gemini 3的强势崛起对OpenAI形成巨大竞争压力[8][9][17][34] - AI技术演进从纯文本对话发展到多模态应用爆发,彻底重塑人类生产效率和社会结构[28][29][33][34] - OpenAI采用独特的融资模式,通过合作伙伴承担近1000亿美元债务来支撑算力扩张,自身财务风险极低[53][54][55][63] 人类被改写的三年 - 2022-2023年:ChatGPT突破图灵测试防线,主要特点是"对话"交互,Prompt Engineering成为热门技术但迅速被AI自身能力瓦解[24][25][27] - 2024-2025年:多模态AI爆发,GPT-4o、Midjourney等模型具备图像、音频、视频处理能力,Vibe Coding和Cursor等工具重塑生产关系[28][29][33] - 2025年成为"奇点体验年",谷歌Gemini 3的卓越表现引发行业格局变化[34] 谷歌重生,OpenAI变天 - 谷歌Gemini移动应用月活用户从5月约4亿激增至6.5亿,用户使用时间已超过ChatGPT[37][39] - 行业领袖评价发生逆转,Hugging Face联合创始人称"天已经变了",Salesforce CEO表示"回不去了"[42][43][44] - OpenAI面临多重压力,内部员工感到竞争压力,公司产品线扩张过快可能影响专注度[46][48][49] OpenAI的独特融资模式 - 合作伙伴为OpenAI承担近1000亿美元债务,相当于全球六大企业借款人净债务总和[53][54][58] - OpenAI自身账上几乎没有欠款,仅拥有40亿美元信贷额度且未动用[55] - 具体债务分布:甲骨文/Vantage债务380亿美元,软银债务200亿美元,CoreWeave债务超100亿美元[53][60][61] - 甲骨文已发售180亿美元债券,未来四年可能还需借款1000亿美元完成OpenAI合同[64] 技术演进对比 - GPT系列性能持续提升:GPT-5在速度、推理能力、token效率、准确性和上下文保留方面均达到最佳水平[23] - OpenAI计划未来8年投入1.4万亿美元用于算力建设,与英伟达、甲骨文、AMD等达成巨额交易[49] - 技术发展带来社会影响:CS课程教授开始教"不写一行代码的"编程课,企业开始大规模裁员[11]