Workflow
Large Language Model
icon
搜索文档
Cerebras Delivers End-to-End Training and Inference for Jais 2, the World's Leading Open Arabic LLM
Businesswire· 2025-12-10 07:22
公司动态 - Cerebras Systems与G42的Inception以及MBZUAI的IFM合作,共同发布了领先的开源阿拉伯语大语言模型Jais 2 [1] - Jais 2是首个在Cerebras Systems平台上完成训练并部署用于推理的前沿语言模型 [1] - 各组织结合其在领先机器学习技术方面的专长,并利用Cerebras晶圆级集群的独特能力,使Jais 2达到了最先进的质量水平 [1] - 实现这一成果仅使用了计算资源的一小部分 [1] 行业技术 - 此次合作展示了在Cerebras晶圆级集群上实现先进机器学习技术的能力 [1] - 该模型在计算效率方面取得显著进展,以远低于常规所需的计算量实现了顶尖模型质量 [1]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 11:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
xbench榜单更新!DeepSeek V3.2追平GPT-5.1|xbench月报
红杉汇· 2025-12-05 08:06
xbench-ScienceQA榜单更新 - 最新一期xbench-ScienceQA榜单有6家公司发布新模型,Gemini 3 Pro刷新SOTA,DeepSeek V3.2分数追平GPT-5.1且性价比极高[1] - 榜单采用长青评估机制,持续汇报最新模型能力表现,未来将发布评估Agent指令遵循能力和多模态理解能力的新benchmark[1] 主要模型性能对比 - Gemini 3 Pro得分71.6,BoN(N=5)达85.0分,平均响应时间48.62秒,API价格为输入$2/百万tokens、输出$12/百万tokens[3] - DeepSeek-V3.2-Speciale得分62.6,BoN(N=5)达81.0分,与GPT-5.1持平,API价格仅为输入$0.28/百万tokens、输出$0.42/百万tokens[3] - GPT-5.1得分62.6,BoN(N=5)达78.0分,平均响应时间137.19秒,API价格为输入$1.25/百万tokens、输出$10/百万tokens[3] - Claude Opus 4.5得分55.2,平均响应时间仅13.31秒,为所有模型中最快[3] 成本效益分析 - 评测ScienceQA的500道题目,GPT-5.1花费$32,Gemini 3 Pro仅需$3,成本优势显著[6] - DeepSeek-V3.2-Speciale完成相同评测仅需$2,DeepSeek-V3.2-Thinking仅需$1.3,性价比远超GPT-5.1[6] - DeepSeek V3.2价格远低于GPT-5.1,成为Gemini 3外第二家BoN突破80分的公司[6] 技术架构创新 - DeepSeek V3.2引入DeepSeek Sparse Attention机制,在保持长上下文性能的同时显著降低计算复杂度[10] - 采用可扩展的强化学习框架,后训练算力投入提升至预训练成本的10%以上,通过改进GRPO算法增强模型推理能力[11] - 构建大规模Agent任务合成流水线,自动生成数千虚拟环境和数万条复杂指令,首创“思考融入工具使用”能力[12] 行业技术突破 - Gemini 3以1501 Elo成绩登顶LMArena排行榜,展现接近博士级的综合推理能力,深度融合文本、图像、视频、音频与代码的跨模态理解[13] - Kimi K2 Thinking支持200-300步连续工具调用的长程推理能力,采用高效稀疏MoE架构,1万亿参数仅激活32亿[18] - Tongyi DeepResearch在总参数30B激活参数3B的小模型上实现比肩闭源大模型的能力,验证了小模型在Agent领域可媲美大模型的效果[8][19] 模型性能提升 - Gemini 3 Pro较Gemini 2.5 Pro平均分从59.4提升到71.6,提升幅度达12.2分[6] - DeepSeek-V3.2-Speciale较DeepSeek-R1-0528有较大提升,达到62.6分[6] - Claude Opus 4.5较Claude Sonnet 4.5-Extended Thinking有小幅提升,达到55.2分[6]
Kyivstar, Ministry of Digital Transformation of Ukraine Select Google's Gemma as Base Model for Training National LLM
Globenewswire· 2025-12-01 18:00
合作主体与项目概述 - 乌克兰领先的数字运营商Kyivstar与乌克兰数字转型部下属的WINWIN AI卓越中心选择谷歌的Gemma作为训练乌克兰大型语言模型的基础模型[1] - Kyivstar是乌克兰政府开发国家LLM的战略合作伙伴和运营领导方,该公司将人工智能解决方案整合进其长期技术转型战略[2] - 乌克兰国家LLM将成为构建数字化AI驱动的公共和商业服务的基础,旨在提升服务质量和组织效率[2] 技术选型与核心优势 - 选择Gemma是因为其在性能与资源使用之间提供了最佳平衡,并支持高质量训练,该模型支持超过140种语言(包括乌克兰语),上下文窗口高达128,000个token,并具备多模态能力[3] - 模型的关键优势包括:性能与资源的最优平衡、强大的多语言支持、多模态能力(可处理文本和图像)、先进的tokenizer、多种模型尺寸可选、以及作为现有乌克兰LLM(如MamayLM和Lapa LLM)基础模型已被验证的成功经验[7] 模型定制与开发计划 - 主要开发任务是在现成的开源模型基础上,使用独特的乌克兰语数据对其进行进一步训练,选型时重点关注模型对乌克兰语文本的现有处理能力以及在额外训练过程中的可控性,以最小化语言和伦理风险[4] - 具体计划包括:改进乌克兰语tokenizer以提升模型性能、减少乌语文本生成错误并优化计算成本;在专家正在收集的独特乌克兰语文本上进一步训练模型;创建基准测试以针对未来应用对模型进行微调[6] 公司背景与战略投资 - Kyivstar集团是一家在纳斯达克上市的控股公司,运营着乌克兰领先的数字运营商JSC Kyivstar,该公司是首家在美国证券交易所交易的乌克兰公司[5] - 截至2025年9月30日,JSC Kyivstar拥有超过2250万移动客户和超过120万家庭互联网固定线路客户,提供4G、大数据、云解决方案、网络安全服务、数字电视等多种服务[9] - 公司与VEON计划在2023年至2027年间向乌克兰投资10亿美元,用于基础设施和技术开发方面的社会投资、慈善捐赠和战略收购[8][9]
Alphabet is the best 'mag 7' stock to own for the next year, says Deepwater's Gene Munster
Youtube· 2025-11-25 05:09
公司在生成式AI领域的竞争能力 - 公司加速其在6月季度的进展,并在9月季度以超出市场预期300个基点的增长表现,显示其在生成式AI和搜索领域的竞争和导航能力已得到解决[1] - Gemini模型表明公司具备在大型语言模型层面与OpenAI直接竞争的实力,这重新激发了公司的竞争文化,对投资者而言是令人鼓舞的信号[3] - 公司正将用户对信息查询重新产生的兴趣引导至搜索收入,表明其能够有效捕获并货币化这一需求[2] 用户基础与分销渠道优势 - 目前仅有约20%的谷歌用户每日使用聊天机器人,存在巨大的用户转化和增长机会[4] - 谷歌搜索每日用户达25亿,而ChatGPT的每日用户估计约为5亿(公司公布的指标为8亿),谷歌在用户规模和习惯性使用方面拥有显著优势[7] - 谷歌的分销渠道是习惯性的,而OpenAI依赖苹果的分销渠道但迄今效果不佳,预计明年春季新Siri发布时将再次尝试[6] 估值与财务表现 - 公司当前股价对应未来12个月市盈率为28倍,与除特斯拉外的其他六家科技巨头估值水平基本一致[5] - 过去5年公司的平均市盈率为23倍,当前28倍的估值虽显著高于历史平均水平,但并未达到过高的程度[8] - 估值回升的部分原因在于公司在搜索领域的竞争能力得到重估,使市盈率回归至可比水平[5][6] 未来增长与货币化路径 - 未来一年公司将改变策略,重点扩大聊天机器人等产品的分销[3] - 公司通过在典型搜索中提供AI概览并引导用户使用AI模式,有望将部分流量引导至纯Gemini模式,从而构建一个每月20美元的业务,这相当于OpenAI当前80%的消费者业务规模[9] - 尽管品牌形象可能显得传统,但用户的使用习惯为公司提供了将AI功能货币化的重大机会[8][10]
Microsoft and Nvidia Just Signed a Multibillion-Dollar Deal With Anthropic. Here's What It Really Means for Investors.
Yahoo Finance· 2025-11-24 22:30
合作核心内容 - 微软与英伟达宣布与基础大语言模型开发商Anthropic建立合作伙伴关系 [1] - Anthropic同意从微软Azure购买价值300亿美元的算力容量,并承诺额外1吉瓦的算力容量 [1] - 1吉瓦算力容量当前价值约500亿美元,其中350亿美元为图形处理器成本 [1] 投资与估值 - 微软将向Anthropic投资高达100亿美元,英伟达将投资50亿美元 [2] - Anthropic当前估值达到3500亿美元,较2024年9月前一轮融资的1830亿美元估值大幅提升 [2] 技术合作细节 - Anthropic将与英伟达合作优化其人工智能模型设计,以适配英伟达未来的GPU架构 [2] - 公司将继续使用亚马逊作为主要云计算提供商和训练合作伙伴 [3] - 亚马逊近期启动价值110亿美元的Rainier项目AI数据中心,专门用于训练Anthropic模型并运行推理 [3] - Anthropic上月与Alphabet达成协议,获得超过1吉瓦明年上线的算力容量,将使用其定制张量处理单元训练新一代Claude模型 [4] 战略意义 - 对微软而言,此次合作是公司寻求在OpenAI之外实现人工智能领域多元化的重要举措 [5] - 合作协议为Azure带来显著收入增长动力,并在平台上增加OpenAI之外的领先AI模型选择 [6] - Anthropic效仿OpenAI模式,通过分散风险与不同芯片和云计算公司建立合作关系 [7]
Youdao(DAO) - 2025 Q3 - Earnings Call Transcript
2025-11-20 19:02
财务数据和关键指标变化 - 第三季度净收入达到16亿元人民币(约合2.288亿美元),同比增长3.6% [4][16] - 第三季度营业利润为2830万元人民币,同比下降73.7%,主要由于对战略业务的投资增加以及去年同期STEAM课程的一次性影响造成高基数 [4] - 前三季度营业利润达到1.611亿元人民币,同比大幅增长149.2% [5] - 公司已连续五个季度实现营业利润,为历史首次 [5] - 第三季度经营现金流出为5860万元人民币,同比改善31.4% [5] - 第三季度归属于普通股股东的净收入为100万元人民币(约合0美元),去年同期为8630万元人民币 [19] - 第三季度总毛利为6.879亿元人民币(约合9660万美元),同比下降12.9% [17] - 第三季度营业利润率为1.7%,去年同期为6.8% [18] - 截至2025年9月30日,合同负债(主要为学习服务产生的递延收入)为7.511亿元人民币(约合1.055亿美元),相比2024年12月31日的6.61亿元有所增加 [20] - 期末现金及现金等价物、受限现金和短期投资总额为5.577亿元人民币(约合7830万美元) [21] 各条业务线数据和关键指标变化 - **学习服务**:第三季度净收入为6.431亿元人民币(约合9030万美元),同比下降16.2%,反映公司在客户获取上采取更自律的战略性方法,专注于发展灵述业务 [6][16] - **学习服务-数字内容服务**:第三季度净收入为4.259亿元人民币 [6] - **在线营销服务**:第三季度净收入达到7.397亿元人民币(约合1.039亿美元),创下新纪录,同比增长51.1%,增长主要由网易集团和海外市场需求增加驱动 [10][17] - **智能设备**:第三季度净收入为2.458亿元人民币(约合3450万美元),同比下降22.1%,反映公司战略性地控制营销支出以加强运营健康度 [14][17] - **灵述业务**:总账单金额同比增长超过40%,留存率超过75%,较去年第四季度的超70%有所提升 [7] - **编程课程**:总账单金额在第三季度同比增长超过30% [8] - **AI驱动订阅服务**:第三季度总销售额达到约1亿元人民币的新纪录,同比增长超过40% [8] 各个市场数据和关键指标变化 - **海外广告业务**:收入同比增长超过100% [12] - **游戏行业广告收入**:主要来自网易的贡献,同比增长超过50% [11] 公司战略和发展方向和行业竞争 - 公司战略聚焦于AI原生策略,深化其大型语言模型"孔子"在学习与广告业务中的应用 [15] - 有道灵述和在线营销服务作为战略优先业务展现出强劲势头 [4] - 学习服务部门的重组已完成 [4] - 公司与清华大学姚期智数学科学中心合作,为识别和支持数学天才学生的平台提供技术支持 [7] - 公司成为CCF金牌合作伙伴 [8] - 公司的孔子3系列大语言模型是首批获得中国信通院最高级别可信AI教育大语言模型认证的模型之一 [9] - 公司推出AI音视频翻译产品"有道AnyDub",利用专有的自适应声音克隆技术 [10] - 公司计划深化与网易集团及其他游戏客户的合作,并与谷歌和全球广告商合作,支持中国公司全球扩张 [12][13] 管理层对经营环境和未来前景的评论 - 管理层对实现年初设定的全年目标保持信心,包括实现强劲的同比营业利润增长以及首次达到年度经营现金流盈亏平衡 [15] - 在线营销服务的强劲扩张由先进的广告技术和AI能力、客户从传统广告向效果广告转型的趋势以及海外广告机会驱动 [24] - 生成式AI和智能体AI在在线广告中的应用刚刚开始,2025年被视为规模化应用的第一年 [25] - 学习服务业务经过过去两年的显著变化,AI驱动的在线服务具有巨大的长期潜力 [26] - 预计整个学习服务部门的净收入在近期将恢复同比增长 [27] - 在线营销服务的毛利率目标范围在25%-35%之间被认为是合理的 [35] 其他重要信息 - 有道被纳入2026年GSV 150榜单,该榜单从全球3000多家公司中评选出数字学习和劳动力技能领域最具变革性的成长型公司 [7] - 在第三季度为编程课程直播班引入了AI导师,具有逼真的虚拟形象并支持文本和语音交互 [8] - 对旗舰产品有道词典应用进行了重大升级,推出有道词典11,提供真正的AI原生体验 [9] - AI同声传译功能的销售额在第三季度同比增长超过200%,至今已有超过2000万用户使用该功能 [9][10] - 为网易游戏《逆水寒》执行的综合营销策略产生了超过5亿的视频播放量和超过2140万的直播曝光量 [11] - 公司的BYD Wonderlife Global Influencers共创活动在YouTube Works Awards China上获得了Brands and Creators Award [13] - 计划在今年年底前推出AI广告投放优化器2.0版本 [13] - 推出新的辅导笔产品有道Space X,提供精准扫描、AI视频讲解和AI错题本功能 [14] 问答环节所有提问和回答 问题: 从战略角度看,在线营销服务未来是否会变得比学习服务更重要? [23] - 长期来看,公司在学习和广告两个领域都看到巨大机遇 [24] - 在线营销服务的强劲扩张由先进的广告技术、AI能力、向效果广告的转型趋势和海外广告机会驱动 [24] - 广告业务仍处于早期阶段,生成式AI和智能体AI在广告中的应用刚刚开始,预计未来几年将推动强劲收入增长 [25] - 学习服务业务方面,AI驱动的在线服务和订阅服务增长轨迹良好,灵述业务增长强劲,预计整个学习服务部门净收入将恢复同比增长 [26][27] 问题: 在线广告业务的毛利率低于30%,管理层有何计划或时间表使其恢复到30%以上? [32] - 第三季度为扩大客户基础而接纳了新客户,新客户利润率较低,甚至对某些重要客户可能亏损运营,这影响了短期毛利率 [33] - 在线营销服务的毛利率目标范围在25%-35%之间被认为是合理的 [35] - 计划通过以下举措推动毛利率改善:广泛应用iMagicBox创意平台以降低70%生产成本;优化数据管理平台和程序化投放系统;利用AI能力整合创意生产与广告投放流程,建立自动化闭环系统 [35][36] 问题: 第三季度营业利润同比下降,第四季度反弹至同比增长的潜力如何? [38] - 年初设定的全年目标是实现营业利润的同比改善和全年经营现金流盈亏平衡 [39] - 上半年营业利润的显著改善为下半年投资提供了灵活性,第三季度在灵述和广告客户获取上的投资为第四季度和明年创造了良好势头 [39][40] - 去年第三季度STEAM课程收入占比较高,造成高基数影响,该影响仅限今年 [41] - 第四季度重点是确保实现全年营业利润快速改善的目标,同时继续投资核心业务 [41] - 灵述业务作为学习服务部门内毛利率最高的业务,预计将贡献越来越大的收入份额,从而长期改善该部门的盈利能力 [42] - AI有助于提升广告业务的交付和运营效率,将推动该部门中长期盈利能力的改善 [43] 问题: 考虑到前三季度累计经营现金流出,全年现金流盈亏平衡目标是否有变化? [47] - 公司对实现全年经营现金流盈亏平衡目标仍保持非常信心 [49] - 前三季度累计经营现金流为负1.29亿元人民币,但同比显著改善超过40% [49] - 季度现金流表现具有明显的季节性特征:第一季度因春节通常为奖金支付期,第三季度为用户获取高峰期,现金流通常为净流出;第二和第四季度为留存驱动季节,现金流表现通常更强 [50] - 去年第四季度实现了1.58亿元人民币的经营现金流入 [50] - 学习服务重组已完成,灵述业务留存势头强劲,AI订阅服务销售加速增长,这些因素对现金流状况有积极支持 [51] - 考虑到运营的显著季节性、前三季度现金流的显著同比改善以及第四季度灵述业务的强劲留存表现,公司对实现全年目标保持信心 [51]
杨立昆批评Meta的AI战略,称LLM不是通往人类水平智能的途径;夸克全面接入千问对话助手,将发布全新AI浏览器丨AIGC日报
创业邦· 2025-11-19 08:12
蚂蚁集团AI产品发布 - 蚂蚁集团正式发布全模态通用AI助手“灵光”,可在移动端实现自然语言30秒生成可编辑、可交互、可分享的小应用 [2] - “灵光”是业内首个全代码生成多模态内容的AI助手,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态信息输出 [2] - 该产品已同步登陆安卓与苹果应用商店 [2] 行业巨头AI动态 - 亚马逊创始人杰夫・贝索斯创办名为“Project Prometheus”的人工智能初创公司并担任联席CEO,该公司已获得62亿美元资金并拥有近100名员工,包括来自Meta、OpenAI和谷歌DeepMind的研究人员 [2] - 夸克APP全面接入阿里巴巴千问对话助手,用户可在夸克APP内使用千问的对话能力,夸克定位为AI浏览器并将与千问APP形成战略协同,其PC端也将推出与千问深度结合的全新AI浏览器 [2] - 苹果明星设计师Abidur Chowdhury已从苹果公司离职,加入一家人工智能初创公司,其离职在公司内部引起不小震动 [2] AI技术路径争议 - Meta前首席AI科学家杨立昆批评大型科技公司在大型语言模型上投入巨额资金是一个错误,认为真正的计算机智能不会来自语言模型 [2][3] - 杨立昆认为人工智能的突破将来自“世界模型”,而非依赖于从互联网吸收文本的LLM或视觉数据 [2][3]
Mark Zuckerberg's Patience 'Ran Out': Hyperbolic CTO Says Yann LeCun's Meta Exit Was Inevitable After $15 Billion Alexandr Wang Deal
Yahoo Finance· 2025-11-13 03:31
核心观点 - Hyperbolic联合创始人兼CTO Yuchen Jin认为Meta首席人工智能科学家Yann LeCun的离职是不可避免的 这源于公司首席执行官Mark Zuckerberg在ChatGPT成功后转向产品驱动的AI战略 并将AI领导权移交给了Scale AI创始人Alexandr Wang [1][2][3] 人事变动与领导层调整 - Yann LeCun此前向首席产品官Chris Cox汇报 现在改为向27岁的Scale AI创始人Alexandr Wang汇报 Wang被聘请来领导公司新的“超智能”部门 [6] - 这一组织结构变动反映了公司从基础AI研究向快速、以产品为中心的创新的战略转变 旨在追赶OpenAI和谷歌 [6] 战略转变与潜在原因 - 据称在OpenAI的ChatGPT取得成功后 Mark Zuckerberg感到恐慌 因为公司自己的大语言模型Llama 4未能取得可比的结果 [2] - Mark Zuckerberg对Yann LeCun长期AI研究方法的不耐烦日益增长 最终导致了据称的决裂 Yann LeCun从不相信LLM是实现AGI的途径 [3] - Mark Zuckerberg斥资150亿美元收购了Alexandr Wang 并让Yann LeCun向Wang汇报 这使得LeCun的离职成为“一个不可避免的结果” [1][2] 历史类比与未来可能性 - Yuchen Jin提出 Mark Zuckerberg可能会以高价重新聘请Yann LeCun 并类比了谷歌在2024年花费约27亿美元授权CharacterAI技术并重新聘请AI先驱Noam Shazeer的案例 [4][5] - Noam Shazeer是谷歌对话应用语言模型的创造者 于2021年10月离开谷歌创立CharacterAI 谷歌在2024年花费巨资将其请回以主导其AI计划 [5]
斯坦福新发现:一个“really”,让AI大模型全体扑街
36氪· 2025-11-04 17:53
研究背景与核心问题 - 聊天机器人用户数据显示,有超过100万人在对话中表现出自杀倾向,凸显了AI在涉及人类情绪时正确理解用户情感的重要性[1] - 大语言模型在医疗、法律、新闻等高风险领域应用时,能否像人类一样区分“个人想法”和“客观事实”成为关键问题[1] - 若缺乏区分能力,大语言模型不仅可能误导判断,还可能在无意中放大错误信息的影响[1] 研究方法与数据集 - 斯坦福大学James Zou教授团队通过“原子化”语言任务对大语言模型的认知局限进行系统性检验[1] - 相关研究论文发表在权威科学期刊《自然·机器智能》上[2] - 研究采用名为“知识与信念语言评估”的数据集,包含13个任务的13000道题目,覆盖历史、文学、医学和法律等10个领域[3] - KaBLE数据集巧妙结合来自《大英百科全书》等权威来源的事实陈述与保持相似语义但引入细微偏差的虚假版本[3] 模型分类与评估框架 - 研究人员将大语言模型分为两组:GPT-4o发布之前的模型归为旧一代“通用型”模型,包括GPT-4、Claude 3和Llama 2/3[6] - GPT-4o发布之后的模型归为新一代“推理导向型”模型,包括o1和DeepSeek R1,这些模型经过强化学习训练,具备复杂推理能力[6] 模型表现与局限性 - 旧一代大语言模型在识别错误信息时准确率仅49.4%,识别真实信息的准确率为89.8%,揭示了不稳定的决策边界[7] - 新一代大语言模型在“识别错误信息”上更敏锐,判断逻辑更鲁棒,能主动质疑输入内容[8] - 即使是先进的推理型模型,也难以识别以第一人称表达的错误想法,例如GPT-4o处理错误想法时准确率从98.2%骤降至64.4%[10] - 大语言模型在处理想法时会根据归属于“谁”而表现不同,确认第三人称错误信念时准确率明显更高[13] - 对“递归知识”的评估显示,部分以推理为导向的模型表现良好,但也有一些模型表现不佳,表明可能在进行表层模式匹配而非真正掌握逻辑本质[14] - 大语言模型对语言细节非常敏感,例如在判断语句中多加一个“really”就会导致准确率大幅下降[15] 行业影响与未来方向 - 研究结果对大语言模型在新闻业、医疗、法律推理、教育及科学交流等领域的应用具有深远影响[15] - 研究中揭示的局限性甚至存在于先进模型之中,凸显亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力[15] - 未来大语言模型不仅需要熟练区分“个人观点”与“客观事实”的细微差异,还必须理解“人们为何会相信某个信息是真或假”[16]