Workflow
Large Language Model
icon
搜索文档
裁4000人换来的AI全白搞?Salesforce悄悄改架构:用 “老技术”故障少还省钱,网友怒喊:CEO零遣散费滚蛋
搜狐财经· 2025-12-31 12:22
公司战略与产品调整 - 公司产品策略发生重大转变,放弃生成式AI,转而发力旗舰产品Agentforce中可预测性更强的“确定性”自动化技术[3][4] - 公司已在Agentforce中引入基础的“确定性”自动化技术,决策逻辑基于预设指令,而非AI模型的推理与解读机制[3] - 公司首席执行官近期透露,在起草年度战略文件时,已将数据基础架构而非AI模型列为首要任务[7] 技术应用与挑战 - 公司高管表示,当Agentforce不过度依赖大语言模型时,运行效果反而会更好[2] - 采用更基础的自动化技术,例如通过编写“确定性指令”对计算机进行编程,能降低Agentforce的运行成本,并为客户节省开支[4] - 一旦指令数量超过8条,大语言模型就会出现遗漏指令的问题,这对精准度要求极高的商业任务是致命缺陷[4] - 大语言模型存在“漂移”现象,当用户提出无关问题时,AI智能体会偏离预设的核心任务目标[5] - 缺乏可靠数据支撑的AI模型极易产生“幻觉”,这是企业必须警惕的风险[7] 客户反馈与运营问题 - 客户Vivint在使用Agentforce初期遭遇问题,其运行稳定性未能达到100%的预期[5] - Vivint要求Agentforce在每次客户服务结束后自动发送满意度调查问卷,但系统在部分情况下会无故“漏发”[5] - 有用户提交请求希望解决技术故障,但Agentforce的回应只是发送了一系列不相关的博客文章链接,未进一步沟通[3] 市场表现与公司动态 - 公司股价较2024年12月的峰值已下跌约34%[7] - 公司首席执行官暗示,或许会考虑将公司更名为“Agentforce”[7] - 公司曾大举部署AI并裁撤技术人员,将客户支持团队的人员配置从9000人缩减到约5000人[1] - Agentforce预计年营收将突破5亿美元[7] 行业观察与普遍难题 - 大语言模型的应用难题并非公司一家面临,对其他AI技术提供商而言,这类模型同样是难以驾驭的存在[6] - 部分企业发现,要防止大语言模型在运行过程中出现“失常”行为或产生错误推断,难度极大[6] - 有部分工程师认为,问题的根源或许在于公司及其客户对最新AI技术的驾驭能力[6] - 服装零售巨头Gap公司推出的一款搭载Sierra技术的聊天机器人,曾出现回答不良内容的情况[6]
IROS2025论文分享:基于大语言模型与行为树的人机交互学习实现自适应机器人操作
机器人大讲堂· 2025-12-23 15:04
文章核心观点 - 提出了一种结合大型语言模型与行为树的人机交互学习机制,旨在提升机器人对新任务的学习能力与应对外部干扰的适应性 [5][7] - 该方法通过设计上下文、引入人机交互修正,使LLM能生成可直接应用于机器人的动作知识,并在多项任务测试中展现出优于基线方法的性能 [12][17] 技术方法 - 为LLM设计了包含提示工程、操作基元与动作数据库的上下文,以规范输出并提供示例 [5] - 引入人机交互环节,引导LLM修正和完善其生成的动作知识,经多轮引导和用户确认后存入动作数据库 [7] - 生成的动作知识以行为树形式实施,其条件可由行为树规划器动态扩展为子树,以应对外部干扰 [7] 实验设计与结果 - 设计了8个涉及物体操作的任务,分为易、中、难三个难度级别进行评估 [9] - 在两种LLM测试中,所提方法的学习性能均优于无人机交互的基线方法 [12] - 通过人机交互修正,所提方法在8项任务中的成功率超过80% [12] - 在设计了外部干扰的相同8项任务中,所获动作知识的成功率超过70% [14] - 在泛化能力测试中,动作知识在部分任务对新操作对象的成功率超过70%,但在另一些任务中低于40%,表明参数适应性是关键,微调可进一步提高成功率 [17] 相关企业列举 - 文章末尾列举了工业机器人、服务与特种机器人、医疗机器人、人形机器人、具身智能、核心零部件及教育机器人等多个领域的相关企业 [23][24][25][26][27][28][29][30]
“幻觉”影响“可靠性”!Salesforce高管称“对大模型的信任度已经下降”,已减少使用程度
华尔街见闻· 2025-12-22 08:24
文章核心观点 - 企业软件巨头Salesforce正在其核心AI产品Agentforce中减少对生成式AI的依赖,转而采用更多基础的“确定性”自动化技术,以应对大模型在实际应用中出现的可靠性问题,如“幻觉”和“漂移”[1][2][3] - 这一策略调整旨在提高软件可靠性和业务流程的精确性,确保关键任务每次都能遵循相同步骤,从而“消除大模型固有的随机性”[1] - Salesforce的策略转变反映了整个行业在应用大语言模型时面临的普遍性挑战,即模型可能偏离预期用途或无法可靠处理复杂指令[2][5] 技术挑战与可靠性问题 - 当给大语言模型超过8个指令时,它会开始遗漏指令,这对需要精确处理的任务而言并不理想[2] - 大模型存在“幻觉”等技术故障,在处理精确任务时可能导致不可靠的结果[1] - AI“漂移”现象是另一个关键挑战,即当用户提出无关问题时,AI代理会失去对其主要目标的关注[3] - 行业案例显示,由企业AI初创公司Sierra提供支持的Gap Inc聊天机器人曾回答关于成人用品和纳粹德国的问题,凸显了大模型偏离预期用途的普遍性问题[5] 策略调整与解决方案 - Salesforce在Agentforce中使用基于预定义指令的确定性自动化,而非完全依赖AI模型的推理和解释能力[1] - 为解决指令遗漏问题,公司与客户合作设置了“确定性触发器”,例如确保每次客户互动后都能发送满意度调查[2] - 公司开发了Agentforce Script系统,通过识别哪些任务可由不使用大模型的“代理”处理,来最小化大语言模型的“不可预测性”,该系统目前处于测试阶段[3] - 公司今年完善了主题结构,加强了防护措施,提高了检索质量,并调整响应以更具体、更符合上下文[4] 产品影响与市场表现 - Agentforce预计年收入将超过5亿美元[1] - 尽管CEO曾表示Agentforce处理了Salesforce大部分客户服务询问,并使公司能够裁减约4000名客户服务人员,但公司近期似乎减少了其客户服务代理对大模型的使用[4] - 公司预计在1月底结束的财年中,已解决对话数量将增长90%[4] 客户案例与效果 - 家庭安防公司Vivint为250万客户使用Agentforce处理客户支持,但遇到了可靠性问题,例如有时会不发送指定的满意度调查[2] - 使用“确定性触发器”等基础自动化形式后,不仅降低了Vivint的运营成本,也为客户提供了更低的价格[2]
深度|百亿美金AI独角兽Surge AI华裔创始人:不融资、小规模,AI创业的另一种可能
Z Potentials· 2025-12-19 11:01
公司概况与业绩 - Surge AI是一家专注于AI数据标注与训练服务的公司,由Edwin Chen于2020年创立,公司从成立第一天起就实现盈利,且零外部融资 [3][4] - 公司在不到四年时间内,以不到100名员工(访谈中提到为60-70人,后增至约100人)的规模,实现了超过10亿美元的营收,被认为是增长最快的公司之一 [4][6][7] - 公司服务谷歌、Anthropic等前沿AI实验室,为其模型训练提供关键数据支持 [3][4] 反主流的创业与运营理念 - 公司采取反主流路径,不参与硅谷常见的融资、炒作和社交媒体推广游戏,而是专注于通过打造“好10倍”的产品和口碑传播来获得精准客户 [8][9] - 公司认为成功不必依赖庞大组织或巨额融资,专注深耕、做好研究、打造出色产品是关键,这开启了企业创办的“黄金时代” [6][7][8] - 创业者应打造“只有自己能打造”的公司,凭借独特洞察力和专业知识,做自己真正关心的事情,追求真正的技术创新,而非追逐估值或频繁调整方向 [6][27][28] AI数据质量的核心方法论 - 公司成功的核心在于对“高质量”数据的极致追求,其定义的“质量”超越简单的数量或机械标准,而是关乎独特性、情感共鸣、精妙意象等复杂、丰富且主观的特质 [11][12] - 为衡量这种高质量,公司打造了全套技术,通过收集工作者的数千个行为信号和每个任务的数千个维度数据(如键盘敲击节奏、响应速度、同行评审结果)来进行精准筛选和匹配 [12][13] - 公司的筛选逻辑类似于Google搜索,不仅剔除低质内容,更专注于挖掘顶尖人才和优质产出,并将所有信号输入机器学习算法实现复杂预测 [13][14] 对AI模型性能与行业发展的见解 - 模型性能差异的关键不仅在于数据质量,更在于模型优化的“目标函数”,即实验室为模型设定的核心优化目标、价值观和行为准则,这导致不同模型的“特质”将越来越差异化 [15][16][42][43] - 当前许多行业基准测试(如LM Arena)存在缺陷,且容易通过“钻空子”方式优化得分,与AI解决现实世界复杂模糊问题的实际能力关联度不高,甚至可能将AI发展导向错误方向(如优化“AI垃圾内容”和用户参与度) [18][19][22][23][24] - 实现AGI(通用人工智能)可能需要新的技术突破,因为当前大语言模型的学习方式与人类存在差异,而强化学习环境(RL environments)作为模拟现实世界的“训练场”,是模型进化的下一个重要阶段,能帮助模型更好地应对真实、长期、复杂的任务 [31][32][33][34] AI行业的未来趋势与方向 - 被低估的方向是聊天机器人将内置“迷你应用”或“迷你用户界面”(如Claude的“Artifacts”功能),这种将AI能力产品化的概念潜力巨大 [45] - 被过度炒作的领域是“AI生成代码”,从长远看,盲目将生成的代码纳入系统可能导致维护性灾难 [45] - AI的未来发展应聚焦于推动人类进步,打造能激发好奇心、创造力和效率的工具,而非仅仅迎合用户惰性来提升参与度指标,选择正确的、复杂丰富的“目标函数”至关重要 [22][54][55] 公司文化、研究驱动与创始人背景 - 公司将自身定位为“研究机构”而非典型创业公司,重视好奇心、长期激励和学术严谨性,并组建了内部研究团队,致力于推动数据科学前沿、打造更好的评估基准,并与客户紧密合作优化模型 [39][40][51] - 创始人Edwin Chen拥有MIT数学、计算机科学与语言学背景,曾在谷歌、Facebook、Twitter及对冲基金任职,其跨学科背景和对高质量数据核心价值的坚信,驱使他创立了Surge AI [3][47][48] - 创始人认为公司是CEO的化身,决策应基于个人价值观和希望看到的改变,而非仅仅优化仪表盘数据,其驱动力是让公司在AI的未来中扮演关键角色,并以对人类有益的方式塑造AI发展 [51][54][65]
北京 AI 企业开放日要点_大语言模型市场竞争仍激烈…… 我们看到 AI 商业化的曙光,尤其在垂直企业市场
2025-12-17 23:53
行业与公司概览 * 本次电话会议纪要涉及中国人工智能行业,特别是大型语言模型和AI应用市场,会议于2025年12月9日至10日在北京举行[1] * 会议汇集了中国领先的软件和LLM公司的管理层,与投资者讨论了市场前景、技术、业务趋势和商业化模式[1] * 尽管LLM市场竞争激烈,但AI商业化,尤其是在垂直企业市场,显现出积极信号[1] 关键公司财务与业务要点 **科大讯飞** * **财务表现**:消费者业务是核心增长引擎[2] * 2025年上半年,消费者业务(包括学习机、开放平台、智能硬件等)收入已占公司总收入的约三分之一[5] * 学习机势头强劲,今年可能贡献总销售额的20%[5] * 展望未来,管理层认为主要增长引擎将是消费者业务以及教育领域,这两者都由其“星火”LLM平台驱动[5] * **AI业务**:“星火”LLM基于国产AI芯片训练,是其竞争优势[3] * 管理层指出,科大讯飞可能是中国唯一在国产AI芯片平台上训练的大型LLM,这使其能够承接政府和国企市场的订单[5] * “星火”LLM平台的主要客户是政府和国企,预计2025财年可贡献约10亿元人民币的收入[5] * 除了基础LLM,公司还积极投资开发教育、医疗等垂直领域的LLM[5] * 管理层预计在未来2-3年内控制来自政府和大型国企的应收账款,从而改善现金流[5] **金山云** * **财务表现**:AI算力需求增长加速[4] * 管理层预计2025财年收入同比增长将超过20%,但由于租赁算力增加,毛利率将承压,调整后毛利率预计约为15%[5] * 公共云和企业云收入分别约占70%和30%,其中AI云是增长最快的板块[5] * 算力资产预计将增加约90亿元人民币,包括自购和租赁资产[5] * **AI业务**:小米的LLM训练和推理需求是主要增长驱动力[4] * 作为主要客户,小米的LLM“MiMo”训练将继续支撑金山云的算力需求,金山云是其主要的云服务提供商(约50%的份额)[10] * 除了LLM训练,小米在智能手机、电动汽车和其他物联网边缘设备上的推理需求,可能为金山云带来长期可持续增长[10] * 2025年第三季度,小米和金山软件占其云行业收入的28%,与小米的关联交易可能达到2025财年上限(23亿元人民币)的约95%,且需求可能超过2026财年的交易限额(30亿元人民币)[5] * 除了小米和金山软件,金山云的外部客户还包括AI初创公司,如月之暗面、Minimax和智谱AI[10] * 管理层认为英伟达H200在中国市场应有需求,但美国政府额外25%的收费可能导致成本上升,给终端需求带来了不确定性[4][10] **第四范式** * **财务表现**:目标是到2029年实现200亿元人民币收入[6] * 管理层预计2025财年收入增长将超过30%,并实现盈利转正[10] * 展望未来,管理层预计未来几年收入将保持约30%的复合年增长率,长期目标是在2029年实现200亿元人民币收入[10] * **AI业务**:管理层期望更高价值[7] * 2025年前9个月,Sage AI平台收入同比增长70.1%至36.9亿元人民币,占总收入的84%[10] * Phancy(消费者解决方案)于2025年第二季度开始产生收入,其2025财年年度收入运行率可能达到约1亿元人民币[10] * 尽管最初专注于金融行业客户,但过去几年已将其客户组合多元化至约20个行业,其中最大的是能源、电力和电信[10] * 公司专注于构建企业级AI服务平台,其核心竞争优势在于使用“智能体+垂直AI模型”解决特定场景问题[10] * 尽管企业市场宏观环境疲软且IT预算紧张,但管理层指出其AI解决方案渗透率仍然很低,有充足的成长空间[10] **商汤科技** * **财务表现**:生成式AI是主要的收入增长驱动力[8] * 商汤科技目前70%-80%的收入来自生成式AI,而视觉AI(AI 1.0时代的主要增长驱动力)规模小得多,并保持稳定增长[10] * **AI业务**:致力于构建全栈AI能力[9] * 管理层指出,公司今年的重点是开发多模态LLM,其原生多模态LLM SenseNova V6.0和V6.5已于2025年4月和7月发布[10] * 管理层认为,具身智能、空间智能和世界模型是未来的关键趋势[10] * 商汤科技已开源SenseNova-SI空间智能模型,其“吾能”具身智能平台已开发用于支持人形机器人开发[10] * 根据管理层,2025年上半年资本支出超过10亿元人民币,2025财年可能达到约20亿元人民币;公司拥有多元化的GPU供应[10] * 公司不依赖单一客户;其最大客户占总收入的比例不到5%[10] * 关键客户垂直领域包括视频生成、人形机器人、研究实验室和零售[10] **北森** * **财务表现**:“AI + HRM”市场增长稳固[11] * 管理层预计2026财年(截至2026年3月)总收入同比增长15~20%,新AI合同将达到6000万元人民币,占总收入的3%-5%[15] * 2025年前9个月,综合毛利率为83.5%,而AI产品的毛利率也超过80%[15] * **AI业务**:AI产品驱动收入增长[11] * 管理层认为,北森的关键增长引擎包括从SAP等海外HRM服务提供商以及中国小型垂直HRM玩家手中夺取市场份额[15] * AI Family 2.0包括十个主要AI智能体,其中AI面试官和AI领导力教练是关键增长驱动力[15] * 在2026财年上半年(截至2025年9月),AI面试官/AI领导力教练/AI对练的新合同价值分别约为1000万/605万/290万元人民币[15] * 公司AI智能体中使用的基础LLM包括GPT、Qwen、DeepSeek、豆包和智谱AI[15] * 管理层认为,API价格的下降将有利于未来北森AI产品毛利率的改善[15] **用友网络** * **财务表现**:国产替代和大型企业的AI迁移是关键增长驱动力[12] * 管理层认为,未来几年的关键增长驱动力是大型企业的AI迁移,以及持续的国产替代[15] * 展望未来,管理层预计公司将保持稳定的收入增长,现金流将在2025年显著恢复,盈利将在2026年逐步改善[15] * 用友网络的总人数将在2025年和2026年保持稳定(1.8万~2万人),因为密集投资阶段已经过去[15] * **AI业务**:AI智能体深度集成到ERP中[12] * 用友网络的AI应用路线图包括垂直AI模型,以及Copilot和智能体等AI应用[15] * 公司已推出100多个智能体,最受欢迎的智能体包括财务智能体和招聘助手[15] * 超过一半的AI智能体采购订单来自中型客户,但大型客户的AI智能体订单价值要高得多[15] * 与现有的软件解决方案相比,AI智能体和应用的交付成本更低,这有助于提高毛利率[15] **奇虎360** * **财务表现**:2025年前9个月收入达61亿元人民币,同比增长8%,净亏损收窄4.57亿元人民币至1.22亿元人民币[13] * 2025年第三季度盈利转正,为1.6亿元人民币,主要得到1.3亿元人民币投资收益的支持[13] * **业务细分**: * **广告**:核心收入驱动力,占总收入的54%,2025年前9个月同比增长6%,主要由AI技术赋能和短剧新广告收入流驱动[14] * **增值服务**:包括游戏相关收入(占总收入的11%),同比持平;会员相关收入(占总收入的13%),同比增长1.6倍[14] * **智能设备销售**:收入(占总收入的10%)同比下降30%,据公司称主要由于优化销售渠道,尽管海外销售同比增长70%[14] * **传统安全业务**:(占总收入的7%)在2025年前9个月基本持平[14] * **AI业务**:核心业务战略聚焦于“AI + 安全”[15] * **消费者端**:AI推动了消费者和企业端收入增长[15] * 在增值会员收入中,35%现在来自消费者端AI产品(如360 AI办公、360文库和编辑工具),高于一年前的25%[15] * 目前,奇虎360的消费者付费用户数超过800万,ARPU为20元人民币/月,续费率60%[15] * 管理层指出,增值会员业务正朝着年收入10亿元人民币的目标迈进,其中AI产品贡献3.5亿元人民币[15] * 2025年上半年,奇虎360将其Nano AI平台从AI搜索升级为AI智能体聚合,以高性价比的方式利用第三方先进LLM[16] * P-video提供生成2-10分钟文本到视频内容的竞争性功能,并计划在国内测试后向海外推出[16] * **企业端**:超过50%的安全收入来自政府客户[17] * 管理层指出,公司正依靠AI来推动安全业务增长,其自研LLM支持的AI安全智能体(如威胁检测)与安全解决方案捆绑以实现溢价[17] * 此外,奇虎360正从亏损的项目制安全转向SaaS安全(目前占安全收入的30%,在同行中处于领先地位),以提高安全业务的盈利能力[17] **有道** * **业务定位**:有道将自己战略定位为专注于学习和广告垂直领域的AI驱动解决方案提供商[18] * **收入构成**:在线营销服务已成为其最大的收入贡献者,占45%,其次是学习服务占39%,智能设备销售占15%[18] * **在线营销服务**: * 在过去3-4年里实现了5倍增长,由基于其自研广告垂直LLM的程序化广告的推出所推动[19] * 目前,三分之二的广告收入来自国内程序化广告,三分之一来自海外KOL营销以及与TikTok和谷歌等主要媒体平台的合作[19] * AI赋能有道优化广告制作成本并提高匹配效率[19] * 值得注意的是,据管理层称,有道在2025年推出了广告素材平台Imagic box,与手动创建相比,广告制作成本降低了70%,并能够为效果广告实时调整素材[19] * 主要广告客户包括游戏、新能源汽车、电子产品、短剧等[20] * 网易是其主要的广告客户之一,但在2024财年仅占其广告收入的8%[20] * 除网易外,有道服务于中国前30大游戏公司中的70%[20] * 对于有道的广告业务,40%的广告流量是自有流量(通过网易生态系统:网易新闻、网易音乐),60%来自高性价比的长尾外部流量[20] * 尽管在三个业务板块中毛利率最低,但广告业务的营业利润率最高(接近15%)[20] * 由于广告收入贡献更高,管理层认为有道的整体盈利能力有望改善[20] * **学习业务**:有道致力于利用AI发展其学习业务[21] * 在学习服务收入(占总收入的39%)中,70%来自面向高中生的AI互动课程(通过有道领世展示)[21] * 管理层指出,有道在2025年第二季度推出了AI作文评分功能,将学生续费率提升至75%以上——在高中教育领域处于领先水平[21] 其他重要信息 * **分析师观点与评级**: * 科大讯飞:评级“中性”,目标价50.00元人民币,基于98倍2026财年预期每股收益[27][28][29] * 金山云:评级“买入”,目标价9.20港元,基于DCF估值法[30] * 用友网络:评级“中性”,目标价16.00元人民币,基于DCF模型[32][33][34] * 网易:评级“买入”,目标价249.00港元(港股)/160.00美元(美股)[37][38][39][40][41] * **风险提示**: * 各公司均列出了可能阻碍实现目标价的下行风险,主要包括市场竞争加剧、技术商业化不及预期、需求增长放缓、成本控制不力等[29][31][35][39][42] * **会议性质**:本次会议为野村国际(香港)有限公司组织的企业日活动纪要,旨在与投资者交流[1][22] * **披露信息**:报告包含分析师认证、发行人特定监管披露、重要免责声明等合规内容[23][24][25][26][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78]
The Glimpse Group Partners With A NYC Higher Education Institution To Provide Local LLM Infrastructure Customized For Immersive AI
Accessnewswire· 2025-12-16 21:30
公司业务动态 - Glimpse Group Inc 与一家纽约市的高等教育机构签订了一份六位数(即数十万美元级别)的合同 [1] - 合同内容涉及为本地大型语言模型基础设施进行设计、部署和集成 [1] - 该基础设施专门配置用于在沉浸式环境中运行 Foretell AI [1] - 该解决方案将被应用于校园和社区的各种系统与项目中 [1] 公司战略与技术能力 - 公司是一家多元化的沉浸式技术平台公司,专注于为企业提供沉浸式技术、空间计算和人工智能驱动的软件与服务 [1] - 此次合作进一步证明了公司能够将人工智能与其沉浸式平台无缝集成 [1] - 该集成能力使得在沉浸式环境中与智能AI非人类虚拟角色进行强大的自然交互成为可能 [1]
Google is a name you need to stick with, says Evercore ISI's Mark Mahaney
Youtube· 2025-12-16 20:51
谷歌股票表现与估值 - 谷歌股价在六个月内从15倍市盈率上涨至近30倍市盈率 这种涨幅罕见[2] - 股价此前被严重超卖 但目前并未超买 估值处于“科技七巨头”的高端水平 预计能维持该估值倍数[2] - 股价全年上涨60% 其中大部分涨幅发生在下半年 近期上涨后不再是首选股 但仍属于坚定持有/买入范畴[1] 公司基本面与增长前景 - 公司被视作“高质量复利增长者” 预计能实现每年20%的增长[1][2] - 基本面结构良好 公司已证明其在技术栈的各个层面都取得成功[3] - 搜索和YouTube业务收入有重新加速增长的可能[3] - 云业务增长预计将超过40%[3] 人工智能竞争与机遇 - 谷歌Gemini 3模型的推出是推动股价上涨的部分原因[4] - 长期来看 Gemini不太可能在接下来的一年里持续领先大型语言模型领域 该领域将面临激烈竞争[5] - 预计ChatGPT等竞争对手最终将推出新的广告模型 对谷歌的搜索广告收入构成真实竞争 这可能成为一两个潜在的负面催化剂[5][6] - 若因此导致股价下跌 将是增持谷歌股票的好机会[6] 人工智能产品化与货币化潜力 - 当前阶段 竞争关键不在于模型本身 而在于谁能最好、最快地将模型产品化[7] - 谷歌拥有巨大优势 因其产品矩阵拥有数十亿用户 如能将领先模型快速整合至YouTube、Gmail、Google Works和搜索等所有资产中 货币化潜力巨大[8][9] - ChatGPT等竞争对手除非也建立起拥有海量用户的应用生态 否则货币化能力将不及谷歌[10] - 未来大型语言模型市场可能整合至三到四个 而非二十个 这避免了业务商品化 领先模型将凭借数据和个人化优势胜出[12][13]
2025科技与资本报告|人工智能赶考
北京商报· 2025-12-14 15:47
行业规模与政策支持 - 截至2025年6月,中国生成式人工智能用户规模达5.15亿人,较2024年12月增长2.66亿人 [1] - 截至2025年8月,共有538款生成式人工智能服务完成备案,应用向智能搜索、内容创作、农业生产及工业制造等场景延伸 [1] - 2025年8月,国务院印发《关于深入实施“人工智能+”行动的意见》,提出6大重点行动和8项基础支撑能力,为行业发展明确方向 [1] 资本市场动态与融资 - 2025年至今,中国人工智能领域共发生709起投资事件,是2024年全年数量的136%,投资金额合计约591.45亿元,是2024年全年的94.5% [1] - 2025年三季度,人工智能行业一级市场新增融资事件435起,同比增长99%,环比增长21%,总融资规模约370亿元 [7] - 2025年三季度,人工智能是资本最集中的投资赛道,前十名企业合计融资超百亿元,前三名为MiniMax、曦智科技和千里智驾 [7] - 大模型赛道公司MiniMax完成近3亿美元融资,智谱获得10亿元人民币融资 [1] - AI+消费机器人公司灵宇宙完成2亿元Pre-A轮系列融资 [13] 企业上市与并购活动 - 自动驾驶公司小马智行和文远知行于2025年11月在港交所上市,小马智行以绿鞋后77亿港元集资额成为2025年港股AI领域募资额最高的新股 [1][6] - 小马智行Robotaxi车队规模超过720辆,文远知行L4级自动驾驶车队规模超过1500辆,其中Robotaxi超过700辆 [6] - 2025年有多家AI相关公司上市或递表,包括明略科技、赛目科技、索威尔科技、云知声、合合信息、特斯联、群核科技等 [6][7] - 2025年AI领域并购案相对较少,A股案例如恒为科技收购数珩信息75%股权,索辰科技子公司拟收购力控科技60%股权 [9] - 2024-2025年A股AI应用领域并购主要有产业赋能型、技术下沉型和生态整合型三种路径 [10] 技术应用与商业化进展 - 2025年上半年,中国大模型市场日均调用量超过10万亿tokens,较2024年下半年增长约363%,标志其进入规模化落地阶段 [10] - 大模型核心价值在于“提质增效”,应用场景中“问答增强”占比最高达32%,代码助手占比18%,文档处理生成占比17% [11] - AI硬件成为商业化新载体,IDC预计2026年中国智能终端市场出货量将超9亿台,同比增长4% [12] - 灵宇宙公司的“小方机”产品在2025年“双11”期间于京东的销售额,较“6·18”期间增长超230% [13] - 原生AI App用户规模在2025年9月达到2.87亿,In-App AI及手机厂商AI助手用户规模分别为7.06亿和5.35亿 [8] 竞争格局与生态演变 - 2025年中国AI产业竞争格局复杂化,科技巨头与新兴创业公司在几乎所有赛道同台竞争 [8] - 深度求索的DeepSeek在2025年初表现突出,其App日活跃用户数在2月24日突破5000万 [8] - 多模型驱动已成行业标配,科技大厂与创业公司展开大型合作,例如腾讯、百度等应用接入DeepSeek-R1模型 [8] - 大厂通过投资与创业公司关联,例如阿里云领投斑头雁创下国内AI Agent赛道单笔最大融资纪录,百度通过“文心杯”创业大赛投资优胜团队 [9] - 行业投资逻辑从“想象力溢价”转向“变现能力”,市场更关注企业的营收规模和盈利时间 [12] 巨头战略与基础设施投入 - 阿里巴巴积极推进三年3800亿元的AI基础设施建设计划,并计划持续追加投入 [15] - 根据远期规划,为迎接ASI时代,2032年阿里云全球数据中心的能耗规模将较2022年提升10倍 [15] - 腾讯2025年三季度研发开支约为228.22亿元,同比增长28%,创单季历史新高;同期资本开支130亿元,持续投入AI人才、研发及算力基础设施 [15] - 科技巨头竞争从底层算力延伸至C端入口和智能硬件,例如百度小度、阿里千问App、腾讯元宝、字节跳动豆包App等均在积极布局 [15] - 截至2025年4月,中国人工智能专利申请量达157.6万件,占全球申请量的38.58%,位居全球首位 [16]
Cerebras Delivers End-to-End Training and Inference for Jais 2, the World's Leading Open Arabic LLM
Businesswire· 2025-12-10 07:22
公司动态 - Cerebras Systems与G42的Inception以及MBZUAI的IFM合作,共同发布了领先的开源阿拉伯语大语言模型Jais 2 [1] - Jais 2是首个在Cerebras Systems平台上完成训练并部署用于推理的前沿语言模型 [1] - 各组织结合其在领先机器学习技术方面的专长,并利用Cerebras晶圆级集群的独特能力,使Jais 2达到了最先进的质量水平 [1] - 实现这一成果仅使用了计算资源的一小部分 [1] 行业技术 - 此次合作展示了在Cerebras晶圆级集群上实现先进机器学习技术的能力 [1] - 该模型在计算效率方面取得显著进展,以远低于常规所需的计算量实现了顶尖模型质量 [1]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 11:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]