Workflow
Agent
icon
搜索文档
刚刚,阿里园区被奶茶包围,都是千问点的!西溪叫不动外卖了
AI前线· 2026-01-15 14:58
文章核心观点 - 阿里巴巴通过千问App的更新,打响了AI“下地干活”的第一战,标志着AI从聊天对话走向在真实世界中决策与执行[2][4] - 公司的战略是将AI与自身成熟的商业生态结合,通过统一的AI入口整合400余项办事能力,旨在将千问打造成AI时代的超级应用入口[4][6] - AI Agent的竞争核心已从模型能力转向谁能更稳定、规模化地承接真实世界的复杂需求[25] 阿里巴巴千问App的战略定位与能力 - 公司将千问定位为“每个人的生活助手”,其发展路径是直接接入阿里现有业务体系,而非创造新场景[4] - 在日常生活层面,千问首批接入了淘宝闪购、支付宝、淘宝、飞猪和高德五大业务,用户可通过一句话完成点外卖、购物、订机票酒店、查路线等操作[4] - 在“办事”层面,千问尝试处理更复杂的任务,如打电话订餐厅、整理调研资料、处理财务文件、辅助搭建网站等,这些功能目前处于定向邀测阶段[6] - 千问上线两个月以来,月度活跃用户已突破1亿[6] 千问的核心优势与功能亮点 - 公司的核心优势在于“最强的Qwen模型”与“阿里最完整的商业生态”的结合[6] - 千问展现出对用户需求的深度理解能力,例如用户主动询问商品推荐的月环比增长高达300%[9] - 在决策层面,千问能综合复杂条件给出推荐,例如为有猫家庭、预算在2000-4000元的老人推荐扫地机器人,并考虑便捷性与清洁效果[11] - 千问能完成从需求理解到执行的闭环,例如在推荐徒步路线时,结合天气情况,并将所需产品推荐到界面[12] - 千问的多模态能力得到展示,例如通过语音功能打电话与餐厅老板沟通,完成订酒店的“最后一公里”[16] - 在办公场景,千问可集成复杂工具,完成做表格、整理数据、处理报表、生成PPT等具体业务[18] - 在教育领域,千问能为题目生成动态视频进行图示演说,并通过多模态方式随时对话沟通,给出思路和解法[20] 行业竞争格局与不同公司路径 - 字节跳动选择从系统层切入,通过豆包手机助手借助操作系统能力调度第三方应用[23] - 阿里巴巴的路线更为直接,依托自身高度成熟的电商、支付、物流、出行等业务体系,形成以自有生态为核心的闭环[23] - 腾讯目前尚未对外展示完整方案,但其下一步布局大概率将围绕微信这一超级入口展开[23] 当前进展与未来挑战 - 千问已明显走出聊天框,开始进入决策和执行的真实环节,但距离“完全可靠的AI助手”还有距离[23] - 公司下一步发力的方向是对“干活”质量的进一步打磨[23] - 当前面临的潜在挑战包括:如何避免大模型被商家的假好评和广告垃圾数据污染,以及如何使推荐方案更接地气(例如避免推荐均价两三千的酒店方案)[14][16] - 在专业办公场景,千问的交付结果相当于工作三年内的大学生水平,在内容重点把控和设计美观度上仍有提升空间[19]
中金公司 _ Chatbot专题研究:未来已来
中金· 2026-01-15 09:06
报告行业投资评级 - 报告未明确给出具体的行业投资评级(如“增持”、“中性”等)[2] 报告的核心观点 - Chatbot已成为AI时代的“Killer App”,其用户活跃度、使用时长和留存率正接近社交平台,在工作、学习与娱乐场景的渗透率不断提升[3] - 海外市场由ChatGPT领先,其移动端MAU在2025年11月突破8.7亿,月活市占率达63%;国内市场则由字节跳动的豆包占据主导地位,日活已超过1亿[3][9] - AI应用正从Chatbot向更高级的Agent形态演进,这被认为是AI应用的终极目标,其演进路径可类比“早期微信”从IM工具到一站式服务平台的转变[3][91] - 长期来看,随着单位推理成本降低,“免费+交易导向效果广告”有望成为ToC Agent领域门槛更低、壁垒更高、天花板更高的商业模式[3] 根据相关目录分别进行总结 第一章 Chatbot是AI原生的“Killer App” - **互联网与AI的本质差异**:互联网的核心是生产关系的革命,通过UGC平台将大众创作能力“舞台化”;而大模型AI的核心是生产力的革命,使机器能够生成内容、辅助决策与执行任务,扩展人类生产力边界[9] - **Chatbot作为“Killer App”的证据**:Chatbot通过低交互门槛覆盖广泛用户,服务To B与To C场景,展现出成为跨行业通用平台的潜力。例如,ChatGPT全球周活用户已突破8亿,月活超过头部社交平台X;国内豆包App日活超过1亿[9] - **用户黏性持续增强**:Chatbot的使用频次和留存率持续提升。根据Sensor Tower数据,ChatGPT的用户月均活跃天数达13天,与X、Reddit等成熟社交平台基本持平。其使用模式也从“工作日工具型”演变为“全天候均衡型”[10] - **自然语言交互开启新周期**:Chatbot引入人类最熟悉的对话交互方式,降低了AI使用门槛。截至2025年第二季度,AI助手和聊天机器人子类别占AI应用下载量的85%,成为用户调用AI能力的起点[15] 第二章 Chatbot已成气候——格局与发展复盘 - **全球市场格局**:ChatGPT凭借全面的规模优势、品牌力及跨平台体验占据市场第一,其全渠道周活跃用户(WAU)在2025年7月已超过7亿,网页端占据全球生成式AI访问量的近80%。Gemini凭借Google全栈式AI布局呈现追赶态势,其全渠道活跃用户在2025年10月达6.5亿,移动端MAU达3.37亿[24][25] - **用户行为与重合度**:用户“多器并用”行为普遍。例如,2025年10月,69.24%的千问活跃用户同时使用豆包;海外市场一半的Gemini活跃用户同时在使用ChatGPT[33][34] - **ChatGPT发展复盘**:ChatGPT的发展本质是底层大模型(GPT系列)能力的扩张史,其产品是追求通用人工智能(AGI)这一“北极星”目标的直接消费品。其演进经历了现象级发布、能力升维与生态雏形、多模态产品封装,最终向“AI平台”与“智能默认接口”转型[35][40][45] - **使用场景泛化**:ChatGPT的使用场景正从“效率工具”泛化为“生活方式”。2024年第二季度至2025年第二季度,其会话主题中工作与教育等“生产力”类别总占比从近50%下降至37%,而健康、理财、旅行、娱乐等生活类场景占比从22%提升至35%[45] - **中国市场格局**:中国AI流量延续移动互联网“路径依赖”,移动端是主战场。截至2025年9月,国内AI应用整体月活跃用户移动端规模达7.29亿(包括独立App及应用插件In-App AI),远超PC端的2亿。其中,字节跳动的豆包App月活达1.72亿,日活突破1亿,确立领先优势[50][51][56][68] - **豆包发展复盘**:豆包初期借鉴Character.ai,关注情绪价值(EQ),并通过与字节生态(如抖音、今日头条)打通获客。2025年以来,通过技术冲刺(如多模态模型“月更”)、组织架构调整及生态整合(合并猫箱、星绘等产品),实现了用户规模的快速增长和DAU破亿[64][67][72][76][77] 第三章 从Chatbot到Agent逻辑推演 - **Agent是演进方向**:Agent标志着AI从被动问答工具进化为能自主理解、规划并调度资源与服务的“行动主体”。当前切入Agent赛道的潜在方向包括:通用Chatbot(如ChatGPT、豆包)、端侧AI(如Apple Intelligence)、垂直场景Agent(如Cursor)[91] - **通用Chatbot与垂直Agent的共存关系**:在C端市场,通用型产品因占据高频入口、降低用户边际成本及具备规模成本优势而更占优。根据Menlo Ventures报告,91%的AI用户会优先使用他们最顺手的通用AI助手。然而,在B端市场或对效果有极致要求的垂直领域,垂直场景Agent凭借对工作流的深度理解和集成,仍能建立稳固的商业模式[99][102][104][106] - **入口与生态的博弈**:综合Agent一旦成形,可能成为下一代超级应用流量入口,这将引发其与现有垂直服务巨头(如亚马逊、美团、淘宝)之间的博弈。后者担忧被“去中介化”,可能采取有限开放API、自研垂直Agent或构筑商业壁垒等方式进行防御。中美市场生态开放度存在差异,可能影响Agent的发展路径[107][111] 第四章 商业化畅想:从订阅到效果广告 - **当前商业化模式**:海外市场以订阅制渐成主流。例如,OpenAI约75%的收入来自消费者订阅,其ChatGPT Plus订阅服务(每月20美元)约占当前总收入的70%,但月活付费率仅为5-6%。国内市场则因用户付费习惯和竞争激烈,主要以免费模式为主[120][121] - **长期商业模式展望**:报告认为,随着单位推理成本降低,“免费+交易导向效果广告”有望成为ToC Agent领域更具潜力的商业模式。互联网广告龙头(如谷歌、Meta、腾讯)在数据和基础设施维度具备优势[3]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
36氪· 2026-01-14 08:17
模型与行业发展趋势 - 模型分化已成为显性趋势,分化原因多元,包括To B与To C场景需求差异、对竞争格局的押注以及不同AI实验室的战略选择 [1] - 在To B领域,强模型与弱模型的分化会越来越明显,企业用户愿意为“最强模型”支付溢价,因为强模型(如Opus 4.5做10个任务能对8-9个)能减少错误监控成本,而弱模型(可能只对5-6个)即便更便宜也带来额外管理负担 [2][3] - 在To C场景,任务瓶颈往往不是模型不够大,而是上下文(Context)与环境(Environment)的缺失,例如回答“今天吃什么”需要个性化数据,因此利用好合规的上下文数据(如微信聊天记录)比盲目追求更强预训练模型能带来更大价值 [2] - To C场景适合模型与产品进行垂直整合的All-in-one路线,而To B(生产力应用)因涉及复杂生产环节,给了应用公司优化空间,出现了模型公司与应用公司之间的分层 [3] - 模型分化也是自然演化的结果,源于与客户的高频交流,例如Anthropic进入金融领域就是在交流中发现的机会 [3] - 模型分化的时机与竞争格局判断相关,例如智谱AI在DeepSeek出现后判断“Chatbot取代搜索”战局已定,从而选择押注编程(Coding)领域 [4] 技术新范式与自主学习 - Scaling(规模扩展)仍会继续,但需区分已知路径(通过增加数据和算力探索能力上限)与未知路径(寻找新范式,让AI系统自主定义奖励函数、交互方法和训练任务) [5][6] - Scaling Law的核心是将能源高效转化为智能,是技术、数据与品味(taste)共进的过程,探索前沿智能不会因潜在风险而停止 [8] - 自主学习是共识性极强的新范式,目标是让模型具备自反思与自学习能力,通过持续自我评估与批判来优化行为路径 [8] - 新范式的发生是一个“渐变”过程,已有信号显现,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT拟合用户聊天风格,Claude Code编写了自己项目95%的代码 [8] - 新范式发展的最大瓶颈是想象力,即需要构想出证明其实现的具体任务,例如变成一个赚钱的交易系统或解决未解科学问题 [8] - 从实际角度看,强化学习(RL)的潜力尚未被充分挖掘,下一代范式包括自主学习以及AI具备更强的主动性,未来模型可能不再需要人类提示(Prompt),而是由环境直接触发 [9] - 主动学习(Active Learning)会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向 [9] - 持续学习(Continual Learning)中,对于多智能体(Agent)串联的长程任务,若单个智能体能力未达100%,后续能力会呈指数级下降,可能需要探索类似人类睡眠的“清噪”与新计算模式 [9] - 提出了“智能效率”(Intelligence Efficiency)概念,未来范式应关注“投入多少资源能获得多少智能增量”,以解决成本瓶颈 [10] - 大模型发展借鉴人脑认知,在多模态、记忆与持续学习、以及反思与自我认知这几类人类显著领先的能力上,可能是新的突破方向 [10] - 智谱AI参考人类认知提出AI系统三模块结构:系统1(模式匹配与知识提取,对应数据与模型规模的Scaling-up)、系统2(知识融合与推理,对应Reasoning的Scaling)、自主学习(对应Environment Scaling,让模型从与外界交互中获得反馈) [10] 多模态与感知能力 - 原生多模态模型与人类的“感统”相似,能汇集视觉、声音、触觉等信息进行综合感知,但当前模型的感统能力并不充分 [11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务,如在手机、电脑等设备上持续协作 [11] - 多模态同样是Qwen的持续发展方向,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论 [11] - 从第一性原理出发,为模型提供更多生产力、更好地帮助人类,发展视觉、语音等多模态能力是自然而然的选择 [11] - 视频是更广义的表达,理解长视频是一个有意义的探索方向 [12] 智能体(Agent)的发展与产品化 - 编程(Coding)是通往智能体(Agent)的必经之路,例如智谱AI的GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题 [13] - 模型即智能体,智能体即产品,实现复杂任务对模型要求极高,因此做基础模型本身就是在做产品 [13] - 模型在To B和To C的分化同样体现在智能体上:To C产品的指标有时与模型智能不相关甚至相反;To B的智能体则更依赖模型智能提升来解决真实世界任务、创造价值 [14] - 生产力场景的智能体才刚开始,除了模型进步,环境与部署(deployment)同样重要,是创造价值的关键,即使模型不再变好,将现有模型部署到各公司也能带来10倍甚至100倍的收益,但目前AI对GDP的影响还远不到1% [14] - 未来的智能体将变成“托管式”,用户设定通用目标后,智能体在后台长时间独立运行直至完成任务,这需要自我进化(Self-evolution)与主动学习(Active Learning)能力支撑 [15] - 在通用智能体开发中,解决长尾任务更值得关注,用户感知AI的价值常因某个长尾任务被解决,今天的AGI本质上也在解决长尾问题 [15] - 通用智能体的开发见仁见智,若应用公司没有比模型公司做得更好的信息优势,那么“模型即产品”对模型公司是机会,因为许多工程问题可能只需“烧卡”即可解决 [15] - 智能体的发展可从两个维度划分四象限:目标定义(人为/自动)和任务规划(人为/自动),目前处于初级阶段(目标与规划皆由人定义),未来将发展为由大模型内生定义 [16] - 决定智能体未来走势的重要问题包括:能否真正解决人类任务并创造价值、成本有多大、以及应用公司的迭代速度是否能拉开时间窗口 [17][18] 全球AI竞赛与中美对比 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国在制造业、电动车等领域已证明,一旦某事可行,就能以极高效率复现甚至做到局部更好 [19] - 长期挑战在于文化差异,即“敢突破新范式、敢冒险的人不够多”,并面临两个现实瓶颈:光刻机突破决定的算力瓶颈,以及是否能诞生更成熟的To B市场并在国际竞争,应避免过分刷榜,更关注做“正确的事”和用户体验 [20] - 相对冷静的观点认为,中国AI超过美国的概率最乐观情况为20%,中美算力差异不仅是绝对量级(美国算力比中国大1-2个数量级),更是结构性的:美国将相当一部分算力投入下一代研究,而中国仍在解决任务交付爆发带来的算力瓶颈 [21] - 但“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施(Infra)的联合优化,这可能倒逼创新发生 [21] - 面对光刻机瓶颈,有可能从软硬结合的角度,通过下一代模型结构和芯片实现端到端(End-to-End)的突破 [21]
深度解读 AGI-Next 2026:分化、新范式、Agent 与全球 AI 竞赛的 40 条重要判断
海外独角兽· 2026-01-13 20:33
文章核心观点 - 华人已成为AGI领域的重要力量,中国开源模型是全球Tier 1,预计到2026年地位将更加牢固[1] - 大模型行业正经历显著分化,主要体现在To B与To C场景、以及垂直整合与分层路线上[3] - 自主学习是行业共识性极强的新范式,预计2026年将成为主要投入方向[1] - Scaling(规模扩展)将继续,是技术、数据与品味共进的结果,探索前沿智能不会停止[1] - 模型即Agent,Agent即产品,两者趋于一体化[1] - 中美AI竞赛存在结构性差异,美国算力比中国多1-2个数量级,且更多投入下一代技术探索[1] 模型分化趋势 - 分化趋势显性,原因多元,包括To B和To C场景需求差异、对竞争格局的思考以及不同AI实验室的战略选择[1] - To B领域会出现强模型与弱模型的分化,且会越来越大[1] - To C场景的任务瓶颈往往不是模型不够大,而是上下文(Context)和环境(Environment)的缺失[1] - 在To C逻辑下,大多数用户大多数时候不需要很强的智能,模型智能提升的体验不强烈[3] - To C问题的解法在于真正的个性化数据,例如在合规前提下利用微信聊天记录等上下文,比追求更强预训练模型带来更大价值[3] - 在To B市场,用户(企业)愿意为“最强模型”付出溢价,因此强模型与弱模型的分化会越来越明显[3] - 例如,Opus 4.5这类强模型做10个任务能对8-9个,而弱模型只能对5-6个,即使后者更便宜,但企业因监控错误成本高而更倾向于选择强模型[4] - To C场景中,模型做All-in-one的垂直整合成立,模型与产品可强耦合迭代;而To B(生产力应用)因涉及多生产环节,给了应用公司优化空间,出现了模型公司与应用之间的分层[4] - 模型分化并非预设路线图,更多是自然演化的结果,通常源于与客户的高频交流[4] - 分化与模型竞争的时机相关,例如智谱AI押注Coding是基于对当时模型竞争格局(如DeepSeek出现后Chatbot取代搜索之战基本结束)的判断[5] 新范式:自主学习 - Scaling会继续,但需区分两种方向:Scaling已知路径(增加数据和算力)和Scaling未知路径(寻找新范式,让AI系统自己定义奖励函数、交互方法等)[5] - 当下AI社区对新范式尚无统一定义,自主学习、主动学习、持续学习等概念本质都预期模型能在人类不介入下提升智能[6] - Scaling Law被总结为一种将能源转化为智能的视角,核心在于高效逼近智能上限,是技术、数据与审美的共进[6] - 自主学习的目标是让模型具备自反思与自学习能力,通过持续的自我评估与批判来优化行为路径[6] - 新范式的发生是一个正在发生的“渐变”过程,2025年已出现信号,例如Cursor的Auto-complete模型每几小时用最新用户数据学习,ChatGPT利用用户数据拟合聊天风格,Claude Code写了自身项目95%的代码[6] - 新范式的最大瓶颈是想象力,即需要构想出证明范式实现的具体任务(如赚钱的交易系统或解决未解科学问题)[7] - 从更实际角度看,强化学习(RL)的潜力尚未被充分挖掘;下一代范式存在两个维度:自主学习和AI具备更强的主动性(未来模型可能不再需要人类提示,而是环境本身就能提示它)[7] - 主动学习会带来严重的安全挑战,风险不在于“讲不该讲的话”,而在于“做不该做的事”,因此必须为其注入正确的方向[7] - 自主学习能体现到个性化上,但衡量其是否“变好”会变得困难,因为当AI覆盖生活方方面面后,评估指标变得极其模糊[7] - 对于多Agent串联的长程任务,一旦Agent能力未达100%,后续能力往往呈指数级下降;人类通过睡眠“清理噪音”,AI可能需要探索类似的清噪与新计算模式[8] - 提出了“智能效率”(Intelligence Efficiency)概念,即关注投入多少资源能获得多少智能增量,这是解决成本瓶颈的关键[8] - 大模型发展路径借鉴人脑认知学习过程,而在多模态、记忆与持续学习、反思与自我认知这几类能力上,人类显著领先于当前模型,这些可能是新的突破方向[8] - 智谱AI在2020年参考人类认知规划了AI系统结构图,包含三个模块:系统一(模式匹配与知识提取)、系统二(知识融合与推理机制)、自主学习,分别对应数据与模型规模的Scaling-up、推理的Scaling、以及环境Scaling(让模型从与外界交互中获得反馈)[9][10] 原生多模态 - 原生多模态模型和人的“感统”相似,能汇集视觉、声音、触觉等信息,但当前模型的感统能力并不充分[11] - 多模态感统是智谱AI今年的重点方向之一,具备此能力后,AI才能在真实工作环境中执行长链路、长时效任务[11] - 多模态同样是Qwen持续要做的事情,认为真正智能的东西天然应该是多模态的,但存在多模态能否驱动智能的争论[11] - 从第一性原理出发,为模型提供更多生产力、更好帮助人类,做视觉、语音等多模态能力是自然而然的选择[11] - 视频是更广义的表达,图片可理解为单帧视频,理解很长视频是很有意思的事情[11] Agent发展 - Coding是通往Agent的必经之路,例如智谱AI的实践中,GLM-4.5虽跑分高但写不出“植物大战僵尸”游戏,通过引入RLVR和大量真实编程环境训练,GLM-4.7才解决了该问题[11] - 模型即产品,Agent要实现复杂任务对模型要求相当高,模型就是Agent本身,Agent就是产品本身,做基础模型也就是在做产品[12] - 模型To B和To C的分化同样体现在Agent上:To C产品的指标有时与模型智能不相关甚至相反;To B的Agent甚至不需要做太多创新,模型智能提升、解决真实世界任务能力提高就能创造更多价值[12] - 生产力场景的Agent才刚开始,除了模型进步,环境和部署同样重要,是Agent创造价值的关键:即使模型不再变好,只要把现有模型部署到各公司,也能带来10倍甚至100倍的收益,但今天AI对GDP的影响还远不到1%[13] - 教育非常重要,会使用AI工具的人正在替代那些不会使用工具的人[13] - 未来的Agent将变成“托管式”,用户设定通用目标后,Agent在后台长时间独立运行直至完成任务[13] - Agent要做到这一点离不开前面提到的自我进化以及主动学习,在此逻辑下,“模型即Agent,Agent即产品”[13] - 做通用Agent过程中,长尾任务更值得关注,用户感受到AI的价值与魅力往往因为某个长尾任务被解决,今天的所谓AGI本质上也在解决长尾问题[13] - 做通用Agent是见仁见智的问题,如果作为“套壳”方没有比模型公司做得更好的信息,那么通用Agent就是“模型即产品”的机会,因为对模型公司来说,很多工程问题可能只是“烧一烧卡”就可解决[14] - Agent发展可划分为四个象限,从两个维度看:目标定义(人为/自动)和任务规划(人为/自动);今天处于初级状态(目标与规划皆由人定义),未来会出现大模型观察人的工作并使用人的流程数据,最终目标与规划皆可由大模型定义,Agent应是大模型内生的原生系统[14] - 决定Agent未来走势的几个重要问题:是否能真正解决人类任务并创造价值及价值大小;Agent成本有多大(成本过高是问题,若调用API就能解决,模型厂商意识到价值大时就会自然做进去,这是基座模型与应用之间的矛盾);应用公司的迭代速度(若Agent团队有能力拉开半年时间窗口满足用户需求,就有机会持续往前走)[14][15] 全球AI竞赛 - 对于中国AI在3-5年内进入全球第一梯队持乐观态度,因为中国最大的优势在于一旦证明某件事可行,就有能力以极高效率复现、甚至做到局部更好[17] - 但长期视角中更核心的问题在于“敢突破新范式、敢冒险的人不够多”的文化差异,此外还需面对两个现实瓶颈:算力瓶颈(核心在于光刻机是否有突破)和是否能诞生更成熟的To B市场并在国际市场竞争(应更关注“正确的事”和用户体验,而非过分刷榜)[17][18] - 另一种观点认为,中国AI超过美国的概率最乐观情况为20%[18] - 中美AI之间算力差异不只是绝对量级上的,还是结构性的:美国算力比中国大1-2个数量级,但最关键的差异在于,美国有相当一部分算力投入到了下一代的研究中,而中国今天还在解决任务交付爆发带来的算力瓶颈[1][18] - 但从历史经验看,“穷则生变”,作为“算力穷人”,中国团队更有紧迫感和动力去思考算法与基础设施的联合优化,这个出发点可以倒逼创新发生[18] - 面对光刻机的现实瓶颈,有可能在下一代的模型结构和芯片上从软硬结合的角度端到端地实现突破[18]
独一份!带动效的 PPT 生成 Agent!使用教学&创作思路
歸藏的AI工具箱· 2026-01-13 15:28
文章核心观点 - 作者成功开发并开源了一个名为“NanoBanana PPT Skills”的复杂AI代理工具,该工具能够利用Claude Code等CLI工具,根据用户文档自动生成带有动态转场动画的演示文稿,显著提升了PPT的视觉效果和专业性 [4][5][9] - 该技能的构建过程展示了AI编码能力已达到一个临界点,AI能够自我指挥和构建复杂系统,其开发成本约为20美元,主要使用了Anthropic的Sonnet 4.5模型 [40][41] 更新后PPT生成技能的核心能力 - 生成PPT时会询问用户是否生成视频转场,选择“是”则会同时导出图片版演示和视频版演示 [5] - 视频演示包含两部分:一个设计好的网页播放器,以及一个完整的演示视频文件 [6][9] - 网页播放器设计特点:仅在切换页面时播放转场视频,页面内容为静态图片以方便讲解;首页封面设计为无限循环的动态视频,适用于演讲前等待或暖场环节 [7] - 完整的演示视频方便用户直接分享和展示 [9] 技能的使用与安装方法 - 该技能用于Claude Code或OpenCode等支持Skills的CLI工具,项目已在GitHub开源 [12][15] - 使用前需准备两个API:Google AI Studio的API(需开启付费以调用Nano Banana Pro模型生成图片)和可灵AI的API(用于生成转场动画视频,建议使用69元体验包) [17][18][19] - 安装过程通过向Claude Code发送特定提示词完成,提示词中包含设置技能目录、克隆项目、安装依赖、配置API密钥等步骤,用户需将提示词中的三个API密钥替换为自己的 [21][22] - 安装完成后,在存放目标文档的文件夹中启动Claude Code,通过指令调用技能即可,技能会引导用户选择PPT页数、是否添加动效、图片分辨率等选项,之后全自动运行 [23][25] 技能的系统架构与创作思路 - 整体架构复杂,涉及多个模块协同工作,作者通过让Claude Code绘制架构图来厘清逻辑 [31][32] - 核心工作流程包括:分析用户输入文档并规划内容;调用PPT生成模块和风格加载器;生成图片提示词并调用Nano Banana Pro API生成图片;为每页转场生成首尾帧提示词;调用可灵API的Kling-2.6视频模型Pro模式生成转场视频;生成嵌入视频和图片的演示网页;使用本地的FFmpeg将图片和视频剪辑成完整演示视频;最终输出视频并打开演示网页 [34][35] - 关键技术点:设计了一个“元提示词”,由Claude Code根据该提示词和生成的图片来生成具体的视频转场提示词,这种方法被认为具有潜在价值 [36] - 复杂处理环节:FFmpeg的视频合成流程涉及图片时长控制、与视频分辨率对齐、最终拼接和压缩等 [38] 开发经验与行业观察 - 开发过程本身是重要的学习经历,通过构建复杂Agent可以深入理解其难点与逻辑,并对市面上的同类产品形成判断 [38] - Claude Code在开发中提供了多方面辅助,包括绘制流程图解释逻辑、指导API密钥存储方式、生成清晰的Readme文档以降低使用门槛,甚至指导如何在GitHub添加演示视频 [39] - 整个技能的开发基本由Claude Code(使用Sonnet 4.5模型)完成,总API费用约为20美元,获得了可通用的PPT生成代理,性价比突出 [40] - 结合Anthropic公司透露其Cowork功能与Claude Code基本由Claude Code自身编写,作者认为AI编码已达到“自我指挥”和“自我复制”的临界点,当前节点可能成为未来发展的重要里程碑 [41][42]
AI应用正当时-现在买什么
2026-01-13 09:10
纪要涉及的行业或公司 * 行业:人工智能(AI)应用、大模型、Agent、算力、计算机、传媒、游戏、电商、教育、人力资源、零售、医疗、制药 * 公司:阿里巴巴、智谱、MiniMax、科大讯飞、用友、第四范式、寒武纪、海光信息、华为、蓝色光标、易点天下、焦点科技、快手、欢瑞世纪、中文在线、米哈游、B站、巨人网络、完美世界、华通、三七互娱、凯音科技、盛天网络、心动公司、壹网壹创、青木科技、丽人丽妆、海纯股份、小商品城、华凯易佰、斗神教育、凯文教育、华图山鼎、粉笔、科锐国际、猎聘网、Boss直聘、润达医疗、安必平、迈克奥迪、金域医学、迪安诊断、华大基因、英矽智能、成都先导、药明系 核心观点和论据 **1 行业趋势与驱动力** * 2026年是AI应用落地加速的一年,国内模型加速迭代进入小规模爆发阶段,商业模式逐步跑通[3] * 技术发展向多模态感知、类人推理思考反思、底层架构优化和持续学习方向演进,将大幅提升B端和端侧Agent落地效率[1][3] * 2026年一季度是国内模型发布及商业化推广的重要时间节点,阿里巴巴、DS和豆包等公司可能借助春节周期发布模型[1][5] * 各大厂商将在流量入口争夺上采取大动作,并在电商、广告、医疗等垂直场景中加速变现[1][5] * 随着AI应用爆发,对算力需求显著增加,新型AI产品对底层资源的需求是过去Chatbot式问答的十几倍甚至几十倍[9] **2 计算机领域投资主线** * **大模型**:能力提升空间巨大,架构创新打开应用潜力,推荐阿里巴巴、智谱、MiniMax以及科大讯飞等公司[1][7] * **Agent**:关注受益于边际利好且具备数据壁垒的细分场景,如用友(税务)和第四范式[1][7] **3 传媒领域细分赛道** * **广告营销**:广告营销公司通过SaaS服务模式在海外市场取得成功,搜索引擎优化(SEO)向人工智能识别优化(GEO)转变,推动广告代理公司利润增长,推荐蓝色光标和易点天下[1][10] * **AI漫剧**:市场规模预计2026年达360-400亿元,相比2025年实现翻倍增长,关注快手、欢瑞世纪、中文在线等公司[2][11][12] * **游戏**:原生性AI游戏玩法出现边际变化,米哈游和B站推出相关产品,多家公司陆续推出新游和新版本更新,推荐巨人网络和完美世界,以及华通、三七互娱、凯音科技、盛天网络和心动公司[3][14][15] **4 电商产业链与AI结合** * 电商产业链持续改善,用户体验提升,AI技术应用逐步提升,关注阿里巴巴[3][29] * **代运营产业链**:推荐壹网壹创、青木科技、丽人丽妆和海纯股份[3][29];壹网壹创具备从SEO到GEO内容优化能力,与阿里深度绑定,2025年四季度实现数千万级收入规模,预计2026年达亿元收入目标[26];青木科技是最大的SaaS化服务提供者之一,正在进行GEO业务小范围测试[27] * **跨境电商板块**:推荐小商品城和华凯易佰[3][29];小商品城背靠义乌产业链,与阿里巴巴及腾讯合作优化B2B环节[20];华凯易佰自主开发了100云智能化企业管理平台,并与华为合作推出AI Agent产品[28] * **未来趋势**:AI应用将更加细分,出现更多垂直细分的AI Agent,如商品导购、退换货等,有效串联更多SaaS工具[22] **5 其他垂直行业应用** * **教育**:AI技术体现在因材施教,通过定向帮助学生提升学习水平,并为老师提供辅助工具,关注斗神教育、凯文教育、华图山鼎和粉笔等[17][18] * **人力资源**:AI应用于面试及招聘流程优化,推荐科锐国际、猎聘网及Boss直聘;科锐国际预计2026年利润约为3.8亿元[19] * **医疗**:AI加病理和AI加检测,AI病理模型相对成熟,可提升切片阅读速度30%-50%,帮助下沉医院医生提高读片成功率,关注润达医疗、安必平、迈克奥迪、金域医学、迪安诊断和华大基因等[30][31][32] * **制药**:AI加制药最大提升体现在分子开发效率,使进入临床阶段的分子数量井喷,带动中游CRO业务量爆发式增长,推荐关注药明系和安评招引等公司[33] 其他重要内容 * **算力产业链**:国产算力技术资源产业链适合左侧布局,重点关注寒武纪和海光信息,以及战略调整后迎来显著优化的华为及其配套产业链[1][9] * **阿里巴巴千问APP**:定位为会聊天、能办事的个人AI助手,深度整合电商、地图和本地生活等场景,预计将大幅提升电商业务从GMV到运营效率各方面的表现[23] * **即时零售**:被认为是整个电商产业链中最具推荐性的领域之一,高毛利品类占比提升、自营能力增强以及骑手运力完善使得UE改善前景明确[24]
商户留存率超90% 富匙科技凭AI产品叩开海外市场大门
智通财经· 2026-01-13 07:05
AI行业趋势与拐点 - AI热潮持续高涨,2026年被机构视为AI应用从“技术验证”迈向“商业推广”的关键之年 [1] - 行业迎来三大拐点:技术逐步成熟(大模型具备强工具调用、多模态理解、自主规划能力)、政策持续护航(国家提出深入实施“人工智能+”行动)、市场需求共振(从B端降本增效到C端普及) [1] - 中国企业正将AI能力输出海外,与国际竞争对手形成差异化优势 [1] - 2026年是AI Agent“创造经济价值”的关键一年,其未来走势取决于价值刚性、成本控制和开发速度三大因素 [2] 公司业务与市场定位 - 富匙科技是港股上市公司移卡(09923)旗下生态企业,定位为全球商户AI服务提供商 [1] - 公司客户已覆盖新加坡、马来西亚、越南、印尼、日本、澳大利亚等地区 [1] - 为全球商户提供支付管理、门店运营、会员管理等服务 [1] - 公司从2023年开始加大AI研发投入,通过AI创新赋能业务决策、提高效率 [1] - 2025年AI产品开始落地,于3月在东南亚推出针对餐饮行业的AI Agent,随后推出另一款AI Agent产品AI Shop [1] - 市场策略将持续深入挖掘AI技术内外应用场景,巩固研发成果,以快速扩大海外业务规模 [3] 核心产品与功能 - 当前主要产品包括AI CRM和AI Shop [2] - AI CRM汇聚海量商户与会员信息,数据蕴含巨大商业价值,将推出自然语言交互生成获客页面等功能,商家通过描述需求,系统可自动生成并上线用于投放与承接的获客页面 [2] - AI Shop可根据用户语言对话描述需求,动态生成商品分类,打造个性化购物体验,并通过顾客数据预判需求,智能推荐购物组合以提升销售转化率 [2] - AI产品不仅是工具升级,更是助力商户敏捷响应市场,缩短从洞察到增长的距离 [2] 运营成果与财务背景 - 截至目前,富匙科技覆盖品牌数超过220个,商户数量超过3.4万家,为超过4000万顾客提供服务 [3] - 在AI加持下,商户留存率超过90%,远超传统营销方式的客户留存率 [3] - 公司已完成多轮融资,资方包含顺丰同城、同创伟业等多家国内知名投资机构 [3] - 公司已邀请曾梓健先生加盟,领导财务管理、融资和资本市场工作,其此前曾在高盛集团和小红书公司工作 [3]
大模型“双雄”港股狂飙 AI应用“百花齐放”
上海证券报· 2026-01-13 02:35
文章核心观点 - AI产业正从硬件转向软件 迎来从技术验证到商业价值兑现的转折点 2026年AI应用有望从“可用”到“好用”成为继算力之后的新主线 [1] 市场表现与催化剂 - 2025年1月12日 智谱股价盘中最高涨超60% 市值一度超1100亿港元 收盘涨31%至208.40港元/股 其与滴滴达成战略合作 共同推进AGI在出行领域的智能体应用 [2] - 2025年1月12日 MiniMax股价盘中一度涨近40% 收盘涨15%至398港元/股 公司于1月9日登陆港交所 上市首日收盘价较发行价上涨109% 市值突破千亿港元 [2] - 智谱与MiniMax的上市表现催化了AI应用概念行情 易点天下、视觉中国等A股20多只相关个股涨停 [1][2] 公司业务与战略 - MiniMax兼具技术实力与产品商业化能力 是资本市场稀缺标的 B端业务追求循环收入且增速较快 海外营收已远超国内 C端业务聚焦内容工具、内容平台、Agent等方向 不参与对话产品竞争 [3] - 智谱与滴滴的战略合作将围绕AGI关键技术及出行领域的智能体应用展开 旨在共同推进Agent场景落地和大模型人才培养 深化出行场景的意图对齐与推理能力建设 [2] - 智谱创始人唐杰表示 公司已将战略重心聚焦于Coding(编程)领域 2025年12月上线的GLM-4.7模型针对编码能力、长程任务规划与工具协同进行了强化 [7] 行业趋势与方向 - 行业正从搜索引擎优化(SEO)转向生成式引擎优化(GEO) GEO旨在让目标内容被大模型直接消化吸收并优先体现 成为数字营销新方向 [4] - 随着模型能力提升及推理与长窗口成本下降 AI下游应用场景加速进入商业验证阶段 搜索营销、Coding、多模态、Agent、AI for Science等领域的商业化进程有望加速 [4] - 编程(Coding)与智能体(Agent)被视为2026年行业发展的两大重点方向 [6][7] - 业内专家认为 Agent未来需要能够与物理世界交互以释放真正的工作能力 在To B场景中 模型智能水平越高 解决的任务越多 带来的收益越大 [7] - Agent产品的商业爆发取决于价值、成本与速度三要素的平衡 即需解决有价值的人类事务、成本可控以及应用开发速度快 [8] 投资逻辑与商业化场景 - 华鑫证券分析认为 智谱与MiniMax上市后 传媒应用端看好数字营销GEO承接AI红利 2026年一季度 AI应用与内需双轮驱动仍可期 [4] - 大模型上市后面临商业化问题 从数字营销到电商再到内容及体验经济 均是AI商业化的较好场景 [4] - 市场遵循寻找能承接大模型能力的下游应用逻辑 例如易点天下利用大模型驱动广告投放与AIGC内容生成 为企业出海营销降本增效 [5]
传统企业AI转型的“黄埔军校”:混沌AI院一模块实战纪实
混沌学园· 2026-01-12 20:06
文章核心观点 - 混沌AI院通过其“实战营”模式,为企业提供了一种高效、可执行的AI转型解决方案,旨在将AI从技术概念转化为可立即落地的业务方案,其核心优势在于“实干”和“交付引擎”,而非传统咨询仅交付“图纸”[2][5][48] - 企业AI化转型面临三重主要障碍:技术门槛高、人才严重短缺(超过70%的企业认为这是最大障碍)、以及传统咨询方案落地难[4] - 混沌AI院实战营在两天密集训练中,帮助300多位企业家完成了从理念认知到可执行方案的产出,其方法论强调企业管理者应成为“AI管理者”,核心能力在于定义问题、分配任务和评估结果[7][8][15] AI时代企业转型的困境与机遇 - **普遍困境**:企业面临“有工具不会用,有方案难落地”的挑战,传统咨询交付的“图纸”式方案常因与业务流程脱节而难以执行[2][4] - **市场机遇**:2025年被业界称为“Agent元年”,AI技术正从“工具”走向“Agent”,但市场存在将AI从“技术概念”变为“可执行业务方案”的空白[4][5] 混沌AI院实战营的核心方法论 - **核心理念:AI管理者**:管理者需要从“AI使用者”转变为“AI管理者”,其不可替代的价值在于“定义问题”,并掌握人机协同、数据驱动和快速迭代三大核心技能[8][12][17] - **核心能力路径**:AI管理者的成长路径是从完成工作、提效,到管理绩效和团队,最终建立跨组织协作网络,目标是90天内带领公司实现Agent智能体自动化运行[13] - **教学体系:四步循环**:实战营教学过程包括1)问题定义与场景选择、2)方法学习与工具演练、3)方案构思与原型构建、4)教练问诊与迭代优化,形成一个紧凑的转化循环[49][50][52] 三大核心商业场景的AI应用全景图 - **AI+营销增长**:系统包含品牌资产审计、VOC精准洞察、品牌视觉锤打造及爆款内容批量生产四大模块,预期实现品牌认知度提升30%以上,内容生产效率提升5-10倍[14][18] - **AI+运营提效**:聚焦三大应用场景:CEO分身处理战略与事务、AI驱动的阿米巴财务实现实时预测、出海视频二次创作系统实现内容本地化,目标将整体运营效率提升200%以上,将5-10分钟的人工订单处理缩短至秒级[14][20] - **AI+产品创新**:将产品创新工程化,覆盖从VOC采集、需求分层洞察到产品机会地图绘制的完整流程,可将传统2-3周的单品创新周期缩短至半天[14][22] - **全景图价值**:其价值在于“去神秘化”和“工程化”,将复杂AI应用拆解为标准模块,让企业能系统性地将AI融入核心业务[24] 实战训练与成果案例 - **训练模式**:300多位企业家按场景进入工作坊,在20位专业AI教练的个性化指导下进行高强度实操,教练扮演问题诊断师、方法顾问和优化伙伴三重角色[25][26][28][30][32][51] - **团队学习优势**:鼓励企业以团队形式参加(如乡乡嘴派出12人团队),实现多部门视角融合与认知同频,从源头避免“AI孤岛效应”[51] - **实证案例成果**: - **乡乡嘴(零食)**:采用AI驱动的VOC分析及内容创作,将8小时的数据处理缩短至30分钟,效率提升16倍,系统化分析3万条用户评价[36] - **有零有食(冻干零食)**:曾投入150万元咨询费方案未落地,在实战营运用方法论两天内产出完整品牌红皮书与视觉锤体系[38] - **枝星科技(建筑租赁)**:打造AI智能订单中枢,目标将5-10分钟的订单处理从分钟级响应提升至秒级响应[42] - **互惠杰荣(量化交易)**:开发AI量化交易平台,展示年化20%收益策略,实现用户每日看盘时间不超过10分钟[44] - **案例普适性**:案例横跨消费品、制造、金融科技、建筑等行业,证明方法论具有普适性与实战性,帮助企业在两天内找到可落地方案[46] 新商学模式的关键支撑 - **两大关键群体协同**:新模式由“企业团队”带来的真实业务场景,与“AI教练群体”提供的专业加速指导协同,创造“实战学习生态”[51] - **学员反馈与认知刷新**:学员反馈最大的收获是“认知被刷新”,认识到AI是解放人力去做更高价值工作的工具,并通过教练指导将模糊需求拆解为具体AI可执行任务[53] - **提供的核心价值**:实战营提供系统化、可落地的企业AI转型战略行动指南,包括20位专业AI教练的个性化辅导与90天跟踪支持、与300多位企业家的协作网络、以及独创的“L1-L5五级落地体系”演进路径图[54][55][56]
张钹、杨强与唐杰、杨植麟、林俊旸、姚顺雨(最新3万字发言实录)
新浪财经· 2026-01-12 12:37
文章核心观点 - 多位中国顶尖AI公司创始人、技术负责人及院士在AGI-Next前沿峰会上,就AGI发展路径、模型扩展极限、智能体落地及中国AI的长期机会等议题展开深度交流,核心共识在于大模型发展正从“对话”范式转向“做事”范式,智能体是明确的前进方向,同时需在模型架构、训练范式及多模态等基础能力上寻求突破 [3][4][19][20] 行业技术发展路径与范式转变 - **从Chat到Agent的范式转变**:以DeepSeek的出现为标志,纯粹的“对话”范式竞争基本结束,行业焦点转向让AI完成具体任务的智能体范式 [4][19][20] - **Scaling Law的持续与反思**:模型扩展仍是提升智能的有效路径,但可能是一种“偷懒”方式,未来探索方向是让模型具备自主扩展能力,并需结合技术、数据与审美共同演进 [4][42][50] - **能力演进轨迹**:大模型能力从2020年前后的简单问答,发展到2021-2022年的数学计算与基础推理,再到2023-2024年可处理研究生层级问题与真实世界编程任务,智能水平持续快速提升 [9][11] - **强化学习与可验证环境**:RLVR通过引入可验证环境使模型能自主探索并获得反馈,是重要进展,但当前挑战在于可验证场景逐渐耗尽,需向半自动或不可验证任务空间拓展 [17] 模型能力进展与挑战 - **代码能力飞跃**:模型从2021年写十个程序才能跑通一个,发展到如今在复杂任务中可一次性跑通,能实质性地辅助高级工程师 [18] - **核心评测表现**:在HLE等极高难度智能评测基准上取得进展,例如有模型在HLE上达到45%的准确率,超过OpenAI [17][63] - **能力整合与回灌挑战**:在SWE-bench等真实世界评测中取得好成绩,但如何将专项能力可靠地整合回主模型,避免用户真实体验与Benchmark成绩脱节,仍是巨大挑战 [24] - **通用能力与专用能力的平衡**:在较小规模模型上引入大量Agent数据能显著增强Agent能力,但会导致部分通用语言和推理能力下降,未来需解决在强化Agent能力的同时避免损害通用能力的问题 [27] 智能体发展的关键问题与探索 - **智能体任务复杂度**:基础能力是编程,但任务可延伸至几十步、上百步的完全异步超长链路任务,这带来了全新的技术挑战 [25] - **环境交互的混合方案**:在现实环境中,需采用API调用与模拟GUI操作相结合的混合方案,以采集数据并训练模型适应能力 [26] - **训练风险与校正**:在数据不足的冷启动场景下,强化学习易陷入局部最优,需在训练中周期性插入SFT进行方向校正和多样性恢复 [27] - **开源生态影响力**:中国在开源大模型领域影响力显著,在Artificial Analysis榜单前五名中,蓝色模型几乎全部来自中国 [28] 未来AGI的突破方向与思考 - **三大关键突破方向**:1) 建立类似人类感统机制的原生多模态能力;2) 构建从个体到文明级的记忆与持续学习框架;3) 发展更深层次的反思与自我认知能力 [33][34][35] - **参考人类认知的三类Scaling**:1) Scaling数据与模型规模以提升智能上限;2) Scaling推理,用更多计算与搜索找更优解;3) Scaling自学习环境,让模型从与外界交互中获得反馈 [40][41] - **模型架构创新需求**:Transformer的O(N²)计算复杂度制约长上下文效率,需探索线性复杂度等新型模型架构,以实现更高效的知识压缩与承载 [42][64] - **自主学习的多层定义**:从实现F-X到X映射的自监督多任务学习,到引入数据学会推理,再到具备自反思与自学习能力,最终可能发展出自我认知乃至意识 [44][45][46][47] 主要公司的技术实践与战略 - **智谱AI**:发展路径聚焦强化模型的Thinking能力并结合Coding与Agent场景,通过整合Coding、Agentic和Reasoning能力,并利用RLVR在可验证环境中优化,使模型在真实编程任务中稳定性提升 [21][22][23] - **月之暗面**:技术核心围绕提升Token效率与长上下文能力,采用Muon二阶优化器使Token效率提升2倍,并研发kimi Linear线性注意力架构,在长程任务效果上超越全注意力机制且速度更快 [54][55][64][66] - **阿里千问**:致力于打造通用智能体,在2025年重点提升模型的Reasoning能力、长上下文支持及多模态能力,其VL模型在保持语言智力不下降的同时,图像生成质量接近真人,并积极布局语音交互与编辑功能 [73][80][83][89][95][96] - **腾讯**:观察到toC与toB市场明显分化,以及垂直整合与模型应用分层两种模式的分化,认为在toB场景,最强的模型与稍弱的模型价值分化会越来越明显 [110][111] 市场分化与行业生态观察 - **toC与toB市场分化**:toC应用类似搜索引擎加强版,用户对智能提升感知不强;toB场景中,智能直接等同于生产力,用户愿意为最强模型支付高溢价,市场分化明显 [110] - **垂直整合与分层模式分化**:在toC场景,模型与产品强耦合的垂直整合模式成立;但在toB生产力场景,强大的基座模型与多样化的应用层产品开始分层,专业化趋势显现 [111][112] - **中美市场差异**:美国市场Coding消耗量巨大,而中国市场相对较小,显示两地市场机会与认知存在差异 [114] - **学术界与工业界的角色**:工业界在前沿狂奔,学术界需在模型进入稳态后跟上,研究如智能上限、资源分配、幻觉与资源的平衡等理论问题,孕育新的计算模式 [115][116][117]