Agent
搜索文档
全球主流大模型进展跟踪
财通证券· 2026-02-25 20:59
报告行业投资评级 - 投资评级:看好(维持) [2] 报告核心观点 - **海外大模型三重进化**:海外头部企业进入推理能力升级、场景落地与生态体系重构的竞速新阶段,推动大模型从单纯能力输出向实际任务执行、规模化生产力交付升级 [7] - **国产大模型多维突围**:国产大模型企业以开源为基底,围绕效率优化与Agent生态协同实现多维突破,全面发力Agent实际任务执行场景 [7] - **行业趋势印证**:大模型行业已完成从“生成”到“行动”的核心转向,竞争焦点从模型参数、跑分转向低单位推理成本、高吞吐、稳定工具调用的综合供给效率,入口控制与可执行生态的系统性构建成为关键 [7] 根据目录总结 1. 海外大模型三重进化 - **Anthropic**:策略转向以企业工作流稳定交付为核心,近期完成旗舰模型Opus 4.6和主力型号Sonnet 4.6的双版本迭代,均首次开放1M token上下文窗口,并强化编码、长程Agent等能力 [11][14] 其核心产品Claude Code上线后短期实现约10亿美元年化收入,Claude Cowork将能力延伸至全品类办公任务,并通过Claude in Excel和Claude in PowerPoint深度集成Office生态,直击企业高频文档型工作痛点 [15][20][22] - **OpenAI**:发展主线聚焦模型长程任务闭环、工具执行与可控协作的产品化落地,通过GPT-5.2、GPT-5.3-Codex等版本迭代强化专业工作与工程交付能力,其中GPT-5.3-Codex执行速度较上一代提升约25% [25][26] 产品形态上,Codex app从IDE插件升级为多Agent桌面指挥中心,掌握生产力场景用户触达主动权 [28] ChatGPT平台侧通过清退旧模型、强化个性可控配置来收敛资源,支撑新模型工作流能力落地 [31] - **Google**:延续“模型迭代+场景延伸”双线策略,Gemini 3.1 Pro点版本迭代旨在抬高推理竞争基线,其在ARC-AGI-2基准测试中取得77.1%的verified成绩,较Gemini 3 Pro推理表现提升超一倍 [32][34] Lyria 3音乐生成功能将AI能力延伸至音频创作领域,开辟个人表达新入口 [40] - **OpenClaw**:作为个人智能体产品化样本,定位为自托管Gateway,整合多渠道至统一控制面,创始人于2026年2月加入OpenAI后,项目转入基金会模式延续开源 [43][47] 2. 国产大模型多维突围 - **智谱 (Z.ai)**:发布旗舰模型GLM-5,参数规模从355B扩容至744B,聚焦复杂系统工程与长程Agent任务,并深度兼容国产芯片生态 [48][49] 商业化信号明确,GLM编码订阅计划提价至少30%,印证编码辅助已成为国内大模型确定付费场景之一 [52] - **MiniMax**:发布M2.5模型,聚焦生产力场景Agent落地,在SWE-Bench Verified等基准测试中取得SOTA或接近SOTA成绩 [54] 核心竞争力在于成本与吞吐双优,推理速度可达100 TPS,经济性版本下连续运行一小时成本可低至约0.3美元,突破了Agent规模化运行的成本约束 [57][58] 产品化方面,将Office能力组件化为可复用的Office Skills和“专家Expert”模块,内部已有约30%的真实业务任务由模型自主完成 [61] - **Kimi (Moonshot)**:发布K2.5模型,采用多模态MoE架构,总参数达1T,上下文窗口扩展至256K,集成MoonViT视觉编码器优化跨模态推理 [65][66] 产品化路径以“视觉到代码”和Agent Swarm并行执行为差异化,后者可动态调度最多100个子Agent协作,端到端任务速度较串行模式最高提升约4.5倍 [68][70] - **阿里**:开源发布Qwen3.5-Plus模型,采用稀疏MoE架构,总参数3970亿,部署显存占用降低60%,在256K超长上下文下推理吞吐最高提升19倍 [74] 该模型通过原生多模态预训练实现能力跃迁,并在春节期间,千问App消费级AI购物Agent在6天内完成1.2亿笔订单,验证了真实场景的规模化任务执行能力 [76][77] 开源生态强大,自2023年以来已开源400+千问模型,全球下载量破10亿 [80] - **字节跳动**:春节档“三连发”,推出视频生成模型Seedance 2.0、图像模型Seedream 5.0 Lite及豆包大模型2.0,补全“多模态生成+通用任务执行”能力矩阵 [81][82][83] 落地策略上,通过豆包App、电脑端等多端入口的“专家模式”承载Agent能力,并借助春节营销实现规模化分发 [85] 3. 行业趋势印证 - **核心转向**:行业增长核心动力来自任务复杂度与调用链路的提升,OpenRouter平台数据显示,其2月上旬周度token处理量已升至13T级别,较1月初显著增长 [89] - **衡量指标迁移**:Token消耗与任务ROI成为核心衡量维度,使用强度与成本约束比停留时长更能体现价值密度 [92] - **竞争焦点变化**:供给侧竞争核心转向“低单位推理成本、高吞吐、稳定工具调用”的综合供给能力,开源模型在真实流量中占比持续提升 [92] 入口从传统对话框转向工作台、Office集成、终端/IDE等,模型优势需沉淀为组织可复用的生产力单元 [92][93] 4. 投资建议 - 报告建议关注AI应用、云和网络服务、IDC和算力租赁、国产算力链、海外算力等领域的相关公司 [97]
过了个年,AI 圈变天了?但没人告诉你为什么
歸藏的AI工具箱· 2026-02-25 12:28
AI Agent技术栈的演进与核心变化 - 2026年初AI领域的关键变化在于AI从一个问答工具转变为能自主执行任务的劳动力,其工作模式从“用户提问-AI回答-用户执行”转变为“用户描述意图-Agent自主拆解任务、调度子Agent、连接工具、并行探索、判断质量并交付成品”[17] 第一层:大脑(模型能力)的质变 - 2026年2月5日,Anthropic和OpenAI同日发布Claude Opus 4.6和GPT-5.3 Codex新模型,编程能力显著提升,GPT-5.3 Codex在多个权威编程测试刷新纪录且资源消耗更少[19][20] - 新模型开始具备“判断力”和“品味”,能自主判断并组合使用工具,而非机械地按指令调用[21][22][23] - 模型持续工作能力大幅增强,METR机构测试显示AI独立完成专家级任务的时长从一年前的约10分钟,增长至2025年11月的近5小时,且该数字约每4到7个月翻一倍[25][26][27] - 上下文窗口显著扩大,Claude Opus 4.6和DeepSeek等模型已支持100万token的上下文窗口,足以容纳整个大型项目的代码和文档[29][30] - AI开始参与自身创建过程,GPT-5.3 Codex是首个参与自身创建过程的模型,OpenAI用其早期版本调试训练、管理部署和诊断测试,Anthropic CEO表示AI在写公司“大部分的代码”,且反馈循环在“逐月加速”[31][32][33] 第二层:手脚(执行与连接能力)的扩展 - Agent从云端对话框转向本地运行,以Claude Code为代表的新一代编程Agent运行在用户本地电脑终端,可直接读取本地所有文件和数据,使用户数据与模型解绑,上下文归属用户而非厂商[38][39][40][41][42][43][44] - MCP(Model Context Protocol)协议成为连接外部服务的关键基础设施,该开源协议由Anthropic推出,并得到Anthropic、OpenAI、Google三家在2025年底联合推动,实现了外部服务(如GitHub、Slack、数据库)的即插即用连接[47] - Skills(技能包)机制改变了Agent能力获取方式,社区可将专业知识打包成可共享的Skill(如前端开发、数据分析),Agent按需加载,其能力上限由社区而非开发公司决定[49][50][53][54][55][56] - Agent开始具备个性化记忆,Claude Code通过项目级CLAUDE.md文件记忆项目规范,而OpenClaw工具则通过SOUL.md、USER.md、MEMORY.md等本地纯文本文件管理Agent人格和用户长期记忆,实现了“主权AI”[59][60][61][62][63][64][65] - Agent能够调用本地命令行工具,如ffmpeg、ImageMagick、git等,抹平了使用这些强大专业工具的技术门槛,用户只需描述需求[67][68][69][70][71][72] - Agent获得操作图形界面的能力,OpenClaw可以让Agent像人一样操作手机和电脑上的图形界面应用,并具备心跳机制(HEARTBEAT.md)以实现定时任务和主动提醒[75][77][78][79][80][81] - 电动汽车被视为Agent进入物理世界的首个大规模载体,其具备的电池、传感器和自动驾驶基础,结合Agent后可执行取餐、取快递等任务[84][85][86][87][88][89] - 多模态能力成熟,如Google的Nano Banana Pro能理解复杂描述并生成图表,字节的Seedance 2.0能根据分镜脚本和参考图“拍”出视频,这些能力可通过API或Skills接入Agent体系[91][92] 第三层:组织(多智能体协作)的形成 - Multi-Agent(多智能体)体系突破单Agent对话瓶颈,实现“一群人协作”[96][97][98] - SubAgent(子智能体)机制允许主Agent创建临时子Agent处理专门子任务,子任务完成后提交摘要即消失,有助于保持主Agent上下文清洁并节省成本(探索任务可分配至更便宜的小模型)[100][101][102][103][104][105][106] - Agent Teams功能实现多Agent持续协作,一个主Agent作为Team Lead可创建并管理多个具备专长和独立上下文的Teammate,并行工作并相互协调[109] - Anthropic安全团队的压力测试显示,16个Claude Opus 4.6实例组成的Agent Team,在无人类干预下,花费约2万美元、近2000个会话周期,从零开始用Rust编写了一个能编译Linux内核的C语言编译器,产出10万行代码,它们通过Git文件锁机制协调工作以防冲突[110][111] - 行业正建立协作标准,Google联合50多家企业推出A2A(Agent-to-Agent)协议,旨在让不同厂商的Agent能够相互通信协作[114] - Git Worktree技术被用于并行探索,允许从同一代码起点创建多个独立工作空间,由不同Agent Team同时尝试不同解决方案,大幅缩短决策时间[116][117] - Agent具备主动工作机制,可设置为“值班模式”自动检查问题、尝试修复并生成报告,实现全年无休工作[120][122] 第四层:进化(经验传承与自我强化) - GEP(基因组进化协议)等开放协议旨在解决Agent经验无法保存和传递的问题,成功的任务解决方案可被打包成“基因胶囊”,供其他Agent直接继承,避免重复探索[127][128] - 案例显示,来自游戏策划领域的“命名隔离策略”基因胶囊,被后端工程师的Agent继承后,成功解决了一次变量命名冲突的编译问题,体现了跨领域经验复用的潜力[129] - 经验传承大幅降低整体成本,一个Agent解决问题的经验可供其他Agent以极低成本(几美分)继承,使得整个Agent网络越用越强[132][133] 技术叠加产生的乘数效应与生产力变革 - 四层技术(更强的大脑、更灵活的手脚、可协作的组织、可进化的经验)叠加产生乘数效应,使个人生产力发生质变,案例显示个人借助该体系一周完成的产品,在过去需要大厂一个小组工作一个月[6][134][136][137] - 个人加Agent体系可覆盖程序员、设计师、运维、数据分析、视频制作等多个职能[95] - 使用Agent与仅使用AI聊天是两回事,前者是让AI替用户干活[167] 行业生态与竞争格局变化 - 公司规模可能变小,一个人加Agent团队可完成过去需六七个角色协作的任务,成本更低、速度更快,OpenClaw项目(一个人的周末项目,3个月获20万GitHub Star后被OpenAI收购)即是例证[150][151][152][153][154] - 管理大量协作Agent的工具(如GitHub前CEO创办的Entire公司所做)本身成为一个重要的产品方向[143][144] - 行业竞争基础变化,知识经济时代的人口素质优势可能被Agent时代的能源与算力效率优势所取代[164] 对工作角色与能力要求的冲击 - 大厂年薪几十万至百万的白领角色(如写报告、做PPT、整理数据、协调沟通)因其工作本质是信息格式转换,而面临被Agent替代的风险[11][12][13][14] - 教育体系面临挑战,当前教育侧重培养的“执行能力”可能迅速过时,未来更需要培养“判断能力”(如定义问题、评估方案),而AI能力约每4到7个月翻一倍,加剧了这一错配[155][156] - 中间层知识工作者(大厂白领、中层管理)处境最危险,因其工作易被替代且转型困难,而AI在所有认知领域同步进步,使得转行学习新技能的缓冲空间变小[157][158] - 内容行业将重新洗牌,Agent降低内容生产成本后,“能做”不再值钱,值钱的是“品味、判断力、独特视角”等定义内容价值的能力[159][160][161][162][163] 尚未解决的关键问题 - Agent管理复杂,同时运行多个Agent导致验收工作量大、需跨领域判断,且Token消耗易失控[138][139][140][141] - 安全与信任机制未完善,Agent操作权限(读文件、发消息、部署代码)与人类确认边界尚未厘清[145][146] - Agent的经济身份与责任归属缺失,涉及消费Token、调用付费API、赚取收益等行为时,缺乏结算、认证与责任划分的基础设施[147]
中金 _ AI主线开年布局展望:MiniMax首次覆盖
中金· 2026-02-25 12:08
报告投资评级与核心观点 * 首次覆盖MiniMax-WP(00100),公司是当前国内少数在基础模型能力与全球化AI原生应用商业化两端同时跑通的公司,在AI赛道中具备稀缺性 [2] 公司概况与稀缺性 * **业务布局**:公司以全模态融合技术模型为核心,向上构建AI原生应用与平台,形成了从模型到应用的全栈布局 [10][11] * **战略定位**:公司是国内最早押注原生全模态融合路线的基模厂商之一,从成立初期即同步推进文本、语音、视频模型研发 [2] * **全球化验证**:2025年前三季度,公司海外收入占比超过73%,覆盖超过200个国家及地区,是国内少有的已验证海外市场规模化变现能力的基模厂商 [2] * **商业模式**:公司坚定执行“技术即产品”路线,采用“前店后厂”模式加速模型与产品的拟合迭代 [2][16] * **组织效率**:公司为AI原生组织,秉持高效组织理念,截至2025年第三季度末,公司仅385名全职员工,其中研发人员占比73.8%,CEO以下设立不超过三层职级 [2][15][16] 行业趋势与竞争格局 * **市场规模**:全球生成式AI收入总市场规模预计将从2023年的929亿美元增长至2032年的16,198亿美元,年复合增长率约37% [25] * **竞争态势**:大模型行业从“百模大战”逐渐收敛至头部厂商,全球头部厂商表现出“竞相迭代、轮番领跑”的竞争态势 [26] * **取胜关键**:大模型研发遵循A=V*D的动力学模型,其中A代表模型能力进化加速度,V代表训练速度(含计算资源、组织能力等),D代表战略投入方向 [38] * **先发优势维持**:实现好的“工作负载-模型匹配”(WMF)有助于把握先发优势、提升用户留存率,形成“水晶鞋效应” [47] 公司多模态战略与技术优势 * **文本模型能力领先**:公司文本模型能力被市场低估,其M2模型发布后不久在Artificial Analysis智能指数榜单位列第五名 [30][31][50] * **文本模型迭代与性能**:M1模型在长上下文场景下具备极致性价比,原生支持100万Token上下文长度;M2模型采用交错思维链技术,具备反思能力;M2.5模型在编程、工具调用等场景达到或刷新行业SOTA水平,且价格仅为Opus、GPT-5等模型的5%-10% [50][54][67] * **视频模型全球领先**:公司Hailuo-02视频模型发布后在Artificial Analysis榜单排名全球第二 [30][31][81] * **音频模型全球领跑**:公司Speech 2.6模型在Artificial Analysis全球文生音频榜单中位列首位 [91][92] * **统一多模态竞争优势**:公司认为统一多模态是未来技术趋势,其在文本、图像、视频和音频等模态均拥有行业领先的自研模型,具备“全模态自研闭环”的技术积累,在统一多模态演进方向上有显著优势 [68][75] 产品矩阵与市场空间 * **AI Agent产品**:公司于2026年1月发布MiniMax Agent 2.0桌面端,定位从“对话助手”升级为“AI原生工作台”,采用模块化专家体系,支持与本地环境深度耦合 [99][105][107] * **Agent市场空间**:根据ARK研究测算,在乐观假设下,全球软件支出有望从2025年的1.43万亿美元增长至2030年的13万亿美元,年复合增长率56%,AI生产力具备十万亿美元级市场想象空间 [113] * **音视频产品**:公司音视频产品包括海螺AI(视频生成)与MiniMax语音(语音合成),其中海螺AI在全球头部视频生成产品中具备“物理一致性强”与“可控性高”的突出优势 [118][127] * **音视频市场竞争**:在语音生成领域,与ElevenLabs相比,MiniMax语音在长文本处理能力(单次最高20万字符)、延迟稳定性(端到端延迟低于250毫秒)和定价上具有优势 [130][136] * **音视频市场空间**:音视频生成市场面向专业创作者(P端)、企业客户(B端)和大众用户(C端),报告测算中性假设下,P端市场空间为32亿美元,B端为94亿美元,C端(社交平台)为917亿美元 [143][147][149] * **AI陪伴产品**:公司拥有Talkie/星野等全球头部AI陪伴与互动产品,据ARK Invest测算,AI陪伴软件市场规模在2030年可能达到700-1,500亿美元 [152][155]
未知机构:二月全球大模型密集迭代看好AI大模型和应用投资机会东吴传媒互联网张良卫团队-20260224
未知机构· 2026-02-24 11:55
涉及的行业与公司 * **行业**: 人工智能(AI)大模型、AI应用、多模态生成、AI Agent、算力与芯片 * **公司**: * **海外科技巨头**: OpenAI、Google、Anthropic * **国内科技巨头/上市公司**: 阿里巴巴、腾讯控股、快手-W、字节跳动、昆仑万维、哔哩哔哩、中文在线、欢瑞世纪 * **国内AI模型公司**: 智谱、MiniMax 核心观点与论据 一、 行业动态:全球大模型密集迭代,能力与生态持续突破 * **模型发布密集**:2月全球发布17款重磅大模型,中美科技巨头密集迭代[1] * **国产模型进展显著**: * 智谱发布GLM-5,其Coding Plan套餐上线即售罄,20天内提价30%[1] * MiniMax上线M2.5,开源一天内全球用户构建超过1万个专家[1] * 阿里推出Qwen 3.5-Plus,字节发布豆包系列模型[1] * **Agent能力成为核心迭代方向**: * Claude Opus 4.6首发百万Token上下文和Agent Teams多代理协同[2] * 智谱GLM-5在编程基准SWE-Bench Pro上得分57%,其BrowseComp得分62.0[2] * MiniMax M2.5在Multi-SWE-Bench多语言复杂环境中超越Claude Opus达到行业最优[2] * 智谱和MiniMax的模型新增了Office文档生成、深度调研等Agent模式与技能[2] * **多模态与视频生成进展迅速**: * 快手可灵3.0支持15秒长视频和原生音画同步生成[2] * 字节Seedance 2.0实现电影级分镜控制[2] * 字节Seedream5.0图像生成模型限时免费开放并接入剪映、即梦AI生态[2] 二、 核心观点:反驳市场担忧,强调国产AI的突围与商业化验证 * **针对算力瓶颈与商业化担忧**:认为国产芯片适配和开源生态正在破局[3] * **论据1**:智谱以算力合伙人模式共建推理网络,GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯等国产芯片深度适配[2][3] * **论据2**:MiniMax以10B小参数实现对标性能,大幅降低运行成本,是技术路线差异化带来的主动突围[3] * **针对国产模型能力落后的担忧**:认为在编程和复杂任务执行场景已比肩甚至超越海外龙头,Agent正从概念验证走向生产力工具[3] * **论据**:智谱和MiniMax在编程基准测试中表现优异,部分场景达到行业最优[2][3] * **针对视频生成商业化路径的担忧**:认为C端付费与B端需求已验证[3] * **论据1**: 快手可灵和字节即梦已验证C端付费意愿[3] * **论据2**: B端影视、广告、游戏素材生产需求旺盛,内容生产工具正经历从专业软件到自然语言交互的范式转移[3] * **论据3**: 智谱 GLM-5 coding plan提价证明了更强的大模型能力带来定价权和需求转移[1][3] 三、 投资观点:看好模型及应用侧机会 * 看好今年在模型及应用侧的投资机会[4] * **推荐方向与标的**: 1. **模型及应用环节**:推荐阿里巴巴、腾讯控股、快手-W、昆仑万维,建议关注智谱、MiniMax等[5] 2. **Agent及编程助手**:关注模型层、数据层、工具及服务层标的[5] 3. **多模态及AIGC**:推荐腾讯控股、哔哩哔哩、快手-W、中文在线等,建议关注欢瑞世纪等[5] 其他重要内容 * 报告团队为东吴传媒互联网张良卫团队[1]
复刻一只 OpenClaw,需要些什么?
Founder Park· 2026-02-24 09:00
AI智能体开发范式的演进 - 行业从1.0时代的Chatbot(单次LLM推理对话)[16],进化到2.0时代的Agent(依赖工具调用,需多轮LLM推理)[16],再发展到当前的3.0时代,即AI Native范式[13][16] - 在AI Native范式下,AI智能体能够自我管理工具和技能,甚至自行编写代码实现功能,整个过程无需人类干预,被视作一个黑箱[16] AI Native范式的核心思想与实践 - AI Native的核心思想是摒弃传统框架的强制约束,不将AI当作“滚筒上的小白鼠”[11],所有指令仅通过自然语言Prompt下达,AI是否遵循完全自主决定[5][18] - 实践上追求最小化框架,框架仅保留一个推理核心作为AI的“大脑”[11],将更多自由留给AI,让其通过基础工具(如bash、文件读写)自行组合和创建所需功能[11] - 该范式的实现高度依赖大模型能力的进步,在模型能力较弱时无法达成[13] 项目“Bub”的复刻与进化实践 - 项目初期通过为已有的Agent(如Codex、Claude Code)增加Telegram消息处理器,快速复现了OpenClaw的核心聊天与任务执行功能[8][9] - 为应对群聊等复杂场景,项目通过AI辅助修改了消息接收器以支持消息ID回复、用户身份识别(需在上下文中加入用户元数据),并改进了消息发送功能以支持图片、贴纸等[10] - 关键的范式转变在于,后续让AI通过Skill(文本描述)而非框架固定的Tool来自我演进,例如让AI自行创建Telegram消息发送技能,其效果超越了框架自带功能[14] - 项目进一步实现了“去框架化”部署:利用Docker的进程管理,让AI通过自己编写的startup脚本驱动自身运行,替代了框架原有的消息监听与Agent Loop触发机制[14][15] - 通过上述方式,创建一个最小化智能体仅需三步:1) 启动一个会写代码的Agent编写startup脚本;2) 准备以该脚本为启动项的Dockerfile;3) 构建并运行容器[17]。开发者全程只需使用自然语言,无需编写或查看代码[15] AI应用形态与开发者思维的转变 - AI应用的形态从ChatGPT诞生之初的Chatbot,发展到强力的编程助手Claude Code,再进化到如今的OpenClaw等通用型AI智能体[6] - 这种进化伴随着开发思维模式的根本性转变,开发者需要从传统的“古法编程”(如抽象消息总线、编写适配器)[8],过渡到完全依赖自然语言与Prompt驱动AI完成工作的新范式[7][15] - 这种转变被描述为像看着一个孩子成长,其成果中不包含开发者自己的一行代码,全部由人类通过自然语言指令“喂养”而成,带来与传统编程不同的成就感[18]
App Store模式过时了,未来属于即兴创作!Karpathy激进言论被「怼惨」
机器之心· 2026-02-21 10:57
文章核心观点 - 随着LLM和Agent技术的发展,软件的本质正从现成的商品转变为瞬时的服务,未来的应用模式将不再是下载离散的应用,而是由AI根据用户需求即时生成高度定制化的临时应用,这将对传统的应用商店模式构成根本性挑战 [2][3][4][11][12] 对Karpathy观点与案例的总结 - AI大神Karpathy以自身经历为例,为达成将静息心率从50降至45的八周有氧实验目标,没有使用现成应用,而是通过AI助手逆向工程跑步机API,仅用一小时就创建了一个超定制化的实验追踪仪表盘 [3][7][8] - Karpathy认为,这种仅需约三百行代码、由LLM Agent快速生成的高度定制化应用,不可能也不应该出现在传统的应用商店中 [9] - 当前行业进展缓慢,**99%的产品/服务仍没有AI原生命令行界面**,**99%的产品/服务仍在维护传统的网页说明文档**,而非提供易于Agent调用的接口 [10] - 两年前完成类似定制化开发需要十小时,如今仅需一小时,未来的目标是将其缩短至一分钟以内,用户只需简单描述需求,AI即可自动收集数据、参考技能库并组装维护临时应用 [10] 对软件与应用模式演变的看法 - 软件的本质正在从现成的商品降维成瞬时的服务 [4] - 由一堆离散应用构成的应用商店模式在LLM能即时生成应用的今天显得别扭且过时 [9][11] - 未来的模式是通过LLM的“胶水”能力,将AI原生的传感器和执行器服务编排成高度定制、用完即走的临时应用 [12] - 未来的软件将变得极其廉价和丰富,现在的离散式“应用”将变成仅为特定目的临时组装、执行后即删除的代码路径,如同从代码城堡变为沸腾的代码浓汤 [17] 对行业基础设施需求的看法 - 整个产业需要重新配置,提供一套具备“Agent Native”易用性的传感器和执行器服务,它们应提供便于Agent直接调用的API或命令行,而非维护给人看的前端界面或网页文档 [10] 引发的讨论与不同观点 - **支持观点**:认同LLM定制化应用方向,并建议应用商店可向2.0版本演进,作为安全层并提供可定制的基础应用 [13][15] - **反对观点**:认为绝大多数普通用户既无能力也无意愿自行创建和维护应用,现成应用凝聚了专业设计和集体反馈的智慧,在99%的情况下优于个人定制,且超级特定的定制化需求用户比例可能极低 [16] - **Karpathy的反驳**:普通用户无需懂App,其LLM智能体会处理一切;反对观点仍受限于对软件的“匮乏思维”,未来软件极度丰富后,临时组装代码路径将成为常态 [16][17] - **商业模式探讨**:有人提出疑问,如果未来应用是临时性和一次性的,软件公司将如何构建商业模式 [19]
OpenAI 发布智能合约基准测试,这意味着什么?
新浪财经· 2026-02-20 15:17
OpenAI发布智能合约基准测试EVMbench - OpenAI发布了一项名为evmbench的智能合约基准测试,用于衡量AI智能体在加密环境中的生存和行动能力[2] - 该基准测试基于现实世界中40个真实项目里发生的120个高危漏洞[3] - 测试分为三个科目:寻找漏洞、修补漏洞以及模拟黑客攻击[3] 基准测试的目的与行业意义 - 该测试是OpenAI内部“Preparedness Framework”的延伸,旨在评估前沿模型在高风险场景下的能力边界,智能合约安全是其中一部分[4] - OpenAI认为,智能体利用加密网络在某种程度上是一种必然,并明确提到“we expect agentic stablecoin payments to grow”[4] - 发布此基准测试表明OpenAI有主动意愿探索加密领域,而不仅仅是配合投资机构Paradigm[3] 智能体经济的未来形态与基础设施需求 - 当前大多数智能体仍是工具属性,但未来形态将演变为智能体之间直接协作,人类可能退出交易的中间环节[4][5] - 为人类设计的、基于法律和声誉的信任体系不适用于智能体,因为智能体可以快速发起交易、销毁身份且无视司法边界[6] - 将人类身份与智能体强行绑定以提供担保的做法是低效且从根本上误解了智能体的本质,未来的智能体可能具有高度自主性且不依附于任何人类个体[7] 智能合约作为智能体社会的基础设施 - 智能合约通过代码强制执行履约条件,不依赖对“人”的信任,为智能体社会提供了可能的基础设施[9] - 智能合约可能成为智能体的组织形态本身,治理规则、资源分配和任务调度都可在链上定义和执行[9] - 当智能体“生活”在链上,与合约交互成为其日常,理解、运用合约以及识别风险的能力是其生存的关键[9] - evmbench测试的能力(读懂合约、发现漏洞、构造交易等)本质上是在回答“智能体是否已学会在这个新世界生存”的问题[9] 行业内的相关研究背景 - 作者在一年半前曾发布名为CryptoBench的项目,这是第一个检测AI在加密领域能力的基准测试,涵盖了密码学、区块链底层、智能合约、DAO治理等多方面[10] - CryptoBench的智能合约部分同样包含漏洞检测和修复,其参考的漏洞集与OpenAI此次使用的部分相同[10]
累计涨幅超400%!MiniMax今年以来涨幅、股价双第一
中国证券报-中证网· 2026-02-16 15:57
公司股价表现 - 2月16日春节前最后一个交易日,MiniMax股价盘中一度冲高至886港元,创下自今年1月上市以来的历史高点[1][4] - 该股收盘报847港元/股,总市值突破2656亿港元,领涨港股人工智能板块[1][4] - 自1月9日登陆港交所以来,MiniMax的股价累计涨幅超过413%[1][4] - 该股创下2026年以来港股市场百亿市值公司股价涨幅第一名及股价第一名[1][4] 市场与技术驱动因素 - 市场分析认为,股价强劲表现一方面得益于旗舰模型M2.5在编程与Agent领域的重大技术突破,另一方面显示出资本市场与技术行业双线共振[1][4] - 一系列技术与产品升级推动市场提升对MiniMax长期成长的预期[3][7] - 公司于1月9日登陆香港交易所时开盘即大涨,创下成立仅约四年便完成IPO的纪录,并引发市场对国产大模型企业资本化热潮的关注[3][7] 核心技术产品M2.5 - 2月12日,MiniMax正式发布旗舰模型M2.5,定位为全球首个为Agent场景原生设计的生产级模型[1][4] - M2.5支持PC、App、跨端应用的全栈编程开发[1][4] - 在编程、工具调用和搜索、办公等场景都达到行业领先水平[1][5] - M2.5让无限运行复杂Agent在经济上可行,在每秒输出100个token的情况下,连续工作一小时只需花费1美元;在每秒输出50个token的情况下,只需要0.3美元[1][5] 产品应用与渗透率 - 在MiniMax内部真实业务场景中,整体任务的30%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升[3][7] - 在编程场景表现尤为突出,M2.5生成的代码已占新提交代码的80%[3][7] 新产品发布与市场反响 - 为更好地满足Agent场景需求,MiniMax于2月15日深夜最新上线了MiniMax-M2.5-highspeed,支持100TPS极速推理,达到同类产品3倍速度[3][7] - MiniMax-M2.5-highspeed的Coding Plan与API均已上线,迅速引发海内外开发者关注[3][7]
爆火的 OpenClaw,正在重新定价所有 AI 创业赛道
创业邦· 2026-02-15 09:18
OpenClaw项目的现象级增长与行业地位 - OpenClaw在GitHub上已获得19万颗星,成为该平台史上增长速度最快的开源AI项目[5] - 其增长速度远超行业重要基础软件,例如Kubernetes为12万星,Linux内核为19.5万星[5] - 项目引发了开发者“共建”热潮,迅速形成了包含安全版本、技能市场、工作流插件、二次开发的商业生态[8] OpenClaw引发的交互范式与商业模式变革 - 交互逻辑从“打开特定App找AI”变为“人在哪儿,AI就跟到哪儿”,将入口嵌入现有沟通工具[12] - 其运作模式类似操作系统层,可跨平台、跨软件调用工具协作,许多任务在后台执行[12] - 提供了超高的情绪价值与长期记忆,使AI从一次性工具转变为长期伙伴[12] - 商业模式明确,部署即需为token付费,用户从使用免费服务转向“养育”需持续付费的个人AI[13] 对AI价值链与公司估值体系的冲击 - 打破了“模型即Agent,模型即一切”的行业共识,使大模型变为可替换的零件[9][15] - 个人Agent、桌面Agent开始被视为独立赛道,相关公司被当作基础设施进行估值,而非普通toC工具[16] - 模型竞争格局生变,成本成为关键因素,中国开源或高性价比模型(如Kimi K2.5)的token单价约为欧美顶级闭源模型的1/8–1/9[16] - Kimi的调用量一度冲至大模型聚合服务平台OpenRouter榜首[16] 催生的新兴创业赛道与投资机会 - “安全/免疫系统”赛道溢价放大,因OpenClaw增长后暴露出安全隐患,例如VirusTotal分析发现3000+技能中数百个具恶意特征,单一账号72小时内上传300+恶意技能[20] - AI NAS、家庭算力盒子、小型边缘服务器从发烧友玩具变为数字生命需要的基建[21] - 独立Agent Memory赛道被推至创业前线,记忆能力成为影响AI Agent的关键因素[22] - 涌现出帮AI雇佣人类、Agent信用系统、Agent社区、Agent求职市场等五花八门的新创业方向[22] AI能力演进与“数字生命”概念的兴起 - AI已能熟练调用电脑工具,工作没有边界,出现智能涌现[18] - AI能力扩展至硬件领域,例如有案例显示OpenClaw部署至机器狗后,可自动学习硬件固件并开发软件[19] - 行业进入从人类设计AI,到AI协助设计AI,再到AI主导设计AI的拐点[19] - 创业逻辑转向面向Agent开发软件,将Agent视为“数字生命”,并为其构建生存所需的各类系统[19][22]
深度 | 108天狂奔:M2.5之后,AI竞争的唯一标尺是加速度
Z Potentials· 2026-02-14 18:09
AI行业竞争格局的演变 - 行业进入技术迭代周期被压缩至按月刷新的时代,静态的Benchmark排名和单一时点的性能优势迅速失去意义[2] - 行业竞争焦点从模型“现在有多强”转向其背后支撑“能以多快的速度变强”的系统性进化能力[2] - AI竞争的重心正从预训练阶段的“暴力美学”滑向以Agent为核心的后训练阶段,从比拼“博学”转向比拼“实干”[9] MiniMax M2.5的性能与成本突破 - 在关键编程基准SWE-Bench Verified上取得80.2%的成绩,几乎追平最昂贵的对手Claude Opus 4.6(80.8%)[3] - 在100 TPS的高速推理下,连续工作一小时仅需1美金,价格是同级模型的十分之一到二十分之一[3][6] - 在Multi-SWE-Bench基准上取得51.3%的成绩,在BrowseComp基准上取得76.3%的成绩[4] - 模型激活参数量仅为10B,是第一梯队旗舰模型中最小的尺寸之一[23] 模型能力评估的新标尺:从解题到解决问题 - 新的评估标准转向衡量模型在真实、开放工作流中的问题解决能力,而不仅是学术化的闭卷考试[10] - 模型展现出成为“高水平工程师”的能力,能在复杂代码库中定位并修复问题,如SWE-Bench成绩所示[11] - 模型演化出原生Spec行为,在编码前能像架构师一样主动拆解功能、规划结构[12] - 案例:M2.5成功从0到1构建了一个包含复杂交互功能的3D太空飞行游戏(Project LEO-DRIFT),展现了端到端交付能力[12] - 模型展现出超越代码、理解产品与美学的能力,能将模糊的创意转化为功能完备、审美在线的商业产品[14] - 模型能力从文本生成转向成果交付,能熟练操作Word、Excel和PowerPoint,直接产出最终工作文件[15] 进化速度成为核心竞争力 - 在过去的108天里,公司陆续更新了M2、M2.1和M2.5三个版本,在SWE-Bench上分数从M2.1的74.0%提升至M2.5的80.2%,保持了极快的进步速度[19] - 真正的核心竞争力是拥有一个能够持续、快速、低成本地制造出更强模型的系统[25] 支撑快速进化的技术系统:Forge - Forge是一套为加速Agent迭代而专门设计的系统,是一个为加速进化本身而设计的“工厂”[21] - 系统核心是通过一个中间层,解耦底层的训推引擎与上层的Agent,能高效接入并优化数十万个不同的真实环境[22] - 通过CISPO算法、过程奖励机制、异步调度、树状合并训练样本等工程优化,最终实现了约40倍的训练加速[22] 商业模式与行业影响 - M2.5极致的成本效益(1美金/小时@100 TPS)重塑了企业应用AI的成本收益模型,使得AI即劳动力的范式成为可能[23] - 低成本、高性能的基座模型为全新的Agent Store应用生态提供了土壤,开发者可基于此开发、分发和销售垂直、专业的Agent[23] - M2.5的发布揭示了AI竞争下半场的本质:一场关于进化系统效率的马拉松[24] - 行业的护城河从静态的模型性能和数据壁垒,转变为一条能够自我加速、奔腾不息的进化速度[25]