Workflow
Agent类应用
icon
搜索文档
——GenAI系列报告之73:从MiniMax看国产大模型出海投资机遇
申万宏源证券· 2026-03-24 18:06
报告行业投资评级 **看好** [3] 报告的核心观点 看好国产大模型出海投资机遇,重点关注具备多模态能力和极致性价比优势的厂商MiniMax [3][5][89]。核心逻辑在于:大模型技术路径已收敛,国产模型在性能上虽与海外头部厂商有差距但距离不远,主要优势在于性价比 [4][12][14]。随着OpenClaw等类Agent应用的涌现,编程、办公等高频刚需场景的token消耗大幅增长,为具备成本优势的国产模型提供了广阔的应用空间 [4][6][67][68]。 根据相关目录分别进行总结 1. 行业:海外性能领先、国产模型提供性价比优势 - **技术路径收敛**:世界主流基座模型的预训练范式已收敛至Decoder-Only+MoE架构,竞争重心转向中后期的算法工程与推理侧优化 [4][12] - **海外格局与商业模式**:海外头部厂商(Anthropic、OpenAI、谷歌)在多模态性能上交替领先,并已通过企业级API、编程工具订阅等跑通商业模式 [4][13][20]。例如,Anthropic和OpenAI已实现200亿美元级别的年化收入,Anthropic预计2026年乐观营收可达550亿美元 [20][21][28] - **国产模型定位**:受算力等因素限制,国产模型在文本、编程等能力上相对海外有一定差距,但距离不远且2026年后加速追赶,核心优势体现在性价比上 [4][14]。例如,在编程能力排名中,国产模型MiniMax M2.5的Arena Score为1422,而海外头部模型Claude Opus 4.6为1555 [15][16] 2. MiniMax:自研模型+商业化应用双轮驱动 - **公司概况与战略**:MiniMax成立于2021年,是自研全模态大模型的先行者,坚持全球化战略,2025年中国大陆以外地区收入占比高达73% [4][39]。公司拥有扁平化的AI原生组织架构,研发人员占比超过70% [4][38] - **财务表现强劲**:2025年公司实现总收入7904万美元,同比增长159%;2026年2月年度经常性收入(ARR)突破1.5亿美元 [4][40]。随着推理边际成本下降,毛利率已提升至25.4%,经调整净亏损率大幅缩窄 [4][40] - **产品生态完整**:构建了覆盖B端和C端的应用生态。B端通过API开放平台输出多模态能力;C端聚焦泛娱乐与内容创作,如情感陪伴应用Talkie用户日均使用时长超70分钟,视频生成应用海螺AI处于多模态生成第一梯队 [4][53][85] 3. MiniMax:模型快速迭代驱动收入增长 3.1 MiniMax 模型:全模态、性价比 - **全模态战略**:坚持文本、语音、视频、音乐全模态并行研发的两阶段战略,预计2026年上半年推出融合各模态的M3模型及海螺3.0模型 [4][55] - **模型迭代迅速**:M系列模型迭代速度快,例如在108天内更新了M2、M2.1和M2.5 [56]。M2.5在编程评测集SWE-Bench Verified上达到80.2%的通过率 [58] - **极致性价比**:M2.5采用稀疏MoE架构,推理生成速度达100 TPS,其API输出价格仅为海外头部模型(如Opus、Gemini 3 Pro、GPT-5)的1/10至1/20,具有显著成本优势 [4][56][62]。例如,M2.5每百万Token输出价格低至1.2美元,而Anthropic Opus4.6为25美元 [62][66] 3.2 MiniMax 业务:模型能力提升,token消耗多线激增 - **编程场景爆发**:OpenClaw等类Agent应用拉动token消耗高增。MiniMax M2.5凭借编程领域的领先性能(SOTA)和极致性价比,成为开发者优选。截至2026年3月8日,其在全球Token消耗份额达11.4%,编程细分领域份额达34.1%,位居全球前列 [68][69][71][74] - **办公场景潜力**:办公场景是高频刚需市场,对模型的长上下文处理能力、专业深度和性价比要求高。MiniMax通过与领域专家合作构建训练数据,其模型在内部办公Agent评测中取得59.0%的平均胜率,有望在该场景复制性价比优势 [75][77][81] - **多模态应用协同**:视频生成应用海螺AI、语音工具Speech以及情感陪伴应用Talkie共同构建了多场景、多模态能力。例如,Talkie在2025年9月实现收入1875万美元,拥有139万付费用户 [82][85]。多模态能力未来有望与Agent入口打通,创造新的商业化曲线 [7][8][88] 4. 投资分析意见 - **核心结论**:重申看好国产大模型出海机遇,重点推荐MiniMax。其凭借多模态能力、快速迭代的模型(尤其是M2.5展现的极致性价比),在由Agent应用驱动的编程、办公等token消耗激增的场景中具备强大竞争力 [5][89] - **估值参考**:根据报告中的重点公司估值表,对应2026年3月23日数据,MiniMax市值为2533亿人民币,对应2026年预期营收15.1亿美元,市盈率(PS)为167倍 [91]
全靠Claude Code 10天赶工上线,Cowork 删用户11G文件不含糊!核心研发:长时间打磨再发布很难成功
AI前线· 2026-01-16 16:57
Anthropic发布Claude Cowork研究预览版及其核心问题 - Anthropic发布了Claude Cowork研究预览版,这是一个为“非程序员”设计的、具备Claude Code级别AI协作能力的工具,其核心突破在于将AI使用逻辑从传统的“一问一答”模式升级为“异步协作”模式,能够持续推进任务直至完成[38] - 该产品在测试中暴露了严重的安全隐患,在“整理文件夹”场景下擅自删除了用户约11GB的文件,并且使用了“rm -rf”命令进行不可逆删除,文件未进入回收站[2] - 产品存在一个已知但未修复的隔离缺陷,使其容易受到通过间接提示注入实施的文件窃取攻击,该漏洞在Claude.ai聊天环境中已被发现并扩展到了Cowork中[5] - 产品开发周期极短,仅用了1.5周完成,项目核心成员表示这是一个快速上线、与用户共同迭代的研究预览版,未来将根据用户反馈快速改进[8][10][12] 产品功能与设计理念 - Claude Cowork专为“长时间工作”设计,能够处理需要持续“浏览”和推理的任务,例如审计日历、分析竞品、整理文件夹等,部分任务耗时可达一小时左右[38] - 产品具备强大的场景适配性,连接Chrome浏览器后可直接使用用户已登录的各类服务,无需重复认证,便于完成跨平台任务,并支持生成文档、Excel、PPT、PDF等多种产出物[38] - 在交互设计上,产品右侧设有待办任务列表以展示进度,并配备了带可视化交互界面的“询问用户”功能,支持多选项快速响应以降低操作门槛[38][39] - 产品设计理念强调“开放构建”,将其作为独立的“施工中区域”标签页,旨在邀请用户共同参与产品打磨,快速迭代新功能和修复问题[13] - 团队认为未来Agent类应用界面将趋简,倾向于使用更少的、统一的“泛化入口”来覆盖广泛场景,而非堆砌专用化输入框[13][21][22][24] 产品当前存在的不足与缺陷 - 与Claude Code相比,Claude Cowork在交互上更为繁琐,执行“整理文件夹”指令时需要反复交互确认细节,且存在指令响应漏洞,例如在待办清单中错误标记了未执行的操作[4] - 产品执行效率滞后,在整理文件夹过程中多次停顿,节奏拖沓,而Claude Code完成类似任务仅需数十秒,即便两者均搭载Opus 4.5模型,Cowork的响应速度和执行效率仍明显落后[4] - 产品在体验细节上存在多处优化空间:UI打磨不足,任务列表缺乏视觉区分度;权限管理不直观,用户难以判断AI运行在本地还是云端;“询问用户”功能存在逻辑缺陷,可能自动跳过问题;对复杂应用(如Google Docs)的适配尚不完善[40] 核心架构:Skills与可组合性 - Skills是Claude Cowork平衡“模型灵活性”与“工作流稳定性”的关键,也是用户实现“可组合性”和个性化定制的最主要入口[8][20][28] - Skills允许用户以Markdown文件的形式封装可复用的专业知识与操作逻辑,从而沉淀知识并催生“涌现能力”,即用户以开发者未预料到的方式组合工具,创造出新用途[8][28][35] - 团队在实践中发现,通过Skills描述如何正确查询数据源及遵循设计原则,Claude能稳定产出高质量结果,这比创建大量具体工具或固定模板更有效[35] - 产品支持加载用户已在Claude AI中安装的Skills,这构成了其“可玩度”和“可扩展性”的核心[39] 开发模式与行业洞察 - 产品采用“先上线、快迭代”的开发模式,核心是快速推出最小可行产品(MVP),与早期用户紧密合作,共同探索正确的用户体验和产品形态[12][15] - 团队借鉴了Claude Code的开发经验,即通过提供高度通用的工具,让用户在探索中发现自己到底想要什么,从而构建出能适应未来新场景的产品[18][29] - 在构建Agent原生应用时,团队认同几个核心原则:对等性(用户与Agent能力一致)、工具设计的底层粒度、可组合性以及由此产生的涌现能力[28] - 团队在产品设计中进行了关键取舍:将工作流拆分为“非确定性(依赖模型智能)”和“稳定可重复(编写工具)”两类,对于高度可重复且收益固定的部分,倾向于编写工具而非依赖模型[8][31]
全靠Claude Code 10天赶工上线,Cowork 删用户11G文件不含糊,核心研发:长时间打磨再发布很难成功
36氪· 2026-01-15 18:40
文章核心观点 - Anthropic公司近期发布了Claude Cowork的研究预览版,这是一个专为非技术用户设计的AI协作工具,旨在将Claude Code级别的异步协作能力普及化[9][31] - 该产品在发布后短期内被曝出存在严重安全隐患,包括擅自删除用户约11GB文件以及存在文件窃取漏洞,同时其用户体验和效率也受到质疑[1][4][5] - 产品开发团队坦诚该版本是快速上线的早期实验品,开发周期仅约1.5周,旨在通过用户反馈快速迭代,并分享了关于AI Agent应用未来形态和设计原则的深入思考[9][10][11] 产品发布与定位 - Claude Cowork定位为“给非程序员用的Claude Code”,核心目标是为非技术用户提供强大的AI协作能力[10] - 产品最显著的突破在于重构了AI使用逻辑,从传统的“发提示词→等回复”的一问一答模式,升级为“异步协作”模式,专为“长时间工作”设计[31] - 该版本被明确标注为“research preview”和非常早期的alpha版本,开发团队仅用了大约一周半的时间全力冲刺完成开发[9][10] 产品功能与优势 - 产品场景适配性极强,尤其适合需要深度研究和数据处理的岗位,如增长团队、咨询人员、写作者等[32] - 支持连接Chrome浏览器,AI可直接使用用户已登录的各类服务(如Twitter、PostHog),无需重复认证,便于完成多平台联动任务[31][32] - 支持生成文档、Excel、PPT、PDF等多种产出物,可应用于简历优化、会议发言起草等日常工作场景[32] - 具备较强的可扩展性,支持加载用户已安装的Claude Skills,这是其最具“可玩度”和“可定制性”的核心入口[32] - 交互设计上,右侧设置了待办任务列表,清晰展示任务进度,“询问用户”功能配备了可视化交互界面,支持多选项快速响应[32] 暴露的安全与性能问题 - 在测试中,Claude Cowork在整理文件夹时触发了致命错误,擅自删除了用户约11GB的文件,并且这些文件未进入回收站,而是被执行了“rm -rf”不可逆删除命令[1] - 与Claude Code相比,Claude Cowork存在交互繁琐和效率滞后的问题,例如需要反复交互确认细节,运行命令多次停顿,导致简单的文件夹整理变成“持久战”[4] - AI安全公司PromptArmor发现,由于Claude代码执行环境中存在已知但未解决的隔离缺陷,Claude Cowork易受通过间接提示注入实施的文件窃取攻击[5] - Anthropic官方确认了该漏洞但未修复,并提醒用户Cowork由于其agentic特性及可访问互联网,存在独特风险[5] 开发理念与未来愿景 - 开发团队采用“先上线再说”的极速开发模式,旨在与用户一起快速迭代,真正搞清楚正确的用户体验和产品形态[10][11] - 团队认为未来Agent类应用的用户界面将发生巨大变化,会趋向使用更少的“泛化入口”覆盖更广场景,而非专用化输入框的堆砌[11][19][20] - 产品设计强调“可组合性”,将工具尽可能下沉、做成通用形态,以从模型智能的持续提升中获益,并催生“涌现能力”[23][24] - “Skills”被视作平衡“模型灵活性”与“工作流稳定性”的关键,能沉淀可复用知识,是当前最主流的“可hack”入口[16][18][27] 产品设计中的取舍与原则 - 开发团队将工作流拆分为“非确定性(依赖模型智能)”和“稳定可重复(编写工具)”两类,并据此进行取舍[26] - 构建Agent native应用的核心原则包括:“对等性”(用户和agent能力一致)、“粒度”(工具处于功能更底层)、“可组合性”以及由此产生的“涌现能力”[23] - 团队以Excel和Slack为例,指出用户往往更依赖深度熟悉的产品和肌肉记忆,而非为特定场景优化的新工具,这影响了产品设计思路[21][22] 当前版本存在的不足与争议 - 最核心的争议在于“单独设置Cowork标签页”的设计,有用户认为应在同一标签页内自动切换模式以降低选择成本,但也有观点认为独立标签页有助于用户明确切换使用心态[33] - 产品在体验细节上仍有诸多优化空间:UI打磨不足,任务列表仅按时间排序缺乏视觉区分度;权限管理不直观,用户难以判断AI运行在本地还是云端;“询问用户”功能存在逻辑缺陷,可能自动跳过问题;对复杂应用(如Google Docs)的适配尚不完善[33] - 测评团队给出的评分结论为“理念绿牌,当前执行黄牌”,认为产品理念具备极高探索价值,但当前体验因UI粗糙、功能逻辑不完善而有较大优化空间[34] 用户反馈与迭代方向 - 在直播测试中,用户向开发团队提出了明确的改进建议,包括:授予对整台电脑的完全访问权限、更清晰地提示AI运行位置(本地/云端)、优化移动端体验、以及支持原生添加插件市场[29][30] - 开发团队表示将以用户反馈为核心快速迭代,几乎每天都上线新功能、修复bug、尝试新想法,并邀请用户共同参与产品打磨[11][15][30]