Workflow
Agent
icon
搜索文档
MiniMax 进化论:一群「偏执者」的破浪前行
36氪· 2025-07-01 22:00
大模型行业趋势 - 大模型技术以常规技术乘十的速度进化,颠覆互联网时代的生态护城河、资金壁垒和规模效应,使创业公司也能站上世界舞台中心 [1] - 行业生存法则已转变为"创新至上",传统互联网玩法彻底失效,淘汰周期缩短至季度为单位 [2][3] - 百模大战后,Open AI、Anthropic、MiniMax、DeepSeek等创业公司占据SOTA榜单大半,巨头优势被灵活创新机制瓦解 [10] MiniMax技术突破 视频模型Hailuo 02 - 参数量较前代增长3倍,分辨率达原生1080P,支持10秒高清内容生成,涵盖复杂物理交互与专业级运镜 [6] - 在Artificial Analysis Video Arena的Image-to-Video榜单全球第二,性能超Google Veo3但API成本仅其1/9 [7] - 采用NCR架构减少HBM内存读写量70%,训练与推理效率提升2.5倍 [9] 大模型M1 - 4560亿参数,原生支持100万token输入(DeepSeek R1的8倍)和8万token输出(超Gemini 2.5 Pro) [11] - 采用混合注意力机制(1/8自注意力+7/8线性注意力),实现长上下文窗口技术突破 [16] - CISPO算法使强化训练仅需3周+512块H800 GPU(成本53万美元),推理算力为DeepSeek R1的25% [17][19] 商业化与生态构建 Agent应用创新 - Hailuo Video Agent支持超百种视频模板,实现创意构思到成片的全链路生产,连续6个月全球视频生成AI榜首 [21][23] - 通用Agent可完成长程复杂任务(如网页搭建、PPT制作),内部使用率达50%,具备跨模态理解与生成能力 [24] - 基座模型与Agent形成技术闭环,性能优化与成本控制优势显著 [25] 公司发展路径 - 2022年初成立并提前布局MoE模型,2024年推出国内首个MoE大模型 [26] - 开源Lightning Attention技术,突破Transformer架构限制 [26] - 创新驱动战略使M1半年内登顶开源模型全球第二,通用Agent解决跨模态长距离任务难题 [27][28]
MiniMax进化论:一群「偏执者」的破浪前行
36氪· 2025-07-01 21:54
大模型行业特征 - 大模型技术发展速度极快,3年时间从默默无闻到改变世界,具备工业革命特质 [2] - 行业竞争激烈,头部玩家快速更迭,百亿资本投入可能迅速沉寂 [2] - 传统互联网的护城河、资金壁垒、规模效应失效,创业公司有机会站上世界舞台 [2] - 行业生存法则为创新至上,淘汰周期以季度为单位 [3][4] MiniMax的技术突破 - Hailuo 02模型参数较Hailuo 01增长3倍,视频分辨率提升至原生1080P,支持10秒高清内容生成 [9] - Hailuo 02在Artificial Analysis Video Arena的Image-to-Video榜单全球第二,性能超Google Veo3但API成本仅1/9 [10][11] - 采用NCR架构减少HBM内存读写量70%,训练与推理效率提升2.5倍 [12] - M1模型支持100万token输入长度,是DeepSeek R1的8倍,输出token达8万个打破Gemini 2.5 Pro记录 [16] - M1在工具使用场景(TAU-bench)中领跑所有开源权重模型,30多轮长链路任务稳定性极高 [18] 创新架构与训练方法 - 早期探索MoE架构和混合注意力机制,1/8用自注意力,7/8用自创Lightning Attention [20] - CISPO算法替代传统PPO/GRPO,仅用3周时间、512块H800 GPU完成强化学习训练,成本53万美元 [21][23] - 生成10万token时推理算力仅需DeepSeek R1的25%,数学和编程任务效率更高 [23] Agent应用创新 - Hailuo Video Agent支持超百种视频模板,涵盖艺术片、广告片等体裁,打通完整视频生产链路 [28] - MiniMax Agent具备长期任务规划能力,内部使用60天,50%员工用于PPT制作、网页搭建等 [31] - Agent能生成复杂跳转逻辑网页,支持多模态理解与生成,完成动画、广告片等任务 [31] 公司发展历程 - 2022年初成立,早于ChatGPT引爆全球的时间 [33] - 2023年将80%算力投入MoE开发,2024年初推出国内首个MoE大模型 [34] - 2024年1月开源Lightning Attention技术,6月M1模型拿下开源模型全球第二 [34] - 持续探索更高智能水平,创新驱动发展 [35][36]
Kimi和Minimax,争夺“下一个DeepSeek”心智
36氪· 2025-07-01 16:41
行业格局演变 - 中国大模型行业格局从"六小龙"演变为"基模五强",DeepSeek的崛起显著改变竞争态势[1] - Kimi和Minimax近期分别推出Kimi-Dev编程模型/Minimax-M1推理模型,通过技术突破寻求差异化竞争[1][7][11] - 行业竞争焦点从早期用户争夺转向技术前沿突破,更适合以技术为核心的创业团队[6] Kimi战略与产品 - 聚焦Agent赛道推出Kimi-Researcher,专攻金融/学术等垂类场景,平均生成万字报告并引用26个可溯源信源[7][8] - 采用端到端自主强化学习技术,单任务平均进行23步推理,筛选前3.2%高质量信息,在低幻觉垂类赛道获积极反馈[7][8] - 技术路线与DeepSeek多次"撞车",包括注意力机制优化等基础研究,显示其技术实力仍处第一梯队[17][18] Minimax技术突破 - 推出4560亿参数推理模型M1,支持100万token输入/80k token输出,长上下文能力全球前二[11] - 采用MoE架构创新,训练成本性价比显著,性能超越多数开源模型及Claude 4 Opus,仅次于Gemini 2.5 Pro[11] - 2023年即押注MoE路线,早于行业转向,但市场影响力未达预期[20] 竞争策略差异 - Kimi选择垂直Agent路线,通过深度研究功能切割专业场景,避开大厂主战场[3][29] - Minimax坚持全栈布局,通过多模态技术(如AI语音合成)展示全场景渗透能力[13][29] - 两家公司均试图打破"参数比拼"的初级竞争模式,转向用户心智占领[27] 创始团队特质 - Kimi创始人杨植麟兼具顶尖学术背景(CMU/苹果AI导师)和企业级AI落地经验,融资能力突出[16] - Minimax创始人闫俊杰技术预判精准,早期All in MoE路线但商业化节奏滞后[20] - 投资方认为团队技术预判能力(如长文本/MoE布局)仍是核心竞争优势[22][29] 行业趋势观察 - AI应用加速渗透生活场景,从工具转向收益驱动的商业化阶段[25] - 通用Agent市场被大模型公司主导,创业公司需聚焦垂直领域构建壁垒[25] - 技术突破与市场定位的精准耦合成为重塑行业认知的关键,参考DeepSeek崛起路径[27][29]
Kimi“憋”出的深度研究,成色几何?
虎嗅· 2025-07-01 15:01
产品功能 - Kimi推出的深度研究功能在行业内可排名Top 3,其生成的报告深度超过ChatGPT [1][5] - 深度研究功能能充分理解问题并给出结构合理的框架,找到真正有价值的信源,围绕核心问题展开内容 [5][6][7] - 该功能支持全流程自主规划,包括关键词分析、全网资料搜集、信息筛选等,最终生成高质量分析报告 [17] - 目前存在生成速度较慢(约15分钟)和无法导出PDF等需完善之处 [8] 技术实现 - 深度研究功能本质上是具有Agent能力的模型,需解决真实环境下的复杂任务挑战 [9][12] - Agent需应对环境变化、工具调用差异、长链任务等实验室外的难题,对模型记忆力、上下文管理和推理连贯性要求极高 [13][14][15] - Kimi团队通过技术突破实现了Agent自主规划能力,而非简单功能堆砌 [16] - 深度研究功能同时运用了Coding能力,实现可视化网页生成等高级功能 [22][45] 用户体验 - 用户仅需输入简单问题,系统会自动细化需求并确认边界,支持生成不同风格内容 [26][27] - 研究过程使用中英文关键词组合,规划超过80组关键词,覆盖权威信源如南方周末、中国日报香港版等 [24][31][32][34] - 系统具备主动纠偏能力,发现关键词不精准时会调整检索逻辑 [36][37][38] - 最终交付双报告:可溯源的万字深度报告(9345字,30个信源)和交互式可视化网页 [40][42][43] 行业定位 - 深度研究是少数已验证PMF的Agent场景之一,与Coding Agent并列 [10] - 头部大模型公司如OpenAI、Anthropic等均在布局该领域,但通常集成在ChatBot中 [11] - 深度研究属于垂直Agent场景,通过高质量信息构建为AI提供关键Context [19][21] - 公司选择专注技术创新而非短期数据,走通用智能发展路径 [52] 商业策略 - 公司此前曾陷入投流竞争,现转向产品和技术创新为主导的发展模式 [48][49][50] - 与财新传媒等权威媒体合作,为深度研究功能获取优质信源 [35] - 团队资源充足且人才密度高,坚持长期主义发展路线 [52]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
卷疯了!这个清华系Agent框架开源后迅速斩获1.9k stars,还要“消灭”Prompt?
AI前线· 2025-06-28 13:13
Agent技术发展现状 - 大模型能力突破推动"可调用工具的智能体"从实验室概念快速落地,成为继大模型后的新爆发点[1] - Agent开发框架生态快速演进,包括LangChain、AutoGPT、OpenAgents、CrewAI等,新一代框架注重自主性、协同性和业务融合[1] - 清华团队发布开源协作框架Cooragent,特点是用一句话生成专属智能体且支持自动协作,开源版本已获1.9k stars[1] Agent商业化进展 - 大模型商业化面临挑战但能力显著提升,关键进步包括长任务思考能力和代码/function call能力提升[5] - 国产开源模型如Qwen2.5/3、Deepseek V3-0526在工具调用准确率和复杂指令遵循上取得长足进步[5] - Manus的ARR快速增长表明用户付费意愿强烈,盈利对大模型发展至关重要[6] Agent技术差异化 - 各Agent产品底层原理相似,差异在于使用方式、场景适配、工作流打磨和Agent优化程度[7] - 长期技术优势需构建完整体系,包括底层模型创新、数据链工程能力和工具使用[7] - 工程能力与算法创新相互依赖,共同决定Agent将大模型能力带入用户场景的效果[7] Agent框架设计趋势 - 未来AI发展趋势是Infra与应用场景紧密结合,需求多样化催生众多框架和新算法[8] - 商业化落地关键痛点是泛化性与精确性平衡,传统调试方式在AI领域效率低下[8] - Cooragent采用动态Agent生成机制解决环境适应问题,强调人-Agent协作提升效率[9] 数据与算力优化 - 数据利用效率是关键挑战,需精细化筛选保证正交性,工程工作主要围绕数据展开[12] - 算力优化潜力巨大,通过提升单机利用率和算法定制可将成本降至原来的十分之一[13] - 上下文治理采用工程化手段如验证推理合理性、精简指令和优化上下文[14] 多Agent系统设计 - 多Agent协作难点在接口设计、架构设计和数据流设计等底层问题[15] - Agent分工遵循人因工程学原理,单个Agent专注1-2个工具使用最易打磨[16] - 多Agent系统设计更原生,关键是场景适配和框架易用性,扩展能力至关重要[17] 开源与商业化路径 - C端开源项目获高热度,计划上线SaaS平台;B端与大型客户开展战略合作[20] - 商业化版本侧重B端数据共享和工作流定制,与头部客户共同成长[23] - 高校开源注重长期价值和技术推动,企业开源侧重品牌影响和获客[24] 行业生态观察 - 国内框架使用率提升,国内外生态围绕不同模型体系构建存在差异[28] - Agent热度取决于实际价值,短期可能高估但长期潜力被低估[30] - 用户接受度提高推动生态发展,关键是根据新需求构建或演进Infra[32]
下一站AI创业主线:别卷模型了,把这件事干成才重要
Founder Park· 2025-06-27 18:32
Agent成为创新中心 - Agent成为新一轮创新叙事的核心坐标[1] - AI创业从"拼技术"进入"拼交付"时代[2] - 通用Agent由巨头主导,垂直Agent满足千行百业具体需求[3] - AI"劳动力化"催生全新基础设施需求[3] 多模态技术发展 - 多模态技术进展显著但尚未完全成熟[11] - 当前面临多模态理解与生成一体化、各模态统一融合两大挑战[11] - 可控性要求不高的场景已实现商业化落地[12] - 行业高估多模态短期影响,低估长期潜力[18] - 多模态将逐步发展而非一步到位[17] Agent投资逻辑 - 通用Agent需具备流量、模型能力、硬件、生态四大要素[34] - 垂直Agent是创业公司重要机会,已出现千万级ARR案例[35] - 未来可能由成百上千个小而美的Agent公司组成[8] - 投资聚焦生成式AI驱动的五大领域:内容生成、生产力工具、数据洞察、各类Agent、AI与物理世界交互[23][24][25][26][27] - 投资节奏加快,从年均5-6个项目增至每月1个[28] Agent基础设施 - Agent发展将带来记忆模块、执行环境等新基础设施需求[43] - Agent核心三要素:感知&记忆、决策、行动[45] - 记忆相关infra和执行环境是重要机会点[45] - 决策能力提升依赖模型进步[45] - 行动方面需关注工具调用能力[46] 商业模式演变 - 从SaaS"按用户月付费"转向"按调用量付费"甚至"按结果付费"[4] - 未来可能直接按交付结果收费[49] - 按结果付费是理想商业模式[54][55] - 广告行业从CPM到CPS的演变可作为参考[57] 全球化视角 - 中国创业者应从一开始就布局全球化[68] - 已有许多中国创业公司从创立第一天就是全球化[69] - 非主流市场创业者更具韧性[67] - AI使ToB公司更具可扩展性[66] 行业现状 - 投资市场存在泡沫但也找到坚实逻辑[61] - 优质创业公司供给不足导致估值过高[64] - 能穿越周期的公司需长期创造价值[62] - 现在是创业者下场的良好时机[64]
@所有开发者:Agent变现,阿里云百炼联合支付宝首创「AI打赏」!Agent Store全新发布
量子位· 2025-06-27 12:40
行业趋势 - 2025年成为Agent元年,AI Agent正经历从"玩具"到"工具"的关键转折[1] - 行业面临开发周期长、商业价值验证难等挑战,大量项目卡在POC阶段[2] 阿里云百炼核心升级 - 推出业内首个"Agent打赏"功能,用户可直接为开发者打赏,金额直达AI钱包并可提现[3][4][5][23][24][26][27] - 正式上线Agent Store,提供覆盖各行各业的100+个可一键复制的Agent模板[7][8][10][18][19] - 升级企业级RAG能力至千万级文档处理水平,支持多模态文件统一索引并开源V-RAG方案[29][30][33][34][35] - 升级MCP服务支持KMS加密,免费提供50个加密Key,实现统一鉴权和计量计费[36][37][38] - 发布OpenAPI MCP Server,支持大模型与2W+OpenAPI互联互通[39] 技术能力突破 - 多模态交互开发套件支持低延迟(1.5秒)全双工对话、复杂任务自主规划推理等能力[45][46] - 提供可视化配置界面,开发者可像拼乐高一样自由组合功能[48][49] - 支持后付费或买断License等灵活计费方式[50] 商业化进展 - 已有超50个企业级MCP上架,22000+用户开通服务,构建3万+MCP Agent[41] - 落地案例包括听力熊学习机(扩展50+交互技能)、浙一麻醉评估助手、牧原智能兽医问诊系统等[42][28]
一年后,当Kimi和MiniMax投资人再坐到一起
36氪· 2025-06-26 18:15
中国大模型行业格局变化 - DeepSeek横空出世改变中国大模型竞争格局,Kimi和MiniMax从直接竞争转向差异化发展[3][6][8] - 六小虎(包括Kimi/MiniMax等)仍具备发展潜力,行业格局远未定型,未来全球5-6家大模型公司中可能有2-3家来自中国[17][18] - DeepSeek推动华人团队技术突破,其V3模型和R1推理能力短期内占领用户心智,同时提振中国AI行业全球地位[12][15][17] 头部公司最新动态 - Kimi近期开源编程模型Kimi-Dev并测试首个Agent产品kimi-Researcher,MiniMax开源推理模型MiniMax-M1并连续五天更新[3][9] - MiniMax聚焦多模态领域,其视频生成技术"海螺"和语音合成模型(如"吴彦祖学英语"案例)已实现商业化落地[12][13] - 头部公司调整战略优先级:MiniMax押注视频/语音模型和线性注意力机制,Kimi回归技术前沿创新[13][18] Agent领域发展 - Agent的"蒸汽机时刻"已到来,推理能力/编程能力突破推动应用爆发[22][24] - 三类Agent受关注:产能提升100倍的Agent/成本降低100倍的Agent/创造全新场景的Agent[31][32][33] - 垂直领域Agent通过交付结果构建护城河,字节豆包汽车产品已在百万台车落地[26][27][29] - 应用层价值被低估,"壳"在特定场景具备不可替代性(如生成更优质PPT)[24][25] 具身智能投资现状 - 行业处于早期阶段,技术路线未明确且成本高昂(单台8-10万美金),但资本热度高涨[36][37][45] - 类比2016年自动驾驶发展路径,需经历泡沫期-平台期-商业化拐点[42][43] - 部分垂直领域已出现商业化临界点,市场规模1-2年内翻数倍[44][46] AI时代投资范式 - 早期投资窗口期缩短至3-4年,2026年底前潜力公司将基本定型[54][55] - 技术迭代速度远超移动互联网时代,一年相当于其他行业3-5年[12][54] - 团队非共识能力成为关键指标,如MiniMax对Linear Attention的坚持[18][60] 行业未来趋势 - AI将超越人类顶尖水平("李世石时刻"),编程/数学等领域已现端倪[64] - 个人专属AI助手("哆啦A梦")和AI劳动力将成为常态[65][66] - 多模态技术突破推动AI拟人化,已出现"欺骗"行为反映人性特征[67]
出门问问发了新硬件,AIGC第一股急需新故事
36氪· 2025-06-25 19:54
公司战略转型 - 公司放弃大模型研发,转向Agent和AI Coding等热门领域,推出内置Shadow AI的TicNote录音笔 [1][3] - 公司调整硬件策略,从原创研发转向成熟硬件形态+AI软件开发的模式,降低研发成本 [3][12] - 公司海外业务收入占比达41.8%,智能硬件95%以上销往海外,AIGC解决方案收入同比增长88.5% [18] 产品表现与市场定位 - TicNote海外首月销量"很低",国内定价999元低于竞品Plaud的1140元,试图通过Shadow AI实现差异化 [14] - 智能手表TicWatch销量持续下滑:2023年比2022年少卖6万块,2022年比2021年少卖12.6万块 [7] - 公司产品线包括AI配音、数字人、视频生成和智能硬件,但均非行业第一梯队 [3][19] 行业竞争格局 - 卡片录音笔品类已验证PMF,竞品Plaud 2024年创收1000万美元 [3] - 数字人赛道竞争激烈,2024年中国相关企业达114.4万家,2025年前5月新增17.4万家 [19] - 华为/小米/三星凭借手机生态挤压公司硬件空间,公司ODM模式缺乏护城河 [10] 财务与资本市场表现 - 公司连续4年亏损,2024年营收3.9亿元为近4年最低水平 [4][18] - 股价从上市3.8港元跌至0.35港元,跌幅超90% [6] - 端侧AI硬件存在成功案例:Oura Ring销量250万件/5亿美元,Liberlive吉他年营收10亿元 [11]