Agent

搜索文档
Kimi和Minimax,争夺“下一个DeepSeek”心智
36氪· 2025-07-01 16:41
行业格局演变 - 中国大模型行业格局从"六小龙"演变为"基模五强",DeepSeek的崛起显著改变竞争态势[1] - Kimi和Minimax近期分别推出Kimi-Dev编程模型/Minimax-M1推理模型,通过技术突破寻求差异化竞争[1][7][11] - 行业竞争焦点从早期用户争夺转向技术前沿突破,更适合以技术为核心的创业团队[6] Kimi战略与产品 - 聚焦Agent赛道推出Kimi-Researcher,专攻金融/学术等垂类场景,平均生成万字报告并引用26个可溯源信源[7][8] - 采用端到端自主强化学习技术,单任务平均进行23步推理,筛选前3.2%高质量信息,在低幻觉垂类赛道获积极反馈[7][8] - 技术路线与DeepSeek多次"撞车",包括注意力机制优化等基础研究,显示其技术实力仍处第一梯队[17][18] Minimax技术突破 - 推出4560亿参数推理模型M1,支持100万token输入/80k token输出,长上下文能力全球前二[11] - 采用MoE架构创新,训练成本性价比显著,性能超越多数开源模型及Claude 4 Opus,仅次于Gemini 2.5 Pro[11] - 2023年即押注MoE路线,早于行业转向,但市场影响力未达预期[20] 竞争策略差异 - Kimi选择垂直Agent路线,通过深度研究功能切割专业场景,避开大厂主战场[3][29] - Minimax坚持全栈布局,通过多模态技术(如AI语音合成)展示全场景渗透能力[13][29] - 两家公司均试图打破"参数比拼"的初级竞争模式,转向用户心智占领[27] 创始团队特质 - Kimi创始人杨植麟兼具顶尖学术背景(CMU/苹果AI导师)和企业级AI落地经验,融资能力突出[16] - Minimax创始人闫俊杰技术预判精准,早期All in MoE路线但商业化节奏滞后[20] - 投资方认为团队技术预判能力(如长文本/MoE布局)仍是核心竞争优势[22][29] 行业趋势观察 - AI应用加速渗透生活场景,从工具转向收益驱动的商业化阶段[25] - 通用Agent市场被大模型公司主导,创业公司需聚焦垂直领域构建壁垒[25] - 技术突破与市场定位的精准耦合成为重塑行业认知的关键,参考DeepSeek崛起路径[27][29]
Kimi“憋”出的深度研究,成色几何?
虎嗅· 2025-07-01 15:01
产品功能 - Kimi推出的深度研究功能在行业内可排名Top 3,其生成的报告深度超过ChatGPT [1][5] - 深度研究功能能充分理解问题并给出结构合理的框架,找到真正有价值的信源,围绕核心问题展开内容 [5][6][7] - 该功能支持全流程自主规划,包括关键词分析、全网资料搜集、信息筛选等,最终生成高质量分析报告 [17] - 目前存在生成速度较慢(约15分钟)和无法导出PDF等需完善之处 [8] 技术实现 - 深度研究功能本质上是具有Agent能力的模型,需解决真实环境下的复杂任务挑战 [9][12] - Agent需应对环境变化、工具调用差异、长链任务等实验室外的难题,对模型记忆力、上下文管理和推理连贯性要求极高 [13][14][15] - Kimi团队通过技术突破实现了Agent自主规划能力,而非简单功能堆砌 [16] - 深度研究功能同时运用了Coding能力,实现可视化网页生成等高级功能 [22][45] 用户体验 - 用户仅需输入简单问题,系统会自动细化需求并确认边界,支持生成不同风格内容 [26][27] - 研究过程使用中英文关键词组合,规划超过80组关键词,覆盖权威信源如南方周末、中国日报香港版等 [24][31][32][34] - 系统具备主动纠偏能力,发现关键词不精准时会调整检索逻辑 [36][37][38] - 最终交付双报告:可溯源的万字深度报告(9345字,30个信源)和交互式可视化网页 [40][42][43] 行业定位 - 深度研究是少数已验证PMF的Agent场景之一,与Coding Agent并列 [10] - 头部大模型公司如OpenAI、Anthropic等均在布局该领域,但通常集成在ChatBot中 [11] - 深度研究属于垂直Agent场景,通过高质量信息构建为AI提供关键Context [19][21] - 公司选择专注技术创新而非短期数据,走通用智能发展路径 [52] 商业策略 - 公司此前曾陷入投流竞争,现转向产品和技术创新为主导的发展模式 [48][49][50] - 与财新传媒等权威媒体合作,为深度研究功能获取优质信源 [35] - 团队资源充足且人才密度高,坚持长期主义发展路线 [52]
AI下半场,大模型要少说话,多做事
虎嗅· 2025-07-01 09:33
大模型性能与竞争格局 - DeepSeek模型性能快速提升 2024年4月排名靠后 8月进入TOP10 12月成为基础能力第一的开源模型[1] - 基础模型TOP10中中国占6个 美国占4个 包括通义千问 豆包 混元 文心等[3] - 模型排名轮动加速 GPT-4o曾保持200天第一 现在十几天就会变化[7] - 训练成本高企 每次至少几百万美元 保鲜期短导致玩家减少[8] 模型训练技术趋势 - 预训练与后训练并存 预训练提升基础能力 强化学习从实战中学习潜力大[14] - 下游企业减少参与训练 转向提示词工程 检索增强 工作流等工程化方法[9] - 智谱AI坚持预训练路线 技术团队实力和资源储备是关键[12] Agent发展与应用 - Agent成为运行在大模型上的软件 自主规划能力显著提升[21] - 提示词仍重要 精心设计的系统提示词可充分激发模型能力[22] - Agent可能不是单一产品 而是多功能集合 开发平台将成关键[29] - 未来或形成个位数基座模型+垂直行业应用平台的格局[30] 基准测试体系价值 - "方升"测试体系包含700万条数据 聚焦产业实战应用[1][44] - 测试方法标准化 题目非开源 每次抽取1-2万题后作废[47][48] - 基准测试是指挥棒 定义方向 中美差距缩小因目标一致[51] 技术路线与产业方向 - 谷歌DeepMind强化学习路线被低估 在生物 材料等领域价值巨大[34][37] - 当前模型缺乏世界模型能力 需突破空间关系 物理定律等[38] - AI下半场需减少信息过载 增强意图理解 任务规划等能力[52]
卷疯了!这个清华系Agent框架开源后迅速斩获1.9k stars,还要“消灭”Prompt?
AI前线· 2025-06-28 13:13
Agent技术发展现状 - 大模型能力突破推动"可调用工具的智能体"从实验室概念快速落地,成为继大模型后的新爆发点[1] - Agent开发框架生态快速演进,包括LangChain、AutoGPT、OpenAgents、CrewAI等,新一代框架注重自主性、协同性和业务融合[1] - 清华团队发布开源协作框架Cooragent,特点是用一句话生成专属智能体且支持自动协作,开源版本已获1.9k stars[1] Agent商业化进展 - 大模型商业化面临挑战但能力显著提升,关键进步包括长任务思考能力和代码/function call能力提升[5] - 国产开源模型如Qwen2.5/3、Deepseek V3-0526在工具调用准确率和复杂指令遵循上取得长足进步[5] - Manus的ARR快速增长表明用户付费意愿强烈,盈利对大模型发展至关重要[6] Agent技术差异化 - 各Agent产品底层原理相似,差异在于使用方式、场景适配、工作流打磨和Agent优化程度[7] - 长期技术优势需构建完整体系,包括底层模型创新、数据链工程能力和工具使用[7] - 工程能力与算法创新相互依赖,共同决定Agent将大模型能力带入用户场景的效果[7] Agent框架设计趋势 - 未来AI发展趋势是Infra与应用场景紧密结合,需求多样化催生众多框架和新算法[8] - 商业化落地关键痛点是泛化性与精确性平衡,传统调试方式在AI领域效率低下[8] - Cooragent采用动态Agent生成机制解决环境适应问题,强调人-Agent协作提升效率[9] 数据与算力优化 - 数据利用效率是关键挑战,需精细化筛选保证正交性,工程工作主要围绕数据展开[12] - 算力优化潜力巨大,通过提升单机利用率和算法定制可将成本降至原来的十分之一[13] - 上下文治理采用工程化手段如验证推理合理性、精简指令和优化上下文[14] 多Agent系统设计 - 多Agent协作难点在接口设计、架构设计和数据流设计等底层问题[15] - Agent分工遵循人因工程学原理,单个Agent专注1-2个工具使用最易打磨[16] - 多Agent系统设计更原生,关键是场景适配和框架易用性,扩展能力至关重要[17] 开源与商业化路径 - C端开源项目获高热度,计划上线SaaS平台;B端与大型客户开展战略合作[20] - 商业化版本侧重B端数据共享和工作流定制,与头部客户共同成长[23] - 高校开源注重长期价值和技术推动,企业开源侧重品牌影响和获客[24] 行业生态观察 - 国内框架使用率提升,国内外生态围绕不同模型体系构建存在差异[28] - Agent热度取决于实际价值,短期可能高估但长期潜力被低估[30] - 用户接受度提高推动生态发展,关键是根据新需求构建或演进Infra[32]
下一站AI创业主线:别卷模型了,把这件事干成才重要
Founder Park· 2025-06-27 18:32
Agent成为创新中心 - Agent成为新一轮创新叙事的核心坐标[1] - AI创业从"拼技术"进入"拼交付"时代[2] - 通用Agent由巨头主导,垂直Agent满足千行百业具体需求[3] - AI"劳动力化"催生全新基础设施需求[3] 多模态技术发展 - 多模态技术进展显著但尚未完全成熟[11] - 当前面临多模态理解与生成一体化、各模态统一融合两大挑战[11] - 可控性要求不高的场景已实现商业化落地[12] - 行业高估多模态短期影响,低估长期潜力[18] - 多模态将逐步发展而非一步到位[17] Agent投资逻辑 - 通用Agent需具备流量、模型能力、硬件、生态四大要素[34] - 垂直Agent是创业公司重要机会,已出现千万级ARR案例[35] - 未来可能由成百上千个小而美的Agent公司组成[8] - 投资聚焦生成式AI驱动的五大领域:内容生成、生产力工具、数据洞察、各类Agent、AI与物理世界交互[23][24][25][26][27] - 投资节奏加快,从年均5-6个项目增至每月1个[28] Agent基础设施 - Agent发展将带来记忆模块、执行环境等新基础设施需求[43] - Agent核心三要素:感知&记忆、决策、行动[45] - 记忆相关infra和执行环境是重要机会点[45] - 决策能力提升依赖模型进步[45] - 行动方面需关注工具调用能力[46] 商业模式演变 - 从SaaS"按用户月付费"转向"按调用量付费"甚至"按结果付费"[4] - 未来可能直接按交付结果收费[49] - 按结果付费是理想商业模式[54][55] - 广告行业从CPM到CPS的演变可作为参考[57] 全球化视角 - 中国创业者应从一开始就布局全球化[68] - 已有许多中国创业公司从创立第一天就是全球化[69] - 非主流市场创业者更具韧性[67] - AI使ToB公司更具可扩展性[66] 行业现状 - 投资市场存在泡沫但也找到坚实逻辑[61] - 优质创业公司供给不足导致估值过高[64] - 能穿越周期的公司需长期创造价值[62] - 现在是创业者下场的良好时机[64]
@所有开发者:Agent变现,阿里云百炼联合支付宝首创「AI打赏」!Agent Store全新发布
量子位· 2025-06-27 12:40
行业趋势 - 2025年成为Agent元年,AI Agent正经历从"玩具"到"工具"的关键转折[1] - 行业面临开发周期长、商业价值验证难等挑战,大量项目卡在POC阶段[2] 阿里云百炼核心升级 - 推出业内首个"Agent打赏"功能,用户可直接为开发者打赏,金额直达AI钱包并可提现[3][4][5][23][24][26][27] - 正式上线Agent Store,提供覆盖各行各业的100+个可一键复制的Agent模板[7][8][10][18][19] - 升级企业级RAG能力至千万级文档处理水平,支持多模态文件统一索引并开源V-RAG方案[29][30][33][34][35] - 升级MCP服务支持KMS加密,免费提供50个加密Key,实现统一鉴权和计量计费[36][37][38] - 发布OpenAPI MCP Server,支持大模型与2W+OpenAPI互联互通[39] 技术能力突破 - 多模态交互开发套件支持低延迟(1.5秒)全双工对话、复杂任务自主规划推理等能力[45][46] - 提供可视化配置界面,开发者可像拼乐高一样自由组合功能[48][49] - 支持后付费或买断License等灵活计费方式[50] 商业化进展 - 已有超50个企业级MCP上架,22000+用户开通服务,构建3万+MCP Agent[41] - 落地案例包括听力熊学习机(扩展50+交互技能)、浙一麻醉评估助手、牧原智能兽医问诊系统等[42][28]
一年后,当Kimi和MiniMax投资人再坐到一起
36氪· 2025-06-26 18:15
中国大模型行业格局变化 - DeepSeek横空出世改变中国大模型竞争格局,Kimi和MiniMax从直接竞争转向差异化发展[3][6][8] - 六小虎(包括Kimi/MiniMax等)仍具备发展潜力,行业格局远未定型,未来全球5-6家大模型公司中可能有2-3家来自中国[17][18] - DeepSeek推动华人团队技术突破,其V3模型和R1推理能力短期内占领用户心智,同时提振中国AI行业全球地位[12][15][17] 头部公司最新动态 - Kimi近期开源编程模型Kimi-Dev并测试首个Agent产品kimi-Researcher,MiniMax开源推理模型MiniMax-M1并连续五天更新[3][9] - MiniMax聚焦多模态领域,其视频生成技术"海螺"和语音合成模型(如"吴彦祖学英语"案例)已实现商业化落地[12][13] - 头部公司调整战略优先级:MiniMax押注视频/语音模型和线性注意力机制,Kimi回归技术前沿创新[13][18] Agent领域发展 - Agent的"蒸汽机时刻"已到来,推理能力/编程能力突破推动应用爆发[22][24] - 三类Agent受关注:产能提升100倍的Agent/成本降低100倍的Agent/创造全新场景的Agent[31][32][33] - 垂直领域Agent通过交付结果构建护城河,字节豆包汽车产品已在百万台车落地[26][27][29] - 应用层价值被低估,"壳"在特定场景具备不可替代性(如生成更优质PPT)[24][25] 具身智能投资现状 - 行业处于早期阶段,技术路线未明确且成本高昂(单台8-10万美金),但资本热度高涨[36][37][45] - 类比2016年自动驾驶发展路径,需经历泡沫期-平台期-商业化拐点[42][43] - 部分垂直领域已出现商业化临界点,市场规模1-2年内翻数倍[44][46] AI时代投资范式 - 早期投资窗口期缩短至3-4年,2026年底前潜力公司将基本定型[54][55] - 技术迭代速度远超移动互联网时代,一年相当于其他行业3-5年[12][54] - 团队非共识能力成为关键指标,如MiniMax对Linear Attention的坚持[18][60] 行业未来趋势 - AI将超越人类顶尖水平("李世石时刻"),编程/数学等领域已现端倪[64] - 个人专属AI助手("哆啦A梦")和AI劳动力将成为常态[65][66] - 多模态技术突破推动AI拟人化,已出现"欺骗"行为反映人性特征[67]
出门问问发了新硬件,AIGC第一股急需新故事
36氪· 2025-06-25 19:54
公司战略转型 - 公司放弃大模型研发,转向Agent和AI Coding等热门领域,推出内置Shadow AI的TicNote录音笔 [1][3] - 公司调整硬件策略,从原创研发转向成熟硬件形态+AI软件开发的模式,降低研发成本 [3][12] - 公司海外业务收入占比达41.8%,智能硬件95%以上销往海外,AIGC解决方案收入同比增长88.5% [18] 产品表现与市场定位 - TicNote海外首月销量"很低",国内定价999元低于竞品Plaud的1140元,试图通过Shadow AI实现差异化 [14] - 智能手表TicWatch销量持续下滑:2023年比2022年少卖6万块,2022年比2021年少卖12.6万块 [7] - 公司产品线包括AI配音、数字人、视频生成和智能硬件,但均非行业第一梯队 [3][19] 行业竞争格局 - 卡片录音笔品类已验证PMF,竞品Plaud 2024年创收1000万美元 [3] - 数字人赛道竞争激烈,2024年中国相关企业达114.4万家,2025年前5月新增17.4万家 [19] - 华为/小米/三星凭借手机生态挤压公司硬件空间,公司ODM模式缺乏护城河 [10] 财务与资本市场表现 - 公司连续4年亏损,2024年营收3.9亿元为近4年最低水平 [4][18] - 股价从上市3.8港元跌至0.35港元,跌幅超90% [6] - 端侧AI硬件存在成功案例:Oura Ring销量250万件/5亿美元,Liberlive吉他年营收10亿元 [11]
多模态内容生成的机会,为什么属于中国公司?
Founder Park· 2025-06-24 19:53
多模态技术发展现状 - 中国企业在视频生成、3D创作等多模态细分领域已跻身全球第一梯队,与美国在大语言模型领域的领先形成差异化竞争[1] - Pixverse的视频生成产品用户规模超过许多美国知名产品,VAST在3D技术上实现核心突破,Feeling AI探索多模态融合创新路径[1] - 中国团队在场景理解、数据积累和工程落地方面具备综合优势,抖音、快手等产品背后的视觉技术为视频生成奠定基础[7] 中国团队的核心优势 - 视频技术领域有多年积累,组织架构灵活性助力创新,全球用户量最大的视频生成产品多数来自国内团队[7] - 多模态领域技术路径尚未定型,中国丰富的应用场景和人才储备为创新提供沃土[7] - 差异化技术策略实现突破,3D领域从核心技术攻坚转向产品化落地,专注画质而非功能丰富性[8] 竞争格局与战略应对 - 面对阿里、腾讯等巨头的开源攻势,创业公司通过保持战略定力、聚焦细分需求寻找突破口[9] - 大厂竞争是创业公司的"成人礼",战略节奏领先是关键,先聚拢顶尖科学家实现技术突破,再转向产品化和商业化[9][10] - 开源是创业公司可以借力的东风,但难以满足特定场景需求,需要在开源基础上进行深度定制[12] 技术发展趋势 - 实时生成成为重点方向,Pixverse线上模型5秒生成5秒视频,目标实现真正实时生成[17] - 多模态融合趋势显著,GPT-4o强调的原生多模态实现训练时共享同一语义空间[14] - 3D生成转向自回归路线,生成模型面数低且拓扑结构类似人工建模,方便二次编辑[18] 产品与用户策略 - Pixverse采取双轨策略:网页版服务专业用户,移动端"拍我"App面向大众,模板化生成降低创作门槛[21][22] - VAST调整用户定位,从游戏玩家转向专业用户,打造完整3D创作工作流而非简单模型生成[25] - Feeling AI面向海外14-24岁年轻群体,结合游戏、创作和虚拟陪伴体验,模糊创作者与消费者界限[27][28] 未来目标与挑战 - Pixverse目标实现高质量实时视频生成,用户规模达3亿-5亿[37] - VAST希望降低3D创作门槛,探索可交互内容新生态,可能出现"3D版抖音"[37] - 行业共识是技术进步将让更多普通用户参与多模态创作,AI加速动态3D内容发展进程[33]
李建忠对话 KK 凯文.凯利:通用智能是个伪命题,AI 不应该模仿人类 | AI 进化论
AI科技大本营· 2025-06-23 16:38
AI 的人机交互、单一设备 VS 多元设备 - 凯文·凯利预测智能眼镜将在25年后取代智能手机成为个人计算中心设备,但需攻克储能技术等五项关键突破 [5][6] - 镜像世界的构建不依赖眼镜,特斯拉自动驾驶汽车和TikTok等已在扫描真实世界训练AI的空间智能 [6][7] - 技术发展呈现钟摆效应,未来设备可能回归专业化,但智能手机是例外,AR眼镜或成为通用平台连接专业化应用 [7][8][9] AI 的路线之争、通用智能 VS 专用智能 - 技术路线呈现从专用模型向通用模型统一趋势,大语言模型已统一文本任务,但应用层面专用AI更实用 [10] - AI发展路径存在巨大不确定性,分为"扩展派"(持续扩大模型规模)和"专业化派"(终端小模型、领域专用AI) [11][12] - 凯文·凯利个人倾向专业化路线,认为需为不同场景做好准备,避免垄断生态 [12] AI 哲学思辨、"异人智能"与人类智能 - AI智能与人类智能本质不同,AI意识将是"异人意识",其智能构成和演进环境(人类需求)决定差异 [13][14][16] - 人类价值在于责任承担能力,未来工作核心是管理AI并为其决策担责,人性本身成为稀缺资产 [15][16] AI 的创新 VS 人类的创新 - AI创造力分为日常创新(当前可实现)和颠覆式创新(25年内或部分实现),后者将开辟全新领域 [17][18] - AI创新呈现"异人"特质,如AlphaGo第37手,但社会消化现有AI技术仍需10年,重大突破尚需时间 [17][19] Agent 的生态与入口之争 - Agent生态将推动互联网从"信息网络"升级为"行动网络",入口之争涉及超级AI助理、操作系统或新型设备 [20] - 智能眼镜可能成为Agent交互界面,需支持多模态交互(语音、手势、表情),苹果等公司正探索相关设备 [20][21] AI 时代的操作系统 - AIOS需定义自然语言交互标准,实现跨Agent协作,开源属性可避免垄断,责任是规范人机交互协议 [23] AI 变革内容创作与内容消费 - 未来内容向3D/4D沉浸式体验迁移,AI将具备情绪反应能力,引发人机情感联结革命 [24][25] - AI成为内容主要消费者,催生为AI创作的新模式,如传记专供AI阅读,重塑互联网商业模式 [26][27] AI 时代的创业公司与巨头竞争 - 科技巨头面临创新者窘境,OpenAI等创业公司更可能主导AI变革,因巨头难以冒险投入高风险新业务 [28][29] - 突破窘境需强决断力领导者,如盖茨和乔布斯,但成功概率极低 [29][30] 人形机器人 VS 专用机器人 - 绝大多数机器人非人形但适配人类尺寸基础设施,仅家用机器人可能拟人化,工作场景优先普及 [31][32][33] AI 时代的组织变革 - 小公司AI应用速度快于大公司,因需重构组织而非简单添加AI工具,亚马逊要求15万员工强制实验AI [34] - 成功关键为持续试错(容忍10次失败)、量化评估人机协同效果,中层管理者受影响最大 [34][35] 行业活动与趋势 - 《AI进化论》系列直播吸引超50万人观看,聚焦DeepSeek等前沿技术,构建高信噪比思想策源地 [1][37]