Workflow
Z Potentials
icon
搜索文档
速递|开源Agent Hermes超车OpenClaw:Agent进入自学技能竞争
Z Potentials· 2026-06-22 14:41
开源AI Agent竞争格局 - 在开源AI Agent软件OpenClaw取得巨大成功后,市场出现了模仿者,其中一些在关键指标上正迅速追赶[2] - 来自Nous Research的智能体工具Hermes,其近30天在GitHub上的新增贡献者数量已超越OpenClaw,该指标是衡量开发者活跃度的重要依据[2] - 如果OpenClaw难以从实验性项目转型为稳定可靠的正式软件,包括Hermes、英伟达的NemoClaw、Genspark Claw在内的同类竞品将获得更大的市场机遇[2] Hermes产品核心特性 - Hermes与OpenClaw一样,是运行在用户设备本地的AI Agent软件,能够自动化执行电脑上的多种任务,例如编写代码、搜索商品、发送电子邮件或WhatsApp消息等[3] - Hermes的核心区别在于其具备自主学习能力,能够随时间推移学习用户最常要求的任务[3] - 该能力通过自动编写“skill”(类似操作指南的文档)实现,当Agent完成涉及超过五次以上“工具调用”的复杂任务,或在多次尝试失败后找到可行解决方案时,系统会自动生成这些指令[3] - 相比之下,OpenClaw等其他Agent系统需要用户自行编写这些skill[3][4] 公司背景与融资 - Hermes的开发商Nous Research自2023年成立以来,已从Paradigm、OSS Capital和Distributed Global等投资方获得7000万美元融资[4]
深度|顶级资本下注,Sand.ai三个月两轮融资超1亿美元,专注视频生成下一个前沿
Z Potentials· 2026-06-22 14:41
融资情况与机构认可 - Sand.ai近期连续完成2轮融资,融资金额超过1亿美元,投资方包括Look Capital、Lollapalooza Capital、九坤创投、经纬创投、和玉资本、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构[1] - 经纬创投持续关注范式级别技术创新,对公司连续多轮押注,认为公司具备完整预训练和后训练经验以及扎实的Infra工程能力,是全球最早大力投入多模态自回归和MoE架构的团队之一[1] - Lollapalooza Capital认为视频生成是重要投资方向,中国团队在该领域有非常强的全球竞争力,Sand.ai在底层模型、系统工程、产品体验和商业化之间形成了良好闭环[1] - 和玉资本作为连续融资的首轮新股东领投方,坚定看好公司的模型及产品全栈能力和前沿探索精神,认为公司新一代模型在理解物理规律、因果逻辑和长期叙事上具备更深厚的潜力[1] - 多家一线机构的同时押注,可能不仅是对当下成绩的定价,更是对未来技术范式的提前投票[1] 技术路线与架构创新 - 在视频生成领域方向尚不清晰时,公司率先将研究重心放在自回归架构上,成为该方向最早的定义者之一,认为视频不止是像素生成,而是对时空和物理规律的压缩[2] - 公司判断相比Diffusion,自回归在实时交互、长期预测和世界理解方面具备更大潜力[2] - 公司于2025年初发布的自回归视频世界模型Magi-1,在Google-DeepMind提出的物理真实性测试榜单Physics-IQ中取得绝对领先,得分64.5%,超越了Nvidia的旗舰模型Cosmos3-Super的63.4%[4] - 公司于2025年九月底推出原生音画同出模型,将声音信号纳入统一建模体系,是国内最早拿出音画同出的团队之一,发现声音与画面联合建模可以相互提升生成逼真度[5] - 公司认为只有通过高维、多模态的联合建模,模型所压缩出的世界规律才会更接近物理世界的真实表达,从而避免传统单一模态生成带来的“认知断层”[5] - 为解决规模化瓶颈,公司从传统Dense转向MoE架构,该架构能根据生成内容动态激活部分专家网络,在提升模型能力的同时大幅降低训练和推理成本[6] - 公司针对MoE在视频模型中面临的挑战,引入了全新的routing机制优化通信效率,提高专家粒度和训练稳定性[6] - 公司采用了single-stream统一架构,将文本、图像、视频、声音等不同模态统一映射为Token序列,并交由同一个Transformer进行建模,而非业界常见的multi-stream架构[6] - 在Single stream架构和MoE动态路由机制作用下,不同专家网络能根据输入内容自动学习参数分工与模态协同关系,使模型能在训练过程中自主发现不同模态之间的关联结构[6] - 公司持续投入底层基础设施研发,针对长序列和异构注意力场景进行系统优化,例如推出Magi Attention等创新算子,在保证建模能力的同时显著提升训练与推理效率[7] - 公司的技术演进路径始终锚定在驱使模型跨越“内容生成”的表象,真正沉淀为对现实世界运行规律的理解与拟真[7] 世界模型理念与发展路径 - 公司创始人认为视频生成不是终点,世界模型的核心是预测,但对“人类试图定义隐藏状态是什么”保持警惕[8] - 公司创始人判断,真正该预测的是世界唯一免费且自带监督信号的观测本身,直接建模原始数据来构建世界模型,大概率是最具可扩展性的方案[9] - 公司创始人认为在所有原始观测中,视频最接近真实世界,视频模型的演进是不断逼近真实世界的过程[10] - 视频模型的能力提升,如时间连续性、音画同步、多镜头生成、预测未来、实时交互等,是让模型从更完整的观测里自己长出对空间、时间、声音、因果的理解[10] - 现阶段,视频模型已在短视频、短剧制作、内容生产等市场率先跑通商业价值,商业化带来的现金流和用户反馈为模型迭代提供燃料[10] - 公司创始人相信,next-frame prediction之于具身智能,会是同一条最终胜出的路:拒绝在观测之上再架一层人造的状态,让模型自己优化[10] - 视频生成是通往世界模型终局过程中最重要的一座“加油站”[11] 团队能力与行业竞争 - 全球范围内,真正具备第一梯队能力的视频基础模型团队不超过五家[13] - 进入世界模型阶段后,竞争转向数据体系、模型架构、训练效率与产品闭环等系统能力,决定胜负的已经是组织本身[13] - 公司创始人曹越曾是前光年之外联合创始人、北京智源人工智能研究院研究中心负责人、前微软亚洲研究院主管研究员,其代表性工作Swin Transformer是视觉Transformer架构的重要基础组件,并在ICCV 2021获得最佳论文奖[14] - 创始人曹越的论文引用量近9万次,属于基础研究驱动型技术背景,决定了团队在架构选择上更偏向“问题本质”[17] - 算法负责人张拯是前微软亚洲研究院研究员、ACM亚洲区域赛金牌得主、Swin Transformer核心作者,Google Scholar总引用量近7万次[17] - 运营增长负责人王佳曾是抖音创始团队七人之一,完整经历抖音从0到1的运营总监,也是Minimax C端的运营负责人[17] - 产品负责人张子贺曾主导剪映PC端从0到1的产品策略与体验设计,负责过一加手机相机影像体验优化,并长期作为视频内容创作者活跃在B站生态中[17] - 团队组合使其同时具备理解模型如何“学习世界”和理解内容如何“被使用”的两种能力,这种结构本身就是稀缺资源[17] - 公司的股东结构是多类长期主义资金的重叠组合,包括产业资本、关注前沿技术的美元基金、投硬科技的机构、科技公司背景的投资方以及连续创业起家的个人投资人[18] - 股东队伍为公司带来的不止是资金,更是一张覆盖不同视角、不同经验的认知网络,对于一家要做长线技术的企业来说,这种组合比单纯的资金更有价值[20]
速递|谷歌AI大将Noam Shazeer跳槽OpenAI,Transformer核心作者,曾主导Gemini开发
Z Potentials· 2026-06-22 14:41
核心观点 - 谷歌顶尖AI研究员诺姆·沙泽尔离职并加入竞争对手OpenAI,这对谷歌在构建全球最强大AI模型的数十亿美元竞赛中构成了一次挫败 [2][3] 关键人物与事件 - 诺姆·沙泽尔是2017年谷歌开创性研究论文《Attention Is All You Need》的合著者,该论文提出的Transformer架构支撑了当今的生成式AI [4] - 沙泽尔通过X平台宣布离职,将加盟OpenAI并领导其AI架构研究 [3] - 沙泽尔于2000年加入谷歌,曾为搜索引擎的拼写校正器和广告技术做出关键贡献 [4] - 他于2021年因谷歌在推出生成式AI产品方面进展缓慢而离开,并创立了聊天机器人初创公司Character.AI [4] - 2024年,他通过一项估值达25亿美元的授权协议重返谷歌,并共同主导了公司旗舰AI模型Gemini的开发 [4] 行业竞争格局 - 谷歌正与OpenAI、Anthropic以及埃隆·马斯克的SpaceX在一个关键行业展开激烈竞争 [4] - 谷歌在向企业销售AI编码工具的市场中已落后 [4] - 谷歌自身的研究人员必须应对内部政治才能获取计算资源 [4] 市场与公司表现 - 谷歌股价近几个月来大幅上涨,得益于市场对其在开发AI模型、为其提供动力的芯片以及覆盖数十亿用户使用的消费者应用等方面广泛角色的热情推动 [4]