Workflow
锦秋集
icon
搜索文档
Jinqiu Select | 机器人创业的规模化之路:Physical Intelligence的通用模型实践
锦秋集· 2025-07-24 18:19
通用机器人模型的核心观点 - 通用模型比专用模型更有效、更易用 能实现"一次训练 处处部署" 解决机器人行业规模化困境 [1] - 通过高质量、多样化真实机器人数据验证 仅用2 4%多样化环境数据即可让机器人在陌生环境中工作 [1][6] - 借鉴NLP领域"预训练-微调"策略 使机器人处理未见过的V领衫和纽扣衬衫 折叠衣物成功率从0%提升至可操作水平 [2][7][8] - 技术架构调整如"停止梯度"使指令遵循率从20%提升至80% [2][11] - 利用视觉语言模型生成合成指令 低成本实现复杂指令理解 如"做素食三明治但不要泡菜" [2][14] - 跨平台验证成功 同一模型通过数据微调即可控制新机器人制作咖啡 证明通用部署可行性 [2][10] 行业现状与公司愿景 - 当前机器人领域需为每个应用定制开发硬件/软件 导致规模化困难 [4] - 公司目标开发通用目的模型 使任何机器人在任何环境执行任何任务 类比语言领域基础模型 [5] - 工业自动化数据缺乏多样性 YouTube数据存在人机差异 需通过远程操作收集真实机器人数据 [6] 关键技术突破 - 叠衣服案例:1亿参数模型升级至30亿参数视觉语言模型 折叠时间从20分钟缩短至9分钟 [7][9] - 预训练-微调策略使模型处理未见任务 如清理桌面/研磨咖啡豆/组装纸箱等 [10] - 在100个独特房间收集数据 占预训练数据2 4% 实现在陌生Airbnb中执行任务 [11][12] - 分层模型处理开放式指令 通过合成数据训练理解约束条件(如"不要泡菜")和即时纠正 [14] 数据策略与算法创新 - 高质量数据核心要素:策略一致性、高效性、可靠性 强化学习在后训练中关键作用 [16] - 真实世界数据不可替代 合成数据在评估和强化学习生成经验数据方面有价值 [20] - Transformer架构通过动作分词(tokenize)统一处理视觉、语言、动作信息 [22] 商业化路径 - 家庭应用为起点 扩展至工业场景(如组装纸箱) 激发投资界热情 [18] - 基础设施需求:机器人端需实时推理系统 训练端需多模态数据处理能力 [19]
Jinqiu Spotlight | 浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站
锦秋集· 2025-07-24 18:19
本文转载自 量子位 | 公众号 QbitAI;作者: 时令 01 锦秋基金于2024年投资了 TestSprite。 锦秋基金,作为12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和 创新商业模式的通用人工智能初创企业。 近期,量子位也对TestSprite 进行了采访。以下是本次采访的内容。 零代码、零bug,30分钟即可创建新网站。 更惊人的是,它能让AI写代码准确率从42%跃升至93%。 这是浙大校友专为AI编程设计打造的智能测试平台—— TestSprite 2.0 ,据介绍是行业首个。 AI生成代码早已不是什么新鲜事,如今,它竟然还能自动生成测试报告,甚至调试并修复错误。 程序员内心不禁os:终于有AI能自主debug了啊! 全程无需人工干预 Cursor和Copilot等AI工具已经可以快速生成代码,但该代码是否真的满足要求,还需要严格的验 证。 据介绍,TestSprite是首个专为AI编程打造的测试平台,只需在IDE中提示一次: 使用TestSprite测试这个项目。 TestSprite就会同时审查用户的产品需求文档、描述符和代码库,生成标准且全面的集成 ...
Jinqiu Spotlight | 用户破1000万,造梦次元沈洽金:AI应用创业是踏浪而行,必须站上大模型的每一波浪潮
锦秋集· 2025-07-23 23:39
锦秋基金于2024年领投了 深圳想法流科技有限公司(下称"想法流"或"造梦次元") 锦秋基金是一家专注于通用人工智能的双币早期投资机构, 我们积极投资AI,基金周期12年,积极寻 找有潜力的AI公司。 作为AI原生应用,造梦次元平台的互动内容和核心玩法由大模型驱动,除了调用市面上最先进的大模 型,也会联合模型厂商共创,目前 平台日均tokens消耗量已破千亿 ,假期或周末可以达到1600亿到 1800亿。 基于广泛用户和海量反馈,造梦次元也成为大模型的 "斗兽场"。"新一代的模型出来之后,厂商都喜欢 让我们的产品先调用,来测试模型的效果。" 但沈洽金更希望强调的是 —— 今天 AI应用创业是"踏浪而行" 。 "大模型的发展是一波一波向前的, 我们必须站在每一波浪潮里,并 第一时间 将最新的 AI技术转化为用户可以消费的有趣内容和体验。我 们希望永远是第一家做到这一点的AI内容公司。" 近期,在 高榕创投 X BOSS直聘 组织的AI应用企业联合直播招聘活动中, 想法流创始人、CEO沈洽 金 在线分享了他对于AI应用创业的思考,包括这一波AI应用兴起的驱动力、 产品 增长 旅程 ,以及接 下来两个最重要的命题 ...
6场饭局锦秋小饭桌一线观察:AI创业者的焦虑与突围
锦秋集· 2025-07-23 23:39
这次的6场饭局,我们聊了情感陪伴硬件、多模态技术、AI视频工具、医疗AI落地、具身智能,还有Agent的商业化难题。 从"Golden Words"的模型调教秘籍,到触觉传感器的一致性难题,从AI医疗"最落地的场景反而是AI客服"的反常识洞察,到"女性用户需要拉扯感"的产品哲学——每 一场都有让我们自己豁然开朗的moment。 我们先来说说:锦秋小饭桌是什么? 简单来说,这是一个锦秋基金的固定"活动",每周五晚在北京、深圳、上海、杭州等地举办的AI创业者闭门社交活动。我们把最前沿的创业者、技术大牛聚在一 起,围着一桌好菜,聊那些在办公室里不会聊的真话——没有PPT轰炸,没有商业互吹,只有实打实的干货分享和真诚交流,可能还有各种不敢跟人分享的创业艰 难时刻和投资的决策逻辑。 从2月底第一顿饭开始,不知不觉我们已经连续举办了21场。如果你错过了之前的精彩,没关系——前两次总结分别记录了第1-9场和第10-15场的精彩内容(点击这 里回顾: 锦秋小饭桌开饭啦!吃饱了,咱们一起改变世界! 锦秋小饭桌想喊你一起吃饭! 当然,我们更希望,你能来和我们一起吃吃饭,聊聊你的经历与思考。 这里先插播本周的小饭桌预告: 锦秋小饭 ...
Jinqiu Select | Physical Intelligence 联创:AI训练的真实数据不可替代
锦秋集· 2025-07-22 23:04
Physical Intelligence 联合创始人,加州大学伯克利分校机器人深度学习领域领军人物Sergey Levine最近发表 了一篇深度长文,认为过度依赖替代数据源会严重限制模型的最终能力,真正的突破必须建立在真实数据基础 之上。 Levine教授以"勺叉"(spork)这个巧妙的比喻,剖析了当前AI研究——尤其是机器人AI研究中的一个关键困 境:面对高昂的真实数据收集成本,研究者们总想找到便宜的替代方案,比如用模拟器、人类视频或手持设备 来训练机器人。然而,这些看似聪明的"两全其美"方案,最终都像勺叉一样——想同时当勺子和叉子,结果两 样都做不好。 文章告诉我们,真正的技术突破需要真实数据的滋养 。任何试图绕过这一"苦涩真相"的捷径,都会在模型能 力上付出代价。 锦秋基金认为,这篇文章为正在权衡"快速迭代"与"长期竞争力"的AI创业者提供了一个值得深思的视角,因此 对这篇文章进行了编译 训练大模型真的很难,而且随着模型规模不断扩大、应用领域不断拓展,难度只增不减。LLM(大语言模 型)需要海量文本数据,VLM(视觉语言模型)需要文本和图像的配对数据,而机器人领域的VLA(视觉-语 言-动作)模型更 ...
Jinqiu Spotlight | 锦秋基金被投光本位研发全球首颗存算一体光芯片
锦秋集· 2025-07-22 23:04
以下文章来源于硬氪 ,作者吴若瑜 硬氪 . 专注全球化、硬科技报道。36kr旗下官方账号。 锦秋基金已于2024年12月领投了「光本位科技」。 锦秋基金,作为12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商业模式的通用人工智能初创企业。 2024年12月,存算一体的光计算芯片公司「光本位科技」完成了由锦秋基金领投的战略轮融资,老股东慕石资本、小苗朗程、中赢创投均超额跟投。仅时隔半年的 今年6月,「光本位」再次披露完成一轮新的融资,由敦鸿资产领投,浦东科技天使母基金、苏州未来天使产业基金、张江科投等国资基金跟投,老股东中赢创投 再次加注。 2025年7月22日,硬氪对「光本位科技」进行了采访报道。以下为此次报道的转载。 2022 年,两个未满 30 岁的年轻人:一个关掉美国公司、一个暂停牛津大学读博,双双回国创办了一家叫"光本位"的公司。 如今三年时间过去,光本位完成了全球首颗算力密度和算力精度达到商用标准的光计算芯片流片,成为全球唯一一家实现存算一体,并将 128*128 矩阵 规模光芯片集成到单颗晶粒上的光计算芯片公司。 关掉美国公司的是光本位联合创始人 & 董 ...
Jinqiu Spotlight | 锦秋基金被投星尘智能机器人国家大剧院首秀
锦秋集· 2025-07-22 23:04
全球首个由主流媒体组建的具身智能机器人乐队 ——总台央视网"小央机器人乐队"即将亮相。 该乐队由央视网与 星尘智能 联合打造, 乐队首位乐手及指挥 将于7月23日走进国家大剧院, 在《时光之旅》民族管弦音乐会上, 与北京民族乐团演奏员联袂献艺。 2024年,锦秋基金领投了星尘智能A轮融资。 锦秋基金,作为12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商 业模式的通用人工智能初创企业。 近期,全球首个由主流媒体组建的具身智能机器人乐队——总台央视网"小央机器人乐队"即将亮相。 该乐队由央视网与星尘智能联合打造,乐队首位乐手及指挥将于7月23日走进国家大剧院,在《时光之旅》民 族管弦音乐会上,与北京民族乐团演奏员联袂献艺。这也是国家大剧院首次迎来机器人表演。 以下是此次星尘智能的信息: 这也是国家大剧院首次迎来机器人表演。 一场融合人工智能与民族管弦乐的视听盛宴, 将开启人机交互艺术新纪元, 期待与您共赴这场未来已来的音乐奇旅! ...
梳理了1400篇研究论文,整理了一份全面的上下文工程指南 | Jinqiu Select
锦秋集· 2025-07-21 22:03
文章核心观点 - 上下文工程已成为优化大语言模型性能的关键技术领域 通过系统化框架整合信息获取 处理和管理三大组件 可显著提升模型在复杂任务中的表现 [1][2] - 当前技术面临模型理解与生成能力不对等 长序列处理效率低下以及多模态整合不足等核心挑战 需要突破传统Transformer架构限制 [135][136] - 模块化RAG系统 内存增强型智能体和工具集成推理等实现范式正在推动AI从被动文本生成器向主动世界交互器进化 [68][91][109] Context Engineering技术体系 信息获取与生成 - Prompt Engineering通过Zero-Shot Few-Shot及Chain-of-Thought等高级推理框架激发模型潜力 其中Tree-of-Thoughts在24点游戏中将成功率提升至70%以上 [4][5] - Self-Refinement机制实现模型自我迭代 N-CRITICS采用集成学习思路 而Agent-R通过蒙特卡洛树搜索实时纠正推理路径 [9][10][11] - RAG架构突破模型知识边界 进阶方案如Self-RAG引入自适应检索 HippoRAG模仿人类记忆机制补充关联信息 [14][15] 信息处理 - 长上下文处理依赖架构革新 Mamba等状态空间模型将计算复杂度降至线性 LongNet的Dilated Attention理论支持十亿级token处理 [29][30] - 位置插值技术无需微调即可扩展上下文窗口 YaRN和LongRoPE实现数千到数百万token的跨越 配合FlashAttention-2带来近2倍速度提升 [31][32] - 多模态融合面临模态偏见挑战 先进方法采用交叉注意力机制或统一预训练 结构化数据处理中代码表示效果优于自然语言描述 [41][43] 信息管理 - 内存架构借鉴操作系统概念 MemGPT实现虚拟内存式换页 MemoryBank基于艾宾浩斯曲线动态调整记忆强度 [49][51] - 上下文压缩技术显著降低计算负担 ICAE实现数倍压缩率 ACRE双层KV缓存系统兼顾全局视野与局部细节 [58][60] - 应用场景覆盖法律合同分析 多季度财报推导等长程依赖任务 以及具备持续学习能力的对话式AI [63][66] 系统级实现 RAG系统演进 - 模块化RAG实现乐高式灵活组合 FlashRAG提供5核心模块16子组件 ComposeRAG支持原子化问题分解与自我反思优化 [72][73] - Agentic RAG赋予自主智能体能力 如调查员般执行动态检索 Self-RAG通过反思token形成闭环自优化系统 [74][75] - 图增强RAG转向结构化知识表示 GraphRAG采用社区发现算法分层索引 HippoRAG利用PageRank提升多跳问答性能 [76] 内存增强型智能体 - 记忆系统分类涵盖短期工作内存与长期持久化存储 后者通过外部存储解决上下文窗口限制 [82][83] - REMEMBERER框架实现经验记忆 LangGraph等工具集成RAG与向量数据库 Mem0结合图数据库提升检索效率 [84][85] - 评估框架LongMemEval揭示商业AI助手在长时间交互后准确率显著下降 反映记忆持久性不足的行业痛点 [87] 工具集成推理 - Function Calling技术路径分化 微调方法稳定性高但资源密集 提示工程方案如Reverse Chain更轻量灵活 [95][96] - 训练数据生成策略成熟 APIGen分层验证流程支持数千API覆盖 Hammer框架通过函数掩码增加训练难度 [97] - 多智能体协作框架展现集体智慧 DyLAN实现精密任务拆解 MetaGPT增强专业化分工 MAD优化并行处理能力 [109] 评估与挑战 - 组件级评估需针对性设计 如"大海捞针"测试长上下文处理 结构化数据集成需关注序列与结构信息冲突场景 [124][125] - 系统级评估暴露协同问题 Agentic RAG需测试任务分解准确性 工具集成系统需覆盖完整交互轨迹 [126][127] - 新兴基准如GTA显示GPT-4完成率远低于人类 反映真实场景性能差距 为创业者指明改进方向 [128][129]
Manus季逸超:构建Manus的经验教训 | Jinqiu Select
锦秋集· 2025-07-19 13:00
通用型AI Agent技术路线 - 业界形成两条技术路线:端到端训练和上下文工程 模型厂商倾向端到端训练以发挥自有闭源模型优势 而通用Agent创业公司多选择上下文工程路径[1] - Manus团队作为上下文工程代表 其技术负责人季逸超因GPT-3导致自研模型失效经历 选择成为"涨潮中的船"而非"固定支柱"的技术哲学[4] - 上下文工程通过四次系统重构和服务数百万用户验证 将产品迭代周期从数周缩短至数小时[2][5] KV-Cache优化实践 - KV-cache命中率是生产阶段AI代理最关键指标 直接影响延迟和成本 Claude Sonnet缓存/未缓存token成本相差10倍(0.3 vs 3美元/MTok)[7] - 优化方法包括:保持提示前缀稳定 使用仅追加上下文 确保序列化确定性 手动标记缓存断点 分布式节点路由技术[9][10][11] - Manus平均输入与输出token比率达100:1 通过缓存优化实现10倍成本降低[7] 工具管理策略 - 动态修改工具定义会导致KV-cache失效和模型混淆 Manus采用token logits屏蔽技术替代动态修改[12][13] - 设计工具命名一致性(如browser_/shell_前缀) 结合三种函数调用模式(Auto/Required/Specified)实现上下文感知约束[16] 上下文扩展技术 - 突破128K token限制:将文件系统作为外部化内存 保留可恢复压缩策略(如仅存URL) 实现无限上下文存储[18][22] - 创建并持续更新todo.md文件 通过自然语言复述将任务目标保持在模型注意力焦点 解决50次工具调用中的目标偏离问题[23][26] 错误处理与多样性 - 保留错误内容可让模型从失败动作中学习 错误恢复能力是真实代理行为的关键指标[27][30] - 避免few-shot陷阱 通过引入动作/观察的结构化变化打破重复模式 防止模型陷入固定行为路径[31][32][33] 行业发展趋势 - 上下文工程成为代理系统必备能力 模型进步需结合内存/环境/反馈设计 未来代理将基于上下文迭代构建[35] - 创业团队通过轻量级技术路径验证 锦秋基金关注AI Agent赛道早期创新项目[3][36]
OpenAI 对齐研究负责人:把“意图规范”当成真正的源代码 | Jinqiu Select
锦秋集· 2025-07-18 23:29
核心观点 - AI时代编程的瓶颈在于沟通而非代码实现 澄清意图的系统化工程化比提升模型能力更具价值 [2][4][6] - 程序员80-90%价值在于结构化沟通 代码仅体现10-20%价值 [4] - 规范是真正的源代码 具有可执行 可测试 可生成多形态产物的特性 [5][7][9] 程序员价值重构 - 程序员核心价值是结构化沟通流程 包括需求理解 方案设计 计划传达 效果验证 [4] - 验证重点在于"代码对世界的影响"而非代码本身 [4] - 未来最有价值的是擅长沟通意图的开发者 [6] 规范的本质特性 - 规范是代码的"无损版本" 保留原始设计意图和注释 [5][7] - 单份规范可生成代码 文档 教程 播客等多样化产物 [5][7] - 规范具备唯一ID标识 对应测试用例形成闭环验证 [9][13] OpenAI实践案例 - Model Spec采用Markdown格式 实现跨部门对齐 非技术人员可参与贡献 [9] - 规范作为"信任锚" 快速定位GPT-4o谄媚行为问题并修复 [10] - 审议式对齐技术将规范内化为模型权重 实现自动化评估 [11][12] 行业变革方向 - 编程工具链向规范管理演进 出现规范类型检查 单元测试等新工具 [13] - IDE可能进化为"集成思想澄清器" 消除表达歧义 [14] - 立法与编程界限模糊 规范成为跨物种对齐工具 [8] 商业模式启示 - 帮助用户明确意图的产品设计将创造新商业机会 [2] - 规范编写能力成为未来稀缺技能 [14] - 早期项目应优先构建规范体系而非直接编码 [14]