Workflow
量子位
icon
搜索文档
量子位编辑作者招聘
量子位· 2026-01-26 18:14
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] 岗位职责详情 - AI产业方向岗位职责:关注基建层创新,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[5][6];跟进前沿论文、开源社区及技术大会报告并进行大众化解读[6];参与核心采访,对话产业专家并撰写落地案例[7] - AI财经商业方向岗位职责:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者及产业分析人士[11] - AI产品方向岗位职责:关注AI在软件应用产品和硬件终端的落地[11];撰写AI应用产品深度评测,跟踪多终端新品发布[11];对话访谈AI应用创业者、产品专家及终端技术专家[11] 任职要求 - AI产业方向任职要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业供应链与生态[11];具备将复杂技术内容结构化表达的能力[11];有技术背景、理工或CS/EE方向优先[11] - AI财经商业方向任职要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - AI产品方向任职要求:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工通过撰写独家原创内容,可建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑提供的一对一指导[6] - 公司提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[6] - 公司团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6]
让Agent画思维导图稳固长期记忆:新框架实现稳定长期学习,准确率提升38%
量子位· 2026-01-26 18:14
文章核心观点 - 传统RAG架构在支撑智能体长期记忆和持续学习方面存在结构性瓶颈,难以表达时间顺序、因果关系和状态演化,导致记忆漂移和逻辑断裂 [2][3][10] - 中国电信人工智能研究院提出了一种基于有向无环图的通用记忆框架TeleMem,将记忆从向量集合升级为可演化的时序因果图,旨在构建一个能够支撑长期持续学习、结构稳定且可规模化的记忆系统 [3][11][15] - TeleMem通过统一的语义节点、因果连边与DAG约束,以及表征与索引的双层协同更新机制,实现了记忆的可追溯、可累积和可演化,在实验中显著提升了长程对话的准确率并降低了推理成本 [11][16][38][41] - 该研究反映了智能体技术的一个长期趋势:记忆系统正从检索设计转向记忆结构与持续学习机制设计,结构化、可演化的记忆系统是智能体迈向长期智能的关键基础设施 [43][44][47] 传统RAG架构的局限性 - **缺乏时间与因果结构**:向量数据库擅长相似度检索,但无法描述事件先后关系、状态依赖和决策演化路径,导致系统难以形成稳定的学习轨迹 [5][6] - **上下文碎片化严重**:检索返回的是离散片段,模型需自行补全逻辑链条,容易产生幻觉与不一致推理,在持续学习场景下会导致认知漂移和策略不稳定 [7][8] - **索引随规模恶化**:随着历史数据增长,写入成本、索引漂移和存储冗余不断累积,系统难以在长期运行中保持稳定的学习能力 [10] - **本质问题**:RAG面临的并非检索精度问题,而是其记忆数据结构难以承载跨时间的知识积累、状态演化与因果依赖,因此难以支持真正意义上的持续学习 [10] TeleMem记忆框架的核心设计 - **数据结构升级**:将所有历史记忆统一组织为一张有向无环图,使记忆从孤立的向量写入升级为可被持续累积、回溯和修正的可演化认知结构 [11][15] - **图的构成要素**: - **节点**:表示一段已被语义理解并稳定固化的记忆状态,包含内容语义、向量表征和时间信息,对应一次对话状态、关键事件或阶段性的认知更新结果 [12] - **依赖边**:表示节点之间显式的语义与因果依赖关系,边为有向结构并严格满足时间约束,保证语义单调演化,避免循环依赖与认知回滚 [13] - **路径**:多条依赖边串联形成可追溯的记忆演化链,刻画了智能体的认知更新与持续学习轨迹 [14] - **统一的语义节点**:节点是承载多类型语义表征的复合结构,覆盖用户状态、交互事件和环境对象等多个语义层面,保存的是被模型理解并稳定固化后的语义状态,而非原始数据,这降低了存储与索引成本并支持跨任务迁移 [16] - **因果连边与DAG约束**:依赖边同时表达时间顺序、语义依赖和逻辑约束,DAG结构天然避免循环依赖,从结构层面降低灾难性遗忘与隐性知识覆盖的风险,为增量构图和长期维护提供可靠基础 [17][18][19] TeleMem的协同更新与检索机制 - **表征与索引的双层协同更新**: - **表征层**:负责语义内容的抽象、压缩与状态演化 [20] - **索引层**:负责维护节点之间的时间约束、因果依赖与可检索拓扑结构 [21] - 通过离线批量与在线流式两条路径协同更新,覆盖不同时间尺度下的需求,在吞吐、稳定性和长期可维护性之间取得平衡 [21][32][33] - **离线批量更新**: - **表征层更新**:通过高度并行的批处理流水线,将原始交互持续压缩为稳定的长期语义记忆,流程包括记忆抽取、检索对齐和聚类决策,支持多层级并行,实现了可随数据规模线性扩展的写入效率 [22][23][24][25][27] - **索引层更新**:采用并行化的批量构图方式,利用索引只读、时间约束天然无环和批量追加写入等工程设计优势,将构建大规模记忆索引转变为可线性扩展的并行计算问题 [28][29][30][31] - **在线流式更新**:面向实时交互,强调低延迟与持续可用性,表征层进行增量更新,索引层基于检索完成近似挂载并进行局部结构调整,允许短期近似误差但保证结构持续稳定演化 [32] - **读取机制:从片段拼接到因果闭包还原**: - 传统RAG是“Top-K相似片段拼接”,在长对话场景中容易因缺乏前置条件、结构约束和上下文碎片化而失效 [34] - TeleMem的读取目标是“复原一段完整因果上下文”,通过种子定位、因果回溯和闭包构造三个步骤,形成一个最小闭包子图,提供前因后果相对完整的上下文,显著降低碎片化带来的推理偏差 [34][35][36] - 在复杂多模态查询场景中,可采用ReAct风格的推理范式,通过多轮迭代在文本记忆与视频内容之间逐步补全信息 [36] 实验结果与性能表现 - 在中文长程对话基准ZH-4O测试中,TeleMem的准确率达到**86.33%**,相比RAG基线提升约**38个百分点**,相比Mem0提升约**19个百分点** [38] - 在保持高准确率的同时,显著降低了推理成本与延迟,不再需要每次将完整历史上下文输入模型,记忆规模也不再受限于模型的上下文窗口,可稳定支持**千轮乃至万轮**对话 [41] - 系统支持多模态记忆管理,在复杂、多源信息场景下仍能保持较好的组织与检索稳定性 [42] 行业趋势与意义 - **技术趋势**:智能体能力正从“检索系统设计”逐步转向“记忆结构与持续学习机制设计”,记忆成为承载学习、认知演化与策略稳定性的核心基础设施 [43][44] - **未来智能体的关键能力**:需要具备可追溯的状态与认知演化路径、可持续维护的长期记忆与增量学习能力,以及可解释的上下文回溯与学习来源追踪能力 [46] - **行业意义**:结构化记忆系统不仅提升检索效率,更是在为智能体构建一个可持续学习、可演化认知与长期稳定行为的底层支撑层,可能成为下一代智能体基础设施从“工具型系统”迈向“长期智能体”的关键分水岭 [47]
Skills刚火,就有零Skill的Agent来了…
量子位· 2026-01-26 18:14
文章核心观点 - 介绍了一种名为“原位自进化”的新型AI智能体(Agent)范式,该智能体能够在执行任务的过程中,自主创造并积累可复用的工具,从而在无需预先定义技能(Skills)或依赖大量人类标注的情况下,动态扩展其能力边界,并在多个高难度基准测试中取得领先性能 [1][3][45][52] - 该研究由中国公司云玦科技的团队完成,其核心是“工具优先”的理念,通过一个包含管理者、工匠、执行者和整合者的多角色系统实现智能体的自我进化,且该框架已开源 [60][68][88][90] - 该技术被视为解决AI在开放性、可控性与经济性之间“不可能三角”的一种潜在方案,通过让智能体在推理阶段“边做边学”,有望使开源模型获得动态优势,从而与闭源模型竞争 [106][114][115][128] 技术原理与框架:原位自进化 - 核心概念是“原位自进化”,这是一种发生在模型推理阶段的自进化过程,区别于传统在训练阶段依赖外部监督信号的自进化 [45][52] - 该框架无需外部监督或真值标注,仅依靠模型推理时的内部反馈和过往交互经验,就能提炼出可复用的通用技能,实现“边做边学” [53][54] - 团队选择了“工具优先”的进化路径,认为工具直接决定了智能体的能力边界,且工具执行产生的代码报错等二元判别信号是天然的高质量监督信号,无需人类标注 [61][62][65][66] - 智能体系统由四个角色协同工作:管理者负责任务分析与规划;工匠负责按需创建新工具;执行者使用工具执行任务;整合者生成最终答案 [68][69][70][71][74] - 任务完成后,系统会进行复盘,将迭代过程沉淀为可复用的方法论并更新工具库,同时引入“并行批处理”机制,通过批量处理相似任务来大幅提升进化效率 [77][83][84][85] 性能表现与实验结果 - 以Gemini 3 Pro为后端模型的该智能体,在被称为“地狱级评测”的HLE基准测试中表现出色,成绩仅次于GPT-5.2-Pro智能体 [4] - 在多个高难度评测集(HLE, DeepSearchQA, FinSearchComp, XBench)中,该智能体的性能超越了官方未披露方法的含工具使用的结果,高出近20分 [5] - 在总计处理近4000道题目的过程中,智能体从零开始自主创造了128个工具,其中在HLE的2000多道题上就创造了97个工具 [19][24] - 工具创造呈现边际效应递减并最终收敛于128个,表明所造工具具备高度的可复用性,能够覆盖后续绝大多数新任务,无需继续扩张 [27][28][29][32][33] - 在知识迁移策略下,旧工具库能有效减少新工具的创造需求,例如在XBench的两个阶段,新工具创造数量直接降为0 [35] - 智能体最常使用的工具与人类工作习惯高度一致,如网页搜索、内容获取、计算器、文件下载等,且工具使用频率呈现明显的马太效应 [38][39] 行业背景与意义 - 行业普遍认为,实现人工超级智能的关键节点之一是AI能够自进化,但传统讨论多集中于参数层面的进化 [56] - 该研究关注的是工作流、记忆和工具层面的进化,被视为更现实可行、能立即落地的解决方案 [57][58] - 该技术有望破解AI在To C场景下面临的“开放性、可控性、经济性”不可能三角:通过工具集解决能力边界问题,通过代码执行反馈保障可控性,并通过自进化处理开放需求同时控制成本 [106][114][115][116] - 对于开源生态而言,该技术可能改变游戏规则,若能赋予开源模型“越用越好用”的动态自进化能力,将有助于其与闭源模型竞争 [118][120][128] 研究团队与项目细节 - 该研究由云玦科技的团队完成,该公司由前阿里巴巴集团副总裁彭超创办,旨在开发可穿戴通用智能体 [91] - 论文通讯作者是云玦科技联合创始人兼CTO齐炜祯,他是多词元预测架构ProphetNet的第一作者,该架构被DeepSeek V3、Qwen-3-Next等多款主流大模型采用为核心预训练方法 [92][94][95] - 论文第一作者是李昊天(哈工大博士生)和杨释钧(中科大硕士生),他们在云玦科技实习期间完成了此项工作 [103] - 该研究实验经费仅为15万元,所有数据集和实验结果均为“一次通过”,没有资源进行反复调参,凸显了方法的稳健性 [104] - 该项目已完全开源,包括实验的所有日志数据、评测脚本和结果 [88]
Clawdbot作者:亿万富豪本豪,复出只因退休太空虚
量子位· 2026-01-26 14:51
文章核心观点 - 火爆全网的AI产品Clawdbot的创始人Peter Steinberger是一位拥有成功创业经历的亿万富翁,其在财富自由后再次投身AI创业,展现了资深创业者把握技术浪潮的敏锐与热情 [1][6][57] - 创始人Peter Steinberger的职业生涯分为上下半场:上半场成功创建并出售了文档处理SDK公司PSPDFKit,获利约1亿欧元;下半场在经历四年空虚后,于2025年复出创立AI Agent公司,并迅速推出现象级产品Clawdbot [14][40][53] - AI技术的出现为上一代优秀的创业者提供了“迟到多年的入场券”,创造了将现有产品重做一遍的巨大机会,Peter Steinberger的复出是这一趋势的典型代表 [56][57][58] 创始人背景与首次创业 - 创始人Peter Steinberger是奥地利人,毕业于维也纳科技大学计算机专业,在学生时期已是资深iOS开发者,并推动了母校首门Mac/iOS开发课程的开设 [15][16][17] - 2010年,Peter为一位客户开发基于PDF的杂志App,随后意识到将纸质文档数字化的商机,于2011年启动了个人项目PSPDFKit [19][20][23][26] - PSPDFKit项目进展迅速,网站上线第一周就售出多份授权,并从第一天起就开始盈利,其副业收入很快超过了其在硅谷的正职工作工资 [30][34] - PSPDFKit为企业提供PDF文档处理(如电子签名、查看、编辑、协作)的SDK和API,降低了企业的技术门槛,业务因此高速发展 [25][36][37] - 到2021年,PSPDFKit已成为文档处理领域的事实标准,客户包括Apple、Adobe、迪士尼等知名企业,间接服务覆盖150个国家,触达近10亿消费者 [38] - 2021年10月,Peter Steinberger在获得Insight Partners投资后,选择套现退出,出售大部分股份,交易金额约为1亿欧元(约8.3亿人民币) [4][40] 再次创业与AI产品 - 在首次创业退出并经历四年财富自由生活后,Peter Steinberger感到内心空虚,最终意识到通过创造和写代码才能获得真正的快乐与意义 [45][48][49][52] - 2025年6月,Peter Steinberger宣布复出创业,其领英最新身份为Amantus Machina的创始人,致力于研发下一代超个性化AI Agent [53][54] - 复出后不到一年,其团队便开发出Clawdbot,这是一个7x24小时开源的AI助理,能像私人秘书一样主动向用户汇报,具备填写表格、发送邮件、控制浏览器等多种Agent功能 [7][8][9] - Clawdbot被网友誉为“真·贾维斯”和“绝对的GOAT”,成为全网刷屏的现象级AI产品,甚至带动了Mac mini的销售 [9][12]
AI招聘逆天研究:看照片预测一生职业成就
量子位· 2026-01-26 14:51
AI招聘系统的应用与法律风险 - 微软、拜耳、PayPal等大厂使用的AI招聘系统Eightfold AI因算法歧视被两名求职者告上法庭 [2][3] - 诉讼除要求经济赔偿外 还呼吁法院监管黑箱算法 提高招聘筛选过程的透明度 [4] - 该案件凸显了AI招聘系统因算法不透明和潜在偏见引发的广泛争议 [26] AI通过人脸预测职业的研究方法与发现 - 研究由美国多所顶级高校完成 数据规模扎实 收集了近10万名MBA毕业生的数据 涵盖美国前110商学院 [7][8][9] - 核心方法是用1.2万多人的自拍和性格问卷训练AI 将人脸转换为数字信号以预测五大人格特质 [11] - 将AI预测的人格特征与MBA排名、起薪、薪资增长、管理岗位及职业稳定性等现实职场数据对照分析 [13][14] AI预测人格与职场结果的具体关联 - 薪资方面:男性尽责性和外向性越强 初始薪资越高 且责任心强的男性薪资增长更快 [17] - 薪资方面:女性中外向性加分 但责任心强可能抑制薪资增长 毕业五年后 男性尽责性、女性宜人性与薪资增长关联最突出 [17][18] - 职业稳定性:宜人性和责任心强的人工作更稳定 外向性、神经质高的人跳槽更频繁 神经质者跳槽行业范围窄 责任心强者可跨行业跳槽 [20] 研究涉及的样本数据统计 - 男性样本70,593人 平均起薪155,388.77美元 五年后平均薪资208,180.59美元 [20] - 女性样本26,316人 平均起薪137,507.71美元 五年后平均薪资178,117.62美元 [20] - 研究还统计了初始职级、五年后职级、读MBA时年龄、照片中年龄及吸引力评分等数据 [20] AI筛选系统的主要争议与风险 - 核心问题在于训练数据 若数据存在隐性偏见和不公平 模型会放大这些问题 [22][23] - 算法筛选的隐蔽性更可怕 即使无意歧视 有问题的训练数据也会将部分求职者拒之门外 且求职者无法知晓被拒原因 [24][25] - 类似争议已出现在高校AI招生中 如弗吉尼亚理工大学用AI审核申请材料省了约8000小时人工 但被质疑可能暗含不公平偏好 [27][29][32]
“开源版贾维斯”一夜席卷硅谷!Mac mini因它卖爆
量子位· 2026-01-26 12:45
文章核心观点 - 开源AI助理Clawdbot的发布引发了市场强烈反响,其强大的个人AI智能体功能直接带动了Mac mini等硬件设备的销售热潮,并展示了AI代理在自动化工作与生活任务方面的巨大潜力 [1][2][4] Clawdbot的市场热度与影响 - Clawdbot在GitHub上迅速获得超过两万颗星,成为明星项目 [4] - 产品发布后,大量用户在Google上搜索Mac mini,显示出其对硬件需求的直接拉动效应 [2] - 有用户一次性购买十二台Mac mini进行部署,显示了极高的用户热情和投入 [12] - 开发者呼吁用户使用亚马逊云服务器免费部署,以减轻对苹果硬件的抢购压力 [14] Clawdbot的核心功能与特性 - 这是一个全天在线的AI智能体,能够调用Claude、Gemini、GPT、DeepSeek等多种大模型 [6][18] - 可作为网关,允许用户通过Discord、Beeper等常用聊天软件进行指挥和对话 [6][15] - 部署在本地设备(如Mac、Windows、树莓派),拥有与人类用户同等级别的系统权限,可直接调用终端、编写脚本或安装软件来执行任务 [16] - 具备持久化记忆功能,能跨越会话周期记忆用户习惯与项目细节 [18] - 具有在对话中自我进化的特性,能将用户教导的新API文档或操作逻辑内化为永久技能 [19] Clawdbot的技术架构 - 系统核心由四部分构成:Gateway(网关)、Agent(智能体)、Skills(技能)、Memory(记忆) [21] - Gateway是神经中枢,连接聊天平台并打通智能体与外部世界的交互通道 [21] - Agent驱动思考过程,处理复杂的上下文记忆与逻辑推理 [21] - Skills赋予执行能力,如网页调研、浏览器自动化、访问邮箱等 [21] - Memory负责以真实文件形式持久化保存所有对话与偏好 [21] - 开发者Peter为其构建了强大的工具链,包括具备自主上网调研、上传文件及自我纠错能力的Oracle命令行工具,以及能将音视频快速转录为Markdown笔记的本地摘要工具 [24][25] - 借助Tailscale网络,可实现跨设备远程指挥,例如从MacBook指挥Mac Studio执行任务 [25] 用户应用案例展示 - 有用户部署了15个以上Agent,管理三台机器,通过一个Discord频道指挥其处理超过10,000封邮件、总结122页Google Slides、构建CLI工具、重构代码、优化Google广告、生成社交媒体内容、甚至开发交易分析研究UI等多样化任务 [6][9] - 用户授权智能体登录超市官网,通过读取短信验证码,实现杂货采购的全自动下单 [27][29] - 用户在健身间隙发现程序Bug,通过发送消息给Clawdbot,在组间休息期间即完成代码修补 [29] - 用户建立日志系统,让智能体在夜间自动对白天的想法进行深度研究和代码验证,次日早晨即可提供包含利弊分析的完整决策报告,报告文件大小从1.1K到64K不等 [32][34][35] - 用户构建基于天气预报的全年膳食规划系统,自动生成365天菜单,并根据天气(如晴天安排烧烤,雨天推荐热汤)和超市货架分类购物清单,预计每周节省至少一小时 [36][38][40][42] - MacStories站长将运行在M4 Mac mini上的Clawdbot(命名为Navi)接入ElevenLabs语音合成与Groq语音转录,打造懂自己的数字管家,并通过本地Shell脚本替代了Zapier的云端自动化流程 [43][45] - 有用户通过Clawdbot部署本地Ollama模型,以节省云端API消耗 [47] - 有博主给予Clawdbot两千美元启动资金,让其通过自主交易(如每隔四小时进行市场调研并提出交易思路)来赚取购买NVIDIA GeForce RTX 4090显卡的资金 [49][51] 开发者背景 - Clawdbot的作者Peter Steinberger是一名退休程序员和亿万富翁,并非AI创业新手 [55][56] - 其此前开发的PSPDFKit产品成为全球文档处理标准,被苹果、迪士尼等公司采用,并于2021年以约1亿欧元的价格出售 [58] - 退休后因感到空虚,于2025年宣布复出,全职写代码,在不到一年时间内独立开发出Clawdbot [59]
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
量子位· 2026-01-26 12:45
Mistral CEO关于DeepSeek-V3架构言论引发的争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示,中国在AI领域实力强劲,并称其公司是最早发布开源模型的公司之一[2] - Arthur Mensch声称,Mistral在2024年初发布了首个稀疏混合专家模型,而DeepSeek-V3及后续版本都是在此基础上构建的,采用了相同的架构[3] - 此言论引发了网友的广泛质疑和批评,认为其说法与事实不符[5] 关于MoE论文发布时间与架构差异的论证 - 网友指出,DeepSeek的MoE论文与Arthur Mensch提到的Mixtral论文在arXiv上的发布时间仅相差3天[6] - 两篇论文虽都研究稀疏混合专家系统,但出发点不同:Mixtral偏向工程思维,旨在证明强大基础模型与成熟MoE技术的结合能超越更大稠密模型[14];而DeepSeek的核心在于算法创新,旨在解决传统MoE中专家学习混杂和重复的问题,是对MoE架构的重新设计[15] - 数学公式直观展示了架构区别:Mixtral采用标准Top-2路由机制[18];DeepSeek则改变了传统门控机制和专家结构,引入了共享专家和细粒度专家分割[19] - 在专家粒度和数量上,Mixtral沿用标准设计,每个专家是一个完整的FFN块[20];DeepSeek则提出细粒度专家分割,将大专家切分为许多小专家,以实现更灵活的组合和更精准的知识习得[20] - 在路由机制上,Mixtral所有专家地位平等,由路由网络动态选择[21];DeepSeek引入了不参与路由、总是被激活的共享专家,使得通用知识与特定知识解耦,共享专家负责通用知识,路由专家负责特定知识[22] 关于Mistral后续产品与行业影响力的讨论 - 有网友提到,2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构[23] - 网友批评Arthur Mensch的言论是在试图“通过岁月史书来挽回面子”,并指出不可否认的是DeepSeek最终在稀疏MoE、MLA等技术上获得了更大的影响力[24][26] - 有网友吐槽Mistral已不再是当初惊艳开源大模型圈的公司,变成了“屠龙者终成恶龙”[28] - 行业竞逐仍在继续,例如DeepSeek被曝已经瞄准了春节档发布新模型[30]
李飞飞世界模型公司一年估值暴涨5倍!正洽谈新一轮5亿美元融资
量子位· 2026-01-25 14:00
World Labs新一轮融资与估值跃升 - 公司正在以约50亿美元估值进行新一轮融资,融资规模最高可达5亿美元[1] - 若融资完成,公司估值将从2024年的10亿美元跃升至50亿美元,实现一年多时间5倍重估[2] - 此前公司已完成累计2.3亿美元融资,估值达到10亿美元[2] - 公司成立于2024年4月,当月完成首轮融资,估值约2亿美元[2] 公司历史融资与投资方 - 首轮投资方包括Andreessen Horowitz(a16z)和加拿大投资机构Radical Ventures[5] - 2024年6–7月,公司完成一轮1亿美元融资,由NEA领投,估值被抬升至超过10亿美元[5] - 历史投资方还包括英伟达、沙特阿拉伯的Sanabil Investments、新加坡主权基金淡马锡[5] - 个人投资者包括Google首席科学家Jeff Dean、演员兼投资人Ashton Kutcher、AI教父Geoffrey Hinton[6] 公司核心业务:世界模型 - 公司正在研发能够在三维世界中进行导航和决策的AI系统,构建“大世界模型”[8] - 目标并非“生成一张好看的图”,而是让模型真正理解真实物理世界的结构与演化方式[9] - 世界模型被视为继大语言模型之后,AI下一个十年的核心主线,是一种“基础设施型能力”[16][17] 产品与技术:Marble与World API - 公司于去年11月推出首款3D世界生成模型Marble[10] - Marble可以根据文本或图像提示,直接生成可探索的3D世界[12] - 技术采用3D高斯溅射,用数以百万计的半透明点表示场景结构,在保持较高渲染效率的同时实现更细腻的视觉效果[14] - Marble同时输出“碰撞网格”,专门用于物理仿真和机器人模拟[15] - 提供Chisel工具,用户可先用简单几何体快速搭建骨架,再生成不同风格的细节版本[15] - 公司近期开放了World API,开发者可通过文本、图像或视频直接生成可探索的3D世界[15] 世界模型的应用前景与能力框架 - 真正具备空间智能的世界模型需要三种能力:生成、多模态、交互[22] - 生成能力指能创造遵守物理定律、空间一致的世界[22] - 多模态能力指能处理从图像、视频到动作的多模态输入[22] - 交互能力指能预测世界随时间演变或互动的状态[22] - 应用方向包括AIGC(如3D资产生成、游戏世界构建、影视制作)和具身智能(如机器人、仿真环境)[22] - 以具身智能为例,世界模型提供对环境的可预测表示,是叠加有效决策与控制的基础[18] 行业竞争格局与技术路线 - 前Meta首席科学家Yann LeCun创办的AMI Labs传闻融资估值可能达到35亿美元[20] - LeCun的路线更偏向“内在认知”,采用隐式世界模型,基于JEPA在抽象的潜在空间中预测世界演化,而非还原每一个像素[21] - 世界模型技术版图大致分三层:可观看、可编辑的世界界面(如Marble);可反复试错的模拟器(如谷歌DeepMind的Genie 3);以状态与预测为核心的认知世界模型(如LeCun的JEPA路线)[27][24] - 资本押注的是对不同世界模型技术路径的提前下注[24]
一张图生成任意场景3D模型,部分遮挡也不怕|IDEA x 光影焕像联合开源
量子位· 2026-01-25 11:34
行业痛点与现有技术局限 - 当前3D生成技术深陷“半开放”窘境,模型能打造精美的样板间,但对真实世界中千变万化的物体与场景表现不稳定[1] - 3D场景数据的采集和标注成本极高,导致现有技术长期受限于数据规模,往往只能处理室内场景和少数家具类物体,无法应对开放世界[4] - 现有技术存在三大局限:场景受限,只能处理客厅、卧室等室内场景,对街道、公园等开放场景束手无策[4];遮挡难题,面对物体互相遮挡时,模型缺乏“遮挡常识”,只能生成残缺、扭曲的3D几何形状[5];泛化不足,对于没见过的物体(如小众手办、特殊工具),模型无法准确重建其3D结构及位姿[6] SceneMaker技术框架与原理 - SceneMaker框架由IDEA研究院与香港科技大学团队联合推出,旨在从任意开放世界图像(室内/室外/合成图等)到带Mesh的3D场景的完整重建[2] - 框架分为三大模块:场景感知,使用DINO-X万物检测模型识别并分割图像中所有物体,再通过深度估计模型得到3D点云[9];三维物体重建,使用解耦的图像去遮挡模型对分割后的物体进行去遮挡,得到完整物体图像后输入Triverse万物重建模型完成3D重建,获得显式几何和纹理信息[9];位姿估计,基于场景图像和点云,估计重建3D物体在场景中的旋转、平移和尺寸等位姿信息,并将所有物体组合得到最终3D场景[9] 核心技术创新 - **解耦的去遮挡模块**:将去遮挡模型从3D重建中解耦,充分利用图像数据集的开放集先验,先对物体图像去遮挡,再进行3D重建,解决了因缺乏3D遮挡数据训练导致的几何残缺问题[11];该模块基于包含三种常见遮挡情况(物体遮挡、图像边角和用户涂抹)的数据集训练,并支持文本指令可控的去遮挡能力,能够控制不可见部分的内容[11][12] - **统一的位姿估计模型**:采用扩散模型为基础,结合全局和局部注意力机制,精准计算物体位姿[16];模型包含四种注意力机制:局部自注意力确保物体内部几何与位姿对齐[17];全局自注意力让所有物体互相参考,避免物体穿透或悬浮等荒谬场景[17];局部交叉注意力在估算旋转时只关注物体本身,不受环境干扰[17];全局交叉注意力在估算位置和尺寸时紧盯整个场景的点云和图像[17];消融实验证明每个注意力模块对模型性能均有提升[17] - **自建大规模开放世界3D场景数据集**:由于缺乏足够规模的开放世界3D场景数据集,团队基于Objaverse 3D物体数据集,自行构建了20万个合成场景数据集用于训练[19];每个场景放置2到5个物体,包含几何、位姿,以及20个不同相机视角下的RGB图像、分割图和深度图,并且完全开源[19] 性能表现与实验结果 - 在可视化和量化对比中,SceneMaker突破现有方案对室内等使用场景的限制,实现从任意开放世界图像到基于物体mesh的3D场景重建,且达到SOTA表现[21] - 在3D-Front数据集上,SceneMaker的CD-ST指标为0.0381,F-Score-S为0.6840,IoU-B为0.7658,均优于对比方案MIDI3D和PartCrafter[24] - 在Open-set场景下,SceneMaker的CD-SJ指标为0.0285,F-Score-S为0.6125,IoU-B为0.7549,同样表现卓越[24] - 在MIDI3D数据集上的量化对比中,SceneMaker的CD-SJ指标为0.051,F-Score-S为0.5642,CD-OJ为0.0963,F-Score-O为0.6544,IoU-B为0.671,优于包括PanoRecon、Total3D、DiffCAD在内的多个现有方案[25] 应用场景与产业价值 - **具身智能**:能从真实场景图像中重建高精度、带位姿信息的3D场景,为机器人提供可交互的数字孪生环境,助力其完成路径规划、物体抓取、场景导航等任务,解决开放世界环境感知与建模的核心痛点[26] - **自动驾驶/无人机**:能将真实道路、城市街区、园区环境的图像转化为高精度3D仿真场景,同时解决物体遮挡导致的模型失真问题,为自动驾驶仿真测试、无人机路径模拟提供高保真的虚拟训练环境[27] - **游戏工业建模**:可实现街道、公园、野外等开放游戏场景的快速3D重建,并能精准还原小众道具的几何形态与空间位姿,帮助游戏厂商提升场景制作效率,丰富游戏内物体的多样性[28]
斯坦福「返老还童」新研究:无需干细胞,逆转关节损伤和老化
量子位· 2026-01-25 11:34
文章核心观点 - 斯坦福医学院的研究团队发现,通过药物抑制一种名为15-PGDH的“衰老酶”,能够显著促进关节软骨的再生,甚至逆转与年龄相关的软骨退化,且该过程不依赖干细胞,为治疗骨关节炎等疾病提供了全新的、潜在更简单、更便宜的治疗方向 [1][3][7][16][33] 研究背景与医疗需求 - 关节软骨因细胞少、无血管神经供给且持续负重,一旦衰老或受损便极难修复,基本属于不可逆过程 [4][5] - 数以百万计的人饱受关节疼痛和肿胀困扰,这是一个巨大的未被满足的医疗需求 [6] - 目前常见的治疗手段集中在镇痛和延缓症状,最终往往需要进行创伤大、费用高昂的关节置换手术 [10] - 医学界长期缺乏能够直接治疗软骨流失病因、真正修复软骨的药物 [7][11] 关键发现与作用机制 - 研究团队将目光投向一种重要的酶——15-PGDH,该酶水平随年龄增长在软骨中显著上升,与软骨退化同步 [13][20] - 通过抑制15-PGDH酶,可以提升关节局部前列腺素E2的水平,从而“唤醒”老化或受损软骨的再生能力 [14][15] - 该方法不仅能逆转老年动物的自然软骨流失,还能有效预防损伤后关节炎的发生 [16] 实验验证与效果 - 在老年小鼠实验中,注射15-PGDH抑制剂后,原本变薄、功能减退的关节软骨明显增厚,再生的组织是功能完好的透明软骨,而非次等的纤维软骨 [23][24] - 在模拟前交叉韧带损伤的小鼠模型中,使用该药物成功阻止了软骨降解、骨赘形成等关节炎典型病变,使关节更健康,活动能力和承重更正常 [28] - 受伤后连续四周每周两次注射酶抑制剂的小鼠,发生骨关节炎的概率显著降低;而对照组小鼠体内15-PGDH水平是未受伤小鼠的两倍,并在四周内发展为骨关节炎 [29] - 在因严重骨关节炎而置换下来的人类膝关节软骨样本上,该药物在一周内就产生了积极效果:导致退化的基因活动减少,而代表再生的早期迹象出现 [35][36] 技术突破与优势 - 整个软骨再生过程无需依赖干细胞,而是通过改变现有软骨细胞的基因表达方式,使其转变为更年轻的状态 [17][18][30] - 这突破了传统组织再生医学依赖“种子细胞”(干细胞)的范式,避免了干细胞来源有限、存活分化效率低、过程复杂且成本极高等问题 [31][32] 未来应用前景 - 基于同一靶点(15-PGDH)的口服药物已在进行针对肌肉无力症的临床试验,且已初步证明安全性 [37] - 该研究的终极目标是,未来通过口服或注射药物即可实现软骨再生,让关节问题的治疗方式变得更简单和便宜 [3][38]