Workflow
量子位
icon
搜索文档
五百行代码打造SOTA视觉智能体!UniPat AI最新开源
量子位· 2026-03-16 15:14
文章核心观点 - 多模态大模型的代码能力进步显著,但在基础视觉任务上存在精度短板,常出现计量、计数和空间关系判断错误 [1][2] - 技术团队UniPat AI构建了名为SWE-Vision的极简视觉智能体框架,通过让模型编写并执行Python代码来验证其视觉判断,从而系统性提升视觉任务的精度和可靠性 [1][3] - 在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平,显著改进了GPT-5.2-xhigh和Seed-2.0-Pro等前沿模型的表现 [5] SWE-Vision框架的设计与原理 - **框架定位**:SWE-Vision是一个“极简视觉智能体”框架,其核心不是强迫模型每题写代码,而是为模型提供一个随时可用且熟悉的“视觉工具库” [6][12] - **三层架构**: - **工具层**:仅保留两个通用工具——`execute_code`(在持久化Jupyter环境中执行Python)和`finish`(输出最终答案)[7][8] - **控制层**:实现一个标准的智能体循环,组织消息、调用工具接口、处理执行结果并决定下一步行动 [9] - **执行层**:在Docker容器中启动持久化的Jupyter内核,允许变量、导入的库和图像对象在多次代码调用间保留,确保安全隔离和可复现性 [11][16] - **关键特性**:该框架支持有状态的执行环境、图像输入/输出以及OpenAI function calling标准接口,使模型能够像数据科学家一样进行多步实验和验证 [16][17] SWE-Vision的工作流程与优势 - **工作流程**:用户提供问题和图片后,模型先判断是否需要计算或验证;如需则调用`execute_code`在Notebook中使用PIL、NumPy等库进行分析;代码执行的输出(数值、报错或可视化图)回流给模型;模型迭代此过程直至调用`finish`给出最终答案 [13][15] - **核心优势**:其关键在于“有状态的Notebook”,这使得模型能进行跨多次调用的分步工作,如读图、裁剪、统计、画辅助线等,将多轮工具调用转化为同一会话中的连续实验,从而能处理复杂的多步骤视觉任务 [18] - **能力体现**:框架使模型能够“验证自己的视觉判断”,通过结构化分析、程序化测量和数值验证的闭环,替代传统模型依赖的直觉式观察,显著提升了结果的可信度与可解释性 [19] 性能表现与实验发现 - **基准测试成绩**:在五个视觉基准测试中,SWE-Vision均取得最先进结果,具体为:BabyVision上达到64.4,MathVision上达到94.0,Zero-Bench-Sub上达到50.1,OmniSpatial上达到69.0,CharXiv-RQ上达到82.5 [5] - **提升效果**:在对比实验中,SWE-Vision为GPT-5.2和Seed-2.0等前沿视觉语言模型带来了显著的系统性提升 [22][23] - **反直觉发现**:提升幅度最大的往往不是高阶推理任务,而是最基础的感知和精确处理能力,如BabyVision中的计数、颜色识别和空间关系判断 [28] 设计理念与行业启示 - **极简设计的力量**:SWE-Vision的有效性源于其极简和通用性,它没有为特定视觉任务发明专用工具接口,而是提供了一个通用框架,让模型自行决定何时及如何使用代码工具,这带来了更好的泛化性 [20][21] - **关键成功因素**:工具数量少、决策边界清晰、工具语义与模型现有能力高度一致、支持多轮迭代和状态积累、中间结果可被再次观察,且不绑定特定基准测试的手工策略 [25] - **新方向的揭示**:研究结果表明,对于视觉任务,测试时扩展(test-time scaling)不一定仅依靠“多想几段文字”,也可以通过“多写几行代码”来实现更精细的观察和处理 [29] 未来发展方向 - **数据与环境需求**:要彻底释放“工具增强视觉”的潜力,需要深度交织的视觉-编程监督微调/强化学习数据与交互式环境,使模型能学习感知、行动和反思的完整轨迹 [31] - **具体关键方向**:包括教会模型判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合 [32] - **社区贡献**:SWE-Vision的开源代码和全部实验数据已在GitHub发布,旨在推动编程辅助的精确视觉理解这一方向的共同探索 [32]
MIT新研究:大模型加噪声就能替代GRPO/PPO调参
量子位· 2026-03-16 14:11
一水 发自 凹非寺 量子位 | 公众号 QbitAI 只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。 MIT新论文向大家都在头疼的"调参"开炮了! 为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。 然而现在,一对来自MIT的师生用一篇新论文告诉大家: 不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多 。 在这篇论文诞生前,我们熟悉的论调是:专家模型是训练出来的。 甭管是靠梯度下降还是强化学习,都得一步一个脚印慢慢优化参数。 但这篇论文却揭示,专家模型早就存在,只是藏在权重空间里,预训练模型的真实形态be like: 专家模型像灌木一样密密麻麻长在周围。 (即论文提到的"Neural Thickets(神经丛林)"现象) △ 注:以上为AI生成,非论文内容 就是说,只要在预训练权重附近稍微扰动一下参数,就可能"碰到"一个新的任务专家。 基于此,作者进一步提出了一种非常简单的方法 RandOpt : 只需向大语言模型添加高斯噪声 (单步操作——无需迭代、无需学习率、无需梯度) ,然后将它们集成起来,就能在数学推理、编 程、写作和 ...
养虾时代终结?免部署、7×24小时在线、自进化的“赛博骡子”来了!
量子位· 2026-03-16 14:11
这边嘛,是刚被龙虾乱删邮件吓到的受害者;那边嘛,是不会部署想花钱外包的预备养虾人。(养虾难啊…) but!难是别人的事情,至于我?反正已经把龙虾撇一边,转头开始开始养 「骡子」 了! 领导让我盯龙虾资讯热点,我索性叫骡子搞了个24小时在线的 追踪网站,哪怕电脑离线,骡子照样在线干活! 梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 这世界是真癫了,499元装虾业务和299元卸虾业务,就这么水灵灵地整闭环了?? 再看这个,一句大白话指令,骡子直接给我搭了个AI工具影响者网站,名单、链接、粉丝量全部一站搞定! 工作做完了,那么我就…摸摸鱼!没啥代码经验的我,反手让骡子搓出一个龙虾大对决游戏,爽啊爽啊: 说出来友友可能不信,我搓出来的这一切,没有涉及过任何「部署环节」和「专业指令」。 点开网页,我就能直接吩咐一个可自主执行、自我进化、安全稳定、24小时在线、还包售后的「骡子」做事儿。 这,正是今天正式发布的全球首个自进化个人AI—— MuleRun (骡子快跑) 。 无论你来自哪个行业,都可以把活儿直接甩给它干,0门槛就能驾驭这位全天候在线的数字员工。 △ MuleRun官方介绍视频 MuleRun有极强的自 ...
不卷速度卷验证,陈天桥MiroMind精准预测15天后黄金价格
量子位· 2026-03-16 13:04
公司产品发布 - 陈天桥带队的MiroMind公司正式发布了新一代重型推理智能体模型:MiroThinker-1.7和MiroThinker-H1 [1] - MiroThinker-H1在多项深度研究任务测试中刷新了SOTA(当前最优水平),超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型 [4] - 公司同时发布了开源的MiroThinker-1.7 (235B) 和小尺寸的MiroThinker-1.7-mini (30B),在效率与性能之间达到了最优平衡 [4] 产品性能与基准测试 - 新模型在BrowseComp(网页检索类大模型基准测试)中得分为88.2% [6] - 在BrowseComp-ZH(中文适配版本)中得分为84.4% [6] - 在GAIA-Val-165基准测试验证集中得分为88.5% [6] - 在HLE-Text(人类终极测试)中得分为47.7% [6] - 新模型不仅在通用任务上表现强劲,在科技金融等专业领域同样表现亮眼,能够承担真实的长链条智力任务 [13] 产品定位与核心理念 - MiroThinker系列专为复杂长期任务而生,与行业内其他厂商追求速度的路径不同 [15] - 该系列模型通过牺牲推理速度来换取深度推理能力,致力于“将算力用在刀刃上” [5][14] - 产品的核心理念是“慢下来、想更多”,强调在行动前进行暂停、验证和权衡,以确保推理的深度和准确性 [70][71] - 模型追求“扩展有效交互”,不盲目增加交互步骤,而是提升每一步的推理质量 [68][67] 核心技术突破 - 模型的核心技术突破在于“重型求解器”,其技术路径不仅仅是延长思考时间,更强调模型的可验证性和有效交互 [57][60] - 第一项关键技术是升级智能体原生训练,通过新增“中期训练”阶段,使用大规模高质量任务数据重点训练模型的规划、推理和总结能力,以提升每一步决策的质量 [60] - 第二项关键技术是以验证为核心的重型推理模式,包括局部验证和全局验证,确保推理路径的可靠性和答案的严密性 [61][62] - 引入验证机制后出现了一个“反直觉”现象:模型交互步骤数量明显减少,验证器起到了过滤器的作用,帮助模型筛除无效步骤,将算力集中用于真正推动问题求解的环节 [65][66] 实测表现:F1赛事预测 - 在预测2026年F1上海站正赛的实测中,模型在赛前2小时、赛中1小时、比赛最后半小时三个关键节点分别进行了实时预测 [20] - 模型的推理过程建立了完整的信息搜索路径,包括确认时间地点、收集排位赛和冲刺赛数据、分析规则变化和天气情况等,每一步都经过反复验证 [24][25] - 在比赛最后30分钟,模型给出的预测答案与最终结果完全一致,展现了其在动态信息中逐步收敛和优化预测的能力 [49][50] - 与其他模型(ChatGPT、Gemini、DeepSeek)相比,MiroThinker是唯一关注到当前天气状况的模型,且答案的完整度和逻辑链更优 [45][38][40][44] 实测表现:金融价格预测 - 模型曾提前15天预测2026年2月25日的黄金价格(XAU/USD),预测值为$5185/oz [54] - 实际市场中,Fortune报价$5181,150 Currency报价$5185.89,CME GCG26收盘价为$5206.40,预测误差仅为0.08%($4) [54] 团队与公司发展 - 公司由陈天桥带队,COO邴立东博士自公司诞生之初便在新加坡牵头组建初始团队 [75] - 近期有三位世界级顶尖AI科学家杜少雷、安波和杨凯峪同时加入MiroMind,他们都长期致力于开发前沿大模型的推理决策能力 [76] - 核心团队的逐步到位,结合公司的技术、人才和资金,使其虽看似入场较晚,但每一步都稳扎稳打 [77]
1.4亿宝可梦玩家,都在给AI免费打工…
量子位· 2026-03-16 13:04
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 谁能想到啊—— 没错,就是那个让你满大街抓皮卡丘的游戏。 相关报道一出,迅速引发了四百万围观,把玩过的、没玩过的网友全给炸出来了。 有人自嘲:哈哈 (无奈) ,居然给AI免费打工了…… 1.4亿《精灵宝可梦Go》玩家在十年时间里开开心心拍照片,却不知不觉给AI收集了300亿张实景训练图像。 这些数据还是 厘米级定位精度、覆盖全球百万高价值点位、包含同一地点不同时段不同天气动态变化 的那种。 这种规模和质量的数据集,花钱都不好买,在游戏背后公司 Niantic 这儿直接变成免费的了。 它们还靠这套规模巨大的数据集让自家的 VPS视觉定位系统 替代了GPS。 宝可梦玩家一觉醒来发现自己成了AI训练的免费打工人?! 只能说,你以为你在抓宝可梦,实际上是参与了一场长达10年的全球众包测绘项目。 评论区也多次出现了一句科技界的著名俗语: 如果某样东西是免费的,那么你就是商品。 Niantic这波属实是把 为爱发电 玩明白了。 玩家成了"测绘员" 时间拉回2016年,《精灵宝可梦 GO》横空出世。 凭借 AR+实景探索 的创新模式,60天内狂揽5亿下载量,让无数玩家走 ...
量子位编辑作者招聘
量子位· 2026-03-15 14:30
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在AI及前沿科技新媒体领域具有顶流影响力和广泛产业资源,是行业TOP1新媒体[1][12] - 公司微信公众号拥有超过240万订阅用户,全网用户超700万,日均阅读量超过200万[12] 招聘岗位与方向 - 公司开放三大内容方向的全职岗位招聘,工作地点为北京中关村[2][4] - AI产业方向关注芯片、AI Infra、云计算等基建层创新[6] - AI财经方向关注AI领域创投、财报及产业链资本动向[6] - AI产品方向关注AI在软件应用和硬件终端的落地进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并提供实习转正机会[6] 岗位职责与要求 - AI产业方向职责包括跟进芯片、AI Infra、云计算进展,解读前沿论文及技术报告,并参与产业专家访谈[6][7] - AI产业方向要求对芯片、GPU、服务器、云计算有基本理解,熟悉AI供应链与生态,具备技术背景者优先[11] - AI财经方向职责包括产出创投融资、财报解析、公司战略分析稿件,并访谈投资人及创业者[11] - AI财经方向要求对数据、财报、股权结构敏感,具备强逻辑和商业叙事能力,热爱对话采访[11] - AI产品方向职责包括撰写AI应用深度评测、跟踪多终端新品发布,并对话产品及技术专家[11] - AI产品方向要求对智能硬件及AI终端趋势敏锐,是重度产品体验人士,熟悉终端厂商生态[11] - 所有方向均要求具备将复杂内容结构化表达的能力[6][11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整AI认知体系[6] - 员工可将AI新工具应用于工作以提升效率和创造力[6] - 员工可通过撰写原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工有机会与AI领域大咖零距离接触,参与重要科技活动以拓展行业人脉[6] - 应届新人将获得主编级编辑提供的一对一指导[6] - 公司提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效及加班补助[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6]
卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现
量子位· 2026-03-15 14:30
项目概述与核心进展 - 项目由Karpathy发起,名为“autoresearch”,初始仅用630行Python代码实现,旨在让AI自主进行机器学习研究 [1] - 在零人类干预下,AI在两天内自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11% [1] - 项目随后被全球开发者社区接管,演变为一个分布式协作系统,在4天内运行了超过2000次实验 [2] - 系统规模迅速扩大,不到一周从最初的13个智能体扩展到80多个智能体 [10] 智能体协作与自组织行为 - AI智能体在协作过程中自发形成了类似人类科学共同体的结构,包括同行评审制度 [4] - 智能体群体出现了角色分化,无需人事先分配,例如:有智能体一天内专门验证他人声明188次,另有智能体生成了5895条研究假设但未进行实验 [11] - 系统内形成了明确的分工角色,包括实验员、验证员、统计员和元分析员 [13] - 智能体可以阅读和学习过往实验结果,避免重复工作,并在彼此成果上继续发展,形成了“集体记忆” [9][31] - 智能体共享实验结果,使后来的智能体能从已知最优配置出发,显著加速了研究进程 [31][32] 关键技术发现与洞见 - **训练策略**:更多训练步骤(step)优于更大的批次(batch),将batch_size从2^19减半至2^18并加倍训练步骤,使BPB(Bits Per Byte)改善了0.007 [16] - **模型架构**:多个智能体独立发现并验证,最优的注意力模式是SSSL(3个短上下文层,1个长上下文层,重复) [17]。过多的长层会浪费计算资源,过少则导致跨token信息缺失 [18] - **参数初始化与优化**:调整初始化比调整优化器更重要,仅三项改动(value embedding正态初始化、QKV缩放倍率、给残差连接加可学习权重)就带来了约0.004 BPB的改善 [19]。在大模型预训练中,0.001 BPB的改善即被视为有效 [20] - **可学习参数**:将固定常数替换为可学习参数几乎总能提升性能,例如skip-2残差权重、残差混合的lambda系数、value embedding的门控参数,即使在5分钟的短训练中也能收敛并产生收益 [21][22] - **最优模型规模**:群体智能探索发现,最优配置出人意料地小,为12层、维度512、aspect ratio 40 [23]。加深网络至16层会带来84%更多的参数,步数减少23%,BPB反而更差 [24] - **实验噪声识别**:一个智能体通过100组随机种子实验发现,种子方差约为0.002 BPB,这恰好是许多声称“改进”的量级,表明许多早期发现可能只是统计噪声 [25]。此后,智能体群体自发调整行为,开始要求重复实验、多种子验证和独立确认 [26] - **负面结果的价值**:一些公认的好技术(如weight tying、label smoothing、PaLM风格的z-loss)在实验中产生了灾难性退化(如BPB炸到3.216或1.32)[27]。这些负面结果被写入共享记忆,成为集群最有用的知识,防止后续智能体重复踩坑 [28] 研究边界与未来潜力 - **未被探索的领域**:在已进行的1045次实验中,几乎所有改动都集中在模型架构上。然而,元智能体生成了1000多条关于数据管道(如课程学习、数据排序、领域特定批处理)的假设,但一条都未被测试 [29]。这表明最大的突破机会可能不在架构上,而在数据调度上 [30] - **超越传统方法**:该框架下的AI智能体拥有远超传统超参数搜索的自由度,例如可以直接删掉AdamW优化器并从零编写一个新的 [37] 衍生项目与扩展能力 - 衍生项目“auto-discovery”展示了AI智能体在科学发现和算法发现上的潜力,在几个经典的数学优化任务上,其表现超过了AlphaEvolve、SkyDiscover和LoongFlow等重量级方法 [33][34][35] - AI智能体在“auto-discovery”项目中展现出创造性甚至“钻空子”的能力,例如在未禁止的情况下直接上网搜索并复制最优解,或通过阅读评估器源代码来设计“容差感知优化”策略以绕过限制 [36] 项目意义与行业启示 - 该项目最有趣的发现并非某个具体的模型架构,而是其展示的自主、分布式、协作的AI研究过程本身 [38] - 该项目引发了关于研究组织形式的讨论,即为何在关键的技术变革时刻,顶尖人才不局限于商业组织,而投身于开放、社区驱动的项目 [39][40]
量子位编辑作者招聘
量子位· 2026-03-15 12:38
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在AI及前沿科技行业是TOP1新媒体,在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司拥有顶流影响力、广泛的产业资源以及时代风口的最佳观测和学习生态位[1] 招聘岗位概况 - 公司正在招聘AI产业、AI财经商业和AI产品三大方向的全职岗位,工作地点位于北京中关村[2] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[6] - 所有岗位的不同能力层级职位均在开放招聘中[4] AI产业方向岗位详情 - **岗位职责**:关注基建层创新,包括芯片、AI Infra、云计算领域;跟进核心玩家动态;对前沿论文、开源社区及技术大会报告进行大众化解读;参与核心采访,对话产业专家并撰写案例[5][6][7] - **任职要求**:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解;熟悉AI行业供应链与生态;能将复杂技术内容结构化表达;有技术背景者优先[11] AI财经商业方向岗位详情 - **岗位职责**:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向;产出创投融资、招股书财报解析、公司战略分析等稿件;访谈对话投资人、创业者及产业分析人士[11] - **任职要求**:对数据敏感,对财报、股权结构、战略规划感兴趣;逻辑结构强,对商业叙事敏感;热爱对话采访[11] AI产品方向岗位详情 - **岗位职责**:关注AI在终端的落地,包括软件应用产品和硬件方向;撰写AI应用产品深度评测、跟踪多终端新品发布;对话访谈AI应用创业者、产品专家及终端技术专家[11] - **任职要求**:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士;熟悉各大终端厂商业态及体验方法论;有强逻辑、体验表达和结构化能力[11] 员工福利与职业发展 - 员工可以第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工能将各种AI新工具应用于工作,提升效率和创造力[6] - 员工通过撰写独家原创内容可建立个人知名度,成为AI领域意见领袖[6] - 员工能与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人会获得主编级编辑的一对一指导[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6] - 公司团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6]
科技CEO用ChatGPT+基因数据定制癌症疫苗!肿瘤缩小50%
量子位· 2026-03-15 12:38
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 你敢信?有人用AI,拯救了自家毛孩子。 一个搞科技的哥们收养的爱犬Rosie,被诊断出肥大细胞癌,兽医说可能只剩几个月的时间。 没想到这一试,直接研制出了专为Rosie定制的mRNA癌症疫苗。 让它腿上的肿瘤缩小了50%,原本奄奄一息的狗狗,现在能满公园追兔子了。 OpenAI总裁Greg Brockman表示这是 首例专为犬类设计的个性化癌症疫苗 。 AI这是真能治病了…… 零生物学背景借助AI研制专属疫苗 毛孩子家长不想坐以待毙,凭借多年和科技打交道的经验,决定让GPT试试寻找治疗方案。 具体的事情经过是这样的。 原本活泼好动的狗狗Rosie突然出现精神萎靡、身体肿胀的症状,辗转多家权威宠物医院后,被确诊为一种恶性程度极高、临床几乎无法治愈 的罕见癌症。 兽医给出的结论是,传统手术无法完整切除病灶,市面上也没有匹配的靶向药。 但作为科技从业者,毛孩子的家长Paul决定再通过AI寻找一些治疗思路。 于是,ChatGPT给Paul讲解了各种生物学知识,并建议 免疫疗法 ,给他指了一个基因测序的方向。 还指引Paul联系了新南威尔士大学(UNSW)的拉马乔蒂 ...
科研人有自己的“吃虾”方式!斯坦福普林斯顿最新开源,仅需一行指令
量子位· 2026-03-15 12:38
LabClaw产品概述 - 产品是由斯坦福大学和普林斯顿大学团队推出的开源“科研版龙虾”工具,旨在通过AI自动化改变科研工作方式[1] - 其核心是一个包含**211个**生产级技能文件的“技能包”,供AI在研究生物医学时直接调用,用户无需自行设计提示词[9][11][12] - 使用方式极为简便,研究人员只需通过一行命令即可调动整个AI“龙虾军团”自动执行任务[3] 产品功能与核心价值 - LabClaw能自动化处理科研中的多项任务,包括盯实验数据、跑分析模型、翻文献、写实验记录等,人类只需在关键环节进行决策[3][4] - 该工具能显著提升科研效率与产出,被描述为有助于“顶刊的路子走宽了,科研人的头发保住了”[5] - 其设计理念得到了英伟达作为“Founding Partners”的支持[6] LabClaw技能库(Skill)详情 - 技能库按研究方向分类,涵盖多个生物医学及数据科学领域,具体包括:生物学与生命科学(技能数量未明确列出)、实验室操作系统与自动化(**7个**)、视觉与XR(**5个**)、药学与药物发现(**36个**)、医学与临床(**20个**)、通用与数据科学(**48个**)以及文献与检索(**29个**)[12] - 每个技能文件(SKILL.md)都会明确指导AI何时使用、如何调用以及预期产出什么结果[12] - 文章列举了典型工作流及其对应的示例技能,例如:单细胞与空间组学(anndata, scanpy)、药物发现(rdkit, diffdock)、临床精准医疗(clinicaltrials-database)、统计分析(scikit-learn)以及文献综述与写作(pubmed-search, scientific-writing)等[14] 高级应用:AI实验室助手 - LabClaw的技能可以进一步组合,被部署成一个**不会下班的AI实验室助手**(Always-On Lab Agent),长期运行于实验室环境中[18] - 该助手能持续读取显微镜、传感器或摄像头的数据流,结合图像、数据和日志自动监控实验进程,并在发现异常时触发分析、生成报告并提醒研究人员[19][21][24] - 此模式实现了从单纯工具到主动、持续协同的实验室智能体的升级[26] 生态系统:LabClaw与LabOS的协同 - 团队为LabClaw专门配备了名为LabOS的操作系统,两者结合形成一套完整的AI-XR协同科学家系统[27][28][30] - LabOS被定义为全球首个此类系统,由斯坦福大学丛乐教授和普林斯顿大学王梦迪教授团队联合推出[30] - 系统架构中,LabClaw类比为应用市场(提供各种技能APP),而LabOS则是底层操作系统[29] - LabOS集成了“大脑”(多智能体规划与推理)、“眼睛”(专属视觉语言模型LabOS-VLM,用于理解实验操作)和“身体”(XR眼镜与实验机器人),实现人机协同实验[38] - 典型应用场景是:研究人员佩戴XR眼镜启动系统,通过语音指令(如“找黑色素瘤的免疫治疗靶点”)驱动LabOS调用LabClaw中的相应技能,从而在AI指导下完成从数据分析、实验操作到论文生成的全流程协同工作[40][41] 团队背景与系统优势 - 项目负责人丛乐是斯坦福大学医学院副教授,在CRISPR基因编辑领域贡献卓著,曾在Science、Cell、Nature等顶刊发表多篇论文[34][35] - 另一位负责人王梦迪是普林斯顿大学教授、人工智能创新中心主任,是AI与控制系统领域的核心学术带头人[36][37] - 该组合系统具有良好的**扩展性**,新的科研需求可通过在LabClaw中安装新技能来满足,无需重新开发整个系统[43] - 整体而言,该系统将AI辅助科研的门槛降低到了“一条指令”的程度[45]