量子位
搜索文档
黄仁勋:龙虾就是新操作系统!英伟达7种芯片拼出算力怪兽,放话2027营收万亿美元
量子位· 2026-03-17 06:12
英伟达GTC 2026核心观点 - 英伟达GTC大会规模空前,有450家企业赞助、1000场技术分会、2000位演讲者、110台机器人,已成为AI行业的年度盛会 [1] - 公司CEO黄仁勋在演讲中系统阐述了从游戏显卡到当前AI算力与Token经济的发展历程,并正式提出到2027年营收预计至少达到1万亿美元的高阶目标 [3][5][6] - 公司股价在演讲期间与现场观众情绪一同高涨 [7] 公司财务与市场前景 - 公司预计到2027年营收至少达到1万亿美元,这一数字覆盖了Blackwell和Rubin平台到2027年的订单,相比去年GTC提出的5000亿美元“高确信需求”翻倍 [5][6] - 公司对实际需求持乐观态度,认为1万亿美元是保守预计,实际需求会更高 [6] Token工厂经济学与商业模式 - 公司提出了一套以“Token吞吐量”(每瓦产出Token数)和“Token速率”(每秒生成Token数)为核心的商业模型与分析框架 [12][13][14] - 该模型将AI服务分为四个层级:免费层(高吞吐、低速率,用于获客)、中间层(3-6美元/百万Token,服务普通用户)、高级层(45美元/百万Token,用于大模型深度推理)、顶级层(150美元/百万Token,用于超长研究任务及关键路径实时响应) [15] - 公司强调“每瓦性能决定一切”,因为在数据中心功率存在物理约束的条件下,更高的每瓦Token产出意味着更低的Token成本 [19] Vera Rubin下一代AI计算系统 - Vera Rubin被定义为公司有史以来最复杂的AI计算系统,是一个包含7种芯片、5种机架的垂直集成、端到端优化的巨型计算机 [24][26][27] - 系统核心组件包括:采用全新架构的Rubin GPU(支持NVLink 72全互联,算力达3.6 exaflops,全对全带宽260TB/s)、全新数据中心CPU Vera、第三代芯片Groq LP30、BlueField 4 DPU + CX9网卡、NVLink Switch以及全球首款量产的共封装光学(CPO)交换机Spectrum X [27][28] - 系统性能实现巨大飞跃:在同一座1GW数据中心内,从Grace Blackwell到Vera Rubin + Groq,Token生成速率从200万/秒跃升至7亿/秒,两年提升350倍,远超同期摩尔定律约1.5倍的提升 [30][31] - 系统通过两大创新突破散热与互联瓶颈:采用100%液冷方案,并在液冷模块内部实现板级/背板式集成互联,使机架安装时间从两天缩短至两小时;采用CPO技术,将光学器件直接封装到芯片上,消除光模块和铜线中转,实现更高能效和更远传输距离 [33][34][35][36][38][40] - 公司强调铜缆与光学技术并非二选一,未来需要同时扩大铜缆、光芯片及CPO的产能 [41] - 从十年前的DGX-1(8块Pascal GPU,170 TFLOPS)到如今的Vera Rubin NVLink 72(3.6 ExaFLOPS),公司算力在十年间增长了四千万倍 [42][43][44] Groq与分离式推理架构 - 公司于2025年底收购了以LPU(语言处理单元)著称的推理芯片公司Groq,其芯片采用确定性数据流处理器架构,片上集成500MB SRAM,专为推理设计 [50] - 公司提出“分离式推理”架构,通过Dynamo推理框架将推理流水线拆分:计算量大的Pre-fill和attention阶段交给Vera Rubin处理,而对带宽和延迟敏感的decode阶段(Token生成)则卸载给Groq处理 [56][57] - 两种极端不同的处理器通过以太网紧密耦合,可将延迟减半 [58] - 公司给出配比建议:高吞吐工作负载可100%使用Vera Rubin;若有大量编程、工程级Token生成需求,可将数据中心25%的功率分配给Groq [60] - Groq 3芯片由三星代工,已量产并预计Q3出货;Vera Rubin首个机架已在微软Azure云上运行 [61][62] OpenClaw与AI Agent时代 - 公司CEO将OpenClaw类比为AI时代的Linux,定义其本质为Agent计算机的操作系统,具备资源管理、调度系统和I/O系统等核心功能 [67][68][69][70] - 公司断言每一次平台转移(如Windows→PC,Linux→服务器)都会催生改变世界的公司,并认为“每家SaaS公司都将变成Agent-as-a-Service公司”,企业IT逻辑即将被改写 [71][72][73][74] - 针对企业级应用的安全与治理需求,公司与OpenClaw合作推出企业版NeMo Claw,增加了策略引擎、网络护栏、隐私路由器等功能 [76] - 公司描绘了未来企业的新范式:工程师将拥有年度Token预算,Token额度甚至可能成为硅谷招聘的新筹码 [79][80][81] 未来技术路线图与前瞻 - 公司预告了下一代计算架构Feynman(费曼),将带来全新的GPU、LPU(LP 40)和CPU Rosa [81][84] - Feynman架构将首次同时支持铜线与光学封装的水平扩展,其核心突破在于提供更高的容量与带宽 [85][86] - 公司正与合作伙伴联合开发名为“英伟达Space One”的太空数据中心计算机,探索“太空算力”,以应对太空环境中独特的辐射散热挑战 [87][89][90][91]
哈佛新研究:过度使用AI会“烧脑”,14%用户出现认知过载
量子位· 2026-03-17 06:12
AI过度使用导致的认知疲劳现象与影响 - 过度使用AI工具会导致用户出现“认知过载”和“精神疲劳”,而非简单的职业倦怠,这被形象地称为“AI烧脑” [3][5][14] - 哈佛一项针对近1500名员工的调查显示,14%的受访者因AI出现了注意力难以集中、决策能力下降及头痛等明显症状 [12][13] - 这种现象源于“碳基生物跟不上硅基文明速度”,本质是认知降维打击下的压力过载,尤其在高强度监管AI工作的员工中更为普遍 [4][5][15] AI导致认知疲劳的具体机制 - **监管负担**:高强度监管AI工作的员工,比低程度监管的员工多耗费14%的脑力及额外12%的精神疲劳,信息过载可能性增加19% [17] - **工具泛滥**:同时使用过多AI工具会增加认知切换成本,打断心流状态,当使用工具超过3个时,生产力反而会下降 [19][20] - **工作性质变化**:AI推动工作量剧增并扩大职责范围,员工需在短期内关注更多任务成果,加剧了认知负荷 [18] - **悖论效应**:AI在分担重复性工作时可减少工作疲惫感,但在涉及监控AI系统或操作多种工具时,会急剧增加精神压力 [23] 认知疲劳对个人与企业的负面影响 - **决策质量下降**:认知负荷过重的员工出现决策疲劳的概率高出33%,对一家年收入50亿美元的公司可能造成每年数百万美元的损失 [25] - **工作错误率上升**:经历“AI脑震荡”的员工,出现轻微错误的概率多出11%,重大错误频率则高出39% [26] - **人才流失风险**:在报告有类似症状的员工中,表现出积极离职意愿的比例为34%,高于未报告症状员工的25% [27] - **深度使用者风险**:最积极拥抱AI、喜欢多工具叠加和构建复杂工作流的员工,更容易出现“AI烧脑”现象 [28][29] 缓解认知疲劳与实现人机平衡的建议 - **优化工作流程设计**:企业应有组织地将AI融入工作流程,而非简单叠加,以降低团队精神压力 [30][31] - **设定合理监管密度**:避免给员工同时叠加过多AI Agent,研究指出同时使用不超过3个工具为宜,并需明确AI带来的工作量变化 [33] - **培养高阶思维能力**:企业应集中提升员工定义问题、规划分析和优先级判断的能力,而非盲目进行AI迭代工作 [34][35] - **战略性管理注意力**:企业需像管理算力一样统筹员工有限的认知能力,将AI引发的精神疲惫作为新的职业风险进行监控和防范 [36][37] - **工具设计以人为本**:AI工具设计者应最大程度保障用户思维的可持续发展,减少对用户注意力及工作记忆的要求 [38] - **核心理念转变**:工作追求需从“工作与生活平衡”转向实现“人类与AI平衡” [39]
315曝光的“AI投毒”原理:GEO这样操控大模型推荐
量子位· 2026-03-16 19:33
文章核心观点 - 央视3·15晚会曝光了针对AI大模型的“投毒”灰色产业链,即通过“生成式引擎优化(GEO)”技术系统性污染AI的信息来源,操控其输出特定内容,例如推荐虚构产品[1][2][3] - GEO是AI时代的“SEO”,其核心目标是提升品牌在AI生成答案中的可见性与引用优先级[6][9] - AI“投毒”的根源在于互联网信息质量问题,且商业推广已通过GEO等隐蔽方式实质性地进入了AI模型的回答中[61][63][64] AI“投毒”的运作机制与案例 - **核心机制**:通过污染AI模型所依赖的信息来源,影响其判断和输出[11][12] - **具体案例**:记者使用“力擎GEO优化系统”虚构一款智能手环并生成多篇软文投放,几天后AI大模型在推荐智能手环时将该虚构产品排名靠前[2][3] - **家电行业案例**:某品牌产品参数(如能耗数据)在多个公开平台被系统性篡改,导致AI在长达半年内持续输出错误数据[19] 生成式引擎优化(GEO)的技术路径 - **训练数据污染**:批量篡改百科、论坛等公开知识源,将错误信息内化为模型参数,持久性高,需重新训练才能消除[13][14][16][17] - **检索上下文劫持**:操纵RAG(检索增强生成)系统的检索权重,通过关键词优化、语义优化、元数据操纵及“占位策略”使污染文档优先被选中,隐蔽性极高[13][14][22][23][24][26][31] - **提示注入诱导攻击**:在外部信息源(如社区问答、评测)中嵌入恶意指令或倾向性结论,诱导AI在生成答案时复述,技术门槛最低[13][14][32][34][36] “投毒”产业链的运作环节 - **内容生产**:使用AI工具(如“力擎GEO优化系统”)批量生成产品软文、测评、用户反馈等,并进行“权威包装”,如伪造官方来源、引用虚假研究数据[37][41][42][43][44] - **渠道投放**:通过运营自媒体账号矩阵及利用发稿平台,将内容批量铺至新闻网站、行业门户、垂直社区等AI信任的权威信息源[45][46][48][53][54] - **效果强化**:采用“铺量”策略重复发布信息形成“信息淹没”,并人为操控互动数据(阅读、点赞量),同时持续监测AI回答并调整投放策略[55][56][57][58][59] GEO服务商的商业模式与挑战 - **市场需求**:随着用户更多通过AI直接搜索答案,品牌方愈发重视在AI回答中的信息入口排名[10] - **服务规模**:有GEO服务商声称已服务超过200个客户[60] - **持续对抗**:因AI算法每周更新,服务商需持续进行内容输出和大量投喂以维持排名效果[60]
北京养虾er!周三晚19点,带上你的龙虾,创业大街见
量子位· 2026-03-16 19:33
活动核心信息 - 活动主题为“龙虾实战经验”分享沙龙,旨在解决用户关于“龙虾”产品使用、记忆效果及实际落地应用的普遍困惑[1] - 活动由“量子位”公众号组织,邀请多位资深“专业养虾户”进行全流程干货分享[1] - 活动时间为3月18日周三19:00-21:00,地点位于北京海淀中关村创业大街12号楼[3] 活动内容与流程 - 分享内容涵盖从产品安装、上手到解决实际问题的全流程,包括基础用法与场景落地[2] - 活动提供“替你装虾”服务,由智谱伙伴现场手把手协助安装[2] - 活动旨在为参与者的“龙虾”使用带来全新启发,并促进经验交流[2] 演讲嘉宾阵容 - 演讲嘉宾来自多家相关科技公司与专业领域,包括智谱、清昴智能、MiniMax、网易有道、Lovstudio.ai、硅谷法律科技社区、NuwaWorld及Machiwhale Studio[5] - 嘉宾背景多元,涵盖技术、产品、解决方案、法律及创业等多个维度[5] 参与方式与福利 - 活动已开放观众报名,通过点击链接即可报名参与[6] - 到场观众可领取“虾农身份认证”贴纸,并有机会与同行交流[7] - 活动组织方鼓励观众加入“龙虾养成讨论组”社群进行持续交流[7]
量子位编辑作者招聘
量子位· 2026-03-16 15:14
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司定位于AI及前沿科技行业,旨在提供时代风口的最佳观测和学习生态位[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] - 公司在新榜和清博等第三方数据平台是AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放AI产业、AI财经商业、AI产品三大方向的岗位招聘[2][6] - 招聘面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位工作地点均为北京中关村[2] 岗位职责与要求 - **AI产业方向**:关注芯片、AI Infra、云计算等基建层创新,跟进核心玩家动态,解读前沿论文、开源社区及技术大会报告,参与产业专家访谈并撰写落地案例[5][6][7] - **AI财经商业方向**:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向,产出融资、财报解析、战略分析等稿件,访谈投资人及创业者[9][11] - **AI产品方向**:关注AI在软件应用和硬件终端的落地,撰写产品深度评测,跟踪手机、PC、XR、车机等多终端新品发布,对话应用创业者及产品专家[6][10][11] - **通用任职要求**:各方向均要求具备将复杂内容结构化表达的能力,对相关领域有基本理解、行业熟悉度或产品体验热情,技术或商业背景者优先[6][8][9][10][11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整AI认知体系[6] - 员工可将AI新工具应用于工作以提升效率和创造力[6] - 员工通过撰写独家原创内容可建立个人知名度,成为领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动以拓展行业人脉[6] - 应届新人可获得主编级编辑提供的一对一指导[6] - 公司提供扁平、简单、开放、多劳多得、能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发
量子位· 2026-03-16 15:14
文章核心观点 - 智谱公司发布了全球首个专为“Agent”(代理,文中以“龙虾”代指)场景优化的模型GLM-5-Turbo,该模型深度优化了工具调用与多智能体协同能力,旨在处理复杂、长流程的任务,并推出了配套的“龙虾套餐”和AutoClaw应用,以降低使用门槛[1][2][9][10][58] 模型发布与定位 - 模型名称为GLM-5-Turbo,是智谱公司内测的Pony-Alpha-2模型的正式身份,被定位为全球首个“龙虾特供”模型[1][2] - 该模型在智谱自有的“龙虾测试”ZClawBench中,获得了国产模型综合成绩第一[11] 核心能力与优化 - GLM-5-Turbo深度优化了复杂工作流中的工具调用与多智能体协同能力,在处理高吞吐量的极限场景时表现出极强的稳定性[9] - 其优化重点完全面向Agent场景,能够将需求拆解成详细步骤,并指挥多个Agent助手分工合作,环节衔接顺滑[10][59][60] - 模型对时间维度的理解到位,能够稳定执行定点定时或长达数小时的任务而不中断[61] - 在编程方面,模型实现了从“Vibe Coding”到“智能体工程”的跨越,能够在极少人工干预下自主完成长程规划和系统交付[62] 产品套餐与接入方式 - 公司推出了“龙虾套餐”,包含个人版和Team版,39元可获得4000万Token[4] - 企业付费逻辑从“购买Token”转变为“雇佣一个数字员工”[63] - 企业用户可通过智谱开放平台BigModel.cn直接调用API,或通过“龙虾套餐”接入[64] - 在GLM Coding Plan中,Max版已纳入GLM-5-Turbo,Pro套餐将在本月支持,Lite套餐将在4月支持接入[65] - 用户可通过AutoClaw(澳龙)应用零门槛直接调用该模型,该应用能一键搞定环境安装并内置多种Skills(如图像、视频生成模型),使用积分即可调用,无需额外配置[14][16][29] 实测任务表现 任务一:小红书文案连载策划 - 用户要求以“AI每天帮我过沙雕生活”为主题,生成一套7天的小红书连载笔记,包含标题、正文、配图建议、话题标签和评论区引导话术[21] - 模型迅速生成了全部7天的文案,并给出了发布节奏建议,文案内容完整无废话[22] - 生成的每篇笔记结尾都设置了“未完待续”的钩子以引导关注,最后一篇还建议用投票预热第二季,旨在形成系列IP[23] - 文案风格抓住了AI的“冷幽默”与人类操作的反差感,符合平台调性[24][25][26] - 模型能根据指令将长文案拆分到独立文档,并调用内置Skills生成7篇文章的封面图及其他配图,将图片链接整理在README.md文件中[28][30][31] - 模型还能仿照小红书UI生成高度还原的HTML效果页[32][33] 任务二:全栈应用开发 - 用户要求开发一个本地运行的实用个人记账全栈应用,需支持记录支出、查看列表、删除记录、显示本月总支出和分类统计,并实现前后端分离[37] - 模型最初使用Node.js + Express + SQLite技术栈搭建程序[38] - 当发现用户电脑未安装Node.js时,模型未慌乱,转而检查可用环境并改用Python重写了后端,体现了环境适应能力[40] - 完成后,模型对代码进行了API测试,删除了之前的Node.js版本,并提供了启动脚本[41][42] - 启动后的应用在浏览器中运行正常,可实现数据的跨端(电脑端与手机端)同步与持久化存储,后台日志也证实了程序完整运行了前后端与数据库[44][45][46][48] 任务三:本地环境操纵与数据分析 - 用户扮演电商运营,提供了三个虚构平台(SkyTrade、GlobalHub、OceanMall)格式混乱(JSON、表格、纯文本)且包含脏数据的销售数据,要求进行数据清洗、汇总,并找出“退货黑洞”商品和顶级客户[50][51][52] - 模型通过编写Python程序,一次性完成了多平台数据对齐、清洗、结合成本配置计算净利润等复杂任务[54] - 程序运行后,不仅生成了Markdown格式的月度经营分析报告和财务汇总表,还在对话框直接汇报了整理结果,并回答了关于“退货黑洞”商品和“五大金主”客户的具体问题[53][55][56]
五百行代码打造SOTA视觉智能体!UniPat AI最新开源
量子位· 2026-03-16 15:14
文章核心观点 - 多模态大模型的代码能力进步显著,但在基础视觉任务上存在精度短板,常出现计量、计数和空间关系判断错误 [1][2] - 技术团队UniPat AI构建了名为SWE-Vision的极简视觉智能体框架,通过让模型编写并执行Python代码来验证其视觉判断,从而系统性提升视觉任务的精度和可靠性 [1][3] - 在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平,显著改进了GPT-5.2-xhigh和Seed-2.0-Pro等前沿模型的表现 [5] SWE-Vision框架的设计与原理 - **框架定位**:SWE-Vision是一个“极简视觉智能体”框架,其核心不是强迫模型每题写代码,而是为模型提供一个随时可用且熟悉的“视觉工具库” [6][12] - **三层架构**: - **工具层**:仅保留两个通用工具——`execute_code`(在持久化Jupyter环境中执行Python)和`finish`(输出最终答案)[7][8] - **控制层**:实现一个标准的智能体循环,组织消息、调用工具接口、处理执行结果并决定下一步行动 [9] - **执行层**:在Docker容器中启动持久化的Jupyter内核,允许变量、导入的库和图像对象在多次代码调用间保留,确保安全隔离和可复现性 [11][16] - **关键特性**:该框架支持有状态的执行环境、图像输入/输出以及OpenAI function calling标准接口,使模型能够像数据科学家一样进行多步实验和验证 [16][17] SWE-Vision的工作流程与优势 - **工作流程**:用户提供问题和图片后,模型先判断是否需要计算或验证;如需则调用`execute_code`在Notebook中使用PIL、NumPy等库进行分析;代码执行的输出(数值、报错或可视化图)回流给模型;模型迭代此过程直至调用`finish`给出最终答案 [13][15] - **核心优势**:其关键在于“有状态的Notebook”,这使得模型能进行跨多次调用的分步工作,如读图、裁剪、统计、画辅助线等,将多轮工具调用转化为同一会话中的连续实验,从而能处理复杂的多步骤视觉任务 [18] - **能力体现**:框架使模型能够“验证自己的视觉判断”,通过结构化分析、程序化测量和数值验证的闭环,替代传统模型依赖的直觉式观察,显著提升了结果的可信度与可解释性 [19] 性能表现与实验发现 - **基准测试成绩**:在五个视觉基准测试中,SWE-Vision均取得最先进结果,具体为:BabyVision上达到64.4,MathVision上达到94.0,Zero-Bench-Sub上达到50.1,OmniSpatial上达到69.0,CharXiv-RQ上达到82.5 [5] - **提升效果**:在对比实验中,SWE-Vision为GPT-5.2和Seed-2.0等前沿视觉语言模型带来了显著的系统性提升 [22][23] - **反直觉发现**:提升幅度最大的往往不是高阶推理任务,而是最基础的感知和精确处理能力,如BabyVision中的计数、颜色识别和空间关系判断 [28] 设计理念与行业启示 - **极简设计的力量**:SWE-Vision的有效性源于其极简和通用性,它没有为特定视觉任务发明专用工具接口,而是提供了一个通用框架,让模型自行决定何时及如何使用代码工具,这带来了更好的泛化性 [20][21] - **关键成功因素**:工具数量少、决策边界清晰、工具语义与模型现有能力高度一致、支持多轮迭代和状态积累、中间结果可被再次观察,且不绑定特定基准测试的手工策略 [25] - **新方向的揭示**:研究结果表明,对于视觉任务,测试时扩展(test-time scaling)不一定仅依靠“多想几段文字”,也可以通过“多写几行代码”来实现更精细的观察和处理 [29] 未来发展方向 - **数据与环境需求**:要彻底释放“工具增强视觉”的潜力,需要深度交织的视觉-编程监督微调/强化学习数据与交互式环境,使模型能学习感知、行动和反思的完整轨迹 [31] - **具体关键方向**:包括教会模型判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合 [32] - **社区贡献**:SWE-Vision的开源代码和全部实验数据已在GitHub发布,旨在推动编程辅助的精确视觉理解这一方向的共同探索 [32]
MIT新研究:大模型加噪声就能替代GRPO/PPO调参
量子位· 2026-03-16 14:11
核心观点 - 一项来自MIT的研究提出,无需复杂的梯度优化或强化学习调参,只需向预训练大语言模型的权重添加高斯噪声并进行集成,其性能即可比肩甚至超越GRPO、PPO等经典调参算法[1][3][7] - 该研究揭示了“神经丛林”现象,即经过海量多任务预训练的模型,其权重周围密集地存在着大量擅长不同特定任务的“专家模型”[6][9][26] - 基于此发现提出的RandOpt算法,通过“随机扰动+集成投票”的简单两步,在多项任务上取得了与专业调参方法相当甚至更优的效果,且模型越大效果越好[7][8][28] 研究发现的“神经丛林”现象 - 预训练模型的权重空间内,能解决不同任务的模型并非零散分布,而是像灌木丛一样密集地“长”在预训练权重附近[6][9] - 因此,理论上无需复杂训练,只需在预训练权重附近进行参数扰动,就有机会找到表现不错的任务专家[10] - 这种现象的关键成因在于大模型的海量多任务预训练,单一任务预训练或无预训练的模型周围不会出现此现象[25][26][27] - 模型规模越大,其权重周围的“高精度区域”或有效扰动就越密集,随机扰动找到有效改进方案的概率越高[16][17] - 随机扰动产生的“专家”是“偏科”的,即一个改动可能提升模型在数学推理上的表现,但会降低其编程能力,且模型越大这种任务特异性越明显[19] 提出的RandOpt算法 - 算法运行机制分为两步:首先对预训练模型参数进行N次随机扰动,生成N个新模型,并用少量验证数据筛选出其中表现最好的K个;然后在推理时让这K个模型“组队投票”,按少数服从多数原则决定最终输出[29][30][31][32] - 该算法是单步操作,无需迭代、学习率或梯度计算[7] - 添加扰动时会尝试不同强度的噪声(小、中、大),以确保能找到各种类型的专家[33] - 生成的N个模型可以同时在多块GPU上运行,速度很快[34] - 随机扰动次数越多,挑选出的“高手”模型越厉害,最终效果越好[42] 算法性能表现 - 在纯语言大模型(Qwen2.5, 0.5B~32B)的数学推理、编程、写作和化学任务上,RandOpt的准确率与主流专业调参方法(PPO/GRPO/ES)相当甚至更高[7][35] - 对于视觉-语言模型(Qwen2.5-VL-3B-Inst),RandOpt提升作用更明显,在GOA基准上的准确率从基础模型的56.6%提升至69.0%[38][39] - 在图像扩散模型中也观察到了类似的“神经丛林”现象,参数空间的特定区域会倾向于生成具有特定色调或视觉风格的图像[40] 算法的优势与潜在局限 - 优势在于方法简单,能节省调参所需的时间和算力资源[56] - 效果高度依赖优质的、海量多任务预训练模型作为基础前提[27][58] - 模型只能基于预训练数据寻找改进,无法让模型学会全新的技能[58] - 集成模型数量K越大效果越好,但推理时需要运行K个模型,虽然知识蒸馏能缓解此问题,但不适用于所有场景(如生成式任务)[58] - 目前更适用于有明确答案的任务,对于写故事、设计分子等结构化生成任务,其集成方式还需进一步改进[59]
养虾时代终结?免部署、7×24小时在线、自进化的“赛博骡子”来了!
量子位· 2026-03-16 14:11
产品核心定位与价值主张 - 公司正式发布全球首个自进化个人AI产品“MuleRun”,旨在提供0门槛、全天候在线的数字员工服务[9][10] - 产品核心价值在于解决其他AI Agent(文中喻为“龙虾”)部署技术门槛高、配置复杂、安全隐患等问题,将部署和使用门槛降至零[14][15] - 产品核心能力是“自进化”,能够高度适配个体需求并实现群体智慧共享[11] 产品核心功能与特性 - **自进化与个性化学习**:产品能持续学习用户的个人数据、工作习惯、决策逻辑、知识积累和审美偏好,并实现自我优化,使用越久越懂用户[12][33][34] - **群体智慧共享**:通过开放的Agent网络生态,用户可一键共享或保存优质Agent,系统会匹配经过多人验证的高权重Agent供所有用户使用[13][25][26] - **7x24小时持续在线**:为每位用户提供独立的云端虚拟机,即使电脑离线,AI任务仍可持续运行[8][19] - **主动服务与预测**:产品能主动推荐待办事项,并根据用户过往处理问题的方式,智能预判相似问题的解决方案[19][40][41] 产品应用场景与实测案例 - **自动化网站与工具生成**:用户通过自然语言指令,可在约5分钟内生成功能完整的专业网站,如OpenClaw资讯热点追踪器、全球AI实时资讯聚合网站,无需代码经验[3][19][22][23][24] - **AIGC内容创作**:用户通过简单指令,可在3-5分钟内生成风格统一的AI视频内容,例如吉卜力风格的治愈系分镜AI视频[29][30] - **游戏开发**:用户无需代码基础,可通过自然语言指令在约2分钟内生成可运行的网页游戏,如贪吃蛇游戏[5][30][32] - **定时任务与推送**:通过Computer功能,可实现定时推送(如每日AI资讯推送)和主动汇报(如每日工作日报)[36][37][38][39] 产品设计与用户体验 - **界面设计**:产品界面设计清爽,主要分为Super Agent主对话框、Knowledge技能模板库、24小时运行流程的Computer以及管理历史文件和积分消耗的Drive四个区域[16] - **交互方式**:用户可使用自然语言(大白话)下达指令,无需专业提示词或代码知识即可驱动产品完成任务[3][22] - **任务沉淀与复用**:用户创建的好用Agent项目可被沉淀为可反复调用的Agent模板,存入专属知识库随时复用[24][25] 安全性与可靠性 - **云端安全架构**:产品设计遵循“不碰本地电脑”思路,通过为每个用户分配独立的7x24小时云端虚拟机运行任务,实现物理隔离,保护本地数据和隐私[54] - **内置安全机制**:默认开启沙箱隔离、权限限制、网络管控、操作日志、Prompt注入防护,并采用数据与系统分开存储、自动备份和回滚等机制[54] - **数据闭环处理**:AI Agent在专属云端环境中运行,不会读取本地密码,任务结束后环境自动清理,不影响本地系统[54] 售后服务与支持 - **内置问题解决工具**:产品内置一键快捷修复、快捷重启bot等工具,以解决用户可能遇到的部署和调试问题[57] - **专业售后支持**:会员可通过邮箱反馈问题,由专业售后团队专门跟进解决,无需用户自行琢磨[58][59] 行业对比与市场定位 - **降低使用门槛**:与需要复杂部署、调试和配置的其他AI Agent(如OpenClaw)相比,该产品实现了打开网页即用,将技术门槛降至零[14][15][60] - **解决行业痛点**:针对其他AI Agent存在的安全隐患(如信用卡盗刷、电脑病毒)、运行不稳定及配置耗时等问题,该产品提供了安全、稳定且省心的解决方案[51][53][54][60] - **普适性定位**:产品定位为服务于各行各业、无论是否懂代码和AI的用户,均可通过自然语言驱动其工作[10][50]
不卷速度卷验证,陈天桥MiroMind精准预测15天后黄金价格
量子位· 2026-03-16 13:04
公司产品发布 - 陈天桥带队的MiroMind公司正式发布了新一代重型推理智能体模型:MiroThinker-1.7和MiroThinker-H1 [1] - MiroThinker-H1在多项深度研究任务测试中刷新了SOTA(当前最优水平),超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型 [4] - 公司同时发布了开源的MiroThinker-1.7 (235B) 和小尺寸的MiroThinker-1.7-mini (30B),在效率与性能之间达到了最优平衡 [4] 产品性能与基准测试 - 新模型在BrowseComp(网页检索类大模型基准测试)中得分为88.2% [6] - 在BrowseComp-ZH(中文适配版本)中得分为84.4% [6] - 在GAIA-Val-165基准测试验证集中得分为88.5% [6] - 在HLE-Text(人类终极测试)中得分为47.7% [6] - 新模型不仅在通用任务上表现强劲,在科技金融等专业领域同样表现亮眼,能够承担真实的长链条智力任务 [13] 产品定位与核心理念 - MiroThinker系列专为复杂长期任务而生,与行业内其他厂商追求速度的路径不同 [15] - 该系列模型通过牺牲推理速度来换取深度推理能力,致力于“将算力用在刀刃上” [5][14] - 产品的核心理念是“慢下来、想更多”,强调在行动前进行暂停、验证和权衡,以确保推理的深度和准确性 [70][71] - 模型追求“扩展有效交互”,不盲目增加交互步骤,而是提升每一步的推理质量 [68][67] 核心技术突破 - 模型的核心技术突破在于“重型求解器”,其技术路径不仅仅是延长思考时间,更强调模型的可验证性和有效交互 [57][60] - 第一项关键技术是升级智能体原生训练,通过新增“中期训练”阶段,使用大规模高质量任务数据重点训练模型的规划、推理和总结能力,以提升每一步决策的质量 [60] - 第二项关键技术是以验证为核心的重型推理模式,包括局部验证和全局验证,确保推理路径的可靠性和答案的严密性 [61][62] - 引入验证机制后出现了一个“反直觉”现象:模型交互步骤数量明显减少,验证器起到了过滤器的作用,帮助模型筛除无效步骤,将算力集中用于真正推动问题求解的环节 [65][66] 实测表现:F1赛事预测 - 在预测2026年F1上海站正赛的实测中,模型在赛前2小时、赛中1小时、比赛最后半小时三个关键节点分别进行了实时预测 [20] - 模型的推理过程建立了完整的信息搜索路径,包括确认时间地点、收集排位赛和冲刺赛数据、分析规则变化和天气情况等,每一步都经过反复验证 [24][25] - 在比赛最后30分钟,模型给出的预测答案与最终结果完全一致,展现了其在动态信息中逐步收敛和优化预测的能力 [49][50] - 与其他模型(ChatGPT、Gemini、DeepSeek)相比,MiroThinker是唯一关注到当前天气状况的模型,且答案的完整度和逻辑链更优 [45][38][40][44] 实测表现:金融价格预测 - 模型曾提前15天预测2026年2月25日的黄金价格(XAU/USD),预测值为$5185/oz [54] - 实际市场中,Fortune报价$5181,150 Currency报价$5185.89,CME GCG26收盘价为$5206.40,预测误差仅为0.08%($4) [54] 团队与公司发展 - 公司由陈天桥带队,COO邴立东博士自公司诞生之初便在新加坡牵头组建初始团队 [75] - 近期有三位世界级顶尖AI科学家杜少雷、安波和杨凯峪同时加入MiroMind,他们都长期致力于开发前沿大模型的推理决策能力 [76] - 核心团队的逐步到位,结合公司的技术、人才和资金,使其虽看似入场较晚,但每一步都稳扎稳打 [77]