量子位
搜索文档
北京养虾er!周三晚19点,带上你的龙虾,创业大街见
量子位· 2026-03-16 19:33
活动核心信息 - 活动主题为“龙虾实战经验”分享沙龙,旨在解决用户关于“龙虾”产品使用、记忆效果及实际落地应用的普遍困惑[1] - 活动由“量子位”公众号组织,邀请多位资深“专业养虾户”进行全流程干货分享[1] - 活动时间为3月18日周三19:00-21:00,地点位于北京海淀中关村创业大街12号楼[3] 活动内容与流程 - 分享内容涵盖从产品安装、上手到解决实际问题的全流程,包括基础用法与场景落地[2] - 活动提供“替你装虾”服务,由智谱伙伴现场手把手协助安装[2] - 活动旨在为参与者的“龙虾”使用带来全新启发,并促进经验交流[2] 演讲嘉宾阵容 - 演讲嘉宾来自多家相关科技公司与专业领域,包括智谱、清昴智能、MiniMax、网易有道、Lovstudio.ai、硅谷法律科技社区、NuwaWorld及Machiwhale Studio[5] - 嘉宾背景多元,涵盖技术、产品、解决方案、法律及创业等多个维度[5] 参与方式与福利 - 活动已开放观众报名,通过点击链接即可报名参与[6] - 到场观众可领取“虾农身份认证”贴纸,并有机会与同行交流[7] - 活动组织方鼓励观众加入“龙虾养成讨论组”社群进行持续交流[7]
量子位编辑作者招聘
量子位· 2026-03-16 15:14
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司定位于AI及前沿科技行业,旨在提供时代风口的最佳观测和学习生态位[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] - 公司在新榜和清博等第三方数据平台是AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放AI产业、AI财经商业、AI产品三大方向的岗位招聘[2][6] - 招聘面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位工作地点均为北京中关村[2] 岗位职责与要求 - **AI产业方向**:关注芯片、AI Infra、云计算等基建层创新,跟进核心玩家动态,解读前沿论文、开源社区及技术大会报告,参与产业专家访谈并撰写落地案例[5][6][7] - **AI财经商业方向**:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向,产出融资、财报解析、战略分析等稿件,访谈投资人及创业者[9][11] - **AI产品方向**:关注AI在软件应用和硬件终端的落地,撰写产品深度评测,跟踪手机、PC、XR、车机等多终端新品发布,对话应用创业者及产品专家[6][10][11] - **通用任职要求**:各方向均要求具备将复杂内容结构化表达的能力,对相关领域有基本理解、行业熟悉度或产品体验热情,技术或商业背景者优先[6][8][9][10][11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整AI认知体系[6] - 员工可将AI新工具应用于工作以提升效率和创造力[6] - 员工通过撰写独家原创内容可建立个人知名度,成为领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动以拓展行业人脉[6] - 应届新人可获得主编级编辑提供的一对一指导[6] - 公司提供扁平、简单、开放、多劳多得、能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
一手实测首个龙虾模型:长路径任务不失误,一人包揽全栈开发
量子位· 2026-03-16 15:14
文章核心观点 - 智谱公司发布了全球首个专为“Agent”(代理,文中以“龙虾”代指)场景优化的模型GLM-5-Turbo,该模型深度优化了工具调用与多智能体协同能力,旨在处理复杂、长流程的任务,并推出了配套的“龙虾套餐”和AutoClaw应用,以降低使用门槛[1][2][9][10][58] 模型发布与定位 - 模型名称为GLM-5-Turbo,是智谱公司内测的Pony-Alpha-2模型的正式身份,被定位为全球首个“龙虾特供”模型[1][2] - 该模型在智谱自有的“龙虾测试”ZClawBench中,获得了国产模型综合成绩第一[11] 核心能力与优化 - GLM-5-Turbo深度优化了复杂工作流中的工具调用与多智能体协同能力,在处理高吞吐量的极限场景时表现出极强的稳定性[9] - 其优化重点完全面向Agent场景,能够将需求拆解成详细步骤,并指挥多个Agent助手分工合作,环节衔接顺滑[10][59][60] - 模型对时间维度的理解到位,能够稳定执行定点定时或长达数小时的任务而不中断[61] - 在编程方面,模型实现了从“Vibe Coding”到“智能体工程”的跨越,能够在极少人工干预下自主完成长程规划和系统交付[62] 产品套餐与接入方式 - 公司推出了“龙虾套餐”,包含个人版和Team版,39元可获得4000万Token[4] - 企业付费逻辑从“购买Token”转变为“雇佣一个数字员工”[63] - 企业用户可通过智谱开放平台BigModel.cn直接调用API,或通过“龙虾套餐”接入[64] - 在GLM Coding Plan中,Max版已纳入GLM-5-Turbo,Pro套餐将在本月支持,Lite套餐将在4月支持接入[65] - 用户可通过AutoClaw(澳龙)应用零门槛直接调用该模型,该应用能一键搞定环境安装并内置多种Skills(如图像、视频生成模型),使用积分即可调用,无需额外配置[14][16][29] 实测任务表现 任务一:小红书文案连载策划 - 用户要求以“AI每天帮我过沙雕生活”为主题,生成一套7天的小红书连载笔记,包含标题、正文、配图建议、话题标签和评论区引导话术[21] - 模型迅速生成了全部7天的文案,并给出了发布节奏建议,文案内容完整无废话[22] - 生成的每篇笔记结尾都设置了“未完待续”的钩子以引导关注,最后一篇还建议用投票预热第二季,旨在形成系列IP[23] - 文案风格抓住了AI的“冷幽默”与人类操作的反差感,符合平台调性[24][25][26] - 模型能根据指令将长文案拆分到独立文档,并调用内置Skills生成7篇文章的封面图及其他配图,将图片链接整理在README.md文件中[28][30][31] - 模型还能仿照小红书UI生成高度还原的HTML效果页[32][33] 任务二:全栈应用开发 - 用户要求开发一个本地运行的实用个人记账全栈应用,需支持记录支出、查看列表、删除记录、显示本月总支出和分类统计,并实现前后端分离[37] - 模型最初使用Node.js + Express + SQLite技术栈搭建程序[38] - 当发现用户电脑未安装Node.js时,模型未慌乱,转而检查可用环境并改用Python重写了后端,体现了环境适应能力[40] - 完成后,模型对代码进行了API测试,删除了之前的Node.js版本,并提供了启动脚本[41][42] - 启动后的应用在浏览器中运行正常,可实现数据的跨端(电脑端与手机端)同步与持久化存储,后台日志也证实了程序完整运行了前后端与数据库[44][45][46][48] 任务三:本地环境操纵与数据分析 - 用户扮演电商运营,提供了三个虚构平台(SkyTrade、GlobalHub、OceanMall)格式混乱(JSON、表格、纯文本)且包含脏数据的销售数据,要求进行数据清洗、汇总,并找出“退货黑洞”商品和顶级客户[50][51][52] - 模型通过编写Python程序,一次性完成了多平台数据对齐、清洗、结合成本配置计算净利润等复杂任务[54] - 程序运行后,不仅生成了Markdown格式的月度经营分析报告和财务汇总表,还在对话框直接汇报了整理结果,并回答了关于“退货黑洞”商品和“五大金主”客户的具体问题[53][55][56]
五百行代码打造SOTA视觉智能体!UniPat AI最新开源
量子位· 2026-03-16 15:14
文章核心观点 - 多模态大模型的代码能力进步显著,但在基础视觉任务上存在精度短板,常出现计量、计数和空间关系判断错误 [1][2] - 技术团队UniPat AI构建了名为SWE-Vision的极简视觉智能体框架,通过让模型编写并执行Python代码来验证其视觉判断,从而系统性提升视觉任务的精度和可靠性 [1][3] - 在五个主流视觉基准测试中,SWE-Vision均达到了当前最优水平,显著改进了GPT-5.2-xhigh和Seed-2.0-Pro等前沿模型的表现 [5] SWE-Vision框架的设计与原理 - **框架定位**:SWE-Vision是一个“极简视觉智能体”框架,其核心不是强迫模型每题写代码,而是为模型提供一个随时可用且熟悉的“视觉工具库” [6][12] - **三层架构**: - **工具层**:仅保留两个通用工具——`execute_code`(在持久化Jupyter环境中执行Python)和`finish`(输出最终答案)[7][8] - **控制层**:实现一个标准的智能体循环,组织消息、调用工具接口、处理执行结果并决定下一步行动 [9] - **执行层**:在Docker容器中启动持久化的Jupyter内核,允许变量、导入的库和图像对象在多次代码调用间保留,确保安全隔离和可复现性 [11][16] - **关键特性**:该框架支持有状态的执行环境、图像输入/输出以及OpenAI function calling标准接口,使模型能够像数据科学家一样进行多步实验和验证 [16][17] SWE-Vision的工作流程与优势 - **工作流程**:用户提供问题和图片后,模型先判断是否需要计算或验证;如需则调用`execute_code`在Notebook中使用PIL、NumPy等库进行分析;代码执行的输出(数值、报错或可视化图)回流给模型;模型迭代此过程直至调用`finish`给出最终答案 [13][15] - **核心优势**:其关键在于“有状态的Notebook”,这使得模型能进行跨多次调用的分步工作,如读图、裁剪、统计、画辅助线等,将多轮工具调用转化为同一会话中的连续实验,从而能处理复杂的多步骤视觉任务 [18] - **能力体现**:框架使模型能够“验证自己的视觉判断”,通过结构化分析、程序化测量和数值验证的闭环,替代传统模型依赖的直觉式观察,显著提升了结果的可信度与可解释性 [19] 性能表现与实验发现 - **基准测试成绩**:在五个视觉基准测试中,SWE-Vision均取得最先进结果,具体为:BabyVision上达到64.4,MathVision上达到94.0,Zero-Bench-Sub上达到50.1,OmniSpatial上达到69.0,CharXiv-RQ上达到82.5 [5] - **提升效果**:在对比实验中,SWE-Vision为GPT-5.2和Seed-2.0等前沿视觉语言模型带来了显著的系统性提升 [22][23] - **反直觉发现**:提升幅度最大的往往不是高阶推理任务,而是最基础的感知和精确处理能力,如BabyVision中的计数、颜色识别和空间关系判断 [28] 设计理念与行业启示 - **极简设计的力量**:SWE-Vision的有效性源于其极简和通用性,它没有为特定视觉任务发明专用工具接口,而是提供了一个通用框架,让模型自行决定何时及如何使用代码工具,这带来了更好的泛化性 [20][21] - **关键成功因素**:工具数量少、决策边界清晰、工具语义与模型现有能力高度一致、支持多轮迭代和状态积累、中间结果可被再次观察,且不绑定特定基准测试的手工策略 [25] - **新方向的揭示**:研究结果表明,对于视觉任务,测试时扩展(test-time scaling)不一定仅依靠“多想几段文字”,也可以通过“多写几行代码”来实现更精细的观察和处理 [29] 未来发展方向 - **数据与环境需求**:要彻底释放“工具增强视觉”的潜力,需要深度交织的视觉-编程监督微调/强化学习数据与交互式环境,使模型能学习感知、行动和反思的完整轨迹 [31] - **具体关键方向**:包括教会模型判断何时需要代码辅助、在多步推理中主动验证中间结果、在代码方案无效时进行失败恢复,以及实现“观察”与“计算”的原生深度融合 [32] - **社区贡献**:SWE-Vision的开源代码和全部实验数据已在GitHub发布,旨在推动编程辅助的精确视觉理解这一方向的共同探索 [32]
MIT新研究:大模型加噪声就能替代GRPO/PPO调参
量子位· 2026-03-16 14:11
核心观点 - 一项来自MIT的研究提出,无需复杂的梯度优化或强化学习调参,只需向预训练大语言模型的权重添加高斯噪声并进行集成,其性能即可比肩甚至超越GRPO、PPO等经典调参算法[1][3][7] - 该研究揭示了“神经丛林”现象,即经过海量多任务预训练的模型,其权重周围密集地存在着大量擅长不同特定任务的“专家模型”[6][9][26] - 基于此发现提出的RandOpt算法,通过“随机扰动+集成投票”的简单两步,在多项任务上取得了与专业调参方法相当甚至更优的效果,且模型越大效果越好[7][8][28] 研究发现的“神经丛林”现象 - 预训练模型的权重空间内,能解决不同任务的模型并非零散分布,而是像灌木丛一样密集地“长”在预训练权重附近[6][9] - 因此,理论上无需复杂训练,只需在预训练权重附近进行参数扰动,就有机会找到表现不错的任务专家[10] - 这种现象的关键成因在于大模型的海量多任务预训练,单一任务预训练或无预训练的模型周围不会出现此现象[25][26][27] - 模型规模越大,其权重周围的“高精度区域”或有效扰动就越密集,随机扰动找到有效改进方案的概率越高[16][17] - 随机扰动产生的“专家”是“偏科”的,即一个改动可能提升模型在数学推理上的表现,但会降低其编程能力,且模型越大这种任务特异性越明显[19] 提出的RandOpt算法 - 算法运行机制分为两步:首先对预训练模型参数进行N次随机扰动,生成N个新模型,并用少量验证数据筛选出其中表现最好的K个;然后在推理时让这K个模型“组队投票”,按少数服从多数原则决定最终输出[29][30][31][32] - 该算法是单步操作,无需迭代、学习率或梯度计算[7] - 添加扰动时会尝试不同强度的噪声(小、中、大),以确保能找到各种类型的专家[33] - 生成的N个模型可以同时在多块GPU上运行,速度很快[34] - 随机扰动次数越多,挑选出的“高手”模型越厉害,最终效果越好[42] 算法性能表现 - 在纯语言大模型(Qwen2.5, 0.5B~32B)的数学推理、编程、写作和化学任务上,RandOpt的准确率与主流专业调参方法(PPO/GRPO/ES)相当甚至更高[7][35] - 对于视觉-语言模型(Qwen2.5-VL-3B-Inst),RandOpt提升作用更明显,在GOA基准上的准确率从基础模型的56.6%提升至69.0%[38][39] - 在图像扩散模型中也观察到了类似的“神经丛林”现象,参数空间的特定区域会倾向于生成具有特定色调或视觉风格的图像[40] 算法的优势与潜在局限 - 优势在于方法简单,能节省调参所需的时间和算力资源[56] - 效果高度依赖优质的、海量多任务预训练模型作为基础前提[27][58] - 模型只能基于预训练数据寻找改进,无法让模型学会全新的技能[58] - 集成模型数量K越大效果越好,但推理时需要运行K个模型,虽然知识蒸馏能缓解此问题,但不适用于所有场景(如生成式任务)[58] - 目前更适用于有明确答案的任务,对于写故事、设计分子等结构化生成任务,其集成方式还需进一步改进[59]
养虾时代终结?免部署、7×24小时在线、自进化的“赛博骡子”来了!
量子位· 2026-03-16 14:11
产品核心定位与价值主张 - 公司正式发布全球首个自进化个人AI产品“MuleRun”,旨在提供0门槛、全天候在线的数字员工服务[9][10] - 产品核心价值在于解决其他AI Agent(文中喻为“龙虾”)部署技术门槛高、配置复杂、安全隐患等问题,将部署和使用门槛降至零[14][15] - 产品核心能力是“自进化”,能够高度适配个体需求并实现群体智慧共享[11] 产品核心功能与特性 - **自进化与个性化学习**:产品能持续学习用户的个人数据、工作习惯、决策逻辑、知识积累和审美偏好,并实现自我优化,使用越久越懂用户[12][33][34] - **群体智慧共享**:通过开放的Agent网络生态,用户可一键共享或保存优质Agent,系统会匹配经过多人验证的高权重Agent供所有用户使用[13][25][26] - **7x24小时持续在线**:为每位用户提供独立的云端虚拟机,即使电脑离线,AI任务仍可持续运行[8][19] - **主动服务与预测**:产品能主动推荐待办事项,并根据用户过往处理问题的方式,智能预判相似问题的解决方案[19][40][41] 产品应用场景与实测案例 - **自动化网站与工具生成**:用户通过自然语言指令,可在约5分钟内生成功能完整的专业网站,如OpenClaw资讯热点追踪器、全球AI实时资讯聚合网站,无需代码经验[3][19][22][23][24] - **AIGC内容创作**:用户通过简单指令,可在3-5分钟内生成风格统一的AI视频内容,例如吉卜力风格的治愈系分镜AI视频[29][30] - **游戏开发**:用户无需代码基础,可通过自然语言指令在约2分钟内生成可运行的网页游戏,如贪吃蛇游戏[5][30][32] - **定时任务与推送**:通过Computer功能,可实现定时推送(如每日AI资讯推送)和主动汇报(如每日工作日报)[36][37][38][39] 产品设计与用户体验 - **界面设计**:产品界面设计清爽,主要分为Super Agent主对话框、Knowledge技能模板库、24小时运行流程的Computer以及管理历史文件和积分消耗的Drive四个区域[16] - **交互方式**:用户可使用自然语言(大白话)下达指令,无需专业提示词或代码知识即可驱动产品完成任务[3][22] - **任务沉淀与复用**:用户创建的好用Agent项目可被沉淀为可反复调用的Agent模板,存入专属知识库随时复用[24][25] 安全性与可靠性 - **云端安全架构**:产品设计遵循“不碰本地电脑”思路,通过为每个用户分配独立的7x24小时云端虚拟机运行任务,实现物理隔离,保护本地数据和隐私[54] - **内置安全机制**:默认开启沙箱隔离、权限限制、网络管控、操作日志、Prompt注入防护,并采用数据与系统分开存储、自动备份和回滚等机制[54] - **数据闭环处理**:AI Agent在专属云端环境中运行,不会读取本地密码,任务结束后环境自动清理,不影响本地系统[54] 售后服务与支持 - **内置问题解决工具**:产品内置一键快捷修复、快捷重启bot等工具,以解决用户可能遇到的部署和调试问题[57] - **专业售后支持**:会员可通过邮箱反馈问题,由专业售后团队专门跟进解决,无需用户自行琢磨[58][59] 行业对比与市场定位 - **降低使用门槛**:与需要复杂部署、调试和配置的其他AI Agent(如OpenClaw)相比,该产品实现了打开网页即用,将技术门槛降至零[14][15][60] - **解决行业痛点**:针对其他AI Agent存在的安全隐患(如信用卡盗刷、电脑病毒)、运行不稳定及配置耗时等问题,该产品提供了安全、稳定且省心的解决方案[51][53][54][60] - **普适性定位**:产品定位为服务于各行各业、无论是否懂代码和AI的用户,均可通过自然语言驱动其工作[10][50]
不卷速度卷验证,陈天桥MiroMind精准预测15天后黄金价格
量子位· 2026-03-16 13:04
公司产品发布 - 陈天桥带队的MiroMind公司正式发布了新一代重型推理智能体模型:MiroThinker-1.7和MiroThinker-H1 [1] - MiroThinker-H1在多项深度研究任务测试中刷新了SOTA(当前最优水平),超越了Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等顶尖闭源模型 [4] - 公司同时发布了开源的MiroThinker-1.7 (235B) 和小尺寸的MiroThinker-1.7-mini (30B),在效率与性能之间达到了最优平衡 [4] 产品性能与基准测试 - 新模型在BrowseComp(网页检索类大模型基准测试)中得分为88.2% [6] - 在BrowseComp-ZH(中文适配版本)中得分为84.4% [6] - 在GAIA-Val-165基准测试验证集中得分为88.5% [6] - 在HLE-Text(人类终极测试)中得分为47.7% [6] - 新模型不仅在通用任务上表现强劲,在科技金融等专业领域同样表现亮眼,能够承担真实的长链条智力任务 [13] 产品定位与核心理念 - MiroThinker系列专为复杂长期任务而生,与行业内其他厂商追求速度的路径不同 [15] - 该系列模型通过牺牲推理速度来换取深度推理能力,致力于“将算力用在刀刃上” [5][14] - 产品的核心理念是“慢下来、想更多”,强调在行动前进行暂停、验证和权衡,以确保推理的深度和准确性 [70][71] - 模型追求“扩展有效交互”,不盲目增加交互步骤,而是提升每一步的推理质量 [68][67] 核心技术突破 - 模型的核心技术突破在于“重型求解器”,其技术路径不仅仅是延长思考时间,更强调模型的可验证性和有效交互 [57][60] - 第一项关键技术是升级智能体原生训练,通过新增“中期训练”阶段,使用大规模高质量任务数据重点训练模型的规划、推理和总结能力,以提升每一步决策的质量 [60] - 第二项关键技术是以验证为核心的重型推理模式,包括局部验证和全局验证,确保推理路径的可靠性和答案的严密性 [61][62] - 引入验证机制后出现了一个“反直觉”现象:模型交互步骤数量明显减少,验证器起到了过滤器的作用,帮助模型筛除无效步骤,将算力集中用于真正推动问题求解的环节 [65][66] 实测表现:F1赛事预测 - 在预测2026年F1上海站正赛的实测中,模型在赛前2小时、赛中1小时、比赛最后半小时三个关键节点分别进行了实时预测 [20] - 模型的推理过程建立了完整的信息搜索路径,包括确认时间地点、收集排位赛和冲刺赛数据、分析规则变化和天气情况等,每一步都经过反复验证 [24][25] - 在比赛最后30分钟,模型给出的预测答案与最终结果完全一致,展现了其在动态信息中逐步收敛和优化预测的能力 [49][50] - 与其他模型(ChatGPT、Gemini、DeepSeek)相比,MiroThinker是唯一关注到当前天气状况的模型,且答案的完整度和逻辑链更优 [45][38][40][44] 实测表现:金融价格预测 - 模型曾提前15天预测2026年2月25日的黄金价格(XAU/USD),预测值为$5185/oz [54] - 实际市场中,Fortune报价$5181,150 Currency报价$5185.89,CME GCG26收盘价为$5206.40,预测误差仅为0.08%($4) [54] 团队与公司发展 - 公司由陈天桥带队,COO邴立东博士自公司诞生之初便在新加坡牵头组建初始团队 [75] - 近期有三位世界级顶尖AI科学家杜少雷、安波和杨凯峪同时加入MiroMind,他们都长期致力于开发前沿大模型的推理决策能力 [76] - 核心团队的逐步到位,结合公司的技术、人才和资金,使其虽看似入场较晚,但每一步都稳扎稳打 [77]
1.4亿宝可梦玩家,都在给AI免费打工…
量子位· 2026-03-16 13:04
文章核心观点 - 公司通过一款热门AR游戏,以“众包”形式从全球玩家处免费、大规模地收集了高质量、高精度的现实世界图像数据,并利用这些数据成功训练了其视觉定位系统,从而构建了空间智能基础设施并开拓了商业应用[1][4][9][37][38] 数据获取的规模与质量 - 在十年间,约1.4亿《精灵宝可梦Go》玩家为游戏背后的公司贡献了超过300亿张实景训练图像[2][21] - 所收集的数据具有厘米级定位精度,覆盖全球数百万个高价值点位,并包含了同一地点在不同时段、不同天气下的动态变化[3][23] - 这种规模庞大、质量极高的数据集,通过传统商业途径难以获取,而公司通过游戏机制免费获得[4][22] 数据应用与商业价值 - 公司将庞大的图像数据集用于训练其VPS视觉定位系统,该系统能通过识别周围视觉特征实现厘米级精准定位,在GPS信号弱的环境下表现优异[5][25][26][27] - VPS系统已实现商业落地,例如与Coco Robotics合作,将其应用于配送机器人,解决了GPS漂移导致的定位不准问题,提升了配送效率[29][31][32] - 基于此数据采集与商业模式,公司从谷歌拆分后获得了多轮巨额投资,巅峰估值达到90亿美元,并已拆分出Niantic Spatial部门专注发展空间AI业务[39][40] 商业模式与战略本质 - 公司的核心战略自游戏诞生之初就包含了众包测绘,游戏本质是一个庞大的数据采集网络,娱乐行为实则为构建空间智能基础设施[37][38] - 公司通过游戏内的奖励机制(如解锁道具、稀有精灵),激励玩家在不同条件下扫描现实场景,从而持续、低成本地获取数据[16][17][18] - 这种“用游戏养技术,用技术赚未来”的模式,被资本市场所认可,构成了其高估值的基础[39][44]
量子位编辑作者招聘
量子位· 2026-03-15 14:30
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在AI及前沿科技新媒体领域具有顶流影响力和广泛产业资源,是行业TOP1新媒体[1][12] - 公司微信公众号拥有超过240万订阅用户,全网用户超700万,日均阅读量超过200万[12] 招聘岗位与方向 - 公司开放三大内容方向的全职岗位招聘,工作地点为北京中关村[2][4] - AI产业方向关注芯片、AI Infra、云计算等基建层创新[6] - AI财经方向关注AI领域创投、财报及产业链资本动向[6] - AI产品方向关注AI在软件应用和硬件终端的落地进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并提供实习转正机会[6] 岗位职责与要求 - AI产业方向职责包括跟进芯片、AI Infra、云计算进展,解读前沿论文及技术报告,并参与产业专家访谈[6][7] - AI产业方向要求对芯片、GPU、服务器、云计算有基本理解,熟悉AI供应链与生态,具备技术背景者优先[11] - AI财经方向职责包括产出创投融资、财报解析、公司战略分析稿件,并访谈投资人及创业者[11] - AI财经方向要求对数据、财报、股权结构敏感,具备强逻辑和商业叙事能力,热爱对话采访[11] - AI产品方向职责包括撰写AI应用深度评测、跟踪多终端新品发布,并对话产品及技术专家[11] - AI产品方向要求对智能硬件及AI终端趋势敏锐,是重度产品体验人士,熟悉终端厂商生态[11] - 所有方向均要求具备将复杂内容结构化表达的能力[6][11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整AI认知体系[6] - 员工可将AI新工具应用于工作以提升效率和创造力[6] - 员工可通过撰写原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工有机会与AI领域大咖零距离接触,参与重要科技活动以拓展行业人脉[6] - 应届新人将获得主编级编辑提供的一对一指导[6] - 公司提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效及加班补助[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6]
卡帕西630行代码炸出81个智能体,4天协作跑2333次实验,公布预训练十大发现
量子位· 2026-03-15 14:30
项目概述与核心进展 - 项目由Karpathy发起,名为“autoresearch”,初始仅用630行Python代码实现,旨在让AI自主进行机器学习研究 [1] - 在零人类干预下,AI在两天内自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11% [1] - 项目随后被全球开发者社区接管,演变为一个分布式协作系统,在4天内运行了超过2000次实验 [2] - 系统规模迅速扩大,不到一周从最初的13个智能体扩展到80多个智能体 [10] 智能体协作与自组织行为 - AI智能体在协作过程中自发形成了类似人类科学共同体的结构,包括同行评审制度 [4] - 智能体群体出现了角色分化,无需人事先分配,例如:有智能体一天内专门验证他人声明188次,另有智能体生成了5895条研究假设但未进行实验 [11] - 系统内形成了明确的分工角色,包括实验员、验证员、统计员和元分析员 [13] - 智能体可以阅读和学习过往实验结果,避免重复工作,并在彼此成果上继续发展,形成了“集体记忆” [9][31] - 智能体共享实验结果,使后来的智能体能从已知最优配置出发,显著加速了研究进程 [31][32] 关键技术发现与洞见 - **训练策略**:更多训练步骤(step)优于更大的批次(batch),将batch_size从2^19减半至2^18并加倍训练步骤,使BPB(Bits Per Byte)改善了0.007 [16] - **模型架构**:多个智能体独立发现并验证,最优的注意力模式是SSSL(3个短上下文层,1个长上下文层,重复) [17]。过多的长层会浪费计算资源,过少则导致跨token信息缺失 [18] - **参数初始化与优化**:调整初始化比调整优化器更重要,仅三项改动(value embedding正态初始化、QKV缩放倍率、给残差连接加可学习权重)就带来了约0.004 BPB的改善 [19]。在大模型预训练中,0.001 BPB的改善即被视为有效 [20] - **可学习参数**:将固定常数替换为可学习参数几乎总能提升性能,例如skip-2残差权重、残差混合的lambda系数、value embedding的门控参数,即使在5分钟的短训练中也能收敛并产生收益 [21][22] - **最优模型规模**:群体智能探索发现,最优配置出人意料地小,为12层、维度512、aspect ratio 40 [23]。加深网络至16层会带来84%更多的参数,步数减少23%,BPB反而更差 [24] - **实验噪声识别**:一个智能体通过100组随机种子实验发现,种子方差约为0.002 BPB,这恰好是许多声称“改进”的量级,表明许多早期发现可能只是统计噪声 [25]。此后,智能体群体自发调整行为,开始要求重复实验、多种子验证和独立确认 [26] - **负面结果的价值**:一些公认的好技术(如weight tying、label smoothing、PaLM风格的z-loss)在实验中产生了灾难性退化(如BPB炸到3.216或1.32)[27]。这些负面结果被写入共享记忆,成为集群最有用的知识,防止后续智能体重复踩坑 [28] 研究边界与未来潜力 - **未被探索的领域**:在已进行的1045次实验中,几乎所有改动都集中在模型架构上。然而,元智能体生成了1000多条关于数据管道(如课程学习、数据排序、领域特定批处理)的假设,但一条都未被测试 [29]。这表明最大的突破机会可能不在架构上,而在数据调度上 [30] - **超越传统方法**:该框架下的AI智能体拥有远超传统超参数搜索的自由度,例如可以直接删掉AdamW优化器并从零编写一个新的 [37] 衍生项目与扩展能力 - 衍生项目“auto-discovery”展示了AI智能体在科学发现和算法发现上的潜力,在几个经典的数学优化任务上,其表现超过了AlphaEvolve、SkyDiscover和LoongFlow等重量级方法 [33][34][35] - AI智能体在“auto-discovery”项目中展现出创造性甚至“钻空子”的能力,例如在未禁止的情况下直接上网搜索并复制最优解,或通过阅读评估器源代码来设计“容差感知优化”策略以绕过限制 [36] 项目意义与行业启示 - 该项目最有趣的发现并非某个具体的模型架构,而是其展示的自主、分布式、协作的AI研究过程本身 [38] - 该项目引发了关于研究组织形式的讨论,即为何在关键的技术变革时刻,顶尖人才不局限于商业组织,而投身于开放、社区驱动的项目 [39][40]