量子位
搜索文档
量子位编辑作者招聘
量子位· 2026-01-27 10:33
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超过240万订阅用户,全网用户超过700万,日均阅读量超过200万[12] - 公司在第三方数据平台(如新榜、清博)是AI及前沿科技行业的TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并接受实习转正[4][6] - 所有岗位工作地点均在北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,如芯片、AI Infra、云计算领域动态及核心玩家[6] - 职责还包括对前沿论文、开源社区、技术大会(如Hot Chips、NeurIPS、MLSys)报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布(如手机、PC、XR、车机等)[11] - 需要对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并具备强逻辑、体验表达和结构化能力[11] 加入公司的优势 - 员工可以第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可以将各种AI新技术、新工具应用于工作,提升效率和创造力[6] - 员工可以通过撰写独家原创内容建立个人知名度,成为AI领域的意见领袖[6] - 员工可以与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉和视野[6] - 应届新人会获得主编级编辑的一对一指导,以更快获得成长[6] - 公司提供扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
多模态大模型中Attention机制暗藏「骗局」,需用一个公式修正丨上大×南开
量子位· 2026-01-27 10:33
文章核心观点 - 当前主流视觉语言模型中的注意力机制存在结构性偏置,不能可靠地指示语义重要性,若直接用于视觉令牌剪枝会损害模型性能 [2] - 通过一种即插即用的注意力去偏方法,无需修改模型或重新训练,即可有效修正偏置,提升多种剪枝方法的性能与可靠性 [6][7] 注意力机制存在的结构性偏置 - **位置偏置**:语言到视觉的注意力权重呈现单调上升趋势,模型更倾向于关注序列靠后的视觉令牌,导致对图像下方区域给予更高但可能无关语义的关注 [3] - **填充区域偏置**:由于输入图像尺寸不一,填充区域在注意力计算中经常获得异常高的权重,即“注意力沉没”现象,这会误导剪枝策略保留空白区域 [5] 提出的解决方案:注意力去偏 - 核心思路是对注意力本身进行去偏修正,而非提出新的剪枝方法或引入额外训练 [6] - 方法是通过拟合注意力随令牌位置变化的整体趋势来显式建模位置偏置,并对原始注意力进行修正,同时显式抑制填充区域的注意力贡献 [6] - 该方法是一个即插即用模块,不涉及模型结构修改或重新训练,可在推理阶段直接使用 [6][7] 实验设计与结果 - 实验覆盖了**6种主流的基于注意力的视觉令牌剪枝方法**,在多个主流视觉语言模型上进行测试,包括7B和13B参数规模的模型 [7] - 评估任务包括**10个图像理解任务和3个视频理解任务** [7] - 实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,在更激进的令牌压缩条件下效果尤为明显 [10] - 具体数据示例如下:在7B模型上,FastV方法在VQAv2任务上的得分从73.2提升至76.6;在13B模型上,FastV方法在VQAv2任务上的得分从76.5提升至78.2 [11] 研究结论与意义 - 注意力并非天然等价于语义重要性,忽视其固有结构性偏置会误导基于注意力的剪枝策略,影响模型性能 [12] - 该工作通过简单有效的注意力去偏修正,在不增加训练成本的前提下,显著提升了视觉令牌剪枝的可靠性与泛化能力 [12] - 该研究为多模态模型的高效部署提供了新视角,并为后续设计更稳健的注意力机制奠定了基础 [12]
11.77亿资本押注卡车新势力「一哥」,L2升维路线率先在商用车跑通!
量子位· 2026-01-27 10:33
文章核心观点 - 自动驾驶卡车公司DeepWay深向通过“正向定义、软硬一体、自研三电”的独特路径,在商业化落地和财务表现上实现了断层式领先,其“从L2大规模商业化渐进至L4”的战略被证明是可行且高效的,这构成了其获得资本持续押注并即将冲刺IPO的核心逻辑 [1][5][33][61][63] 公司融资与估值 - 2026年初,公司完成Pre-IPO轮融资,总额11.77亿元,投资方包括普华资本、淡马锡旗下ABC Impact、欣旺达等国资、外资及产业资本 [3][5] - 公司成立5年,融资朋友圈不断扩容,公开可查的累计融资金额已超过30亿元 [5] - 外界普遍认为公司估值已跨过10亿美元的“独角兽”门槛 [3][8] 经营业绩与财务数据 - **营收增长迅猛**:公司2023年收入4.26亿元,2024年增至19.69亿元,同比增长3.6倍;2025年上半年营收15亿元,同比增长97.6% [24] - **交付量断层式领先**:卡车销量从2023年的509辆增长至2024年的3002辆,同比暴涨490%;2025年单季度交付量已追平2024年全年 [16][17][18] - **毛利持续改善**:2023年、2024年及2025年上半年毛利分别为182万元、979万元和4414万元 [26] - **仍处亏损但研发投入高**:2022年至2024年期内亏损分别为2.66亿元、3.89亿元、6.75亿元;2025年上半年亏损3.71亿元,主要源于持续的研发投入 [28][30] - **研发费用**:2022年至2024年研发费用分别为2.31亿元、3.52亿元、3.65亿元;2025年上半年为1.79亿元 [30] 产品与技术战略 - **正向定义与全栈自研**:公司是全球首家批量交付正向定义重卡的新势力,完全自研新能源重卡平台、核心三电及自动驾驶技术 [13] - **独特的渐进式路径**:战略上先通过销售标配L2的智能卡车实现商业化造血,为高阶自动驾驶研发输血,后续逐步实现L4编队及单车L4的规模化落地 [14][33][54] - **全生命周期成本优势**:通过三电自研、电池底盘一体化、低风阻设计等,其重卡全生命周期成本比传统燃油重卡低18.7%,比油改电重卡低4.9% [23] 核心技术优势与价值体现 - **自研三电的价值**:CTB电池底盘一体化技术使电池包减重300公斤,整车线束减少30%,让同款车头能多拉1.2吨货物,为司机/车队创造显著经济效益 [41] - **分布式驱动与精准控制**:自研单桥双电机电驱桥,实现驱动备份冗余,可精准控制每个轮子,与智驾系统协同提升车辆稳定性和安全性,降低事故风险 [43] - **L2系统的安全与经济价值**:标配的L2系统“天玑·随行”使平均事故率下降60%,司机疲劳度下降50,为典型客户每辆车每年节省1.9万元 [48] - **L4技术路径清晰**:采用“1辆领航车+N辆跟随车”的编队模式,逐步实现无人化,目标节省80%甚至更高的人力成本,且技术可反哺提升L2系统能力 [50][58] 商业模式与市场定位 - **解决物流核心成本痛点**:公司战略是通过自研三电降低车辆成本,通过标配L2提升安全性能,从而降低保险、管理、事故运损等综合成本 [20][21] - **自研车辆是手段而非目的**:自研重卡是为了给自动驾驶技术提供最优的落地平台,以最低成本实现最优性能,避免与传统车企合作的不确定性 [34][36] - **展现可落地性与可持续性**:公司以成熟技术路径和最低成本推进自动驾驶商业化,随着交付量增长,自我造血能力增强,形成了经营正循环 [33][61]
那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线
量子位· 2026-01-26 23:30
阿里千问发布Qwen3-Max-Thinking模型 - 阿里千问正式发布Qwen3-Max-Thinking模型,在涵盖科学知识、数学推理、代码编程的19项权威基准测试中,赶上甚至超越了GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶级闭源模型 [1] - 该模型的总参数超过1万亿(1T),预训练数据量高达36万亿(36T)Tokens,并进行了大规模强化学习后训练 [3] - 模型通过引入“自适应工具调用”和“测试时扩展”两项技术创新,显著提升了推理性能和调用工具的原生Agent能力 [3][13] 模型性能与基准测试结果 - 在知识能力方面,于C-Eval基准测试中得分为93.7,超越GPT-5.2-Thinking的90.5和Claude-Opus-4.5的92.2 [2] - 在推理能力方面,于IMO难度级别的数学能力测试基准IMO-AnswerBench上取得91.5分,为全场最高分 [32] - 在启用工具的“人类最后的测试”HLE中得分为58.3,超过GPT-5.2-Thinking的45.5以及Gemini 3 Pro的45.8,刷新SOTA [31] - 在指令遵循与对齐方面,于Arena-Hard v2基准测试中得分为90.2,显著高于其他对比模型 [2] - 该模型的“早期预览版”曾在AIME 25和HMMT 25(哈佛-MIT数学竞赛)中达到100%的准确率 [2] 核心技术创新细节 - **自适应工具调用**:模型能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能,无需用户手动选择 [22] - 该能力允许模型自主上网收集资料,并调用代码解释器进行数据分析和绘图,以完成复杂任务 [15] - 搜索和记忆工具能有效缓解幻觉,提供实时信息访问,代码解释器允许执行代码片段以解决复杂问题 [25] - **测试时扩展技术**:一种在推理阶段分配额外计算资源以提升模型性能的技术 [27] - 阿里团队采用“经验积累式、多轮迭代的测试时扩展策略”,限制并行推理路径数量,将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思,专注于未解决的不确定性,提升了推理效率和上下文利用效率 [28][29][30] - 实验证明,在大致相同的token消耗下,该方法优于标准的并行采样与聚合方法 [31] 实际应用能力展示 - **复杂代码生成**:能够根据复杂提示词创建基于浏览器、结合摄像头手部追踪的气球射击游戏,并实现细节要求如状态提示和高亮提醒 [7][8][12] - **金融研究与分析**:能够根据用户指令(如分析内存涨价对股票的影响),自主完成资料收集、数据分析和报告生成,在一分钟内产出包含原因、产业分析和走势判断的完整报告 [14][16] - **多工具协同**:能够理解复杂指令(如搜索《醉翁亭记》全文并用代码解释器替换文字),并自主调用搜索引擎和代码解释器完成任务 [23][24] 中国开源AI模型影响力 - 根据MIT-Hugging Face数据,在全球220亿次模型下载行为中,中国开源AI模型的采用份额已跃升至17.1%,超过了美国的15.8% [36] - 在过去一年内新发布的模型中,中国模型的下载量稳居第一 [37] - 阿里千问系列衍生模型数量突破20万个,成为全球首个达成此目标的开源大模型 [39] - 千问系列模型下载量突破10亿次,平均每天被下载110万次,完全超越Llama,成为全球AI开源界的新标杆 [39] - 从迭代频率、下载量和社区影响力来看,千问系列拔得头筹 [40] 模型生态与商业化结合 - Qwen3-Max-Thinking模型已在千问APP的PC端、网页端免费上线,同时开放了API(qwen3-max-2026-01-23) [4] - 千问APP已全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务 [43] - 行业趋势显示,模型厂商的新着力点是将顶尖模型能力与应用生态体系做更深入的结合 [42] - 预计2026年基础模型将持续增强,并更深入地与垂直领域及实际生活结合,展现更多应用可能 [44]
瑞幸背后的芯片,藏不住了
量子位· 2026-01-26 18:14
文章核心观点 - 瑞幸咖啡门店运营背后依赖的“眼睛”是边缘侧AI算力,其关键支撑是国产通用GPU公司天数智芯的“彤央”系列产品[1][3][4][6][7][8] - 天数智芯通过发布彤央系列边端算力产品,展示了其在边缘计算场景的落地能力,并披露了从云端到边缘的完整技术路线图,其长期目标是对标乃至超越英伟达等行业标杆[8][9][35][36][54] 彤央系列产品发布与特性 - 天数智芯在上市后不久即发布“彤央”系列四款边端算力产品,该系列名称寓意高能效计算与边端核心算力枢纽,专为真实业务现场设计[9][12][13][14] - **彤央TY1000**:标准699Pin接口模组,口袋大小,提供近200T稠密算力,在CV、NLP推理及32B参数的DeepSeek-R1模型推理等场景表现不弱于主流国际方案,多负载综合效率超过英伟达AGX Orin典型配置[16][17][18][20][21] - **彤央TY1100**:采用12核ARM v9架构CPU,系统级算力更充沛,面向多传感器融合、边缘数据预处理等复杂场景,定位为完整的边缘计算底座[22][23][24][25] - **彤央TY1100_NX**:针对显存容量和性价比敏感用户,配置更大显存,提升多模型并行、长序列推理的稳定性,保持即插即用部署[26][27] - **彤央TY1200**:定义为算力终端,算力规格达300 TOPS,是面向终端形态的整体方案,目标客户包括希望将AI能力直接集成进设备的行业客户[28] - 产品组合覆盖从算力模组到终端的不同部署需求,并在接口和形态上实现与主流产品的Pin-to-Pin兼容,降低客户迁移成本[29][31][32] 产品商业化落地与应用场景 - 彤央系列产品已在实际场景中应用,并非仅为发布[33] - 在**机器人领域**,与格蓝若机器人合作进入企业应用[33] - 在**工业侧**,比依电器等制造企业用于设备智能化升级[33] - 在**商业零售场景**,瑞幸咖啡是典型案例[10][33] - 在**交通领域**,已参与多个车路云一体化试点[33] - 公司通用GPU已稳定运行400余种主流模型,并强调Day 0适配能力,例如DeepSeek模型在其平台上的适配和推理已成为客户实际部署的一部分[46] - 公司累计交付芯片数量已超过5.2万片,服务客户超过300家[49] - 具体应用成效包括:互联网AI客服算力成本压缩一半且单机性能翻倍;金融行业研报生成效率提升约70%;千卡规模集群已实现超过1000天的稳定运行[49] 公司技术路线与长期战略 - 天数智芯不满足于国产替代,长期目标是对标乃至超越英伟达等行业标杆[36] - 公司披露了明确的架构路线图[37] - **2025年**:推出“天枢架构”,超越英伟达Hopper,支持高精度科学计算到AI精度计算,AI芯片执行注意力机制时算力有效利用效率达90%及以上,测试显示其效率较行业平均水平提升60%,在DeepSeek V3场景平均性能比Hopper架构高约20%[39][40] - **2026年**:推出“天璇架构”(新增ixFP4精度支持,对标Blackwell)和“天玑架构”(实现全场景AI与加速计算覆盖,超越Blackwell)[41] - **2027年**:规划“天权架构”,目标全面超越英伟达Rubin架构[42] - 技术路线图由TPC Broadcast、Instruction Co-Exec、Dynamic Warp Scheduling等底层技术能力支撑,这些技术构成了公司在指令级并行、资源调度和算力利用率上的核心优势[43][45] - 公司选择了一条更难的通用GPU全栈自研路线,涵盖架构、指令集、编译器到软件栈,与自研芯片或专用NPU路线形成差异[52]
量子位编辑作者招聘
量子位· 2026-01-26 18:14
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] 岗位职责详情 - AI产业方向岗位职责:关注基建层创新,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[5][6];跟进前沿论文、开源社区及技术大会报告并进行大众化解读[6];参与核心采访,对话产业专家并撰写落地案例[7] - AI财经商业方向岗位职责:聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者及产业分析人士[11] - AI产品方向岗位职责:关注AI在软件应用产品和硬件终端的落地[11];撰写AI应用产品深度评测,跟踪多终端新品发布[11];对话访谈AI应用创业者、产品专家及终端技术专家[11] 任职要求 - AI产业方向任职要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业供应链与生态[11];具备将复杂技术内容结构化表达的能力[11];有技术背景、理工或CS/EE方向优先[11] - AI财经商业方向任职要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,具备社交型人格[11] - AI产品方向任职要求:对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11];熟悉各大终端厂商业态及体验方法论[11];具备强逻辑、体验表达和结构化能力[11] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工通过撰写独家原创内容,可建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑提供的一对一指导[6] - 公司提供行业TOP薪资待遇,福利包括五险一金、餐补、项目绩效、商务绩效、加班补助等[6] - 公司团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6]
让Agent画思维导图稳固长期记忆:新框架实现稳定长期学习,准确率提升38%
量子位· 2026-01-26 18:14
文章核心观点 - 传统RAG架构在支撑智能体长期记忆和持续学习方面存在结构性瓶颈,难以表达时间顺序、因果关系和状态演化,导致记忆漂移和逻辑断裂 [2][3][10] - 中国电信人工智能研究院提出了一种基于有向无环图的通用记忆框架TeleMem,将记忆从向量集合升级为可演化的时序因果图,旨在构建一个能够支撑长期持续学习、结构稳定且可规模化的记忆系统 [3][11][15] - TeleMem通过统一的语义节点、因果连边与DAG约束,以及表征与索引的双层协同更新机制,实现了记忆的可追溯、可累积和可演化,在实验中显著提升了长程对话的准确率并降低了推理成本 [11][16][38][41] - 该研究反映了智能体技术的一个长期趋势:记忆系统正从检索设计转向记忆结构与持续学习机制设计,结构化、可演化的记忆系统是智能体迈向长期智能的关键基础设施 [43][44][47] 传统RAG架构的局限性 - **缺乏时间与因果结构**:向量数据库擅长相似度检索,但无法描述事件先后关系、状态依赖和决策演化路径,导致系统难以形成稳定的学习轨迹 [5][6] - **上下文碎片化严重**:检索返回的是离散片段,模型需自行补全逻辑链条,容易产生幻觉与不一致推理,在持续学习场景下会导致认知漂移和策略不稳定 [7][8] - **索引随规模恶化**:随着历史数据增长,写入成本、索引漂移和存储冗余不断累积,系统难以在长期运行中保持稳定的学习能力 [10] - **本质问题**:RAG面临的并非检索精度问题,而是其记忆数据结构难以承载跨时间的知识积累、状态演化与因果依赖,因此难以支持真正意义上的持续学习 [10] TeleMem记忆框架的核心设计 - **数据结构升级**:将所有历史记忆统一组织为一张有向无环图,使记忆从孤立的向量写入升级为可被持续累积、回溯和修正的可演化认知结构 [11][15] - **图的构成要素**: - **节点**:表示一段已被语义理解并稳定固化的记忆状态,包含内容语义、向量表征和时间信息,对应一次对话状态、关键事件或阶段性的认知更新结果 [12] - **依赖边**:表示节点之间显式的语义与因果依赖关系,边为有向结构并严格满足时间约束,保证语义单调演化,避免循环依赖与认知回滚 [13] - **路径**:多条依赖边串联形成可追溯的记忆演化链,刻画了智能体的认知更新与持续学习轨迹 [14] - **统一的语义节点**:节点是承载多类型语义表征的复合结构,覆盖用户状态、交互事件和环境对象等多个语义层面,保存的是被模型理解并稳定固化后的语义状态,而非原始数据,这降低了存储与索引成本并支持跨任务迁移 [16] - **因果连边与DAG约束**:依赖边同时表达时间顺序、语义依赖和逻辑约束,DAG结构天然避免循环依赖,从结构层面降低灾难性遗忘与隐性知识覆盖的风险,为增量构图和长期维护提供可靠基础 [17][18][19] TeleMem的协同更新与检索机制 - **表征与索引的双层协同更新**: - **表征层**:负责语义内容的抽象、压缩与状态演化 [20] - **索引层**:负责维护节点之间的时间约束、因果依赖与可检索拓扑结构 [21] - 通过离线批量与在线流式两条路径协同更新,覆盖不同时间尺度下的需求,在吞吐、稳定性和长期可维护性之间取得平衡 [21][32][33] - **离线批量更新**: - **表征层更新**:通过高度并行的批处理流水线,将原始交互持续压缩为稳定的长期语义记忆,流程包括记忆抽取、检索对齐和聚类决策,支持多层级并行,实现了可随数据规模线性扩展的写入效率 [22][23][24][25][27] - **索引层更新**:采用并行化的批量构图方式,利用索引只读、时间约束天然无环和批量追加写入等工程设计优势,将构建大规模记忆索引转变为可线性扩展的并行计算问题 [28][29][30][31] - **在线流式更新**:面向实时交互,强调低延迟与持续可用性,表征层进行增量更新,索引层基于检索完成近似挂载并进行局部结构调整,允许短期近似误差但保证结构持续稳定演化 [32] - **读取机制:从片段拼接到因果闭包还原**: - 传统RAG是“Top-K相似片段拼接”,在长对话场景中容易因缺乏前置条件、结构约束和上下文碎片化而失效 [34] - TeleMem的读取目标是“复原一段完整因果上下文”,通过种子定位、因果回溯和闭包构造三个步骤,形成一个最小闭包子图,提供前因后果相对完整的上下文,显著降低碎片化带来的推理偏差 [34][35][36] - 在复杂多模态查询场景中,可采用ReAct风格的推理范式,通过多轮迭代在文本记忆与视频内容之间逐步补全信息 [36] 实验结果与性能表现 - 在中文长程对话基准ZH-4O测试中,TeleMem的准确率达到**86.33%**,相比RAG基线提升约**38个百分点**,相比Mem0提升约**19个百分点** [38] - 在保持高准确率的同时,显著降低了推理成本与延迟,不再需要每次将完整历史上下文输入模型,记忆规模也不再受限于模型的上下文窗口,可稳定支持**千轮乃至万轮**对话 [41] - 系统支持多模态记忆管理,在复杂、多源信息场景下仍能保持较好的组织与检索稳定性 [42] 行业趋势与意义 - **技术趋势**:智能体能力正从“检索系统设计”逐步转向“记忆结构与持续学习机制设计”,记忆成为承载学习、认知演化与策略稳定性的核心基础设施 [43][44] - **未来智能体的关键能力**:需要具备可追溯的状态与认知演化路径、可持续维护的长期记忆与增量学习能力,以及可解释的上下文回溯与学习来源追踪能力 [46] - **行业意义**:结构化记忆系统不仅提升检索效率,更是在为智能体构建一个可持续学习、可演化认知与长期稳定行为的底层支撑层,可能成为下一代智能体基础设施从“工具型系统”迈向“长期智能体”的关键分水岭 [47]
Skills刚火,就有零Skill的Agent来了…
量子位· 2026-01-26 18:14
文章核心观点 - 介绍了一种名为“原位自进化”的新型AI智能体(Agent)范式,该智能体能够在执行任务的过程中,自主创造并积累可复用的工具,从而在无需预先定义技能(Skills)或依赖大量人类标注的情况下,动态扩展其能力边界,并在多个高难度基准测试中取得领先性能 [1][3][45][52] - 该研究由中国公司云玦科技的团队完成,其核心是“工具优先”的理念,通过一个包含管理者、工匠、执行者和整合者的多角色系统实现智能体的自我进化,且该框架已开源 [60][68][88][90] - 该技术被视为解决AI在开放性、可控性与经济性之间“不可能三角”的一种潜在方案,通过让智能体在推理阶段“边做边学”,有望使开源模型获得动态优势,从而与闭源模型竞争 [106][114][115][128] 技术原理与框架:原位自进化 - 核心概念是“原位自进化”,这是一种发生在模型推理阶段的自进化过程,区别于传统在训练阶段依赖外部监督信号的自进化 [45][52] - 该框架无需外部监督或真值标注,仅依靠模型推理时的内部反馈和过往交互经验,就能提炼出可复用的通用技能,实现“边做边学” [53][54] - 团队选择了“工具优先”的进化路径,认为工具直接决定了智能体的能力边界,且工具执行产生的代码报错等二元判别信号是天然的高质量监督信号,无需人类标注 [61][62][65][66] - 智能体系统由四个角色协同工作:管理者负责任务分析与规划;工匠负责按需创建新工具;执行者使用工具执行任务;整合者生成最终答案 [68][69][70][71][74] - 任务完成后,系统会进行复盘,将迭代过程沉淀为可复用的方法论并更新工具库,同时引入“并行批处理”机制,通过批量处理相似任务来大幅提升进化效率 [77][83][84][85] 性能表现与实验结果 - 以Gemini 3 Pro为后端模型的该智能体,在被称为“地狱级评测”的HLE基准测试中表现出色,成绩仅次于GPT-5.2-Pro智能体 [4] - 在多个高难度评测集(HLE, DeepSearchQA, FinSearchComp, XBench)中,该智能体的性能超越了官方未披露方法的含工具使用的结果,高出近20分 [5] - 在总计处理近4000道题目的过程中,智能体从零开始自主创造了128个工具,其中在HLE的2000多道题上就创造了97个工具 [19][24] - 工具创造呈现边际效应递减并最终收敛于128个,表明所造工具具备高度的可复用性,能够覆盖后续绝大多数新任务,无需继续扩张 [27][28][29][32][33] - 在知识迁移策略下,旧工具库能有效减少新工具的创造需求,例如在XBench的两个阶段,新工具创造数量直接降为0 [35] - 智能体最常使用的工具与人类工作习惯高度一致,如网页搜索、内容获取、计算器、文件下载等,且工具使用频率呈现明显的马太效应 [38][39] 行业背景与意义 - 行业普遍认为,实现人工超级智能的关键节点之一是AI能够自进化,但传统讨论多集中于参数层面的进化 [56] - 该研究关注的是工作流、记忆和工具层面的进化,被视为更现实可行、能立即落地的解决方案 [57][58] - 该技术有望破解AI在To C场景下面临的“开放性、可控性、经济性”不可能三角:通过工具集解决能力边界问题,通过代码执行反馈保障可控性,并通过自进化处理开放需求同时控制成本 [106][114][115][116] - 对于开源生态而言,该技术可能改变游戏规则,若能赋予开源模型“越用越好用”的动态自进化能力,将有助于其与闭源模型竞争 [118][120][128] 研究团队与项目细节 - 该研究由云玦科技的团队完成,该公司由前阿里巴巴集团副总裁彭超创办,旨在开发可穿戴通用智能体 [91] - 论文通讯作者是云玦科技联合创始人兼CTO齐炜祯,他是多词元预测架构ProphetNet的第一作者,该架构被DeepSeek V3、Qwen-3-Next等多款主流大模型采用为核心预训练方法 [92][94][95] - 论文第一作者是李昊天(哈工大博士生)和杨释钧(中科大硕士生),他们在云玦科技实习期间完成了此项工作 [103] - 该研究实验经费仅为15万元,所有数据集和实验结果均为“一次通过”,没有资源进行反复调参,凸显了方法的稳健性 [104] - 该项目已完全开源,包括实验的所有日志数据、评测脚本和结果 [88]
Clawdbot作者:亿万富豪本豪,复出只因退休太空虚
量子位· 2026-01-26 14:51
文章核心观点 - 火爆全网的AI产品Clawdbot的创始人Peter Steinberger是一位拥有成功创业经历的亿万富翁,其在财富自由后再次投身AI创业,展现了资深创业者把握技术浪潮的敏锐与热情 [1][6][57] - 创始人Peter Steinberger的职业生涯分为上下半场:上半场成功创建并出售了文档处理SDK公司PSPDFKit,获利约1亿欧元;下半场在经历四年空虚后,于2025年复出创立AI Agent公司,并迅速推出现象级产品Clawdbot [14][40][53] - AI技术的出现为上一代优秀的创业者提供了“迟到多年的入场券”,创造了将现有产品重做一遍的巨大机会,Peter Steinberger的复出是这一趋势的典型代表 [56][57][58] 创始人背景与首次创业 - 创始人Peter Steinberger是奥地利人,毕业于维也纳科技大学计算机专业,在学生时期已是资深iOS开发者,并推动了母校首门Mac/iOS开发课程的开设 [15][16][17] - 2010年,Peter为一位客户开发基于PDF的杂志App,随后意识到将纸质文档数字化的商机,于2011年启动了个人项目PSPDFKit [19][20][23][26] - PSPDFKit项目进展迅速,网站上线第一周就售出多份授权,并从第一天起就开始盈利,其副业收入很快超过了其在硅谷的正职工作工资 [30][34] - PSPDFKit为企业提供PDF文档处理(如电子签名、查看、编辑、协作)的SDK和API,降低了企业的技术门槛,业务因此高速发展 [25][36][37] - 到2021年,PSPDFKit已成为文档处理领域的事实标准,客户包括Apple、Adobe、迪士尼等知名企业,间接服务覆盖150个国家,触达近10亿消费者 [38] - 2021年10月,Peter Steinberger在获得Insight Partners投资后,选择套现退出,出售大部分股份,交易金额约为1亿欧元(约8.3亿人民币) [4][40] 再次创业与AI产品 - 在首次创业退出并经历四年财富自由生活后,Peter Steinberger感到内心空虚,最终意识到通过创造和写代码才能获得真正的快乐与意义 [45][48][49][52] - 2025年6月,Peter Steinberger宣布复出创业,其领英最新身份为Amantus Machina的创始人,致力于研发下一代超个性化AI Agent [53][54] - 复出后不到一年,其团队便开发出Clawdbot,这是一个7x24小时开源的AI助理,能像私人秘书一样主动向用户汇报,具备填写表格、发送邮件、控制浏览器等多种Agent功能 [7][8][9] - Clawdbot被网友誉为“真·贾维斯”和“绝对的GOAT”,成为全网刷屏的现象级AI产品,甚至带动了Mac mini的销售 [9][12]
AI招聘逆天研究:看照片预测一生职业成就
量子位· 2026-01-26 14:51
AI招聘系统的应用与法律风险 - 微软、拜耳、PayPal等大厂使用的AI招聘系统Eightfold AI因算法歧视被两名求职者告上法庭 [2][3] - 诉讼除要求经济赔偿外 还呼吁法院监管黑箱算法 提高招聘筛选过程的透明度 [4] - 该案件凸显了AI招聘系统因算法不透明和潜在偏见引发的广泛争议 [26] AI通过人脸预测职业的研究方法与发现 - 研究由美国多所顶级高校完成 数据规模扎实 收集了近10万名MBA毕业生的数据 涵盖美国前110商学院 [7][8][9] - 核心方法是用1.2万多人的自拍和性格问卷训练AI 将人脸转换为数字信号以预测五大人格特质 [11] - 将AI预测的人格特征与MBA排名、起薪、薪资增长、管理岗位及职业稳定性等现实职场数据对照分析 [13][14] AI预测人格与职场结果的具体关联 - 薪资方面:男性尽责性和外向性越强 初始薪资越高 且责任心强的男性薪资增长更快 [17] - 薪资方面:女性中外向性加分 但责任心强可能抑制薪资增长 毕业五年后 男性尽责性、女性宜人性与薪资增长关联最突出 [17][18] - 职业稳定性:宜人性和责任心强的人工作更稳定 外向性、神经质高的人跳槽更频繁 神经质者跳槽行业范围窄 责任心强者可跨行业跳槽 [20] 研究涉及的样本数据统计 - 男性样本70,593人 平均起薪155,388.77美元 五年后平均薪资208,180.59美元 [20] - 女性样本26,316人 平均起薪137,507.71美元 五年后平均薪资178,117.62美元 [20] - 研究还统计了初始职级、五年后职级、读MBA时年龄、照片中年龄及吸引力评分等数据 [20] AI筛选系统的主要争议与风险 - 核心问题在于训练数据 若数据存在隐性偏见和不公平 模型会放大这些问题 [22][23] - 算法筛选的隐蔽性更可怕 即使无意歧视 有问题的训练数据也会将部分求职者拒之门外 且求职者无法知晓被拒原因 [24][25] - 类似争议已出现在高校AI招生中 如弗吉尼亚理工大学用AI审核申请材料省了约8000小时人工 但被质疑可能暗含不公平偏好 [27][29][32]