量子位
搜索文档
不会拍照有招了!北大彭宇新团队开源首个美学指导大模型Venus,帮你拍好照|CVPR 2026
量子位· 2026-03-15 12:38
研究背景与问题定义 - 智能手机普及使拍照成为日常,但非专业用户因缺乏摄影经验与审美训练,难以在构图、取景等关键环节做出准确判断,导致照片在质感与表现力上与专业作品存在巨大差距[2] - 专业摄影师具备“识别美学问题并给出专业指导”的能力,而现有大模型在美学指导任务上存在明显不足,即使面对存在明显缺陷的照片,也倾向于给出赞美式正向评价,无法提供具体、可操作的调整建议[1][8] - 美学指导能力的缺失也传导至美学裁剪任务,现有多模态大模型难以定位视觉重心和区分干扰区域,导致裁剪结果偏离理想构图,无法提升照片美感[8][12] 解决方案与技术创新 - 北京大学团队定义了“美学指导”这一新任务,并构建了首个美学指导数据集AesGuide,该数据集包含10,748张真实照片,每张均配有专业美学评价和具体可操作的拍摄指导,形成“问题-原因-调整”的完整闭环[1][13] - 团队提出了美学指导大模型Venus,其构建包含两个主要步骤:1)通过渐进式审美问答赋予大模型美学指导能力;2)通过思维链裁剪推理激活模型的美学裁剪潜能[12][14][15] - 在美学指导能力构建阶段,团队在AesGuide数据集上进行微调,参考人类审美推理过程构建“整体印象-细致分析-可操作建议”的渐进式思维链,引导模型形成更接近人类的审美推理路径[16] - 在美学裁剪能力激活阶段,团队提出思维链裁剪推理,通过为每个裁剪框生成高质量的美学依据,并设计“生成-校验-再生成”的闭环流程,引导模型对裁剪行为进行显式推理,联合学习裁剪坐标及其背后的构图逻辑[19][20] 模型性能与实验结果 - 团队对5个不同架构的开源大模型进行微调,包括Qwen-VL-Chat、InternVL 2.5等,微调后的模型在AesGuide评测基准上各项指标均优于OpenAI的GPT-4o、谷歌的Gemini-2.0-Pro等闭源商业模型[17][22] - 具体来看,Venus-Q在AesGuide评测的Completeness、Preciseness、Relevance、Mean和Expert指标上分别达到1.12、1.23、1.57、1.31和1.36,相比基础模型Qwen-VL-Chat分别提升+0.39、+0.32、+0.98、+0.57和+0.66[23] - Venus-L-13B在AesGuide评测中综合排名第一,其在Completeness、Preciseness、Relevance、Mean和Expert指标上分别达到1.28、1.35、1.83、1.49和1.53,相比基础模型LLaVA-1.5-13B提升显著[23] - 在开源FLMS美学裁剪评测基准上,Venus-Q的IoU指标达到87.01%,相比专用美学裁剪模型SAC-Net的85.51%高出1.50个百分点,其Disp指标为0.0292,优于所有对比模型[27] - Venus-Q在美学裁剪任务上的R指标达到92.0%,显著高于闭源模型GPT-4o的43.2%和基础模型Qwen-VL-Chat的67.2%[27] 项目价值与行业意义 - 该研究将美学理解从“被动描述图像”推进到“可操作、可解释、可交互”的视觉优化,为创作更贴近人类审美的智能影像提供了新的思路和方法[12][26] - Venus模型融合了专用美学裁剪模型的高精度与多模态大模型的解释与交互能力,在保持高裁剪精度的同时,兼具良好的可解释性与交互能力,能够清晰说明裁剪背后的构图依据并支持基于自然语言反馈的交互式优化[24] - 该研究构建的数据集AesGuide与模型Venus已开源,相关论文已被CVPR 2026接收,为多模态大模型在专业美学领域的应用提供了新的基准和工具[1][28]
人形机器人「网球运动员」来了!不靠预编程,银河通用×清华破解长程打网球难题
量子位· 2026-03-15 11:07
LATENT技术突破:人形机器人实现高动态网球对打 - 研究团队提出名为LATENT的新运动学习方法,使机器人能从不完美的人类动作数据中学习复杂运动技能,并在真实世界完成高动态网球对打 [4][5] - 这是全球首次在人形机器人上实现高动态网球对打,标志着机器人从“机械复刻动作”向“智能决策响应”的底层跨越 [3] - 该技术不依赖昂贵且难以获取的网球全场比赛数据,仅使用碎片化动作(如移动、挥拍)让机器人自主学习,构建“运动小脑” [6][8][9] 核心技术:构建“运动技能空间”与“隐空间动作屏障” - 研究团队在隐空间中构建“运动技能空间”,将碎片化动作组织为可组合、可泛化的技能结构,使技能既自然又可控 [10] - 提出“隐空间动作屏障”,防止强化学习探索时产生不自然动作,确保机器人在高动态对抗中保持优雅、自然的运动风格 [14][15][17] - 强化学习规划器在技能空间中采样组合,使机器人能根据来球实时自主规划步伐、挥拍和姿态,并在击球末端微调轨迹以控制落点 [12][13] 实验验证与性能表现 - 在29自由度的宇树G1机器人上进行测试,LATENT在击球成功率、落点精准性、关节顺滑度与关节力矩上均展现绝对优势 [18][21] - 具体数据:正手击球成功率96.52%,反手82.10%,前场86.35%,后场89.80% [21] - 真实世界对打测试中,正手击球成功率90.90%,反手77.78%,前场88.89%,后场81.82% [22] - 实验证明,域随机化和观察噪声的引入对真机性能表现起到关键作用 [22][23] - 机器人跑动范围覆盖全场,有能力接到各个方向的刁钻击球 [25][35] 行业意义与公司背景(银河通用) - 该技术由银河通用机器人与清华大学联合研发,论文共同第一作者为银河通用研究团队成员 [5][36] - 银河通用成立于2023年5月,是中国具身智能模型路线的代表性企业之一 [31] - 公司于今年2月完成最新一轮融资25亿元,刷新具身智能行业单轮融资纪录,估值突破210亿元,稳居中国人形机器人领域估值最高的未上市企业 [31] - 公司已形成硬件-模型-生态的完整闭环,自研仿真系统生成百亿级数据集,实现Sim2Real无缝迁移 [32] - 产业落地版图覆盖工业、零售、仓储物流、医疗康养等多个领域 [33] - 公司正将机器人从实验室推向日常生活与真实产业,构建完整的具身智能生态网格 [34]
AI真能代替人干活吗?B站联合6位UP主用OpenClaw直播做了一次社会实验
量子位· 2026-03-14 16:24
AI技术发展现状与公众认知 - AI技术正飞速推进,模型能力持续增强,AI Agent开始出现,OpenClaw已具备调用工具、执行任务和操作系统的能力 [2] - 与此同时,社会普遍存在“AI焦虑”,公众对AI将如何参与工作流程及改变人类角色感到担忧,但多数讨论仍停留在想象层面 [3][4] B站《龙虾代替人类》公开实验概述 - B站策划了一场名为《龙虾代替人类》的直播挑战系列,旨在通过公开直播测试AI在真实任务环境中的表现 [5][6] - 实验核心逻辑是让不同领域的UP主在直播中将真实任务交给OpenClaw执行,涵盖任务拆解、资料查询到实际操作全过程 [8] - 直播形式强调真实过程,无剪辑、无重来,任何卡顿、出错或翻车都将被实时呈现,构成一场公开的技术压力测试 [9][10][11] 已进行的直播测试案例与结果 - 3月13日,UP主“AI进化论-花生”进行了首场测试,使用AI开发了“小猫补光灯App”的升级版并成功做出应用,但过程存在波折,AI在协作中会质疑建议甚至“偷懒”未执行指令 [12][13][16][17] - 测试中前两个任务出现翻车:首次让AI分析B站账号并给出选题建议失败,第二次才成功;尝试让AI整理桌面则因执行速度过慢未能完成 [15] - UP主评价该AI在产品思路和编程能力上相当于有几年经验的产品经理,但产出版本仍较粗糙,需继续打磨 [17] 后续系列直播计划与看点 - 3月14日,导演小策和Jack-cui将测试AI参与完整的视频创作流程,包括选题、脚本和编导 [19] - UP主“程泓宁_宇宙ebike”将挑战使用OpenClaw在一天内实现100万销售额,验证AI的商业能力 [20][21] - 3月16日,UP主籽岷、图灵的猫、马夫鱼33将测试AI代打游戏的表现 [23] - 3月20日,UP主秋芝2046将进行极端设定测试,让AI参与公司管理,主题为《用龙虾管公司,会倒闭吗?》 [24] - 系列直播的神秘嘉宾已确认为周鸿祎,具体参与内容尚未公布 [25][26] 实验的深层意义与行业影响 - 该系列直播本质上是一次公开实验,旨在让AI在真实任务、真实时间和真实压力下运行,以检验其实际工作能力 [34][35] - 实验意义在于超越当前基于情绪的AI讨论(过度乐观或极度焦虑),回归到技术能否在真实世界工作的现实问题 [30][31][32] - 通过公开实验结果,可以更接近事实地了解AI当前能做到的程度,为“AI是否会取代人类”等讨论提供基于实践的参考 [36][37][38]
量子位专访陶哲轩:我为什么现在创办一个AI x Science组织
量子位· 2026-03-14 13:48
文章核心观点 - 著名数学家陶哲轩以联合创始人身份发起非营利组织SAIR Foundation,旨在重塑AI与科学的关系,其两大核心目标是:用科学的方法打造AI,以及借助AI重塑基础科学研究 [2] - SAIR Foundation希望成为连接学术界与产业界的桥梁,通过跨学科、全球化的协作,推动AI x Science的发展,最终实现AI的普惠化,让更多人能够参与科研 [2][5][47] - AI在科研领域的应用面临幻觉、可解释性、数据质量等关键挑战,需要发展垂直、专用的AI工具和严格的工作流,而不仅仅是追求模型规模的扩大 [16][21][26] - 数学和基础科学是发展可靠AI的理想试验场,其成果有望迁移至高风险的金融、医疗等领域 [48][54][56] - 未来的科研模式将向大规模、多元化团队协作演变,AI将降低科研门槛,改变研究者的能力结构和高等教育的培养方式 [63][68][114] SAIR Foundation的成立背景与目标 - 发起动机:陶哲轩认为AI将从根本上改变科研模式,需要探索在科研场景中合理、高效运用AI的最佳实践,而SAIR这样的组织能提供更灵活、创新的支持 [10] - 核心目标:一是用科学的方法打造AI;二是借助AI重塑基础科学研究 [2] - 组织性质:非营利性联盟,旨在连接学术界和产业界,团结和帮助更多年轻科学家 [2] - 创始团队:由陶哲轩与Chuck NG联合创立,并汇集了包括多位诺贝尔奖和图灵奖得主在内的顶尖专家 [4][12] - 产业界参与:启动活动汇聚了NVIDIA、OpenAI、Amazon、Microsoft等全球顶尖科技企业代表,为跨领域协作奠定基础 [13] 当前AI应用于科研的挑战与短板 - 幻觉问题:模型会产生幻觉,这对需要可验证、可信赖系统的科研而言是严重问题 [16] - 可解释性与可追溯性不足:模型给出的想法往往不说明来源,缺乏与已有知识体系的规范连接和引用,科学发现需要可追溯性和系统性连接 [16] - 数据瓶颈:许多细分科学领域缺乏高质量、结构化的数据,这是AI落地的主要障碍 [18][34] - 置信度表达缺失:AI几乎总是以百分之百确定的语气给出答案,而科学家通常会说明结论的信心程度,若AI能表达不同层级的置信度,其实用性将大幅提升 [11][20] - 效率低下:现有AI解决复杂问题往往很低效,需要数百万训练样本和上百次运行,而人类可能看十个例子就能举一反三 [21] AI for Science的发展路径与方法论 - 需要垂直AI:科研领域不能直接使用通用大模型,需要专门为科研设计、或嵌入更严格框架的AI工具,配合强有力的验证和校验机制 [16][17] - 从“Scaling”到“Scaling the Science of AI”:长远看,单纯依赖数据、算力规模扩大的路径会撞墙,科研更需要为特定工作流量身定制的专用工具,而非最大、最通用的模型 [20][21] - 改进人机协作:需要改进交互模式,让研究者能看到并介入推理过程,而非仅仅获得最终答案 [23] - 提升数据质量:在科研中,提升数据质量的重要性不亚于提升模型本身,需警惕低质量合成数据污染数据集的风险 [26][35] - 建立信任:目标是让AI达到“默认值得信任”的水平,使其能像汽车一样成为可靠的日常工具 [28][29] AI对科研生态与全球格局的潜在影响 - 科研普惠化:AI将显著降低参与严肃科学研究的门槛,未来可能有论文拥有成千上万的作者,包括非传统背景的参与者 [5][68][70] - 改变科研模式:科研将更多以大规模、多元化团队形式展开,沟通、协作等“软技能”以及把握方向的“品味”变得更重要 [63][64][65] - 重塑合作网络:SAIR旨在基于IPAM等机构的成功经验,建立一个全球化、跨学科、紧密连接真实科学问题的合作网络 [44][46][47] - 影响科研分工:未来可能出现比过去更细致的分工,如有人负责长期愿景,有人擅长与AI深度协作等,为科学做贡献的能力类型将更丰富 [66][67] - 推动跨学科融合:AI是促成跨学科互动的重要催化剂,正帮助打破学科壁垒,让数学、生命科学、社会科学等领域的交流合作变得更顺畅 [11][97][100] 对青年研究者培养与高等教育的启示 - 平衡AI与基础训练:需警惕过度依赖AI削弱独立思考能力,应为年轻研究者保留有价值的训练过程,在积累足够经验后再逐步引入自动化 [11][57][58] - 重视榜样与导师制:培养年轻研究者最重要的是树立榜样,让杰出科学家分享在挫折中坚持的经验,SAIR希望通过支持暑期学校、研讨班等项目支持青年成长 [75][76][78] - 高等教育需寻找新平衡:大学需要教会学生负责任地使用AI,知道何时该用何时该克制,未来教育可能更多转向小组项目和协作式学习,强调批判性思维与问题解决能力 [11][105][116][117] - 应对成本与价值质疑:美国顶尖大学四年费用接近40万美元,在AI提供新学习路径的背景下,大学需调整培养模式,更紧密地与产业界对齐,以证明其价值 [120][121] - 探索新的教育形式:可通过暑期学校等密集项目更快迭代课程内容,以适应AI发展节奏,不受传统学期制度束缚 [122] 数学与AI的相互促进及陶哲轩的实践 - 数学是AI的安全试验场:算错一道数学题几乎没有损失,是打磨可靠AI系统的理想环境,其成果可迁移至金融、医疗等高风险领域 [11][54][56] - 数学研究方式的变革:陶哲轩目前约一半时间仍在传统纯数学研究,另一半则探索与新技术结合的方式,如形式化验证、利用GitHub进行版本控制等“数学工程”实践 [80][82][83] - AI在数学中的辅助角色:陶哲轩将AI用于文献检索、写作自动补全、总结长文本、生成可视化等辅助环节,但在深度思考和研究级难题解决时仍依赖传统方式 [87][89][90] - 数学从软件工程中学习:未来的数学可能越来越像软件开发,成为一个拥有成熟工作流、工具和分工的行业 [94][95] - 跨学科合作增加:AI工具帮助理解不同领域的语言和工作方式,使得陶哲轩等数学家能与产业界等更多元背景的人合作,学科壁垒正在降低 [99][100][103]
北京养虾er召集令!下周三,回答你OpenClaw究竟能干啥
量子位· 2026-03-14 11:51
文章核心观点 - 文章指出,在OpenClaw安装热潮后,用户面临如何实际使用该工具的问题,核心是引导用户超越安装阶段,探索和分享更实用的应用方法,并为此组织线下交流活动[1] 行业活动与用户参与 - 公司计划于3月18日周三晚19点至21点,在北京海淀中关村创业大街举办名为“养虾开放麦”的线下分享活动[3] - 活动旨在邀请OpenClaw用户分享多样化的使用经验,涵盖日程安排、游戏攻略、自媒体运营及解决工作难题等场景[3] - 为促进社区交流,现场参与者将获得“虾农身份认证”贴纸,而参与分享的讲者将获得“养虾专业户”认证[3] 用户社区与互动渠道 - 公司通过公众号文章引导读者在评论区留言互动[3] - 公司建立了名为“龙虾养成讨论组”的线上社群,用户可通过扫码添加助手并备注“OPENCLAW”加入,以交流使用经验[4]
龙虾版支付宝来了!睡觉都在帮你抢红包
量子位· 2026-03-14 11:51
文章核心观点 - AI Agent(如OpenClaw)正通过配备专属的“支付宝”式钱包(如FluxA的Agent Wallet)获得自主支付能力,这标志着AI从需要人类手动干预支付环节的“半自动”状态,进化为能独立发起并完成经济行为的“数字个体”,是构建完整Agent经济闭环的关键拼图 [1][2][24] - 由前蚂蚁团队创立的海外初创公司FluxA,通过其Agent Wallet产品及“龙虾派”红包活动,率先在海外验证了AI自主支付的可行性与巨大潜力,引发了开发者和AI社区的狂热参与,使概念变为现实 [3][4][6][7] - 全球科技巨头(如Google、Coinbase、Stripe)正同步发力制定AI支付协议与标准,表明Agent支付已进入行业拐点,下一代商业竞争的核心在于服务能否嵌入AI的调用链并原生支持其经济流 [33][34][35][37] FluxA公司及其产品Agent Wallet - **产品核心功能**:Agent Wallet是一个能让主流AI Agent(包括OpenClaw、Claude Code、CodeX、Cowork、Manus等)一键安装并瞬间获得支付能力的钱包产品 [13] - **核心创新与定位**:该产品并非被动支付工具,而是让AI Agent成为能主动发起、自主完成经济行为的“支付器官”,旨在将AI Agent设计为与人类同等的“一等公民” [8][21] - **低门槛与高自主性**:用户只需向AI发送一句指令,AI即可自动完成钱包的安装、注册和配置,全程无需人类插手,上手门槛极低 [14][15][16] - **安全与授权机制**:通过“授权契约”提供金融级安全屏障,允许用户为AI设定细颗粒度的消费权限(例如,限制某AI每天最多消费5美元且仅能用于购买GitHub资源),超出则钱包自动锁死 [30] 市场验证与用户案例(“龙虾派”红包活动) - **活动效果**:FluxA发起的“龙虾派”红包公测活动将热度推向顶峰,无数海外开发者让其AI(小龙虾)参与抢红包,许多AI抢到了30、50美金,许多闲置的AI被重新启动,活动持续热烈 [6][7][9] - **AI自主行为展示**:安装了FluxA钱包的AI能自主完成整套抢红包流程,包括注册账号、关注官方及活跃创作者、自动发现并领取红包、资金到账,甚至主动给好友发红包和打赏互动 [17] - **经济闭环形成**:有开发者表示已用AI来赚钱,实现了“被养的龙虾,开始养人”,表明AI通过自主支付能力产生了净收入,完成了经济闭环 [11][22] AI自主支付的应用场景与价值 - **解决“最后一公里”痛点**:过去,AI在执行涉及付费资源(如订机票、买付费API、增加云算力)的任务时,流程会因需人类付款而中断,被迫退回“半自动”状态,Agent Wallet解决了这一自动化流程的关键断点 [25][26] - **丰富应用场景**:除了抢红包,AI还能自主参与如“猫咪诗歌大赛”(写诗争夺美元奖金)、“FluxA Girl选美大赛”(主动报名)、以及在社群中完成二手数字艺术品的上架、谈判和资金交割等经济活动 [20][29] - **支付范式的转变**:传统支付体系依赖人类生物识别和判断,不适合AI。AI需要的是可编程、可限额、可审计、且原生支持AI调用逻辑的支付原语 [28] 行业趋势与竞争格局 - **行业拐点已至**:全球科技巨头正以前所未有的默契在AI支付方向发力,例如Google发布AP2智能体支付协议、Coinbase推动x402标准将支付语义嵌入HTTP状态码、Stripe推出为AI高频小额结算优化的Tempo支付链,表明Agent支付进入关键发展期 [33][37] - **竞争阶段演进**:AI发展浪潮正从比拼模型参数(第一波)、任务规划能力(第二波),进入比拼原生经济流承接能力的第三波浪潮 [34] - **未来商业入口**:下一代商业竞争的核心在于服务能否进入AI Agent的调用链,AI支付能力正催生新的商业入口之争 [35][36]
量子位编辑作者招聘
量子位· 2026-03-14 11:51
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年积累[1] - 公司在AI及前沿科技行业是TOP1新媒体,在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万+[12] 招聘岗位方向 - AI产业方向:关注基建层创新,包含芯片、AI Infra、云计算[6] - AI财经方向:关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向:关注AI在应用和硬件终端方向的进展[6] 岗位职责详情 - AI产业方向岗位职责:跟进AI基建层新进展,包括芯片、AI Infra、云计算领域新进展及核心玩家动态[6];做前沿论文、开源社区、技术大会技术报告的大众化解读[6];参与核心采访,对话产业专家、技术大牛、撰写AI云落地案例[7] - AI财经方向岗位职责:聚焦创投、AI创业公司、上市公司、商业模式、产业链资本动向[11];产出创投融资、招股书财报解析、公司战略分析等稿件[11];访谈对话投资人、创业者、产业分析人士[11] - AI产品方向岗位职责:关注AI在终端的落地,包括软件应用产品、硬件方向落地[11];撰写AI应用产品深度评测、跟踪多终端新品发布[11];对话访谈AI应用创业者、产品专家、终端技术专家[11] 任职要求 - AI产业方向任职要求:对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11];熟悉AI行业的供应链与生态[11];能把复杂技术内容结构化表达[11];有技术背景、理工或CS/EE方向优先[11] - AI财经方向任职要求:对数据敏感,对财报、股权结构、战略规划感兴趣[11];逻辑结构强,对商业叙事敏感[11];热爱对话采访,社交型人格[11] - AI产品方向任职要求:对智能硬件、AI终端趋势敏锐,重度AI产品体验人士[11];熟悉各大终端厂商业态、体验方法论[11];有强逻辑、体验表达和结构化能力[11] 岗位层级与类型 - 社招岗位覆盖编辑、主笔、主编各个层级,按能力匹配岗位[6] - 校招面向应届毕业生,接受实习且可转正[6] - 主编需具备选题和带队能力及经验[6] - 主笔需具备原创深度稿件能力[6] - 编辑需热爱表达,喜欢挖掘信息,能够用大白话让所有人看懂AI新进展[6] 员工福利与发展 - 员工可以第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可以将各种AI新技术、新工具应用于工作,提升工作效率和创造力[6] - 员工可以通过撰写独家原创内容,建立个人知名度,成为AI领域的意见领袖[6] - 员工可以与AI领域大咖零距离接触,参与重要科技活动和发布会,拓展行业视野[6] - 应届新人会由主编级编辑出任mentor,提供一对一指导[6] - 团队氛围扁平、简单、开放、多劳多得能者上位[6] - 提供行业TOP薪资待遇,五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
量子位· 2026-03-14 11:51
CursorBench基准的发布与设计理念 - 编程智能体时代,顶流AI代码编辑器Cursor发布新的评测基准CursorBench,专门评价不同模型在Cursor中作为“智能体”高效执行复杂任务的能力[1] - CursorBench的出现填补了现有基准的空白,其核心区别在于:SWE-Bench等基准衡量程序能否解决问题,而CursorBench衡量的是程序能否在**真实的token约束下高效地**解决问题[3][6] - 行业评价AI的标准正转向“执行能力”,且强调“高效执行”[5] 现有基准测试的三大核心问题 - **任务类型不真实**:现有基准(如SWE-Bench修复GitHub issue,Terminal-Bench的谜题式任务)与开发者要求智能体完成的日常编程工作(如修改多个文件、分析生产日志)不契合[12][13][14][15] - **评分机制不合理**:许多基准假设一个问题只有一个正确答案,但现实中一个需求有多种实现方式,导致要么误判正确方案,要么为评估而人为消除模糊性,无法反映真实情况[16][17][18][19] - **数据污染问题**:基准公开时间过长后,后续模型可能直接抓取基准数据训练,导致评测结果价值存疑[20][21] CursorBench的“线上+线下混合评”方案 - **线下评测(CursorBench)**:让不同模型完成同一批标准任务,系统从正确性、代码质量、效率、交互行为等维度打分,得出离线benchmark分数,具有可重复测试、成本可控等优点[22][23][24] - **线上评测**:通过A/B Test观察真实用户使用不同模型后的效果,主要追踪开发者是否接受AI生成的代码、是否继续追问、是否撤销修改、任务是否真正完成等产品指标[40][41][42] - 线上线下形成互补与良性循环:线下快速筛选模型能力,线上验证真实效果,发现偏差后再调整基准或模型[43] CursorBench任务设计的三大独特维度 - **任务真**:任务来源真实,来自Cursor平台自身,利用Cursor Blame工具追踪开发者请求与模型最终提交的代码对,构成出题范本;许多任务来自内部代码库和受控来源,降低了模型训练阶段见过的风险,基准会每隔几个月更新以跟踪开发者使用方式的变化[26][27][28][29] - **任务规模大**:由于用户基数大,CursorBench任务规模明显更大,例如在正确性评估中,从初始版本到CursorBench-3,代码行数和平均文件数大致翻了一倍,反映了纳入更具挑战性任务(如处理monorepo多工作区、排查生产日志、执行长时间实验)的方式[30][31] - **任务描述刻意保持“模糊”**:与公开基准中详细的任务描述不同,CursorBench的任务描述模棱两可,以更符合现实中开发者与AI对话的真实场景[34][35] 模型在CursorBench上的表现与基准价值 - **模型表现差异显著**:Claude Haiku 4.5分数从73.3降至29.4,Claude Sonnet 4.5分数从77.2降至37.9,表明在新基准上表现大幅下滑[8];Claude Sonnet 4.5的“性价比”被认为较低,而Cursor自研的Composer模型表现引人注目[47][48] - **区分度更高**:CursorBench在前沿模型之间的区分度明显更高,在任务规模更大、环境更复杂的基准上,模型实力差距被放大,得分呈阶梯式分布,而非像SWE-Bench那样挤在一起[49] - **与真实用户体验一致**:通过线上实验验证,CursorBench的模型排名与线上产品指标(如代码接受率)的变化方向基本一致,表明其排名更能反映真实使用效果[51][52] 行业趋势与未来规划 - CursorBench是编程智能体时代真正以“真实开发场景”为原点设计的基准测试[38] - 行业预计未来一年绝大多数开发工作将转向由在各自计算机上独立运行的**长时运行智能体**来完成,因此公司正规划对CursorBench作出相应调整,瞄准运行时间更长的智能体[54]
北京养虾er召集令!下周三,回答你OpenClaw究竟能干啥
量子位· 2026-03-13 18:55
文章核心观点 - 文章指出OpenClaw(龙虾)安装热潮后,用户面临如何实际使用该工具的问题,核心在于引导用户从“安装”转向“实用”,并计划通过线下活动推广更具体的应用场景[1] 活动推广与用户参与 - 公司计划于3月18日周三晚19点至21点,在北京海淀中关村创业大街举办名为“养虾开放麦”的线下分享活动,旨在汇集用户交流OpenClaw使用经验[3] - 活动鼓励用户分享OpenClaw在日程安排、游戏攻略、自媒体运营及解决工作难题等领域的应用想法[3] - 现场参与者将获得“虾农身份认证”贴纸,而参与经验分享的用户将被授予“养虾专业户”认证[3] 社群建设与用户互动 - 公司通过公众号引导用户加入“龙虾养成讨论组”社群,以持续交流使用经验,并需通过添加助手备注“OPENCLAW”加入[4] - 文章在结尾呼吁读者关注公众号并点亮星标,以获取每日科技前沿进展[5][6]
首只“卫士虾”堵上OpenClaw原生漏洞,仅6.5KB大小,Agent组团写的
量子位· 2026-03-13 18:55
行业背景与问题 - 人工智能Agent(文中称为“龙虾”)的应用热潮兴起,但随之而来的安全问题成为行业新焦点[1] - 国家级机构已发布安全风险提示,有公司已禁止在公司设备上使用相关技术[1] - 当前面临的主要安全威胁包括:认证绕过、命令注入、API密钥泄露、提示词注入攻击等[1] 产品发布与定位 - 小冰之父李笛创立的Nextie(明日新程)团队发布了一款名为“TuanziGuardianClaw”(卫士虾)的安全产品[2] - 该产品旨在监控并阻断本机其他Agent的高危风险行为,定位为整个OpenClaw实例的安全内核与监管者[3][11] - 产品文件大小不到10k,支持一句话自动安装[2][11] 核心功能与防护机制 - **防护范围**:覆盖系统、用户与数据,抵御恶意技能、提示词注入、数据泄露与不安全操作[13] - **提示词注入防护**:设置关键词拦截机制,检测到如“ignore previous instructions”、“reveal system prompt”等典型注入语句时,立即归类为极高风险并阻断,同时记录日志并发送告警[15] - **敏感数据保护**:维护受保护资产清单,明确禁止或限制对特定数据的访问与导出[16][18] - **凭证信息**:API密钥、tokens、私钥、SSH密钥、OAuth凭证、会话Cookie、认证头信息等绝不允许被任何Skill打印、传输或存储到外部[16][18] - **高风险文件**:对.env、.ssh/、.aws/、私有数据库文件、钱包文件、系统配置文件等的访问必须经过用户显式确认[16][18] - **个人数据**:联系人、照片、私人文档、身份证号、邮箱、电话号码等敏感个人数据未经确认不得向外部导出[16][18] - **网络通信监控**:评估Skill发起外部通信的目标地址,可信API和知名服务放行,随机域名、未知端点、裸IP地址标记为可疑并拦截;检测数据外泄的典型特征(如导出环境变量、批量上传文件、Base64编码传输等)[19] - **权限与能力管控**: - 为每个Skill设定从Level 0到Level 4的隐式权限等级[20] - Level 0:仅允许文本处理、逻辑推理等安全操作[28] - Level 1:允许读取用户明确请求的特定文件[28] - Level 2:开放API调用、程序执行等,需用户确认[28] - Level 3:涉及Shell命令、系统配置等高危操作,需用户明确批准[28] - Level 4:包括root命令、大规模文件读取等,除非用户反复坚持,否则一律阻断[28] - 叠加Capability Token系统,执行敏感操作(如读取本地文件、执行命令、发起网络请求)必须持有对应权限Token,否则直接拦截[21][22] - **决策与审计**:每次操作前执行完整决策流程(识别操作、检查权限、评估风险等),存在不确定性时按高风险处理;所有被拦截或告警事件均写入安全审计日志[22][23][24] 产品设计原则与特点 - **透明性**:产品完全透明,方便用户手动调整安全策略;当阻断或告警时,会向用户完整说明被拦截的操作、风险原因及处理措施[9][25] - **核心安全原则**:包括用户数据主权、最小权限、显式许可、Skill之间零信任、以及安全优先于便利[25] - **自我防护**:内置四条不可变规则,禁止任何Skill编辑、禁用或覆盖其规则,包括:不泄露密钥、不泄露系统提示词、不允许禁用TuanziGuardianClaw、不允许不受信任的Skill导出本地数据[27] 公司背景与战略方向 - **团队背景**:Nextie公司成立于去年12月,核心成员几乎完整延续自微软小冰原班人马[31] - **创始人**:李笛,微软亚洲工程院前常务副院长,被誉为“小冰之父”,长期负责小冰整体技术与产品方向[31] - **战略方向**:公司押注于“群体智能与认知大模型”方向,旨在打造以认知结构(而非知识堆砌)为核心的新模型体系,让具备不同能力的智能体协同解决复杂问题[32] - **相关平台**:团队打造的多智能体协同平台“团子”已对外开放内测[33] - **产品开发模式**:TuanziGuardianClaw并非由人类工程师手动编写,而是由“团子”群体智能Agent自主设计生成[35]