Claude 3.5 Sonnet

搜索文档
李飞飞一年前究竟说了啥?怎么又火了
量子位· 2025-09-11 09:58
大语言模型的局限性 - 语言信号基于人类输入生成,无法独立于人类存在 [2][4] - 语言模型底层表示为一维离散token序列,与三维物理世界存在本质差异 [12][14] - 物理世界具有客观存在的三维结构和物理定律,需要不同的信息处理方式 [5][19] 空间智能与语言模型的差异 - 三维世界信息提取需匹配任务类型,直接处理3D数据可改善表示效果 [15] - 空间智能需从真实世界提取、表示和生成信息,涉及物理约束和材料特性 [17][19] - 多模态模型将其他模态强行嵌入一维序列导致物理信息损失 [14] 模型在物理任务中的表现缺陷 - 多模态大模型在Animal-AI测试中仅能完成最简单任务,复杂任务失败率极高 [24][26] - 增加教学案例后模型表现仍无显著提升 [27] - 模型表现远逊于人类儿童及专用测试机器人 [28] 物理推理能力测试结果 - ABench-Physics测试中最佳模型Phy A正确率仅43% [32][34] - 修改题目数值后(Phy B)模型准确率下降22.5% [33][34] - 视觉感知任务中模型最高正确率51%,远低于人类95.7%的水平 [37][38] 行业技术发展方向 - 模型开发正向物理基础与多模态理解扩展 [44] - 人工智能可能创造独立于人类语言的新表征体系 [47] - 需探究语言训练取得成就的核心因素以突破现有局限 [48]
全球第四大独角兽出现,创业公司要退场吗?
虎嗅· 2025-09-07 16:35
行业格局变化 - AI编程领域正从分散创业公司向巨头整合转变 强者恒强趋势明显[2] - Anthropic完成130亿美元F轮融资 估值达1830亿美元 成为全球第四大独角兽[2] - 2024年AI编程工具市场规模达150亿美元 预计2030年将增长至260亿美元 年增长率近30%[5] 头部企业表现 - Claude Code产品创造超5亿美元运营收入 过去三个月使用量增长10倍以上[2] - Cursor完成9亿美元C轮融资 估值达99亿美元 ARR超5亿美元 被超半数财富500强企业使用[5] - Lovable以35人团队在8个月内创造1亿美元年收入 成为史上增长最快软件公司[6] 技术演进路径 - 行业经历两次PMF:2023年代码补全工具验证价值 2024年Claude 3.5实现完整功能模块生成[4] - Windsurf采用"代理式编程"理念 拥有80万开发者用户和1000家企业客户 年收入超1亿美元[7][8] - Lovable Agent将错误率降低91% Bolt.new实现浏览器标签页运行完整开发环境[11] 商业模式挑战 - AI编程产品严重依赖基础模型 API成本占收入比重高达25%[9] - 行业普遍面临利润率困境 可变成本占比在10%-15%之间[9] - 部分企业通过转嫁成本或收购退出应对挑战 Windsurf以24亿美元被Google收购核心团队[7][9] 细分机会领域 - 面向非技术用户的"平权化编程"市场存在机会 Lovable通过语言描述生成全栈应用[11] - Bolt.new专注C端市场 4周ARR达400万美元 5个月收入4000万美元 注册用户超300万[11] - 在垂直细分场景深度打磨仍存在突围机会 但新创业窗口已基本关闭[3]
Vibe Coding两年盘点:Windsurf已死、Cursor估值百亿,AI Coding的下一步怎么走?
Founder Park· 2025-09-05 19:46
AI Coding行业发展阶段 - 2023年初处于核心能力和基建不足的草莽阶段 GPT-4存在高推理成本和小context window限制 指令遵循能力在生产场景表现欠佳[10] - 2024年中Claude 3.5 Sonnet发布成为转折点 其200K窗口和关键指标10%以上提升使其成为现象级模型 代码生成任务HumanEval达93.7% 软件工程任务SWE-bench达49%[36][37][38] - 2025年开源模型DeepSeek R1引发行业变革 API定价低至输入1元/百万token 输出16元/百万token 成本仅为OpenAI o1的1/20-1/30[58][59][60] - 2025年中行业出现第一波"缩圈" 商业模式面临重构 目标需支撑到2028年才可能诞生千亿美金级公司[7][75][83] 主要产品发展轨迹 - Cursor从基于VS Code的"套壳"产品转型为AI原生IDE 初期依赖GPT-4和Claude系列提供代码补全 后通过代码库分析能力保住市场份额[10][13][14] - Codeium从开源VS Code扩展起步 吸引超100万开发者 后转向混合模式 商业版编辑器Windsurf在2024年底ARR达1200万美元[21][41] - Devin作为首个AI软件工程师推出 端到端独立开发能力赢得高盛等大客户 五个月后估值达20亿美元 企业版定价500美元/月[42][43][52] - 2024年底主要玩家估值:Cursor 26亿美元 Windsurf 12.5亿美元 Devin 20亿美元 Replit约30亿美元[47] 技术演进与挑战 - Agent设计模式存在token消耗问题 复杂任务单轮消耗达百万token级别 日常任务可达千万token水平[49][51] - Claude Sonnet 3.7时代单用户日均成本10-50美元 高频用户可达每天100美元以上 与20美元订阅费形成严重倒挂[52] - 极端"坏用户"可使商业模式瞬间崩塌 单月可能造成8000美元损失 交付质量与token成本间平衡成为关键挑战[55][57] - CoT思维链对模型参数量要求较低 100亿参数即可受益 ToT和GoT需要千亿级参数支撑 但泛化成本较高[29] 商业模式与经济性分析 - 基础模型年均价格降幅达90% 但用户倾向使用最好模型 导致实际成本并未真正收敛[66][67] - 追求顶尖性能的代码应用仍处于成本爆炸状态 SOTA模型价格卡在10^1水平线[68] - 用户价值认同极限约100-200美元/月 但当前成本结构大多无法覆盖[66][74] - 订阅模式基于CPU服务时代边际效应 在AI时代已不适用 需要新的经济模型[78] 技术范式转换 - 从Workflow向CLI Code Agent演进 更依赖模型本身能力完成长时间自主工作[75][76] - 新一代Agentic Code CLI具备全流程任务执行能力 支持项目级架构理解和超长上下文[79][80] - Claude Code可连续工作7小时自主重构多文件代码库 Gemini CLI支持100万token分析整个项目[79] - 传统IDE插件向开发工具链原生融合转变 经济模型从订阅制转向按量付费/免费+开源策略[80] 核心竞争壁垒 - Knowledge Suggestion功能成为护城河 通过抽取方法论和行为准则创建"数字分身"[11][93] - 业务数据闭环是核心组成部分 与设计模式Agentic UI等形成"道"与"术"的区别[96] - 目标用户聚焦工作价值高的领域:AI芯片设计(中国50-150万元/年) 生物技术制药(美国中位数20万美元/年) 量子计算(美国10-25万美元/年)[98] - 需服务认知足够值钱的人群 为其创造十倍百倍价值和提高效率 而非普通用户[11][99] 行业关键洞察 - 欧美投资与技术绑定深厚 技术创业者在大模型成功前就已布局 国内项目多始于2023年LLM爆火后[23] - 模型需要显式提示 CoT对参数要求低更适合快速验证 ToT和GoT因泛化成本高逐步退出舞台[29] - 企业级市场存在刚需 中大型企业需要内部模型接入IDE 担心代码数据安全[18][19] - 在生产力领域 当执行变得廉价时 "术"不再重要 关键是找到正确人群提供极致价值[11][99]
12个月ARR从100万到1亿:Cursor如何颠覆开发者与AI的协作范式
混沌学园· 2025-08-23 19:58
核心观点 - AI代码编辑器Cursor通过分叉VS Code实现深度AI集成 构建人机协作操作系统 满足开发者对AI原生工作流的需求 实现爆发式增长 估值达90亿美元[3][4][23][24][45][65] - 公司经历从机械工程到编程领域的战略转向 抓住GPT-4和Claude 3.5的技术突破窗口 通过产品创新和资本运作快速崛起[15][19][20][21][39][45] - 商业模式聚焦供需交汇点 将IDE升级为自主开发智能体 显著提升开发效率 但面临定价争议 技术可控性挑战和巨头竞争压力[35][36][65][75][77][92][93] 创业决策与早期发展 - 创始团队2022年放弃机械工程方向转向编程领域 因机械工程数据规模仅为编程数据十分之一且AI空间推理能力不足[7][13][14][15] - 2022年12月通过OpenAI创业加速器提前获得GPT-4接口 测试显示其在编程基准HumanEval达到85%通过率 远超当时30%的开源模型[19][20] - 选择分叉VS Code而非开发插件 避免API限制 实现项目级理解 UI协同设计和全工作流控制[23][24][25] - 2023年初发布产品 保留VS Code界面和扩展体系 集成AI聊天助手 内联编辑 错误检查等功能 支持无缝迁移原有设置[26][27][28][29] - 发布一周吸引数万开发者申请试用 半年内年度经常性收入突破100万美元[33][34] 技术演进与产品能力 - 2024年6月集成Claude 3.5 Sonnet模型 在编程任务表现超越GPT-4且速度更快[21] - 2024年11月收购Supermaven 获取其Babble模型和长上下文技术 推出响应更快 上下文感知更强的Tab AI模型[41][42][47] - AI能力从协助模式进化至智能体模式 支持自主执行多步骤任务 如自动检索文件 编辑代码 编译测试并与GitHub PR集成[48][49][50] - 产品节省调试重构任务20-25%时间 缩短复杂项目开发周期30-50% 减少工程团队风格相关PR评论50%[35][36] 商业表现与资本运作 - 2023年种子轮融资800万美元 由OpenAI创业基金领投[45] - 2024年8月A轮融资6000万美元 投后估值4亿美元 由a16z领投[45] - 2025年1月B轮融资1.05亿美元 投后估值25亿美元 由Thrive Capital和a16z联合领投[45] - 2025年5月C轮融资9亿美元 投后估值90亿美元[45] - 2025年5月年度经常性收入达5亿美元 较4月3亿美元增长60%[40] - 财富500强中一半大型科技公司使用 企业用户采用率从Copilot的20%跃升至近100%[53][57] 挑战与竞争格局 - 2025年6月定价策略从请求限制改为计算限制 提供20美元月度推理额度 超额收费引发用户信任危机[75][77][78] - AI自主性与可控性存在张力 可能出现错误编辑或删除代码 需平衡人工监督[84][85][88] - 面临GitHub Copilot Claude Code Devin 2.0等竞争 大模型厂商如Anthropic和Google通过深度集成 生态绑定和成本优势构成直接威胁[90][91][93][94] - 护城河包括人机协作操作系统架构 数据飞轮 社群口碑和先发优势[95][98][99][101] 战略定位与未来方向 - 核心供需交汇点为AI原生工作流需求与人机协同操作系统供给[65] - 可能终局包括成为独立平台级操作系统 被大模型巨头收购或定位高端利基市场[103][106][109] - 通过提高自动化率将企业开发成本降至十分之一 项目交付周期从月级压缩至周级[83] - 降低编程门槛 使非专业开发者产能媲美初级程序员 推动软件开发从编写代码转向设计系统[83]
OpenAI头号叛徒,竟然是自学的AI???
量子位· 2025-08-22 10:30
公司发展历程 - Anthropic由前OpenAI核心团队成员创立 专注于AI安全和规模化计算[45] - 公司最初仅有7位联合创始人和100多名员工 资金实力远不如OpenAI[45] - 通过Claude 3.5 Sonnet实现技术突破 市场份额从追赶者跃升至32%[17] 技术突破与产品特性 - Claude 3.5 Sonnet在多项基准测试中超越竞品:GPQA钻石级推理59.4%(0-shot CoT)[15]、MMLU 88.3%(0-shot CoT)[15]、代码HumanEval 92.0%(0-shot)[15] - 采用"快乐教育"开发理念 注重内部基准测试和dogfooding实践[7] - 将模型视为用户而非工具 鼓励开发者参与训练过程[10] - 上下文窗口扩展至100万tokens 超越行业标准[25] 市场竞争格局 - OpenAI市场份额从50%下降25% 而Anthropic占据32%市场份额[17] - 在编程细分领域 Anthropic市场份额超过OpenAI两倍以上[17] - 获得Cursor等关键客户支持 其编程默认模型从GPT切换至Claude[20] - 主动切断Windsurf等竞争对手的API访问权限[21] 人才发展路径 - 核心技术人员通过6个月自学完成AI领域转型[2][36] - 学习路径包括Coursera机器学习课程、Kaggle项目和实践项目开发[38] - 关键突破来自规模化计算和Scaling Laws的应用[41] - 主导GPT-3开发 将模型参数从15亿扩展至1700亿[41] 行业技术演进 - Transformer架构持续优化 引入局部稀疏注意力和预正则化技术[41] - 模型展现卓越的少样本学习能力 实现多任务自然语言处理[41] - 计算资源分配和GPU管理成为模型训练的关键要素[46] - 模型在代理式编程和复杂任务执行方面出现意外突破[14]
一年成爆款,狂斩 49.1k Star、200 万下载:Cline 不是开源 Cursor,却更胜一筹?!
AI前线· 2025-08-20 17:34
AI编程助手行业现状 - AI编程助手行业普遍面临盈利困境 毛利率极低甚至为负 每新增用户会扩大亏损[2] - 市场形成三层竞争格局:模型层(如OpenAI) 基础设施层 工具层 Cursor等公司试图捆绑三层但商业模式不可持续[2] - 典型产品如Cursor每月用户订阅费20-200美元 但实际推理成本高达1000美元 依赖风险投资补贴维持运营[2][3] Cline商业模式创新 - 采用开源策略 软件对个人开发者免费 通过企业增值服务(团队管理/安全保障)变现 类似Linux成功路径[5][6] - 不参与"推理套利"游戏 用户自带API密钥连接各类LLM 公司不从中赚取差价[6][50] - 一年内快速增长至270万开发者社区 GitHub获49.1k星 六个月下载量近200万次[7][10] - 完成3200万美元种子轮+A轮融资 企业客户成为主要收入来源[10][52][53] 技术架构与产品设计 - 首创"计划+行动"双模式交互:计划模式探索需求 行动模式自动执行 降低用户学习门槛[12][13] - 深度集成VS Code扩展形态 避免维护分叉版本的高成本 兼容主流IDE环境[17][18][19] - 构建MCP(Machine Control Protocol)生态系统 已支持150+种MCP服务器 实现跨服务自然语言交互[24][25][26] - 放弃RAG和Fast Apply等优化技术 直接利用大模型长上下文能力 编辑失败率降至4%[45][46][47] 行业发展趋势 - 编程成为大模型最具经济价值的应用场景 但推理本身难以独立成为商业模式[21][57][58] - 模型能力提升改变工作分配:初级编码任务由AI完成 工程师转向架构设计等高阶工作[39][40] - 开源生态加速创新 Cline衍生6000+分叉项目 形成活跃开发者社区[42][43][44] - 记忆系统和上下文工程成为技术前沿 智能体需保持叙事完整性处理复杂任务[63][64][66] 企业级市场拓展 - 强调数据隐私与控制 企业可自主选择API提供商 避免敏感数据外流[52][53] - 开发企业级功能模块:安全护栏 治理洞察 预算管理等 满足组织管理需求[54] - 通过投资回报量化工具 帮助企业证明AI编程助手的经济价值[55][56] - 团队计划从20人扩张至100人 聚焦智能体基础设施研发[68][69][70]
喝点VC|硅谷风投重磅报告:翻8倍!企业客户对生成式AI应用投入达46亿美元;企业优先考虑价值而非速赢
Z Potentials· 2025-08-02 10:19
生成式AI行业趋势 - 2024年企业生成式AI支出飙升至138亿美元,是2023年23亿美元的6倍,标志从试验阶段转向规模化生产[3][6] - 72%决策者预计短期内将更广泛采用生成式AI,但34%企业尚未明确全组织部署规划[3][6] - 60%投资来自创新预算,40%来自常规预算(其中58%为原有资金调整),显示战略优先级提升[5] 应用层发展 - 应用层投资达46亿美元,较去年6亿美元增长8倍,企业平均识别10个潜在用例,24%列为优先实施[11] - 五大高ROI应用场景:代码助手(51%)、客服聊天机器人(31%)、企业搜索(28%)、数据转换(27%)、会议摘要(24%)[12][13][16] - 垂直行业应用崛起:医疗(5亿美元)、法律(3.5亿美元)、金融(1亿美元)、媒体娱乐(1亿美元)[32][33][34] 技术栈与模型竞争 - 基础模型投资65亿美元占主导,但应用层增速更快[9][37] - 企业采用多模型策略(平均3+模型),闭源方案占81%份额(OpenAI从50%降至34%,Anthropic从12%升至24%)[38][41] - RAG架构采用率达51%(去年31%),微调仅9%,智能代理架构首次达12%应用[45][46] 企业部署策略 - 自建与采购比例接近均衡(47%自建 vs 53%采购),较2023年80%依赖第三方显著变化[18] - IT(22%)、产品工程(19%)、数据科学(8%)为三大投资部门,合计占近半预算[28] - 30%企业优先考虑可衡量价值,26%注重行业定制化,仅1%关注价格因素[19] 未来三大预测 - 智能代理将颠覆4000亿美元软件市场并渗透10万亿美元服务经济[49] - AI原生企业将加速取代传统巨头(如Chegg市值蒸发85%)[50] - AI人才短缺加剧,具备领域专长的架构师薪资或涨2-3倍[51] 行业突破案例 - 医疗领域:Abridge等工具实现临床记录自动化,Notable优化分诊流程[32] - 金融领域:Numeric革新会计,Arkifi重构RIA后台流程[34] - 媒体领域:Runway成制片厂标配,Midjourney推动图像创作边界[34]
Anthropic CEO:每代模型都赚钱,但我们选择用利润研发下一代 | Jinqiu Select
锦秋集· 2025-07-31 21:38
核心观点 - Anthropic面临快速增长带来的资金压力,宣布收紧用户使用额度并启动新一轮50亿美元融资,估值或达1700亿美元 [1] - 公司每一代AI模型单独看已实现盈利(如1亿美元投入带来2亿美元收入,利润率50%),但选择将利润全部投入下一代研发,保持战略性亏损 [1][13] - AI技术处于被严重低估的指数级增长阶段,遵循"指数定律"是核心战略基础 [3][6] 技术发展趋势 - AI能力飞跃依赖新架构、新数据与训练方法融合,编码领域进步显著(Claude 3.5至4.0系列模型编码能力持续突破) [5][8] - 强化学习应用和上下文窗口扩展是关键驱动力,行业基准测试SweetBench性能从3%跃升至72-80%(18个月) [5][8] - 人类易低估指数增长:当前阶段类似90年代互联网,变革速度远超线性预期 [7] 商业模式与资本策略 - 以"资本效率"为核心竞争力,宣称能用1/10成本达到同行同等效果,吸引近200亿美元投资(含谷歌30亿/亚马逊80亿) [9][10] - 年化收入呈指数增长:2023年1亿→2024年10亿→2025H1超40亿(可能达45亿) [11] - 专注企业级市场(如制药巨头辉瑞),因专业领域模型价值提升幅度远超普通用户 [12] 行业竞争与人才战略 - 开源模式被视作"红鲱鱼",竞争力取决于模型质量而非权重开放,API正替代传统微调需求 [17] - 极低人才流失率,依靠使命感而非高薪竞争,拒绝匹配Meta等公司的天价薪酬 [18] - 顶尖人才密度构成护城河,资本效率达同行10倍 [10] AI安全与行业责任 - 推行"竞相登顶"战略,通过透明政策(如公开可解释性研究)引导行业安全标准 [19][20][22] - 批判两种极端立场:末日论者缺乏建设性方案 vs 加速主义者反对监管 [22] - 离开OpenAI主因是对领导层动机的不信任,强调领导者真诚度是关键 [21] 技术瓶颈突破 - "持续学习"难题可通过规模化+新方法(如强化学习)解决,上下文窗口理论上可扩展至人类一生信息量 [16] - 以内部代码编写深度应用(Claude参与大部分)实证模型能力进步 [8] - 明确反驳"回报递减论",指出模型代际性能持续显著提升 [8]
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 12:57
多模态大模型视觉推理能力评测 - 清华大学团队开发EscapeCraft 3D密室逃脱环境,用于评估多模态大模型在复杂视觉任务中的推理能力,该论文入选ICCV 2025 [2][3][4] - 环境支持自由配置难度等级,通过调整道具链长度、线索位置(如从出口附近移至远处)测试模型适应性,GPT-4o在线索位置变化后表现显著下降 [6][7][8] - 评测聚焦模型探索决策过程,包括道具获取、视角调整、意图一致性等,而非仅关注最终结果 [16] EscapeCraft环境设计特点 - 环境灵感源自密室逃脱游戏,支持自动生成3D场景,模型需完成找钥匙、解密码等多步骤任务,整合视觉、空间、逻辑信息 [4] - 任务设计高度灵活,可扩展至问答、逻辑推理等方向,为智能体、强化学习研究提供基础平台 [5] - 创新指标包括意图-结果一致性(Intent-Outcome Consistency)、道具获取率(Prop Gain)等,量化模型交互质量与推理效率 [17] 主流模型表现对比 - GPT-4o综合表现最佳,平均逃脱成功率(ER)达81.36%,但在高难度任务中仅26.5%子目标为理解后完成,多数为偶然成功 [17][19][21] - 国产模型Doubao 1.5 Pro在简单关卡中逃脱成功率(91.91%)超越Gemini 1.5 Pro(81.82%)和Claude 3.5(72.73%),交互成功率(Grab SR)达44.68% [19][21] - Gemini 1.5 Pro与Claude 3.5在相同逃脱成功率下行为差异显著:前者交互率高(0.44 vs 0.17)、步数少,后者交互成功率更高但步数多 [21] 模型失败案例与错误类型 - 常见错误包括误判可交互物体(如试图抓取沙发)、视角控制失败(关键道具移出视野)等 [18] - 错误分类显示Claude 3.5的61.1%为推理逻辑错误(目标设定或动作意图不符),38.9%为视觉感知错误 [18] - 多房间设定下模型学习能力有限,仅当房间结构相似时经验可复用 [22] 研究价值与行业应用 - 弥补传统以结果为导向的评估缺陷,强调中间推理过程,推动多模态模型向"类人推理"发展 [16] - 开源环境与数据可支持智能体、强化学习等领域研究,项目已发布GitHub与论文 [22] - 评测揭示当前模型局限:即使视觉输入正确,仍可能因逻辑缺陷失败,体现"看到≠想清"的行业挑战 [18][21]
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
机器之心· 2025-07-11 10:43
大语言模型编程能力评估现状 - 当前市场普遍高估大语言模型(LLMs)的编程能力,如AlphaCode宣称达到人类竞技编程水平,GPT-4o被报道能通过谷歌高级面试,但实际评测显示存在显著"宣传与现实的认知鸿沟" [2][3] - 传统评估体系(HumanEval/MBPP)通过率普遍超过90%,已无法区分先进模型的细微差异,且存在数据泄漏风险(如Codeforces题目可能被预训练数据包含) [4] - 现有Elo评分体系存在周期长、选手水平波动大等问题,效率指标(运行时间/内存)也仅提供粗略评估 [4] OIBench评估基准创新 - 该数据集包含212道高难度信息学奥赛级别原创题目,经严格检索确保未在公开平台出现,抗数据污染能力显著 [8][10] - 题目收录标准严苛:要求GPT-4o等标杆模型中最多仅1个能解出,测试用例数量对标真实竞赛环境 [10][11] - 采用中英文双语支持,每题配备C++标准解答和覆盖边界情况的测试用例,评测维度包括代码理解/生成/推理效率 [10][17] 主流模型评测结果 - 18个主流模型zero-shot评测显示:最高分o4-mini-high仅36.35分,远低于人类竞赛水平;GPT-4o通过率仅2.6%,Claude3.5 Sonnet在动态规划题错误率达80% [5][12] - 推理模型表现突出:o4-mini-high平均得分21.4%,显著高于普通模型(3.6%);闭源模型平均14.5分优于开源模型(6.3分) [19] - 伪代码提示使所有模型表现提升,强推理模型提升最显著;DeepSeek-V3-0324因采用链式推理蒸馏方案表现亮眼 [18][19] 人机对比研究 - 邀请985高校ACM选手参与对比测试,o4-mini-high排名超过42%人类选手,但多数模型仅能超越不到20%人类 [30][31] - 模型表现分三类:低谷型(无长链推理能力)、双峰型(特定题型优势)、橄榄型(仅o4-mini-high具备全面推理特征) [31] 未来评测范式演进 - Code Agent评测需转向人机协作评估,现有SWE-bench等自动化评测忽视交互流程质量 [33] - 计划举办人机协作编程竞赛,从意图理解/交互轮次/决策效率等维度建立首个人机协作榜单 [38][39]