上下文

搜索文档
成熟工程师1天完成调试,AI工程实践被MCP彻底颠覆?
AI前线· 2025-05-27 12:54
作者|冬梅 采访嘉宾|杨小东,华院计算智算平台负责人、技术总监 去年 11 月,Anthropic 发布了模型上下文协议 (MCP),这是 AI 应用程序组件与外部系统或工具之间 通信的新标准。开发者社区迅速采用了该协议,并部署了超过 1000 个 MCP 服务器。如今,随着 AWS、GitHub 等巨头公司,甚至 Anthropic 的"竞争对手"OpenAI 也正式采用 MCP,MCP 在商业领 域也获得了越来越多的关注。 为了使 AI 模型能够在编码助手、制造控制或财务报告等生产环境中提供可靠的价值,它们需要合适 的环境。有效的 AI 系统能够在模型功能与相关、准确的信息(无论是来自各种企业系统的专有数 据,还是来自网络搜索的最新洞察)以及能够进一步处理数据并自动化企业工作流程的代理工具之间 取得平衡。 以前,这是以一种临时的、非标准化的方式完成的——但现在 MCP 提供了一种一致的结构化格式, 用于与大型语言模型和其他 AI 模型进行交互,从而大大简化了构建定制化 AI 应用程序的过程。它类 似于 REST API 曾经标准化 Web 服务通信方式的方式,从而实现了跨不同系统和平台的无缝集成和 互操作 ...
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 14:14
多模态长文本理解评估基准MMLongBench - 香港科技大学、腾讯西雅图AI Lab等机构联合推出首个综合性多模态长文本评估基准MMLongBench,覆盖5大类型任务的16个数据集,包含13,331个长文本样本[1][2] - 基准涵盖Visual RAG、大海捞针、many-shot in-context learning、长文档摘要和长文档VQA五大任务,兼顾自然图像与合成图像[2][8] - 采用跨模态长度控制技术,统一以image patch和text token计算输入长度,标准化8K/16K/32K/64K/128K五种上下文长度[3][11] 模型性能评估结果 - 测试46个领先多模态大模型(含GPT-4o、Gemini-2.5-Pro等闭源模型和Qwen2.5-VL-72B等开源模型),所有模型在长上下文任务中表现均未超过80分[5][6][14] - 128K长度下顶尖开源模型InternVL3-38B、Qwen2.5-VL-72B平均分仅49.8和48.7,闭源模型GPT-4o平均分62.9[14] - 推理能力增强的模型(如Gemini-2.0-Flash-T)在summarization任务上表现提升25.3%,DocVQA任务提升10.1%[15] 关键发现与技术瓶颈 - 不同任务间Spearman相关系数低于0.85,证明单一任务评估无法全面反映模型长文本理解能力[17] - OCR能力成为处理长文档的主要瓶颈:Qwen2.5-VL系列更擅长处理图像PDF,Gemma3-27B在≤32K长度时偏好OCR纯文本[19][20] - 跨模态检索能力不足:将Visual RAG任务图像替换为实体名称后,Gemma3-27B在128K长度下表现提升26.4[22] 数据集与技术细节 - 基于16个公开多模态数据集重构,通过拼接/截断控制上下文长度(如Visual RAG任务拼接Wikipedia段落)[9] - 采用Llama2分词器计算文本token,图片划分为14×14 patch并应用2×2 pixel unshuffle压缩视觉token[11] - 评测代码与数据集已开源,包含评测框架、数据处理工具和标准化评估协议[4][22]
AI coding的雄心、困局与终局
36氪· 2025-05-23 08:02
AI编程行业动态 - 5月AI编程领域标志性事件密集:苹果与Anthropic合作开发Vibe Coding平台[1] OpenAI以30亿美元收购Windsurf[1] ChatGPT集成Codex智能体[1] 美团推出"NoCode"工具[1] - 全球AI编程工具呈现爆发态势 产品形态从代码补全向智能化、一站式演进[1] 代表产品包括GitHub Copilot、Cursor、Devin及国内Trae、通义灵码等[1] - GitHub Copilot用户突破1500万 2024财年为GitHub贡献超40%收入增长[3] 技术演进路径 - 两条发展主线:Copilot助手路线(人主导AI辅助)与Agent智能体路线(AI主动执行)[3] Copilot类产品已进入实用阶段 Agent类尚未完全实现PMF[3] - 典型产品分层:L1-L5自动化程度递增 Devin目标定位L4级AI工程师[10] 当前产品多停留在task层面执行简单任务[10] - Vibe Coding新范式兴起 通过自然语言交互实现编程 但存在框架适配等实操问题[16] 未来5年或可支撑中小规模软件开发[17] 核心技术壁垒 - 上下文能力成为关键竞争要素 需收集用户习惯/企业代码库等个性化数据[11] 行业呈现"得上下文者得天下"趋势[12] - 模型"脑容量"制约发展:处理Chrome等复杂系统需数百万行代码理解能力 当前Cursor仅支持20万token上下文[4][8] - 技术栈分化:云端侧重大模型能力 终端聚焦上下文收集 双向协同构建壁垒[11] 市场格局与竞争 - 中美生态差异:美国初创公司主导创新(Devin/Cursor) 中国大厂反应更快(Trae/通义灵码)[19][24] - 创业公司优势在于非共识突破:Cursor重构代码编辑器 Devin定位全自主工程师[22] 大厂倾向选择已验证赛道[19] - 商业化路径:ToP(专业用户)市场最先成熟 全球数千万程序员构成基础客群[13] "小白编程"需求尚未被验证[14] 未来发展趋势 - 技术突破方向:Agent路线虽难但潜力大 垂类场景(如生物领域)存在机会[30][31] - 渐进式发展策略:"沿途下蛋"模式通过阶段性产品迭代逼近终局[34] - 终局未定:编程载体可能从代码转向神经网络 交互方式和实现路径仍存变数[32]
AI编码新神登基,藏师傅一手Claude 4实测
歸藏的AI工具箱· 2025-05-23 02:00
核心观点 - Claude 4发布标志着AI代码生成能力的重大突破,公司CEO预测2027年所有代码将由AI生成[1] - Claude Opus 4被定位为全球最佳编码模型,在复杂任务和代理工作流中表现优异[1][4] - 开发者大会揭示AI代理未来三大发展方向:上下文智能、长时间执行、真正协作[17][19] 产品发布 定价策略 - Claude Sonnet 4向免费用户开放[3] - API定价维持不变:Opus 4输入/输出每百万token 15/75美元,Sonnet 4为3/15美元[3] 技术能力 - 编码能力在SWE-bench(72.5%)和Terminal-bench(43.2%)领先行业[4] - 支持数千步操作的长时间任务,可持续工作数小时[4] - 记忆能力显著提升,可创建维护"记忆文件"[8] 新功能 - 扩展思维与工具使用进入测试阶段,支持并行工具操作[5] - Claude Code全面开放,集成GitHub Actions/VSCode/JetBrains[5] - 新增代码执行工具、MCP连接器、Files API等API功能[5] 性能测试 前端开发 - 成功生成Bento Grid风格作品集网页,实现8项复杂设计要求[9][14] - 自动优化交互细节如滚动条样式、数据卡片hover效果[9] - 完美融合特斯拉红(E31937)与黑色背景的科技感设计[9] 全栈开发 - 零基础构建功能完整的电商后台,包含动态定价、SKU选择等交互组件[10][11] - 实现广告管理系统仪表盘,支持多图表筛选和实时数据更新[15] - 所有案例均使用TailwindCSS 3.0+/Framer Motion等现代技术栈[13][18] 开发者生态 - 主题自定义提示词执行成功率显著提升,Sonnet 4免费开放降低使用门槛[15] - 原生支持VS Code/JetBrains等主流IDE,提升开发者体验[5] - 测试显示模型能自主补充未明确要求的交互逻辑和动效[10][12]
CEO的智囊团,实习生的救命稻草:这个飞书功能如何让所有人都变高效
歸藏的AI工具箱· 2025-05-21 15:18
飞书知识问答功能概述 - 飞书知识问答是企业专属AI问答工具 可基于互联网知识和组织内部数据(消息/文档/知识库/文件)提供精准回答 [2] - 功能与组织数据深度协同 数据积累越多AI能力越强 对高管和一线员工均有显著效率提升 [1] - 支持内容创作辅助 帮助用户快速获取业务洞察 [3] 企业场景应用 - **项目筹备场景**: - 可快速查询跨部门项目进度 精确输出时间地点/核心进展/协作方等关键信息 节省90%文档查阅时间 [4] - 自动分类检索嘉宾演讲主题 解决原始文档未分类整理的痛点 [5] - 同步展示相关图片素材(如海报/场地照片) 提升跨团队协作效率 [7] - **管理决策场景**: - 生成结构化筹备建议 覆盖场地选择/推广策略/嘉宾管理等全流程 [9] - 10分钟内自动生成进度汇报文档 替代传统需半天的人工整理 [12] - 管理层可穿透式查询项目细节 突破传统逐级汇报的信息壁垒 [17] 个人知识管理 - 自动分析用户文档内容 如系统梳理网页生成提示词 提出写作结构/模型适配/产品化等优化建议 [19] - 深度检索飞书知识库内容 如生成Comfyui入门教程并附带教学视频 效率较传统检索提升80% [21] 技术差异化优势 - 核心突破在于上下文获取能力 飞书文档体系提供了企业场景最丰富的上下文数据 [22] - 相比通用AI产品 其企业数据整合度更高 在B端管理场景实现信息利用率300%提升 [22]
老黄唱衰编程,GitHub CEO硬刚:放弃写代码等于放弃智能体未来话语权
量子位· 2025-05-19 17:39
核心观点 - GitHub CEO托马斯·多姆克反驳"编程无用论",认为2025年是编程智能体之年,但未来仍属于人类程序员[1][2] - 公司通过Copilot等产品增强开发者能力,已拥有1500万用户,同比增长4倍[5][10] - 智能体技术将融合同步和异步交互模式,实现自然语言指令执行任务[14][16][17] - 人类程序员仍将主导软件开发,AI作为助手无法取代[33][34][38] 2025年SWE智能体技术发展 - 2025年软件开发将围绕智能体技术展开,基于AI、LLM和上下文感知技术[14][15] - 智能体将并行处理多个任务,开发者成为"智能体乐队"指挥[21][22] - 模型已具备自主规划能力,通过工具调用接口完成工作[24] - 公司构建了人员关系图谱、工作流程图谱等独特上下文体系[26] Copilot产品进展 - Copilot用户达1500万,同比增长4倍,源于免费开放策略[10] - 定价从10美元/月调整至39美元/月,超额请求按0.04美元收费[27] - 产品已集成到所有主流IDE和GitHub网站,具有上下文理解优势[25] - 公司持续评估商业模式演变以支持代理模式运行[27] 人类程序员角色 - AI只能作为高级开发者助手,无法取代掌控软件生命周期的人类[33] - 需要持续学习代码,了解如何对代表人类思考和行动的机器编程[36][37] - 公司愿景是通过改进的自然语言界面打破人类与代码壁垒[34] - 人工智能必须在人类指导下实现自主[38]
a16z:Git 将被取代,AI 时代的 9 种全新软件开发模式
Founder Park· 2025-05-12 19:38
本文转载自「深思圈」 未来,对于开发者来说,AI 不再是工具,而是构建软件的全新基础。 基于 AI Agent 驱动下,版本控 制、模板、文档,甚至用户概念正在被重新定义。 近日,a16z 发文提出了 9 个未来开发者趋势,虽然还处于早期阶段,但都是基于真实的痛点,非常具 备前瞻性。这些趋势包括重新思考 AI 生成代码的版本控制,到大语言模型驱动的用户界面和文档。 TLDR: Founder Park 正在搭建「 AI 产品市集」社群,邀请从业者、开发人员和创业者,扫码加群: AI Agent 编写或修改大量代码,开发者更关注代码输出是否符合预期,而不是具体的代码行。这 就导致「真相的上移」,prompt 和测试组合成为新的「真相」,进而促使意图驱动的版本控制出 现,未来可能将 prompt + 测试包作为可版本化的单元来跟踪。 传统仪表板是静态的,展示固定的指标,用固定的方式。但 AI 驱动的仪表板可以根据用户当前 的任务、角色、甚至过去的行为模式来重新配置。 文档正在逐步演变为交互式知识系统,这些系统具备语义搜索能力,可以作为编码 Agent 的上下 文来源。未来的文档可能会有三个层次:人类阅读层(有故事 ...
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 12:11
大型语言模型自注意力机制研究 核心发现 - 自注意力模块中查询(Q)和键(K)表示存在高度集中的极大值,而值(V)表示无此现象,该现象在使用旋转位置编码(RoPE)的模型中普遍存在[1][3] - 极大值分布具有跨层和跨头的规律性,与传统认知中注意力头独立性假设形成鲜明对比[3] - 该现象仅见于采用RoPE的主流模型(LLaMA/Qwen/Gemma),未使用RoPE的模型(GPT-2/OPT)不存在此模式[4] 机制影响 - 破坏QK中的极大值导致上下文理解任务性能崩溃: - 数学推理(GSM8K)准确率从81.3%骤降至15.1%(Gemma2-9B)[5] - 密钥检索任务(Passkey Retrieval)准确率从100%降至0%[5][11] - IMDB情感分析从94%+跌至个位数[11] - 参数知识任务受影响较小:城市类任务保持76-88%准确率,名人类任务维持70%+[10][13] 技术启示 - 量化技术需针对性处理极大值:AWQ和SmoothQuant方法能有效保持上下文理解能力,普通量化导致GMS8K性能显著下降[7] - RoPE机制是极大值现象的根源,其仅作用于QK而不影响V的特性解释了现象特异性[8] - 模型设计应重点考虑位置编码机制对上下文理解的影响,优化方向可针对极大值分布进行调整[14][16] 未来方向 - 探索通过调控极大值分布提升模型上下文理解能力的可行性[16] - 开发专用于保护极大值的量化技术,平衡模型压缩与性能保留[16] - 研究不同模型架构中该现象的普适性,拓展至多模态等新领域[16]
Claude网页版接入MCP!10款应用一键调用,开发者30分钟可创建新集成
量子位· 2025-05-02 12:36
核心观点 - Anthropic推出的MCP协议正逐渐成为行业标准,实现大模型与外部数据源和工具的无缝集成 [1][4][5] - Claude针对MCP进行两项重大更新:网页版接入MCP和Research功能升级,已向Max/Team/Enterprise用户开放 [1][3][6] - 行业认为MCP可能开启"万物皆应用"时代,大模型SaaS化趋势加速 [2] MCP协议特性 - MCP被类比为AI应用的Type-C接口,支持大模型获取上下文数据提升回答质量 [4][5] - 已集成GitLab、PayPal、Cloudflare等10个应用,开发者可30分钟内创建自定义集成 [9] - 展示案例包括Confluence/Jira任务管理、Intercom故障排查、Zapier日程读取 [11][12][13][15] Claude功能更新 网页版MCP接入 - 从需配置文件的桌面端扩展到网页版,降低技术门槛 [7][9] - 支持直接调用Atlassian等企业工具完成文档处理、任务派发等闭环操作 [11][12] Research功能升级 - 数据源扩展至数百个内外渠道,支持MCP应用接入 [16][17][18] - 新增复杂研究模式:自动分解请求、多源交叉验证、生成带引用标注的综合报告 [17][18][19] - 演示案例显示可半小时处理500+参考资料完成调研 [20] 行业影响 - 用户可通过自定义网站+MCP组合替代传统SaaS付费功能,开源生态或迎来变革 [2] - 协议标准化推动AI应用开发效率,30分钟快速集成凸显平台扩展性 [9]
当聚合出现误导时
世界银行· 2025-05-02 07:10
报告行业投资评级 未提及相关内容 报告的核心观点 - 单元情境模型在小区域贫困估计中存在偏差,主要源于无法充分捕捉区域层面的全部福利变异性,虽可能实现对均值转换福利的无偏估计,但无法复制区域内真实福利分布,导致贫困和福利估计出现偏差 [47] - 单元上下文模型解释力有限,仅依赖区域层面协变量,忽略家庭层面变异,增加协变量可能过拟合并导致进一步偏差 [48] - 单元情境模型在国家层面可匹配福利总体经验变异,但在区域层面失效,导致部分区域福利高估或低估,贫困估计出现系统性偏差 [49][51] - 贫困估计偏差程度与模型模拟的福利总体经验变异和地区真实福利变异的匹配程度直接相关,匹配度接近1的地区偏差轻微,不匹配地区偏差更大 [51] 根据相关目录分别进行总结 1 引言 - 家庭调查在衡量人口生活水平时缺乏代表性且有遗漏风险,小区域估计技术可提升估计精度,基于模型的方法利用“借用力量”概念,包括单元级模型和区域级模型 [7] - 单元级模型在调查和普查数据年份不同时存在局限,区域级模型是可行替代,单元 - 情境模型先预测福利分布再确定贫困比例,但会导致有偏估计 [8] - 单元 - 情境模型偏差与Würz等人提及的转换偏差相关,与该模型解释能力不足有关,模拟表明预测福利方差与区域真实福利方差一致的区域偏差最小 [10][11] 2 小区域估计 - 小区估计算法依赖假设模型,嵌套误差模型最初用于作物种植面积估算,在贫困与福利估算中,假设福利与特征向量呈线性关系 [13] - 模型误差服从正态分布,通过拟合观测样本数据得到参数估计量向量,进而计算经验最佳区域效应和区域效应方差 [16] - 利用模型估计参数计算家庭福利值,区域层面贫困估计偏差取决于真实方差和模拟方差的差异,单元 - 情境模型解释力低,无法正确近似区域层面经验标准差,导致模拟福利差异与真实总体不匹配 [18][22] 3 模拟数据 - 模拟数据样本量为500,000,分配在100个区域,每个区域有20个集群,每个集群250个观测值,采用简单随机样本,样本保持固定 [27] - 生成人口数据的模型包含聚类效应、区域效应和家庭特定残差,协变量由随机变量生成,单元上下文模型使用PSU级均值作为协变量 [27] - 采用包含99个贫困标准的网格,生成1,000个人口,计算每个区域的真实贫困指标、人口普查EB估计值和单位 - 上下文普查EB估计量,平均差异代表经验偏差 [29] 4 结果 - 单元上下文模型偏差存在于所有线条中,但在某些区域和百分位数上较低,解释变量真实变异范围为0.374 - 0.861,单元上下文模型范围小,平均来看因变量总经验变异与单元上下文模型匹配 [36][37][38] - 单元上下文模型存在偏差,因为假设福利不依赖单元层面特征导致模型拟合不良,绝对偏差随模型解释方差与真实方差比值接近1而减少,福利绝对偏差也有类似规律 [40][42][43] 5 结论 - 单元情境模型在小区域贫困估计中偏差源于无法捕捉区域福利变异性,虽可实现均值转换福利无偏估计,但无法复制真实福利分布 [47] - 模拟结果表明单元上下文模型解释力有限,在区域层面无法匹配福利变异,导致贫困估计偏差,偏差程度与福利变异匹配程度相关 [48][51] - 单元 - 情境模型有实际优势,但使用时应考虑其局限性,区域级模型优于单元 - 情境模型,未来可探索改进方法和开发诊断工具 [51][52]