Workflow
Claude Desktop
icon
搜索文档
腾讯研究院AI速递 20251023
腾讯研究院· 2025-10-23 00:33
生成式AI产品发布与更新 - OpenAI发布基于Chromium内核的AI浏览器ChatGPT Atlas,目前免费开放macOS版,后续将推出Windows及移动端版本 [1] - Atlas核心功能为将ChatGPT深度集成至浏览器,可查看用户页面内容并通过侧边栏回答问题,配备浏览器记忆功能和智能体模式以执行订票、购物等复杂任务 [1] - Claude正式发布桌面版,同时支持Mac和Windows系统,提供全局快捷键、窗口分享、语音输入和工具连接四大核心功能 [2] - 谷歌AI Studio推出全新vibe Coding体验,用户通过点击Build一键生成AI应用,使用Gemini 2.5 Pro制定计划并生成文件,支持免费使用且无需信用卡 [3] - 百川智能发布业内首个循证增强医疗大模型Baichuan-M2 Plus,通过首创"六源循证范式"构建权威医学知识体系,幻觉率比DeepSeek-R1低3倍 [5][6] 多模态与3D模型技术突破 - 腾讯混元世界模型1.1正式开源,首次支持多模态先验注入和多任务统一输出,采用纯前馈架构实现秒级推理,处理8-32视图输入仅需1秒且支持单卡部署 [4] - 该模型基于统一架构实现点云、深度、相机参数、表面法线和新视角合成等多种3D几何预测,在仿真器及真实物理世界任务中性能显著超越现有方法 [4] - 华为HarmonyOS 6实现与苹果iOS/iPadOS/macOS互传,纯血鸿蒙终端设备突破2300万台,小艺AI支持速记、AI修图、自动订票购物等功能,并支持16种方言交互 [7] 机器人与XR硬件创新 - 松延动力推出全球首款万元以内消费级人形机器人Bumi小布米,售价9998元,拥有21个自由度,搭载自研伺服电机和深度强化学习算法,能够稳定行走、跳舞和完成复杂动作 [8][9] - 该机器人定位教育和陪伴场景,支持语音交互和图形化编程,公司已完成6轮融资,N2机型在人形半马比赛多项目夺冠并成为销量破千的人形机器人公司 [9] - 三星发布首款旗舰XR头显Galaxy XR,售价1799.99美元(约合人民币1.28万元,仅为Vision Pro一半),重545克比Vision Pro轻1/4,搭载3552×3840分辨率Micro-OLED屏 [10][11] - Galaxy XR首款搭载Android XR平台并内置Gemini AI助手,DCI-P3色域覆盖96%超过Vision Pro,配备18个传感器实现头部手部眼部精准追踪,续航2-2.5小时 [11] 开发工具与框架演进 - Dexmal原力灵机推出开源VLA代码库Dexbotic,基于PyTorch框架开发,采用Data、Model、Experiment三大核心组件架构,支持π0、OpenVLA-OFT等多个主流VLA算法 [7] - 该代码库用户只需配置一次环境即可在各类仿真环境中复现算法,支持云端与本地一体化训练,同时推出首款开源硬件DOS-W1,采用快拆结构和可替换模块 [7] - 前Manus研究员指出AI Agent能力质变的关键在于围绕模型设计的"认知流程",而非底层模型智力增长,开发者角色从"提示词工程师"转变为"Agent流程架构师" [12]
热闹了!OpenAI 前脚发完 ChatGPT 浏览器,Anthropic 随后推出 Claude 桌面端
Founder Park· 2025-10-22 14:04
新产品发布动态 - OpenAI发布全新浏览器ChatGPT Atlas,深度集成ChatGPT功能[2][3] - Anthropic正式发布Claude Desktop桌面端,主打随时随地召唤AI助手[3] - 两家公司产品思路不同:OpenAI通过浏览器深度集成AI到网页操作,Anthropic让AI在电脑全局待命[5] ChatGPT Atlas核心功能 - 内置ChatGPT侧边栏,可在任意页面直接调用AI助手查看页面内容[3] - 具备浏览器记忆功能,能记住浏览历史并用自然语言查询历史记录[3][19] - AI智能体模式可在页面上执行点击、输入、跳转等操作,目前仅限付费用户使用[3][22] - 通过全局快捷键和屏幕共享功能提升使用便捷性[4][7] 产品可用性与商业模式 - ChatGPT Atlas目前向所有macOS用户开放,包括免费、Plus、Pro及Go用户[10] - Windows、iOS和Android版本即将推出[10] - 智能体模式以预览版形式向Plus、Pro和Business用户开放,实行付费模式[13] - 设为默认浏览器可获赠7天会员服务[12] 技术特点与用户体验 - Atlas基于谷歌Chromium内核打造[25] - 新标签页作为起点,整合提问和网址输入功能[31] - 支持语音输入按Caps Lock键说话,边想边聊[7] - 个性化建议功能可根据浏览历史推荐下一步行动[38][41] - 家长控制功能新增关闭浏览器记忆和智能体模式选项[52] 智能体能力与限制 - 智能体可自动执行任务如研究分析、任务自动化、规划活动或预订约会[22][54] - 无法在浏览器中运行代码、下载文件或安装扩展程序[60] - 在金融机构等敏感网站会暂停操作,确保用户监督[60] - 存在被恶意指令操纵风险,可能导致数据窃取或非预期操作[57] 团队背景与行业竞争 - Atlas项目由前谷歌Chrome核心开发者Ben Goodger领导[65][68] - AI浏览器成为新竞争前线,Perplexity推出Comet浏览器提供答案引擎功能[78][79] - 谷歌计划将Gemini AI助手深度集成进Chrome浏览器[82] - 全球Chrome浏览器用户超30亿,OpenAI能否撼动市场地位尚待观察[88] 产品发展路线 - 后续版本将支持多用户配置文件,提升开发者工具体验[63] - 为使用Apps SDK的开发者提供更多方法提升应用可发现性[63] - 标志网络活动将通过智能体系统完成的新趋势[58]
如何为LLM智能体编写工具?Anthropic官方教程来了
机器之心· 2025-09-12 19:31
智能体工具开发新范式 - 智能体工具开发需要从传统确定性系统转向非确定性范式,因为智能体在相同输入下可能产生不同输出[8][9][10] - 工具效能是决定智能体完成任务效率的关键因素,需要专门为智能体设计而非简单封装API[1][10][41] 工具开发流程 - 构建原型阶段需向Claude提供相关文档和软件库信息,可封装在本地MCP服务器或桌面扩展程序中进行测试[16][17][18] - 评估阶段应生成真实使用场景的提示响应对,建议任务需要多达数十次工具调用进行压力测试[24][25][27] - 通过编程方式运行评估,Claude的交错思维功能可分析工具调用原因[28][29] 工具设计原则 - 工具数量并非越多越好,应优先构建少量高价值工具,避免功能重叠导致智能体分心[41][43][46] - 工具应具有整合能力,能一次性处理多个离散操作,减少中间结果消耗的上下文空间[44][45][54] - 命名空间划分可帮助智能体区分功能重叠的工具,按服务或资源加前缀分组效果显著[48][49][50] 工具响应优化 - 工具响应应返回高信号信息,优先使用自然语言标识符而非技术标识符,可将准确率提高显著[52][56] - 响应结构需匹配LLM训练数据格式,JSON/XML/Markdown等格式性能因任务而异[57] - 对大量上下文响应应结合分页、过滤和截断功能,默认限制25000个token[58] 性能评估指标 - 除准确率外还需收集单次调用运行时间、工具调用总次数、总token消耗和错误情况等指标[30][39] - 分析时应关注智能体卡顿点、工具调用指标和未明确表达的行为模式[33][34][35] 工具描述优化 - 工具描述应像向新团队成员解释般清晰,明确输入输出参数命名规范[64] - 对工具描述进行微小改进可大幅降低错误率并提高任务完成率,Claude Sonnet 3.5在SWE-bench评估中取得最佳性能[64] 未来发展方向 - 智能体交互机制将持续演变,包括MCP协议更新和底层LLM升级[66] - 通过系统化评估驱动的方法确保工具随智能体能力同步发展[66]
一句话让数据库裸奔?Supabase CEO:MCP 天生不该碰生产库
AI前线· 2025-07-18 14:00
MCP安全漏洞分析 - 核心安全威胁为"致命三连"攻击模式:通过提示注入触发敏感数据访问并自动回传 攻击者仅需一条伪装成用户信息的指令即可完整泄露SQL数据库 [1][3][4] - 典型案例显示 攻击者通过客服工单植入恶意指令 使Cursor的MCP代理在30秒内泄露包含OAuth token的integration_tokens表 涉及Slack/GitHub/Gmail等核心系统权限 [4][6][8] - 攻击流程标准化:环境搭建→工单注入→日常操作触发→Agent自动执行SQL→数据公开暴露 无需提权即可绕过WAF和RBAC防护 [6][7][8] MCP生态发展现状 - 协议自2024年底发布后快速普及 2025年初已有超1000个服务器上线 GitHub相关项目获33000星 被谷歌/OpenAI/微软等巨头纳入生态体系 [2] - 部署简便性推动开源热潮 开发者可快速搭建服务端 实现AI模型对Slack/Google Drive/Jira等工具的自动化访问 [2] - Supabase CEO警告MCP仅适用于开发环境 禁止连接生产数据库 该建议适用于所有MCP实现方案 [13][14] 架构设计缺陷溯源 - 安全漏洞本质是协议层问题 非代码缺陷 GitHub案例显示单个MCP即可同时实现提示注入/数据访问/信息回传三重攻击 [9][12] - 早期设计未考虑恶意调用场景 本地进程模式缺乏认证机制 HTTP服务化后OAuth授权体系与MCP存在根本性阻抗失配 [16][17][20] - OAuth规范缺乏细粒度权限控制 无法识别管理员/只读用户等角色 scope字符串机制难以适应AI代理场景 [19][20] 行业解决方案探索 - Anthropic联合微软推进OAuth标准优化 提升discoverability并减少预配置 但上千MCP服务的权限协调仍是挑战 [19][21] - 安全专家建议重构授权模型 需明确工具访问默认权限 区分状态修改与敏感数据访问的检查节点 [20][21] - 社区共识认为需通过持续反馈调试解决OAuth与MCP的协议层融合问题 当前处于安全认知刷新阶段 [15][21]
Cursor 搭 MCP,一句话就能让数据库裸奔!?不是代码bug,是MCP 天生架构设计缺陷
AI前线· 2025-07-10 15:41
MCP协议的安全风险 - 使用Cursor搭配MCP可能导致SQL数据库在用户不知情的情况下被泄露,攻击者仅需一条看似正常的用户信息即可实现[1] - 这种攻击模式被称为"致命三连",结合了提示注入、敏感数据访问和信息回传,正在成为AI应用的核心安全挑战[1] - 攻击案例显示,仅需30秒即可通过看似正常的客服工单获取OAuth access token等敏感信息,导致系统控制权暴露[5] MCP协议的快速发展 - 英伟达CEO黄仁勋预测未来企业将由5万名人类员工管理1亿个AI助理,这一场景正迅速成为现实[3] - MCP协议在2024年底发布后迅速普及,2025年初已有超过1,000个MCP服务器上线,GitHub相关项目获得33,000多颗星[3] - 谷歌、OpenAI、微软等科技巨头已将MCP纳入生态体系,支持多种客户端构建庞大的Agent网络[3] 具体攻击案例分析 - Supabase MCP案例中,攻击者通过设计客服工单内容,诱导Cursor Agent自动复制integration_tokens私密表并公开[5][8] - GitHub MCP案例显示,攻击者可通过公开仓库提交包含恶意指令的Issue,诱导LLM Agent泄露私有仓库信息[15][17] - 这些攻击无需提权,直接利用Prompt Injection和MCP自动化通道,绕过传统安全防护机制[11] MCP协议的设计缺陷 - MCP协议最初设计缺乏安全考虑,早期版本假设在本地运行且不涉及认证问题,不适合企业级应用场景[20] - 协议引入HTTP支持后,认证与授权成为难题,OAuth与MCP的设计目标存在根本性冲突[21][22] - 当前MCP规范缺乏细粒度的授权机制,无法有效区分管理员、只读用户等基本角色[24] 行业应对与改进方向 - Anthropic和社区正在优化MCP规范,与微软等安全专家合作采用最新OAuth标准[22] - 需要重新设计授权机制以适应MCP运行环境的变化,特别是云端网页客户端的新场景[24] - 安全专家指出MCP的问题不是代码缺陷,而是整个生态在向通用代理架构演进中必须解决的安全认知刷新[19]
MCP不是万灵药
腾讯研究院· 2025-05-07 16:29
MCP的本质与核心价值 - MCP是一种开放技术协议,旨在标准化大型语言模型(LLM)与外部工具的交互方式,相当于AI世界的通用翻译官[5] - 解决AI工具调用两大痛点:接口碎片化(不同LLM使用不同指令格式)和开发低效(需为每个API编写定制代码)[6] - 采用通用JSON-RPC格式,实现一次学习即可与所有支持协议的工具交互[8] - 技术架构由三部分组成:MCP Host(执行环境)、MCP Client(通信枢纽)、MCP Server(服务终端)[11] MCP的工作原理与定位 - 类比现代企业通信系统:大模型如高管决策,Agent如执行秘书,MCP如标准化通信平台[13] - 不是Function Call的替代品,而是基于Function Call的工具箱,三者关系为"Function Call + Agent + MCP系统"[18][19] - 典型案例:用户(老板)通过大模型(办公室主任)下发指令,Agent(秘书)通过MCP系统(采购平台)调用工具(咖啡供应商)[21] - 仅提供统一工具接口标准,不参与决策/任务规划等智能层面工作[23] MCP的市场应用现状 - 本地客户端应用(如Claude Desktop、Cursor)受益最大,实现AI助手能力无限扩展[27] - 云端应用存在局限性:需预设工具集,难以实现动态发现功能[30] - 大型企业服务商面临额外适配成本,双链接机制导致工程复杂度[29] - 协议已优化:3月26日更新支持streamable HTTP transport,兼容无状态服务场景[32] 行业生态发展现状 - 市场呈现野蛮生长:三个月涌现数千个MCP工具,但80%存在严重问题或缺乏实用价值[34] - 缺乏评价体系导致工具选择低效,Agent需反复试错浪费资源[35] - 头部公司差异化布局:百度"心响"主攻C端移动场景,字节扣子空间聚焦生产力工具,阿里集成至支付宝生态[41] - 腾讯多线布局:发布AI开发套件、代码助手Craft,地图/云存储推出MCP SERVER[42] MCP的合理定位与发展方向 - 本质是工具插座标准,不应期待其解决智能系统的全部问题[39] - 需与Agent框架、大模型能力协同构建完整解决方案[40] - 未来可能演变为底层基础设施,结合A2A架构提升抽象层次[43] - 行业正经历技术炒作周期,市场自然选择后将形成精简有价值的工具生态[36]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 17:44
核心观点 - MCP(Model Context Protocol)作为AI领域的统一协议,正在推动AI应用生态的标准化和开放化,有望引发2025年AI应用大爆发 [5][9][10] - MCP通过定义大模型与外部工具交互的标准接口,显著降低AI应用开发门槛,开发者无需再为不同工具编写适配代码 [12][14][20] - 全球科技巨头(OpenAI、谷歌、Meta、阿里、腾讯等)已全面接入MCP协议,推动形成统一生态,全球MCP服务器数量超4000个且快速增长 [8][20][25] - MCP的开放性与抽象性使其成为行业共识,对比OpenAI封闭的GPTs商店策略,MCP更符合开发者需求和技术演进方向 [29][30] MCP协议定义与价值 - MCP全称Model Context Protocol,是由Anthropic于2024年11月推出的开放标准,相当于大模型的"万能插座",统一数据源与工具的交互语言 [12][13] - 核心价值在于标准化:服务方(如高德地图、微信读书)维护MCP服务器,开发者可直接调用,代码复用率提升80%以上 [7][14][20] - 典型应用场景:AI旅游助手开发中,MCP使地图查询、攻略检索等功能调用效率提升3倍,Token消耗减少50% [16][19][20] 行业生态发展现状 - 2025年2月起,Cursor、VSCode等主流开发工具支持MCP协议,3月OpenAI/谷歌相继接入,标志大模型厂商战略转向开放生态 [24][25][26] - 国内阿里云魔搭社区等平台已整合MCP服务,百度李彦宏将当前MCP开发类比"2010年移动APP开发"的黄金期 [5][18] - 现存问题:部分MCP服务器功能不完善(如某度地图仅20个工具)、文档缺失,非官方服务的稳定性与安全性存疑 [21][22] 技术对比与竞争格局 - 相比OpenAI的Function Calling,MCP将工具调用封装为"乐高积木"式模块,开发效率提升60%且兼容任意AI模型 [17][29] - OpenAI封闭式GPTs商店策略失败:商店中70%应用为低质套壳,商业化受阻;MCP开放路线重新赢得开发者 [28][30] - Anthropic通过MCP实现生态逆袭,OpenAI/谷歌等被迫跟进,行业进入"开放协议主导"的新阶段 [27][30] 市场影响与未来预期 - MCP协议推动AI应用从"散点创新"转向规模化爆发,2025年有望出现首个用户破亿的AI超级应用 [8][10] - 协议标准化使AI应用开发周期缩短40%,初创公司Manus等先行者已验证商业可行性 [6][18][20] - 长期博弈点:大厂核心数据开放程度将决定MCP生态上限,目前工具调用深度仍受厂商限制 [21][22]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 09:26
MCP协议概述 - MCP全称为"Model Context Protocol",是一种允许大模型标准化调用外部工具的开放协议 [6] - 该协议由Anthropic于2024年11月首次推出,2025年2月开始全球范围快速普及 [6][12] - 类比为给大模型安装"万能插座",统一不同工具间的交互标准 [6] 行业应用现状 - 高德地图、微信读书等应用已推出官方MCP服务器供开发者调用 [2] - OpenAI、谷歌、Meta及国内BAT等科技巨头均宣布支持MCP协议 [2] - 全球已有超过4000个MCP服务器上线,数量持续快速增长 [12] 技术价值 - 解决大模型与外部工具交互缺乏统一标准的问题,提升代码复用性 [11] - 开发者无需维护工具性能,只需专注应用开发,工作量减少50%以上 [12][13] - 支持云端/本地多种部署形式,不限制底层模型类型 [19] 生态发展 - Cursor、VSCode等主流开发工具2025年2月起支持MCP协议 [16] - OpenAI于2025年3月27日宣布支持,成为生态转折点 [16] - 对比封闭的GPTs商店,MCP开放特性更受开发者青睐 [18][19] 现存挑战 - 部分MCP服务器工具不足20个,存在功能不完善问题 [15] - 非官方维护的服务器存在安全性和稳定性风险 [12][15] - 大厂商可能保留核心数据接口,未完全开放能力 [15] 行业影响 - 被类比为AI领域的"秦始皇统一标准",可能引发2025年AI应用爆发 [4][5] - 促使大模型厂商从封闭生态转向开放合作战略 [17][21] - 开发门槛降低使AI应用创新从"星星点点"转向规模化发展 [3][5]
关于MCP协议最值得看的一篇:起源、架构优势和未来
虎嗅· 2025-04-24 16:34
MCP协议概述 - Anthropic推出的模型上下文协议(MCP)旨在为AI应用提供标准化通信框架 实现客户端与外部扩展(如插件、工具、资源)的协作[5] - 协议设计灵感来源于语言服务器协议(LSP) 核心目标是解决AI应用与扩展之间的M×N集成难题[10][15] - 主要科技公司包括OpenAI、微软、Google、阿里云、腾讯云均已支持该协议[1] 核心设计理念 - 区分三大基础概念:工具(模型主动调用)、资源(应用控制的数据背景)、提示(用户发起的文本交互)[30] - 采用JSON-RPC通信机制并支持双向数据传输 在特定领域创新同时借鉴成熟模式[16] - 强调用户控制权原则 客户端应用对MCP服务器内容拥有完全筛选和优化权限[31] 与OpenAPI关系 - MCP与OpenAPI属于互补关系而非竞争:MCP适合AI应用间丰富交互 OpenAPI更适合模型直接解析API规范[32] - 协议设计刻意保持状态性(Statefulness) 以匹配AI应用交互特性[32] - 已出现双向转换工具 可实现OpenAPI规范与MCP形式互相转换[33] 开发实施 - 构建简单MCP服务器仅需约30分钟 推荐采用AI辅助编程方式快速迭代[36][37] - 支持多种编程语言包括TypeScript、Python、Rust 官方SDK代码量控制在100-200行[16][37] - 数据返回格式倾向原始非结构化数据 充分发挥LLM的信息筛选能力[38] 扩展能力 - Claude模型可支持约250个工具 实际数量取决于工具描述清晰度和功能重叠度[41][42] - 支持递归组合模式:MCP服务器可同时作为客户端调用其他服务器 形成复杂交互流程[50] - 典型应用场景包括:3D打印机控制、记忆功能扩展、游戏引擎集成、多步骤推理等[14][48][74] 生态发展 - 采用OAuth 2.1授权规范 正在完善细粒度权限控制(Scopes)机制[57][59] - 已有五六个社区注册中心 面临与传统软件包仓库相似的供应链安全挑战[63] - 项目管理采用开源模式 非Anthropic贡献者包括Pydantic团队、Microsoft、JetBrains、Spring AI等公司[72] 未来方向 - 重点发展状态保持(Statefulness)与操作简便性的平衡 支持会话恢复机制[55][56] - 期待出现更多模型无关的实现 特别是采样客户端和支持完整规范的客户端[73] - 潜在应用包括Reddit内容总结、游戏AI集成、3D建模工具交互等场景[35][74]
关于MCP最值得看的一篇:MCP创造者聊MCP的起源、架构优势和未来
Founder Park· 2025-04-22 21:05
MCP协议概述 - Anthropic推出的MCP协议因Manus和Agent热潮成为AI领域最热门协议,获OpenAI、微软、Google等大厂支持,国内阿里云百炼、腾讯云也快速跟进[2] - 协议存在争议,包括与API区别不大、协议设计简单导致安全问题等质疑[3] - 协议发明者Justin Spahr-Summers和David Soria Parra在播客中详细解读MCP的起源、设计理念及未来方向[4] MCP诞生背景 - 灵感来自Anthropic内部项目LSP(Language Server Protocol),旨在解决AI应用与扩展间通信标准化问题[7] - 核心设计原则强调用户控制权,工具由模型调用而非用户直接指定(提示功能除外)[22] - 开发耗时约1.5个月,首次集成在Claude Desktop和IDE中完成概念验证[11] 核心设计理念 - 三大基础概念:工具(Tool)、资源(Resource)、提示(Prompt),分别对应模型调用、数据集成和用户交互场景[21] - 工具调用占比超95%,但资源调用潜力大,可支持文档/数据库等结构化数据接入[18] - 采用JSON-RPC和双向通信设计,借鉴LSP但改进其复杂性,注重领域创新而非传输层[13] 技术实现特点 - 支持Statefulness设计,平衡有状态交互与部署复杂度,采用SSE传输协议实现会话恢复[33] - 构建服务器推荐AI辅助编程,初期可用LLM生成代码片段快速迭代,典型实现仅需100-200行代码[25] - 协议语言无关性显著降低集成门槛,已支持Python/TypeScript/Rust等语言SDK[35] 生态发展现状 - 注册中心出现供应链安全问题,建议通过MCP Inspector监控通信流量替代传统信任机制[35] - 非API封装型服务器涌现,如内存服务器(200行代码实现)、文件系统服务器等特色案例[35] - 开源治理采用多公司协作模式,微软/JetBrains等企业已参与SDK开发并获管理权限[37] 行业应用前景 - 游戏开发领域潜力显著,可实现AI驱动3D建模(Blender集成)、自动化测试等场景[38] - 未来重点提升模型与外部世界交互能力,解决数据获取和Statefulness行动瓶颈[26] - 与OpenAPI互补:MCP适合AI应用间丰富交互,OpenAPI更适合模型直接解析API规范[23]