Workflow
Function Calling
icon
搜索文档
谷歌版两门「小钢炮」开源,2.7亿参数干翻SOTA
36氪· 2025-12-19 14:17
谷歌发布Gemma 3家族新模型 - 公司在“大模型”领域发布Gemini 3 Pro和Flash后,继续在端侧“小模型”发力,于近期发布了两项与端侧相关的新技术 [1] - 新发布的两个模型均属于Gemma 3家族,分别是T5Gemma 2和FunctionGemma,两者均为“小模型”但专攻方向不同 [3] T5Gemma 2:架构创新与性能 - T5Gemma 2是一个底层架构创新,是首个开源的多模态长上下文编码器-解码器模型,其最小规模为270M–270M参数 [1] - 公司开源了T5Gemma 2的三种预训练模型规模:270M–270M、1B–1B以及4B–4B [5] - 该模型采用编码器-解码器架构,与当前主流的仅解码器架构不同,代表了AI技术领域的“另一条路” [4][14] - 在多个基准测试中,T5Gemma 2展现出强大的多模态性能,超越了公司自己的Gemma 3模型 [8] - 在代码、推理和多语言等任务的通用能力上,T5Gemma 2整体上优于对应规模的Gemma 3模型 [9] - 相较于Gemma 3和第一代T5Gemma,T5Gemma 2在生成长上下文内容的质量上有显著提升 [9] - 在预训练阶段的性能可能超过对应体量的Gemma 3模型,而在后训练阶段则取得了显著更优的表现 [11] 编码器-解码器架构的回归与优势 - 在GPT、Llama、Gemini、DeepSeek等仅解码器架构主导的时代,T5Gemma 2是对经典Transformer中编码器-解码器路线的回归与现代化改造 [14][15][16][17][18][19][20] - 编码器-解码器架构采用“先读懂再动笔”的机制,能强迫模型先消化输入再生成输出,这种机制天生更严谨,有助于减少“幻觉”问题 [32] - 该架构在多模态处理方面具有天然优势,编码器可以作为处理图像信号的“眼睛”,比强行塞给仅解码器模型处理更顺畅 [33][34] - 在手机等端侧算力有限的环境中,编码器-解码器架构往往能用更少的参数达到与大型仅解码器模型相当的效果,效率更高 [35] - 公司并未从零训练T5Gemma 2,而是采用“模型适配”技术,利用已训练的Gemma 2或Gemma 3解码器模型作为种子,将其权重映射到新结构中,大幅降低了计算成本 [36] FunctionGemma:功能与场景创新 - FunctionGemma是一个专为函数调用优化的模型,参数规模为2.7亿,可在手机、浏览器及其他设备上运行 [1] - 该模型是对模型“技能”的专项训练,类似于剥离大模型的知识类能力,只保留针对性的函数调用功能 [7] - FunctionGemma旨在解决大模型落地痛点,让模型“不仅要能聊,还要能干活”,能够输出结构化数据去调用外部API或工具 [37][40] - 该模型为AI智能体设计,擅长多步骤推理和执行任务,且极致轻量化,可直接运行在手机等低功耗边缘设备上,作为系统的“控制中枢” [40] - 它是一个专门设计的“神经路由器”,旨在解决云端大模型在延迟、隐私和成本上的固有缺陷 [42] - 模型专注于函数调用这一特定任务的极致优化,通过小型化和专业化,将智能下沉至网络边缘 [44] - 其270M参数规模在当今时代显得微不足道,但证明了在特定领域,小模型通过高质量数据微调可达到甚至超越大模型的表现 [44] - 模型剔除了大量通用世界知识,专注于解析JSON、匹配函数签名和处理参数类型等技能 [45] 端侧部署与移动端战略 - FunctionGemma专为在移动设备上运行而设计,其270M参数在FP16精度下的权重大小约为540MB,仅占现代Android旗舰机总内存的5%-7%,可在后台常驻 [46][48] - 通过Int8量化,模型大小可降至约270MB;通过Int4量化,可降至约135MB,使其能在入门级甚至嵌入式设备上流畅运行 [49][50][51] - 公司发布该“小”模型背后,隐藏着对未来AI计算架构的深刻思考及在移动操作系统控制权争夺中的防御性布局 [52] - 在移动互联网向意图驱动发展的下一阶段,FunctionGemma试图让AI成为通用的用户界面,用户可直接表达意图而非点击图标打开应用 [53][54][55] - 通过让模型直接学习应用的API定义,开发者只需暴露工具,FunctionGemma就能理解并操作这些工具 [56] - 公司通过开源FunctionGemma,意在制定一套AI与应用交互的标准协议,如果所有Android开发者都按其格式定义工具,Android系统将成为强大的智能体平台,加深公司护城河 [57][58] 应用验证与行业影响 - 公司提供了两个参考实现来验证FunctionGemma的能力,展示了其在游戏和系统控制领域的潜力 [59] - 在系统控制场景中,经微调的FunctionGemma在将自然语言指令转换为Android系统意图的任务上,准确率达到85%,远超未微调基座模型的58% [60][61] - 在名为“Tiny Garden”的游戏Demo中,FunctionGemma展示了任务分解能力,可将一句语音指令拆解为一系列函数调用,且整个过程完全离线,无需联网 [62] - 对于开发者,FunctionGemma提供了低成本、高隐私的方案,将智能体能力集成到普通应用中,无需昂贵服务器开销 [64] - 对于手机厂商,270M的参数量是完美的“甜点”,既能利用现有NPU硬件,又不会过度挤占系统资源,为打造“AI原生操作系统”提供了理想基础 [64] - 对于公司自身,这是在AI时代捍卫Android生态控制权的关键一步 [64]
AI“新晋顶流”出现了!大厂竞相布局
证券时报· 2025-05-01 19:38
阿里发布Qwen3模型 - 阿里发布并开源新一代通义千问模型Qwen3,性能更高且成本更低 [1] - Qwen3强化对MCP的支持,开发者可基于该模型轻松调用外部数据源与工具,低成本高效开发Agent [1] - 火星电波创始人冯雷已成功利用Qwen3构建应用,调用图片、音频、地图等MCP实现提示词效果 [1] MCP技术协议 - MCP是AI时代的"万能插座",使大模型能轻松调用外部数据源和工具,实现"一键互联" [3] - MCP类似通信的TCP/IP协议,推动AI数字原生出现,为大模型对接外部数据与工具提供可能 [4][5] - 使用MCP后,调用外部工具只需对接MCP服务器,大幅降低开发成本与提升效率 [7][8] 互联网巨头布局MCP - 百度发布国内首个企业级MCP服务,支持开发者全面拥抱MCP [3] - 阿里云百炼上线业界首个全生命周期MCP服务,集成200多款大模型和近百款MCP服务 [9][10] - 腾讯云升级大模型知识引擎支持MCP协议,字节跳动扣子空间内测集成MCP扩展体系 [9][10] - 支付宝推出国内首个"支付MCP Server",为AI智能体提供原生支付能力支持 [11] MCP应用案例与效果 - 开发者利用MCP构建相同功能智能体,代码量从3000多行锐减至不到500行 [12] - 阿里云百炼平台上线一周内MCP服务开通用户数过万,已部署博查搜索等数十个云端MCP服务 [12] - 用户通过百炼平台使用博查MCP和通义千问大模型,几分钟完成高效查询与可视化图表智能体开发 [10] MCP技术演进与竞争 - MCP统一各家大模型差异化Function Calling标准,形成通用协议 [13] - 谷歌云开源Agent2Agent Protocol(A2A),引发"MCP过时"讨论,但两者目的不同 [14] - MCP当前存在统一鉴权、安全防护等问题,但作为开源协议将持续迭代改进 [15]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 17:44
核心观点 - MCP(Model Context Protocol)作为AI领域的统一协议,正在推动AI应用生态的标准化和开放化,有望引发2025年AI应用大爆发 [5][9][10] - MCP通过定义大模型与外部工具交互的标准接口,显著降低AI应用开发门槛,开发者无需再为不同工具编写适配代码 [12][14][20] - 全球科技巨头(OpenAI、谷歌、Meta、阿里、腾讯等)已全面接入MCP协议,推动形成统一生态,全球MCP服务器数量超4000个且快速增长 [8][20][25] - MCP的开放性与抽象性使其成为行业共识,对比OpenAI封闭的GPTs商店策略,MCP更符合开发者需求和技术演进方向 [29][30] MCP协议定义与价值 - MCP全称Model Context Protocol,是由Anthropic于2024年11月推出的开放标准,相当于大模型的"万能插座",统一数据源与工具的交互语言 [12][13] - 核心价值在于标准化:服务方(如高德地图、微信读书)维护MCP服务器,开发者可直接调用,代码复用率提升80%以上 [7][14][20] - 典型应用场景:AI旅游助手开发中,MCP使地图查询、攻略检索等功能调用效率提升3倍,Token消耗减少50% [16][19][20] 行业生态发展现状 - 2025年2月起,Cursor、VSCode等主流开发工具支持MCP协议,3月OpenAI/谷歌相继接入,标志大模型厂商战略转向开放生态 [24][25][26] - 国内阿里云魔搭社区等平台已整合MCP服务,百度李彦宏将当前MCP开发类比"2010年移动APP开发"的黄金期 [5][18] - 现存问题:部分MCP服务器功能不完善(如某度地图仅20个工具)、文档缺失,非官方服务的稳定性与安全性存疑 [21][22] 技术对比与竞争格局 - 相比OpenAI的Function Calling,MCP将工具调用封装为"乐高积木"式模块,开发效率提升60%且兼容任意AI模型 [17][29] - OpenAI封闭式GPTs商店策略失败:商店中70%应用为低质套壳,商业化受阻;MCP开放路线重新赢得开发者 [28][30] - Anthropic通过MCP实现生态逆袭,OpenAI/谷歌等被迫跟进,行业进入"开放协议主导"的新阶段 [27][30] 市场影响与未来预期 - MCP协议推动AI应用从"散点创新"转向规模化爆发,2025年有望出现首个用户破亿的AI超级应用 [8][10] - 协议标准化使AI应用开发周期缩短40%,初创公司Manus等先行者已验证商业可行性 [6][18][20] - 长期博弈点:大厂核心数据开放程度将决定MCP生态上限,目前工具调用深度仍受厂商限制 [21][22]
李彦宏说的「MCP」,还有人不知道吗?
36氪· 2025-04-28 09:26
MCP协议概述 - MCP全称为"Model Context Protocol",是一种允许大模型标准化调用外部工具的开放协议 [6] - 该协议由Anthropic于2024年11月首次推出,2025年2月开始全球范围快速普及 [6][12] - 类比为给大模型安装"万能插座",统一不同工具间的交互标准 [6] 行业应用现状 - 高德地图、微信读书等应用已推出官方MCP服务器供开发者调用 [2] - OpenAI、谷歌、Meta及国内BAT等科技巨头均宣布支持MCP协议 [2] - 全球已有超过4000个MCP服务器上线,数量持续快速增长 [12] 技术价值 - 解决大模型与外部工具交互缺乏统一标准的问题,提升代码复用性 [11] - 开发者无需维护工具性能,只需专注应用开发,工作量减少50%以上 [12][13] - 支持云端/本地多种部署形式,不限制底层模型类型 [19] 生态发展 - Cursor、VSCode等主流开发工具2025年2月起支持MCP协议 [16] - OpenAI于2025年3月27日宣布支持,成为生态转折点 [16] - 对比封闭的GPTs商店,MCP开放特性更受开发者青睐 [18][19] 现存挑战 - 部分MCP服务器工具不足20个,存在功能不完善问题 [15] - 非官方维护的服务器存在安全性和稳定性风险 [12][15] - 大厂商可能保留核心数据接口,未完全开放能力 [15] 行业影响 - 被类比为AI领域的"秦始皇统一标准",可能引发2025年AI应用爆发 [4][5] - 促使大模型厂商从封闭生态转向开放合作战略 [17][21] - 开发门槛降低使AI应用创新从"星星点点"转向规模化发展 [3][5]