Workflow
意图驱动
icon
搜索文档
谷歌版两门「小钢炮」开源,2.7亿参数干翻SOTA
36氪· 2025-12-19 14:17
谷歌发布Gemma 3家族新模型 - 公司在“大模型”领域发布Gemini 3 Pro和Flash后,继续在端侧“小模型”发力,于近期发布了两项与端侧相关的新技术 [1] - 新发布的两个模型均属于Gemma 3家族,分别是T5Gemma 2和FunctionGemma,两者均为“小模型”但专攻方向不同 [3] T5Gemma 2:架构创新与性能 - T5Gemma 2是一个底层架构创新,是首个开源的多模态长上下文编码器-解码器模型,其最小规模为270M–270M参数 [1] - 公司开源了T5Gemma 2的三种预训练模型规模:270M–270M、1B–1B以及4B–4B [5] - 该模型采用编码器-解码器架构,与当前主流的仅解码器架构不同,代表了AI技术领域的“另一条路” [4][14] - 在多个基准测试中,T5Gemma 2展现出强大的多模态性能,超越了公司自己的Gemma 3模型 [8] - 在代码、推理和多语言等任务的通用能力上,T5Gemma 2整体上优于对应规模的Gemma 3模型 [9] - 相较于Gemma 3和第一代T5Gemma,T5Gemma 2在生成长上下文内容的质量上有显著提升 [9] - 在预训练阶段的性能可能超过对应体量的Gemma 3模型,而在后训练阶段则取得了显著更优的表现 [11] 编码器-解码器架构的回归与优势 - 在GPT、Llama、Gemini、DeepSeek等仅解码器架构主导的时代,T5Gemma 2是对经典Transformer中编码器-解码器路线的回归与现代化改造 [14][15][16][17][18][19][20] - 编码器-解码器架构采用“先读懂再动笔”的机制,能强迫模型先消化输入再生成输出,这种机制天生更严谨,有助于减少“幻觉”问题 [32] - 该架构在多模态处理方面具有天然优势,编码器可以作为处理图像信号的“眼睛”,比强行塞给仅解码器模型处理更顺畅 [33][34] - 在手机等端侧算力有限的环境中,编码器-解码器架构往往能用更少的参数达到与大型仅解码器模型相当的效果,效率更高 [35] - 公司并未从零训练T5Gemma 2,而是采用“模型适配”技术,利用已训练的Gemma 2或Gemma 3解码器模型作为种子,将其权重映射到新结构中,大幅降低了计算成本 [36] FunctionGemma:功能与场景创新 - FunctionGemma是一个专为函数调用优化的模型,参数规模为2.7亿,可在手机、浏览器及其他设备上运行 [1] - 该模型是对模型“技能”的专项训练,类似于剥离大模型的知识类能力,只保留针对性的函数调用功能 [7] - FunctionGemma旨在解决大模型落地痛点,让模型“不仅要能聊,还要能干活”,能够输出结构化数据去调用外部API或工具 [37][40] - 该模型为AI智能体设计,擅长多步骤推理和执行任务,且极致轻量化,可直接运行在手机等低功耗边缘设备上,作为系统的“控制中枢” [40] - 它是一个专门设计的“神经路由器”,旨在解决云端大模型在延迟、隐私和成本上的固有缺陷 [42] - 模型专注于函数调用这一特定任务的极致优化,通过小型化和专业化,将智能下沉至网络边缘 [44] - 其270M参数规模在当今时代显得微不足道,但证明了在特定领域,小模型通过高质量数据微调可达到甚至超越大模型的表现 [44] - 模型剔除了大量通用世界知识,专注于解析JSON、匹配函数签名和处理参数类型等技能 [45] 端侧部署与移动端战略 - FunctionGemma专为在移动设备上运行而设计,其270M参数在FP16精度下的权重大小约为540MB,仅占现代Android旗舰机总内存的5%-7%,可在后台常驻 [46][48] - 通过Int8量化,模型大小可降至约270MB;通过Int4量化,可降至约135MB,使其能在入门级甚至嵌入式设备上流畅运行 [49][50][51] - 公司发布该“小”模型背后,隐藏着对未来AI计算架构的深刻思考及在移动操作系统控制权争夺中的防御性布局 [52] - 在移动互联网向意图驱动发展的下一阶段,FunctionGemma试图让AI成为通用的用户界面,用户可直接表达意图而非点击图标打开应用 [53][54][55] - 通过让模型直接学习应用的API定义,开发者只需暴露工具,FunctionGemma就能理解并操作这些工具 [56] - 公司通过开源FunctionGemma,意在制定一套AI与应用交互的标准协议,如果所有Android开发者都按其格式定义工具,Android系统将成为强大的智能体平台,加深公司护城河 [57][58] 应用验证与行业影响 - 公司提供了两个参考实现来验证FunctionGemma的能力,展示了其在游戏和系统控制领域的潜力 [59] - 在系统控制场景中,经微调的FunctionGemma在将自然语言指令转换为Android系统意图的任务上,准确率达到85%,远超未微调基座模型的58% [60][61] - 在名为“Tiny Garden”的游戏Demo中,FunctionGemma展示了任务分解能力,可将一句语音指令拆解为一系列函数调用,且整个过程完全离线,无需联网 [62] - 对于开发者,FunctionGemma提供了低成本、高隐私的方案,将智能体能力集成到普通应用中,无需昂贵服务器开销 [64] - 对于手机厂商,270M的参数量是完美的“甜点”,既能利用现有NPU硬件,又不会过度挤占系统资源,为打造“AI原生操作系统”提供了理想基础 [64] - 对于公司自身,这是在AI时代捍卫Android生态控制权的关键一步 [64]
马斯克预言五年后人机交互将转向意图驱动
新浪财经· 2025-11-02 18:06
核心观点 - 马斯克预言五年后不再有手机和App的核心价值在于指明了人机交互从手动到意图驱动的不可逆趋势 [2] 投资趋势 - 投资者无需等待手机被完全颠覆,应关注神经交互、算力调度等进化赛道以把握趋势复利 [2]
WAIC2025前沿聚焦(4):从模型驱动向意图驱动的重大范式跃迁
海通国际证券· 2025-07-28 21:04
报告行业投资评级 未提及 报告的核心观点 - 2025世界人工智能大会指出人工智能正从模型驱动范式向意图驱动范式加速跃迁,意图驱动强调将人类目标、价值体系与AI信息处理深度融合,使系统实现从工具理性向目的理性跨越 [1][2][11][12] - 当前模型驱动范式存在幻觉问题和边际效应递减问题,制约着向意图驱动范式的跃迁,亟需引入因果建模与事实校验机制,在范式层面实现突破 [2][13] - 大模型是从模型驱动迈向意图驱动的关键拐点,意图智能需整合信息处理与目标性及价值调制,打破计算封闭性,实现链式协作 [3][14] - 实现跃迁需突破意图表征、因果推理机制、学习架构创新三大核心技术瓶颈,当前核心挑战是构建通用任务建模能力的智能系统、保持决策稳健性、实现与人类深度协同 [4][15] 根据相关目录分别进行总结 事件 - 2025年7月27日,2025世界人工智能大会明确指出人工智能正从模型驱动范式向意图驱动范式加速跃迁,模型驱动依赖大规模统计相关性和预定义规则,意图驱动强调与人类目标、价值体系深度融合 [1][11] 点评 - 意图驱动智能使系统在缺乏明确指令时也能主动识别目标、分解任务并执行闭环反馈,AI需具备因果推理与自我校验能力,减少幻觉现象,提高决策可靠性 [2][12] - 当前模型驱动范式存在两大困境,一是大模型扩展规模时幻觉问题成关键瓶颈,需引入因果建模与事实校验机制;二是边际效应递减问题凸显,需在范式层面突破 [2][13] - 大模型是关键拐点,意图智能需主动采集与识别意图,通过价值反馈校准输出,整合关键技术,实现链式协作 [3][14] - 实现跃迁需突破三大核心技术瓶颈,面临构建智能系统、保持决策稳健性、实现与人类深度协同三大挑战,突破后意图驱动范式可转化为现实应用 [4][15]