Workflow
量子位
icon
搜索文档
只需三步,就能认领一台AI手机!
量子位· 2025-12-12 14:41
核心观点 - 智谱公司开源的AutoGLM项目,是一个能让手机通过自然语言指令自动执行操作(如点外卖、比价)的AI智能助理框架,实现了从“对话”到“行动”的范式转变[12][13] - 通过结合Claude Code与GLM-4.6等工具,用户现可通过简化步骤在本地或云端部署使用AutoGLM,降低了使用门槛[7][8] 产品功能与效果 - AutoGLM能够理解用户自然语言描述的任务意图,“看懂”手机屏幕并自动执行点击、输入、跳转等操作,模拟人类操作手机[13] - 具体应用场景包括:通过一句话指令在美团自动点一杯冰豆花[4][5],以及自动完成“货比三家”等复杂操作[6] 技术部署与使用 - 部署方法使用工具组合Claude Code + GLM-4.6,主要分为三步:安装ADB Keyboard并连接手机、在Claude Code中输入特定提示词、在安装过程中确认弹窗[8][9][11] - 开源后,用户可选择在本地设备上部署以完全掌控数据与流程,或在云端环境中快速体验,即开即用[14] 项目发展历程 - 智谱AutoGLM项目历时共计32个月,有三个关键发展节点[14] - 2024年10月,发布全球首个具备Phone Use能力、能自动操作手机的AI Agent[15] - 2024年11月,完成人类历史上第一个由AI全自动发出的红包,完全打通从理解意图到在真实手机上进行操作的全链路[15] - 2025年8月,发布AutoGLM2.0云机版,将系统置于云端虚拟手机中,以实现对敏感数据的严格隔离[15]
量子位编辑作者招聘
量子位· 2025-12-12 14:41
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的全职岗位招聘,工作地点位于北京中关村[2] - AI产业方向关注基建层创新,包括芯片、AI Infra、云计算[6] - AI财经方向关注AI领域创投和财报,跟踪产业链资本动向[6] - AI产品方向关注AI在应用和硬件终端方向的进展[6] - 社招岗位覆盖编辑、主笔、主编各个层级,按能力匹配[6] - 校招面向应届毕业生,接受实习且可转正[6] 岗位职责与要求 - AI产业方向岗位需跟进芯片、AI Infra、云计算等领域新进展及核心玩家动态[6] - AI产业方向需对前沿论文、开源社区、技术大会报告进行大众化解读[6] - AI产业方向需参与核心采访,对话产业专家并撰写落地案例[7] - AI产业方向任职要求包括对芯片、GPU、服务器、云计算等有基本理解[11] - AI产业方向需熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达[11] - AI财经方向岗位需聚焦创投、AI创业公司、上市公司及产业链资本动向[11] - AI财经方向需产出创投融资、财报解析、公司战略分析等稿件[11] - AI财经方向需访谈投资人、创业者及产业分析人士[11] - AI财经方向任职要求包括对数据敏感,对财报、股权结构感兴趣[11] - AI财经方向需逻辑结构强,对商业叙事敏感,并热爱对话采访[11] - AI产品方向岗位需关注AI在软件应用和硬件终端的落地[11] - AI产品方向需撰写AI应用深度评测,跟踪手机、PC、XR、车机等新品发布[11] - AI产品方向需对话AI应用创业者、产品专家及终端技术专家[11] - AI产品方向任职要求包括对智能硬件和AI终端趋势敏锐,是重度产品体验人士[11] - AI产品方向需熟悉各大终端厂商业态,并具备强逻辑和结构化表达能力[11] - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,能用通俗语言解读AI进展[6] 员工福利与发展 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人会由主编级编辑担任导师,提供一对一指导以加速成长[6] - 公司提供扁平、简单、开放、多劳多得能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
10亿美元OpenAI股权兑换迪士尼版权!米老鼠救Sora来了
量子位· 2025-12-12 14:41
OpenAI与迪士尼战略合作的核心内容 - OpenAI与迪士尼正式达成为期三年的战略合作,迪士尼成为Sora的首个主要内容授权合作伙伴,第一年的授权具有排他性[10][11] - 作为协议的一部分,迪士尼将向OpenAI进行10亿美元的股权投资,并获得未来增持的认股权证[2][21] - 合作范围不仅限于Sora,ChatGPT Images也将获得同等授权,用户可通过简短文字生成相关IP图像[8][14] 授权IP的具体范围与限制 - Sora获得迪士尼旗下超过200个热门IP角色的授权,涵盖迪士尼经典、皮克斯、漫威及星球大战系列角色[6][12][13] - 授权范围包括角色、服装、道具、载具和标志性场景,但不包含任何真人的肖像或声音[12][15] - 部分由粉丝创作的Sora短视频未来可能在Disney+流媒体平台播出[16] 合作对OpenAI产品Sora APP的潜在影响 - Sora APP近期用户留存率数据堪忧,从上线首日(day1)的10%降至第7天(day7)的2%、第30天(day30)的1%以及第60天(day60)的0%[27] - 获得迪士尼IP授权后,Sora APP的创作素材和玩法天花板被大幅打开,有望借助IP自带的用户情感连接与热度改善用户留存与生态活跃度[30][32][33][35] - 该授权功能预计于2026年初正式上线[17] OpenAI寻求版权合规的背景与动机 - OpenAI早期面临多起版权诉讼,例如2023年底《纽约时报》起诉其未经授权使用数百万篇文章训练GPT模型[39] - 随着生成式AI内容创作普及,涉及热门IP侵权的案例增多,最出圈的争议是“斯嘉丽·约翰逊事件”,其声音相似性引发侵权质疑[40][41][42] - 今年10月Sora APP上线后,迪士尼曾致函OpenAI,明确指出未授权其使用迪士尼版权内容,并质疑其“选择退出”版权保护机制的不合理性[46][47] - 此次以股权换取版权授权的合作,被视为OpenAI在经历多次版权纠纷后,为规避法律风险、寻求合规运营的重要举措[38][48] 迪士尼的AI战略与行业影响 - 迪士尼将积极利用OpenAI的API构建新产品、工具和体验,应用范围包括Disney+流媒体平台,并为员工部署ChatGPT用于内部工作流程[22][23][24] - 迪士尼CEO鲍勃·艾格表示,与OpenAI的合作将负责任地通过生成式AI扩展故事触达范围,让粉丝以新方式与角色和故事建立联系[25] - 在OpenAI之后,迪士尼已就版权侵权问题向谷歌发出停止侵权函,指控其利用AI模型大规模侵犯迪士尼版权并进行商业化使用[48][49][50]
谷歌智能体发力:增强版Gemini Deep Research和专属API都来了
量子位· 2025-12-12 14:41
谷歌Gemini生态重大升级 - 谷歌正式发布增强版Gemini Deep Research智能体,该智能体基于Gemini 3 Pro构建,专门用于减少幻觉,在复杂信息检索与分析任务上表现领先 [3] - 该增强版智能体很快将被集成到谷歌搜索、NotebookLM、Google Finance以及升级版的Gemini App中 [3] - 此次更新不仅是Deep Research的升级,更是整个Gemini生态的一次大升级 [8] 增强版Deep Research的核心能力 - 增强版Gemini Deep Research能够实现迭代式推理,不仅能提出查询需求,还能读取和整合搜索结果,发现知识空白,然后针对性地开展新一轮搜索 [10][13] - 通过这种循环式操作,它大幅提升了网络搜索能力,能够深入网站抓取精确信息 [10] - 这种能力让该智能体在复杂研究任务中表现出色,在人类最后的考试HLE、BrowseComp、和DeepSearchQA等测试中刷新了SOTA成绩 [10] 配套发布的DeepSearchQA基准测试 - 谷歌配套推出了DeepSearchQA基准测试集,为深度搜索与研究任务提供了更全面的评估标准 [5] - 该基准测试集包含来自17个领域的900个手工设计的因果链任务,要求生成详尽的答案集合,比传统事实检索测试更能衡量智能体在多步推理与信息融合中的综合能力 [12] - 在DeepSearchQA基准测试中,Gemini Deep Research Agent的“完全正确”率为66.1%,领先于GPT-5 Pro的65.2%和GPT-5的59.4% [14] 全新发布的Interactions API - 谷歌同时发布了Interactions API,为开发者提供了与Gemini 3 Pro和Deep Research智能体交互的统一接口 [6] - 该API设计了原生接口,提供一个统一的RESTful端点,通过指定模型或智能体参数,就能与模型和智能体进行复杂上下文的交互 [16] - 该API特别适合需要多步骤推理、工具调用以及长程任务执行的场景,扩展了generate Content的核心能力,具备服务器端状态可选、可解释且可组合的数据模型等特性 [17][18]
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
量子位· 2025-12-12 13:30
文章核心观点 - AI时代的核心在于连接更强,智能体作为超级连接器,将人、数据、知识与智能编织进企业全流程,形成新的数字人力体系 [1][2][9][10] - 企业智能化是一个由场景选择、数据与知识治理、模型构建三要素持续迭代驱动的长期工程,而非一次性项目 [3][14][16][17] - 企业级智能体规模化落地的关键在于重构底座平台能力,即大模型平台、AI能力平台和AI数据平台三大核心 [5][6][17][19][20] - 在三大平台之上构建“智能体集市”,实现数百甚至上千个数字员工的协同工作,成为企业组织的新单元 [7][28] - 企业级智能体应用与ToC场景的核心差异在于对规模化、成本效率和精度的极致要求 [17][32][49] 行业趋势与本质判断 - 从互联网到AI时代是连接的进化,智能体实现了人与数据、知识、智能的更高效连接 [1][9][10][11] - 智能体为企业新增了一类“数字人力”,能连接内部资源,提升员工协同效率,并在外部助力客户连接,创造营销、客服、销售等价值 [12] - 企业智能化是一个持续变化、不断演进的过程,不同于过去固定不变的信息化、数字化项目 [16] 企业智能体落地的关键框架 - **三大核心平台**:企业用好智能体的关键在于三个平台 [17] - **大模型平台**:作为认知中枢,连接算力,兼容各类开源模型,覆盖从数据标注到上线运营的全流程,并提供智能体构建工具与模板 [6][17][19] - **AI能力平台**:作为感知系统,提供OCR、ASR、TTS等能力,需针对企业严肃场景进行极致调优,例如关键信息的ASR识别准确率需达到99%以上 [6][17][20][21][23] - **AI数据平台**:作为企业的记忆与经验沉淀系统,将感知、认知、记忆统一是实现有效落地的关键 [6][17][25][26] - **持续迭代的三要素**:企业智能体落地需在场景选择与评估、企业内部数据与知识整理、模型训练与构建三个环节循环迭代 [14][17] - **智能体集市与人机协作**:在三大平台之上构建“智能体集市”,支持数百至上千个智能体在一个人机协作平台上协同工作,形成赋能、协同、自主完成与监督等多样化人机关系 [7][28] 典型应用场景与案例 - **营销服场景**:是目前最典型、落地效果最好的场景,核心基础是全媒体、全渠道的联络中心 [35] - 应用包括线索抓取、识别与打标、外呼、客服、陪练、质检等多个销售智能环节,智能体可高效捕获线上潜在客户线索并开展互动 [35] - 没有智能体,企业很难与数亿用户进行充分沟通互动并取得良好效果 [36] - **办公与运营提效场景**:做好问答、写作、审核、问数四件事可覆盖80%-90%的价值,底层支撑是完整的智能知识库 [37] - 企业对容错率、准确性、专业性要求极高,简单搭建的系统行不通 [38] - 案例:协助中国电建财务公司梳理了数百个专业指标,精准解决办公运营需求 [38] - **垂直行业应用**: - **金融领域**:已服务超200家银行、500余家各类金融机构,在风控、消保、信贷等场景积累了大量智能体解决方案 [41] - **工业领域**:大语言模型及未来的多模态模型将推动工业智能化从局部向全局演进 [45] - 案例:与中控技术、中南大学等单位合作,为南方有色金属打造了有色金属行业垂直大模型,构建了行业与企业知识库,并应用于能耗节约、设备预测性维护、冶炼工艺优化等核心场景 [45][46] 公司定位与市场布局 - 公司定位为全球领先的企业级大模型技术与应用服务商,专注于将大模型与智能体技术应用于企业场景,助力企业实现增收、降本、提效、合规等目标 [10][47] - 公司服务了2000+各行业头部企业,沉淀了大量经过场景验证的“样板间”和智能体资产 [33] - 除了国内市场,公司正积极拓展海外市场,在中国香港、新加坡、马来西亚、泰国、印尼等地区和国家布局,服务海外直客并助力中企出海 [47][48]
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026
量子位· 2025-12-12 11:00
文章核心观点 - 扩散语言模型作为一种非自回归的生成模型架构,在理论上有望实现比主流自回归模型更快的生成速度和更低的计算成本,并具备独特的可编辑生成能力,是当前大语言模型领域一个重要的非共识技术方向[2][8][20] - 浙江大学、蚂蚁集团等机构的研究团队已将扩散语言模型扩展至千亿参数规模,并开源了LLaDA 2.0模型及配套训练框架,标志着该技术路径取得了关键里程碑[4][44] - 扩散语言模型在训练和推理层面仍处于早期发展阶段,但其独特的Scaling Law、对数据的强吸收能力以及在代码生成等任务上的潜在优势,吸引了谷歌、字节等巨头及初创公司布局,未来发展值得关注[5][15][41][56] 扩散语言模型的技术原理与特点 - **核心机制差异**:自回归模型通过“接龙”方式逐个预测下一个词,而扩散语言模型采用“完形填空”机制,通过遮盖并恢复部分词来生成内容[12][13] - **训练特性**:扩散语言模型相比自回归模型更为“data-hungry”,在计算受限情况下对数据需求更大、吸收数据更快[15][21];与图像扩散模型类似,扩散语言模型在训练上具有持续性,可以在同一数据集上持续训练并提升效果,而自回归模型训练多个epoch后效果常趋于稳定[24][25][26] - **推理优势**:扩散架构在推理过程中可以直接修改和控制token,无需像自回归模型那样重新生成整段内容,这为实现可编辑和可控生成提供了可能[2][28] LLaDA系列模型的研发进展与开源贡献 - **发展历程**:中国人民大学团队率先开源了80亿参数的扩散语言模型LLaDA 1.0,其效果可对标LLaMA-3-8B,并在Hugging Face上获得超过20万次下载[35][36][37];随后蚂蚁技术研究院联合多所高校接手,致力于推动该领域发展[38] - **架构演进**:团队发布了全球首个原生训练的MoE架构扩散语言模型LLaDA-MoE,总参数70亿,激活参数10亿[40];近期发布的LLaDA 2.0,率先将扩散语言模型扩展至千亿参数体量[4][44] - **开源框架**:团队开源了首个面向扩散语言模型的训练框架,支持监督微调和直接偏好优化,并配套了推理框架,方便社区使用[31][32] 扩散语言模型的性能表现与潜在应用 - **性能表现**:在相同的计算量和性能目标下,扩散语言模型所需的参数规模可以比自回归模型更小[15][23];在全局注意力机制支持下,扩散模型在效果上相比自回归模型具备一定优势[47] - **任务优势**:扩散语言模型在“调用”和“写代码”这两个任务上比自回归模型有明显优势,得益于并行解码能力,能同时生成多个token[49] - **生成特点**:扩散模型在文学创作等任务中展现出独特的“非共识”解码轨迹,例如先确定开头结尾框架,再反复修改润色中间内容,这种生成过程在主流自回归模型中难以见到[49][50] 行业生态与未来展望 - **行业布局**:扩散语言模型领域发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局[5][41] - **发展挑战**:扩散语言模型的训练与推理仍处于早期发展阶段[5];其Scaling Law与自回归模型存在差异,已验证可扩展到千亿规模,但继续向上扩展会面临新的挑战[15][56] - **未来方向**:团队发布了试验性推理引擎dInfer,旨在通过新架构与范式提升关键场景的吞吐量,目标实现五倍乃至更高的速度提升[53][54];团队计划在未来一两个月通过ZenMux平台放出部分API,以促进社区生态成长[51]
港中文联手美团开源“视觉推理通才”!图像视频10类任务一网打尽
量子位· 2025-12-12 09:00
文章核心观点 - 香港中文大学MMLab与美团研究团队开源了一个名为OneThinker的统一多模态视觉推理通才模型[1] - 该模型旨在解决传统强化学习模型在视觉任务中模态与任务割裂、难以泛化的问题[4][6][7] - OneThinker通过构建统一的数据体系和创新的训练方法,实现了在图像与视频两种模态下十类核心视觉任务上的统一理解和推理[8][10] - 在31项主流视觉任务基准测试中,OneThinker表现亮眼,初步展现了通才模型的泛化能力[2][20] 模型架构与设计理念 - 研究团队提出了从“专才模型”到“通才系统”的转变,以应对现实世界中复杂多样的视觉数据(静态图像与动态视频)和高度多样化的任务类型(如问答、定位、分割、追踪)[5] - 传统“单任务、单模态”的强化学习思考模型架构存在两大根本问题:无法统一建模现实复杂场景,以及知识隔离导致迁移受限[6][7] - OneThinker被设计为具备统一理解和推理不同模态、任务能力的“通才思考模型”[8] 数据构建与训练方法 - 研究团队从构建统一的数据体系和优化多任务训练方法两方面入手,以赋予OneThinker统一推理能力[10] - 为解决数据覆盖不足和任务割裂问题,团队构建了两套数据集:用于强化学习主力训练的OneThinker-600k(覆盖图像与视频两种模态及十类核心视觉任务),以及用于SFT阶段冷启动的OneThinker-SFT-340k[14] - 通过图像与视频任务的联合训练,模型能够在空间与时间维度上建立统一的推理能力,实现跨模态、多任务的通用理解[15] - 针对多任务、多模态场景中传统强化学习方法的训练不平衡问题,OneThinker引入了全新的EMA-GRPO强化训练算法[18] - EMA-GRPO通过对各任务奖励标准差进行滑动平均归一,解决了任务内样本权重不均和任务间梯度贡献失衡两个层面的不平衡问题,显著提升了训练稳定性与收敛速度[19][21] 实验结果与性能表现 - 研究团队在图像与视频两个模态下的31个主流基准上进行了系统测试,覆盖10类核心视觉任务[20] - 在图像问答任务中,OneThinker在MMMU基准上达到70.6%,在MathVerse基准上达到64.3%[22] - 在视频理解任务中,OneThinker在VideoMMMU基准上取得66.2%的表现[22] - 在视频问答(Video QA)的多个基准测试中,OneThinker-8B模型表现优异,例如在VideoMME上达到48.7%,在Long VideoBench上达到61.7%,在VideoMathQA上达到35.0%[22] - 在追踪任务GOT-10k上,OneThinker的AO指标达到73.0%,R@0.3达到93.9%,R@0.5达到84.4%,R@0.7达到68.8%[23] - 在视频分割任务ReasonVOS上,OneThinker的J&F得分为54.9[25] - 消融实验表明,不同任务和模态之间存在知识迁移与共享,任务之间相互促进,例如完整的OneThinker模型在图像问答、视频问答、追踪和分割任务上的表现均优于去除某些组件的变体模型[27] - OneThinker在未见任务上展现出零样本能力,能直接适应如点追踪、图像质量评估、GUI理解和旋转目标检测等任务,体现了强大的任务泛化能力[28]
GPT-5.2果然反超谷歌Gemini 3 Pro!北大数院校友核心贡献
量子位· 2025-12-12 09:00
GPT-5.2系列产品发布与核心定位 - OpenAI在成立十周年之际快速迭代发布GPT-5.2系列,距GPT-5.1发布仅30天,显示出公司加速产品迭代的紧迫感 [1][16] - 新版本的核心升级方向是专门强化“打工能力”,即提升在各类实际工作场景中的生产力 [1] 多模态与复杂任务处理能力 - 视觉理解能力大幅提升,能更准确地标记主板上的元件 [4] - 长文档处理能力是升级重点,在256k上下文长度的4针版MRCRv2评测中达到接近100%准确率 [30] - 能够处理超越最大上下文窗口的复杂任务,兼容简洁回复模式以支持工具密集型、长时间运行的工作流 [33] - 在需要调用Python工具的高分辨率图形界面截图推理测试中得分达到86.3%,禁用工具则得分显著降低 [37][39] 专业与高经济价值任务表现 - 在GDPval测试中,涵盖美国GDP前九大产业的44个职业领域,能完成人类需4-8小时的任务 [18] - 在人类评委打分下,GPT-5.2 Thinking相比人类专家有71%的胜率,GPT-5.2 Pro胜率更高,且速度是人类的11倍以上,成本不到人类的1% [19][20] - 在投行分析师的电子表格建模任务上,GPT-5.2 Thinking平均得分相比GPT-5.1提升9.3%,从59.1%上升到68.4%,任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等 [21] - 评委评价其输出质量有“令人兴奋且显著的飞跃”,成果看起来像由专业公司员工完成 [23] 代码与软件开发能力 - 代码能力刷新纪录,在SWE-bench Verified上得分达到80% [25] - 在更难的SWE-Bench Pro评测上,GPT-5.2 Thinking拿下55.6%的新高,该评测涵盖Python、JavaScript、TypeScript和Go,贴近真实工业场景 [26][27] - 在前端开发和涉及3D元素的复杂UI工作方面表现明显更强 [28] 工具调用与端到端工作流 - 工具调用能力达到新高度,在Tau2-bench Telecom多轮交互电话客服场景评测上取得98.7%的成绩,在零售场景也达到82% [40][41] - 这意味着更强大的端到端工作流程能力,例如解决客户支持案例、从多系统提取数据、运行分析并生成最终输出,且步骤间故障更少 [43] 科学推理与研究辅助能力 - 公司相信GPT-5.2 Pro和GPT-5.2 Thinking是当前世界上最适合辅助科学家的模型 [44] - 在研究生水平的GPQA Diamond问答评测上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking达到92.4% [45] - 在专家级数学评测FrontierMath上,GPT-5.2 Thinking以40.3%的解题率创下新纪录 [47] - 研究人员使用GPT-5.2 Pro探索统计学习理论中的开放问题,模型提出的证明被作者验证并通过了同行评审 [49] 效率、成本与事实准确性 - 在ARC-AGI测试中,GPT-5.2 Pro取得90.5%的最新SOTA得分,平均任务成本仅为11.64美元,相比一年前成本为4500美元的模型,效率在一年内提高了约390倍 [12][13] - 事实准确性方面,GPT-5.2 Thinking的幻觉问题相比GPT-5.1从8.8%减少到6.2% [52] - 公司提示模型仍不完美,关键内容需要人工复核 [53] 市场竞争与团队 - GPT-5.2在ARC-AGI测试中得分超过了谷歌Gemini 3 Pro的对应版本 [14] - GPT-5.2的核心团队成员多为2024年后加入的新面孔,且多具有数学专业背景,例如来自斯坦福、伯克利、中科大、北大的数学与统计学博士 [57][58][59][61][62] - 公司近期研究进展文章统一署名OpenAI,不再附上详细贡献者列表 [55] 产品使用与商业化 - 在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或Enterprise套餐,并选择GPT-5.2 Thinking或Pro版本 [24] - 生成复杂内容可能需要几分钟时间 [24]
高通万卫星:混合AI与分布式协同是未来 | MEET2026
量子位· 2025-12-11 19:37
AI应用演进的四个阶段 - 行业将AI应用演进梳理为四个阶段:感知AI、生成式AI、智能体AI和物理AI [3][9] - 感知AI是第一阶段,包括传统的自然语言处理、语音降噪、图片识别和分割等技术,多年前已在终端侧商业化落地 [13] - 生成式AI是第二阶段,随ChatGPT兴起,基于大量数据预训练并在人类监督下完成具体任务,如文生图、聊天机器人、翻译等 [14] - 智能体AI是第三阶段,能在几乎没有人类监督的情况下进行自主行动、预测、意图理解与任务编排,产业正呈现从生成式AI向智能体AI演进的路线 [18][19] - 物理AI是第四阶段,AI能理解真实物理世界并根据物理定律做出反馈,目前尚处于研究和探索初期 [20][21][22] 终端侧AI的现状与趋势 - 终端侧AI模型尺寸正不断增大:手机可支持近100亿参数,PC支持约200亿参数,车载场景可部署200亿至600亿参数模型 [23] - 终端侧模型质量持续提升,今年初已将支持思维链和推理能力的模型完全部署在端侧 [25] - 端侧模型支持的上下文长度显著增长:从两年前的1K至2K,到去年的4K,再到今年已能支持8K至16K典型用例部署,特殊场景下已实现128K上下文窗口的端侧部署 [26][27] - 终端侧AI正从单一文字模态,向支持文本、图片、视频、音频、语音等多模态甚至全模态演进 [28] 端侧AI的优势与核心挑战 - 在端侧运行大模型的最大优势之一是个性化,能在离数据产生最近的地方做推理,有利于保护用户隐私和安全,且完全免费、无需网络连接 [31][32] - 端侧运行大模型面临三大核心挑战:内存限制约束了模型能力上限;带宽限制影响AI推理速度和用户体验;在手机等高集成度设备上对能效控制提出极致要求,功耗过高易触发温控机制 [34][35] 高通公司的端侧AI技术破局之道 - 通过量化和压缩技术应对内存限制:从8 bit、4 bit到今年实现2 bit量化压缩,使端侧支持的模型尺寸越来越大,占用内存越来越小 [37] - 采用并行解码技术应对带宽限制:先在端侧运行较小的草稿模型一次性推理出多个token,再由原始大模型校验,以提高大语言模型的token生成速率,改善用户体验 [37][40][42] - 通过先进的NPU(包括eNPU架构)和领先的异构计算系统,推动端侧AI从被动式服务向主动式、个性化服务迈进 [37] 智能体AI的构成与用例 - 智能体AI是更复合、更复杂、更主动式的AI服务,其实现需要多个基础模块:一个具有推理能力的大模型以理解用户意图;以及调用本地或云端API执行任务的能力 [45][46][47] - 智能体AI用例示例:用户通过自然语言交互,智能体理解“发布微博”意图后,可自动打开微博APP、搜索照片、根据用户偏好加滤镜并完成发布,整个过程可全部运行在端侧 [50][52] 未来AI体验:分布式协同与混合AI - 未来将实现跨设备的分布式个性化大模型推理:算力较小的设备(如智能眼镜、手表)可通过Wi-Fi或蓝牙与算力较大的设备(如手机、PC、汽车)连接,共享本地数据并将大模型推理任务转移 [54] - AI体验将向混合AI方向发展:在终端侧运行垂类、高效的模型,提供更安全、个性化的服务;在云端运行更大尺寸的模型,提供能力更强、更通用的服务 [55][57] - 公司将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同 [58]
张亚勤院士:基础大模型最终不超过10个,十年后机器人比人多 | MEET2026
量子位· 2025-12-11 17:00
文章核心观点 新一轮人工智能是信息智能、物理智能和生物智能的融合,在规模定律驱动下,智能从模式识别“涌现”为生成式与推理式AI,并正快速演化为智能体范式[2][3][12] 以ChatGPT和DeepSeek为里程碑,AI发展正从预训练时代迈向以推理为核心的“DeepSeek时刻”,并在高效率、低成本和开源生态中加速落地[4][11][12][14] 未来5-10年,产业将进入“智能体互联网”时代,智能体将取代大部分SaaS和App,成为人机交互的默认形态,这也是通往通用人工智能(AGI)的必经之路[6][12][38][40] AI发展范式演进 - **新一轮AI的本质是三大智能融合**:即信息智能、物理智能和生物智能的融合,本质上是原子、分子和比特的融合[2][8][12] - **智能涌现的关键驱动**:在规模定律(Scaling Law)持续作用下,当参数规模、数据体量与算力跨过阈值,智能从鉴别式AI“涌现”为生成式AI,再走向以智能体为代表的新范式[3][10][11] - **两大里程碑事件**:ChatGPT通过统一表征与token化,将文本、语音、图像乃至蛋白质、点云等数据纳入同一空间,实现了从鉴别式AI到生成式AI的跨越[4][10] DeepSeek则以高效率、高性能、低价格和开源路径,将大模型从“预训练时代”推向以推理为核心的“DeepSeek时刻”[4][11][14] AI发展的五大趋势 - **趋势一:生成式AI正快速演化为智能体**:智能体是近两年AI领域最重要的创新,其任务长度在过去七个月增长了两倍,准确度已大于50%,与人类对齐[15][17][18] - **趋势二:规模定律重心转移**:规模定律在预训练阶段已放缓,更多智能发展转移至后训练、推理和智能体阶段[19] 推理的单位成本在过去一年下降了10倍,而智能体本身的算力要求一年增长了10倍,两者成本效应相互平衡[19] - **趋势三:从信息智能走向物理与生物智能**:大语言模型正走向视觉语言动作模型(VLA)[20] 无人驾驶在2024年已到达“ChatGPT时刻”,预计到2030年(DeepSeek时刻),约10%的新车将拥有L4级无人驾驶能力[20] 机器人是未来最大赛道之一,预计未来10年左右,机器人的数量将超过人类数量[21] - **趋势四:AI风险同步放大**:随着智能体的出现,AI相关的风险至少翻倍[22] - **趋势五:开源成为主流生态**:开源将成为更大、更主要的平台和生态,预计约80%的模型为开源,20%为闭源[23] 未来产业格局:智能体互联网 - **基础大模型如操作系统般收敛**:基础大模型相当于AI时代的操作系统,全球范围内最终将收敛到不超过10个,主要由中美两国引领[6][12][23][35] - **智能体取代传统软件形态**:智能体会取代今天的大部分SaaS和手机App,成为企业和个人与世界交互的默认形态[6][30] 未来的企业架构将包含GPU、大模型、数据以及由人和智能体共同构成的人力资源[25] - **形成新的产业架构与经济形态**:产业将重构为“基础模型+垂直/边缘模型+智能体网络”的新格局[12][23] 智能体不仅在形成网络,也在形成新的经济形态[25] 整个产业规模将比PC时代、移动时代大一个、两个甚至三个数量级[37] - **是通往AGI的必经之路**:智能体互联网是未来5-10年最大的发展方向,也是实现通用人工智能(AGI)的必经之路,需要新的算法体系如记忆体系、世界模型等[12][38][40] 预计未来五年,现有的自回归架构、Transformer、Diffusion等技术可能被颠覆[41] 技术应用与展望 - **医疗智能体案例**:清华大学已开发出全球首个医疗智能体无人医院,利用多智能体网络模拟三甲医院,能在两天内完成相当于医院两到三年的病例处理,且准确度更高[31][33] 智能体主要作为医生的助理,未来每位医生都可能拥有自己的智能体[34] - **AGI实现时间表**:预计需要15-20年时间,依次完成从信息智能到物理智能,再到生物智能的跨越[12][42]