Workflow
Agentic推理
icon
搜索文档
腾讯研究院AI速递 20260212
腾讯研究院· 2026-02-12 00:08
文章核心观点 文章汇总了生成式AI领域近期的多项重要技术发布、融资事件与公司动态,揭示了行业正朝着AI智能体(Agent)深度集成、多模态能力突破、开源模型性能追赶以及应用场景深化等方向快速发展 [1][2][4][7][8][9][10] 技术标准与协议演进 - 谷歌Chrome团队联合微软发布WebMCP协议,使AI智能体可通过`navigator.modelContext` API直接与网站内核交互,实现从“视觉模拟”到“逻辑直连”的跃迁,被视为“UI里的API”,可能推动互联网分化为人类UI层和Agent工具层 [1] 公司融资与战略发展 - 视频生成公司Runway完成3.15亿美元E轮融资,估值达53亿美元,累计融资8.15亿美元,投资方包括英伟达、AMD、Adobe等,资金将用于训练下一代世界模型 [2] - Runway已推出通用世界模型GWM-1,涵盖可探索环境、对话角色和机器人操作三个变体,其Gen-4.5模型在AI文生视频排行榜中位列第三 [2] - 马斯克旗下xAI联合创始人团队动荡,12人创始团队中已有6人离职,其中5人在过去一年内离开,包括近期48小时内相继离职的Jimmy Ba和吴宇怀,人才流失对公司即将推进的IPO构成挑战 [3] 大模型能力更新与竞争 - DeepSeek悄悄上线支持1M token超长上下文窗口的新模型,知识截止到2025年5月,可一次性处理《三体》三部曲体量的内容,其Agentic Coding能力有所提升 [4] - 智谱AI确认其新模型GLM-5即为OpenRouter热度榜首的“Pony Alpha”,该模型在编程与智能体能力上达到开源SOTA,真实编程体感逼近Claude Opus4.5,工具调用准确率极高 [5] - 社区实测显示,开发者使用GLM-5配合Claude Code运行项目约2小时生成170KB纯JavaScript代码 [6] - 科大讯飞发布基于全国产算力训练的星火X2大模型,采用293B MoE稀疏架构,推理性能比X1.5提升50%,在数学、推理、智能体等能力上对标国际顶尖水平 [8] 多模态与音频模型突破 - 蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,业界首创在同一音轨中同时生成语音、环境音效与音乐,在多项能力上超越Gemini 2.5 Pro和Qwen3-Omni-30B-A3B-Instruct [7] - 该模型支持零样本语音克隆和精细属性控制,采用统一架构实现多模态深度融合 [7] 行业应用与智能体进展 - 美团龙猫LongCat发布“深度研究”智能体功能,在BrowseComp评测中达73.1分逼近顶级闭源模型,支持最多400轮交互与256K上下文,可自动化输出餐厅推荐、旅行规划等专业报告 [9] - 该智能体依托美团本地生活原生能力构建训练环境,通过Rubrics-as-Reward机制解决AI幻觉问题,并采用多智能体专业化分工 [9] - 讯飞星火X2在行业应用上全面升级,医疗能力率先通过权威评测,教育实现错因贯穿个性化学习,汽车座舱模糊意图交互从不可用提升至基本好用 [8] 前沿科技与开源模型 - 字节跳动Seed团队发布蛋白质结构预测开源模型Protenix-v1,在严格限制训练数据和模型规模条件下性能对标AlphaFold 3 [10] - 该模型成功解锁推理时Scaling能力,抗体-抗原复合物预测成功率从单seed的36%提升至80 seeds时的47.68% [10] - 团队采用双版本策略,并推出PXMeter评估工具集 [10]
爆火的「Agentic推理」是什么?怎么用?未来机会在哪里?一文读懂
36氪· 2026-01-27 18:56
Agentic推理的定义与核心范式转变 - 将推理视为智能体的核心机制,涵盖基础能力(规划、工具使用与搜索)、自进化适应(反馈和记忆驱动的适应)和集体协同(多智能体协作)[5] - 与传统LLM的静态、一次性问答模式不同,Agentic推理强调模型与环境的持续交互,使LLM进化为能在真实世界中自主感知、规划、行动并学习的智能体[5][6] - 本质区别在于智能体获得了在时间维度上与环境持续对话的能力,能处理不确定性、从反馈中学习并与其他智能体协作,以完成开放、动态场景中的复杂任务[6] Agentic推理的三个能力层级 - **第一层:基础Agentic推理**:智能体在相对稳定环境中通过任务分解(规划)、调用外部工具和主动搜索来实现目标,并能够验证结果、调整步骤,例如编写代码并运行调试[8] - **第二层:自进化Agentic推理**:智能体通过反馈整合与记忆驱动适应机制,从经验中学习以应对变化的环境,利用基于反思的框架或强化学习方法动态整合推理与学习过程,实现持续适应和跨任务泛化[9] - **第三层:集体多智能体推理**:多个智能体通过角色分配、通信协议和共享内存系统协同工作,通过多轮交互实现辩论、化解分歧并达成共识,以提升推理多样性和解决问题的能力[10] Agentic推理的两种系统优化模式 - **上下文推理**:不动模型参数,侧重于推理时的计算扩展,通过结构化编排、基于搜索的规划以及自适应工作流设计,将推理过程从静态的“一次性预测”转变为动态的“想”和“做”循环[11] - **后训练推理**:旨在修改模型权重,侧重于能力的内化,利用强化学习和监督微调,将成功的推理模式固化为模型的“本能”,使模型能更直接高效地调动内部知识[11] Agentic推理的实际应用场景 - **数学探索与代码生成**:通过集成编程环境,实现“思维-代码-执行”循环,将复杂逻辑推理转化为可验证的程序输出,在代码领域演化为由智能体处理繁琐语法的“Vibe Coding”[14] - **科学发现**:在材料科学、生物学和化学等领域,智能体能够自主设计实验、运行模拟并分析海量数据,实现“自主研究”和跨学科知识整合[15] - **具身智能体**:将自然语言指令转化为机器人的物理动作,结合视觉感知与运动规划,在动态环境中实现目标导航、物体操作,形成闭环的感知-决策-反馈机制[16] - **医疗健康**:辅助诊断、药物发现和个性化治疗方案制定,通过整合患者多模态数据提供基于证据的推理路径,多智能体系统可模拟医生会诊以提高诊断准确性和方案鲁棒性[17] - **自主网络探索与研究**:智能体具备自主浏览网页、提取信息、评估信息可信度的能力,应用于市场调研、竞品分析及自动生成深度行业研究报告[18] Agentic推理面临的未来挑战 - **个性化**:需让智能体通过推理快速捕捉并适应用户的独特偏好、工作流风格和反馈习惯,实现“千人千面”的个性化服务,而非仅优化平均性能[20] - **长周期交互**:需解决在跨越数天甚至数月任务中维持专注、保证记忆连贯性、处理中断与变化的难题,克服现有上下文窗口限制和记忆管理机制的不足[21] - **世界建模**:智能体需构建内部“世界模型”以准确认知环境物理规律、因果关系和动态变化,从而在未知环境中做出更好决策并通过模拟推演预判行动后果[22] - **多智能体训练**:训练成百上千个智能体协同工作面临可扩展性、信用分配和通信效率等挑战,需设计高效训练框架以涌现群体智能,避免混乱或低效循环[23] - **治理框架**:当智能体被赋予执行行动权限时,安全风险指数级上升,需构建有效治理框架确保行为符合人类价值观、防止滥用,并能及时干预和追责[24]