Agentic UI
搜索文档
腾讯研究院AI速递 20260212
腾讯研究院· 2026-02-12 00:08
文章核心观点 文章汇总了生成式AI领域近期的多项重要技术发布、融资事件与公司动态,揭示了行业正朝着AI智能体(Agent)深度集成、多模态能力突破、开源模型性能追赶以及应用场景深化等方向快速发展 [1][2][4][7][8][9][10] 技术标准与协议演进 - 谷歌Chrome团队联合微软发布WebMCP协议,使AI智能体可通过`navigator.modelContext` API直接与网站内核交互,实现从“视觉模拟”到“逻辑直连”的跃迁,被视为“UI里的API”,可能推动互联网分化为人类UI层和Agent工具层 [1] 公司融资与战略发展 - 视频生成公司Runway完成3.15亿美元E轮融资,估值达53亿美元,累计融资8.15亿美元,投资方包括英伟达、AMD、Adobe等,资金将用于训练下一代世界模型 [2] - Runway已推出通用世界模型GWM-1,涵盖可探索环境、对话角色和机器人操作三个变体,其Gen-4.5模型在AI文生视频排行榜中位列第三 [2] - 马斯克旗下xAI联合创始人团队动荡,12人创始团队中已有6人离职,其中5人在过去一年内离开,包括近期48小时内相继离职的Jimmy Ba和吴宇怀,人才流失对公司即将推进的IPO构成挑战 [3] 大模型能力更新与竞争 - DeepSeek悄悄上线支持1M token超长上下文窗口的新模型,知识截止到2025年5月,可一次性处理《三体》三部曲体量的内容,其Agentic Coding能力有所提升 [4] - 智谱AI确认其新模型GLM-5即为OpenRouter热度榜首的“Pony Alpha”,该模型在编程与智能体能力上达到开源SOTA,真实编程体感逼近Claude Opus4.5,工具调用准确率极高 [5] - 社区实测显示,开发者使用GLM-5配合Claude Code运行项目约2小时生成170KB纯JavaScript代码 [6] - 科大讯飞发布基于全国产算力训练的星火X2大模型,采用293B MoE稀疏架构,推理性能比X1.5提升50%,在数学、推理、智能体等能力上对标国际顶尖水平 [8] 多模态与音频模型突破 - 蚂蚁集团开源全模态大模型Ming-flash-omni 2.0,业界首创在同一音轨中同时生成语音、环境音效与音乐,在多项能力上超越Gemini 2.5 Pro和Qwen3-Omni-30B-A3B-Instruct [7] - 该模型支持零样本语音克隆和精细属性控制,采用统一架构实现多模态深度融合 [7] 行业应用与智能体进展 - 美团龙猫LongCat发布“深度研究”智能体功能,在BrowseComp评测中达73.1分逼近顶级闭源模型,支持最多400轮交互与256K上下文,可自动化输出餐厅推荐、旅行规划等专业报告 [9] - 该智能体依托美团本地生活原生能力构建训练环境,通过Rubrics-as-Reward机制解决AI幻觉问题,并采用多智能体专业化分工 [9] - 讯飞星火X2在行业应用上全面升级,医疗能力率先通过权威评测,教育实现错因贯穿个性化学习,汽车座舱模糊意图交互从不可用提升至基本好用 [8] 前沿科技与开源模型 - 字节跳动Seed团队发布蛋白质结构预测开源模型Protenix-v1,在严格限制训练数据和模型规模条件下性能对标AlphaFold 3 [10] - 该模型成功解锁推理时Scaling能力,抗体-抗原复合物预测成功率从单seed的36%提升至80 seeds时的47.68% [10] - 团队采用双版本策略,并推出PXMeter评估工具集 [10]