Workflow
量子位
icon
搜索文档
中国团队首次在Nature子刊发布医疗AI标准,未来医生MedGPT摘得全球桂冠
量子位· 2026-01-21 12:09
行业标准与评估框架 - 中国团队在《npj Digital Medicine》(JCR影响因子15.1,中科院医学大类1区Top期刊)上首次发表了用于评估医疗大模型真实临床能力的系统性框架研究[1] - 该框架名为CSEDB(临床安全性与有效性双轨基准),首次基于临床专家共识,将安全性与有效性分开考量,为评估医疗AI真实临床能力建立了标准化基准[4] - CSEDB的评估逻辑核心并非模型“知道多少”,而是关注模型“如果这样判断,会发生什么”,即以医疗后果为中心[21] - 该框架在指标设计中引入了风险权重机制,根据潜在临床风险赋予1到5级权重,涉及误诊、禁忌用药等高风险的指标对总评分影响显著[16][17] - 为支撑评估,专家团队构建了覆盖26个临床专科、包含2069个开放式问答条目的数据集,场景高度贴近一线实际临床病例推演[20] - 该框架从根本上改变了评估目标,兼具专业性和完整性,方法论可复现、可推广,具备部署导向和监管友好性[22] - 行业竞争正从能力展示阶段进入责任定义阶段,CSEDB的发布被视为一个清晰的市场信号[8] 模型评估结果 - 在CSEDB框架下,专家团队评估了包括DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7在内的全球主流大模型[26] - 评估结果显示,在总体得分、安全性和有效性三个核心维度上,中国未来医生团队推出的MedGPT均位列第一[27] - MedGPT在安全性指标上与其他模型拉开了显著差距,并且是唯一一个在安全性评分上超过有效性的模型[28] 领先模型技术架构 - MedGPT是一个原生为临床使用场景设计的医疗大模型,其核心架构设计了快慢双系统模式[30][31] - “快系统”针对高度常规、路径清晰、风险可控的临床场景,采用轻量化推理结构,在医学知识约束下快速生成结论,响应时间可压缩到百毫秒量级[32][33] - “慢系统”针对高复杂度、高风险场景,会主动拉长推理链,引入多阶段临床演绎路径,并进行交叉校验[36] - 系统会根据问题的风险等级、信息不确定性及潜在后果,动态决定是否从快系统升级到慢系统[36] - 模型引入了专门的风险调和与控制机制“ACC层”来处理两套系统输出之间的冲突,当结论不一致时会优先触发风险约束,必要时拒绝输出并引导转向人工就医[37][38] - 模型通过结构化方式内化了医学知识体系,使推理更接近医学决策的真实路径[39] - 模型在持续使用中进化,每周来自超过一万名医生的两万条诊疗反馈会纳入训练,形成数据飞轮,每月准确率稳定提升1.2%-1.5%[40] 核心工程与竞争壁垒 - MedGPT的核心壁垒体现在医学逻辑被显式建模、临床风险被量化控制以及临床反馈形成的动态闭环三层机制的叠加[46] - 医学逻辑显式建模:将临床决策过程拆解为从病史分析到结论验证的结构化路径,每一步对应明确的医学知识来源和校验规则,形成可追溯的逻辑链条[42][43] - 临床风险量化控制:通过快慢系统分流和ACC层风险调和,将风险前置到推理过程中,在高风险场景下主动提高验证门槛或触发拒答[44][45] - 临床反馈动态闭环:真实诊疗反馈直接作用于慢系统的推理路径修正和风险策略调整,牵引模型的进化方向[46] - 这些工程化能力让产品划清了责任边界,构成了其难以被简单复刻的核心壁垒[45][46] 产品化与商业路径 - 未来医生以通过CSEDB严格验证的MedGPT为核心引擎,构建了精准匹配不同医疗角色与场景的产品矩阵[49][52] - 产品矩阵包括为患者提供7*24小时严肃诊疗服务的“未来医生”,以及深度嵌入医生诊疗决策流程的“未来医生AI工作室”[57] - 在基层医疗场景下,推出了为资源有限机构提供辅助支持的“未来家医”[52] - 技术通过CSEDB验证获得“准生证”,产品矩阵则将其置于真实场景中反复淬炼,二者相互牵引,驱动系统向更可用、更可控的方向持续演进[53] - 公司目标是通过AI新技术实现优质医疗资源的无限复制,改变医疗资源供给不足的困境,最终使高品质的健康与医疗服务变得人人可及[52] - 医疗AI的竞争正从追求榜单上的智能,转向兑现诊疗中的信任,技术、评估、产品三者的协同成为能否深入临床的决定性因素[56]
量子位编辑作者招聘
量子位· 2026-01-21 12:09
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: 任职要求: 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效率和创造力。 打造个人影响 ...
马斯克罕见低头:开源𝕏推荐算法,自嘲“很烂”不过未来月更
量子位· 2026-01-21 12:09
算法开源事件与背景 - 马斯克旗下社交媒体平台(原Twitter)完整开源了其“For You”信息流的推荐算法系统 [1] - 开源文件表明,该系统是一个几乎完全由AI模型驱动的算法系统,移除了所有人工设计特征和绝大多数启发式规则 [2] - 马斯克本人转发了工程团队原帖,并低调表示该算法“很蠢(dumb)”,需要大幅改进,但强调其透明性,并指出其他社交媒体公司都没有这样做 [3][4][5] - 此举是马斯克自2022年收购该平台前多次批评其过于封闭后,兑现承诺的延续 [6][7] 纯AI驱动推荐系统的运作机制 - 系统基于Grok-1同款Transformer架构打造,通过学习用户的历史互动行为(点赞/回复/转发)来决定内容推荐 [9] - 流程始于用户打开“For You”标签,客户端向服务器发送请求 [10] - 系统首先构建“实时用户画像”,通过收集两类原始用户信息,而非人工构造特征 [12][13] - 行为序列:代表最直接、最强烈的兴趣信号,如最近点赞、回复、转发、点进、停留过什么 [14] - 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等 [14] - 系统采用“去人工化”和“端到端”方法,将原始数据直接喂给模型,让模型自行学习规律 [15] - 构建用户画像后,系统兵分两路,从海量推文中快速筛选出几千条“可能相关”的推文 [15] - 一路通过“Thunder”模块,抓取用户关注的所有人的最新推文(熟人圈) [16] - 另一路通过“Phoenix Retrieval”核心检索模块,抓取来自未关注账号但用户可能感兴趣的推文(外部) [17] - 两类来源的信息在后续阶段被统一对待 [19] - 系统通过“Hydration”模块补全候选推文ID的详细信息,包括推文全文、作者详情、媒体内容及历史互动数据 [21] - 在正式计算前,通过“Filtering”模块淘汰明显不需要的内容,如重复帖子、用户自己发布的内容、来自拉黑/静音账号的帖子等 [22] 核心排序模型与最终呈现 - 剩余内容被逐条送入基于Transformer的“Phoenix”排序模型进行独立打分 [24] - 模型同时接收用户的行为序列与属性信息,以及单条候选帖子的内容与作者信息 [25][27] - 模型预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数 [25] - 系统设置了“候选隔离机制”,确保模型在评分时,每条候选帖子“看不见”其他候选帖子,分数一致且可高效缓存复用 [26][34] - 系统会进行少量工程调节,如控制作者多样性,防止单一账号刷屏 [26] - 所有候选帖子按最终得分排序,系统选出Top-K条帖子作为推荐结果 [29] - 返回客户端前,进行最后一轮安全校验,移除已删除、垃圾信息或违规内容 [30] - 经历重重筛选后的信息根据分数高低,依次展示给用户 [31] 系统成功运转的五大关键设计 - 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义复杂规则 [33] - 采用候选隔离机制,独立评分:确保每条帖子的分数不会因同批次其他帖子而变化,分数一致且可高效缓存复用 [34] - 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率 [35] - 预测多元行为,而非单一分数:AI模型对多种用户行为同时进行预测,而非输出模糊的“推荐值” [36] - 模块化流水线,支撑快速迭代:整个推荐系统采用模块化设计,各个组件可以独立开发、测试、替换 [37] 开源反响与未来计划 - 社区对开源行为表示赞赏,认为其透明性在行业中罕见 [2] - 有网友指出算法存在“缺陷”,例如代码显示“被大量用户屏蔽”是强负面信号,但缺乏针对该信号的时间衰减机制,可能导致历史屏蔽记录持续影响账号推荐分数 [39][40][41] - 马斯克本人在相关评论下承认“是的,这算法太烂了” [42] - 公司计划持续保持开源,未来每4周将重复一次开源更新 [44]
世界模型+强化学习=具身智能性能翻倍!清华&加州伯克利最新开源
量子位· 2026-01-21 12:09
具身智能与样本效率挑战 - 具身智能的快速发展面临样本效率瓶颈,制约其从实验室走向复杂开放世界[1] - 具身任务涉及复杂的物理环境感知和高维连续控制,导致巨大的状态-动作搜索空间,学习效率低下且难以收敛[1] - 传统无模型强化学习依赖海量试错,在现实物理世界中面临时间损耗、高昂硬件成本和潜在安全风险,使数亿次交互需求不现实[2] 世界模型强化学习的兴起 - 世界模型强化学习应运而生,旨在应对上述挑战[3] - 其核心范式是通过学习一个能预测环境内在转移规律的模型,使智能体具备在想象空间中进行自我进化的能力[4] - 该机制允许智能体在潜空间进行低成本的大规模轨迹预演与策略优化,显著降低对环境交互的依赖,加速具身智能机器人落地[4] BOOM框架的提出与核心创新 - 清华大学与加州伯克利的研究团队联合提出BOOM框架,旨在结合在线规划与离轨策略学习[6] - 在线规划能让智能体通过模拟未来轨迹优化动作,提升样本效率,但与策略学习结合时存在根本矛盾——角色偏差[6][7] - 角色偏差导致两大痛点:价值学习的分布偏移和不可靠的策略改进[8] - BOOM框架的核心思想是构建一个自举循环,包含两大创新机制[10] - 无似然对齐机制:采用无似然对齐损失,无需知道规划器的具体概率分布,即可实现策略与规划动作的高效对齐,缓解角色偏差[10] - 软Q加权机制:根据Q函数动态调整权重,引导策略优先学习高价值、高回报的优质经验,加速学习并处理历史数据波动[11] BOOM框架的实验性能 - 研究团队在DeepMind Control Suite和Humanoid-Bench上进行了全面评估[12] - 在Humanoid和Dog等14个高维任务中,BOOM的最终表现和训练稳定性均达到了State-of-the-art水平[13] - 在DMC任务中,BOOM平均得分877.7,超过了TD-MPC2的745.6和BMPC的835.8,分别领先17.7%和5.0%[13][14] - 在Humanoid-Bench任务上,BOOM平均得分820.6,比DreamerV3的555.6提升了47.7%,比BMPC的511.7提升了60.5%[13][14] - 在复杂任务如需要滑行或跨障碍的任务中,BOOM展现出极强的控制鲁棒性,部分任务性能提升甚至超过100%[16] BOOM框架的工作机制与意义 - BOOM框架通过自举循环实现规划与学习的双向奔赴:策略网络为规划器提供初始动作方案,规划器则利用世界模型精炼出更高质量的动作反馈给策略网络[15] - 该框架通过巧妙的自举对齐机制,消弥了世界模型规划与离轨策略强化学习之间的鸿沟[17] - 这不仅为高维连续控制任务提供了高效、稳定的解决方案,也为未来具身智能在复杂现实环境中的落地提供了理论与实验支撑[17]
2026年OpenAI最看好的3个方向
量子位· 2026-01-21 12:09
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI最新播客释出—— 首席财务官Sarah Friar&著名投资人Vinod Khosla聚在一起,聊了聊 2026年的AI趋势 。 信息量很大,比如说明年将会是多智能体正式登场的一年、AI行业如何用算力换收入、大模型能力的上限突破,以及对医疗健康和具身智能行 业的变革影响…..应有尽有。 不过u1s1,此时公开这样一份访谈,其中意味不言而喻: 不仅是回应OpenAI近期的舆论,也是为投资者们打下定心剂, "AI不是泡沫,OpenAI值得投资" 。 潜台词就是,在为OpenAI即将到来的 IPO 铺路。而这也将是OpenAI2026年的重中之重。 如果说2025年AI发展围绕着Agent和Vibe Coding,那么2026年将会是多智能体系统走向成熟并产生实际影响的关键节点。 在企业层面,多智能体系统将能够处理一系列完整的复杂任务,比如运行企业资源规划系统 (ERP) 、日常对账和实时跟踪合同执行情况 等。 除去OpenAI的自述,其中对于行业的宏观视角也相当有趣,一些核心观点包括: 2026年将会是真正的智能体之年。 算力与收入之间存在明显的正 ...
MiniMax把自家“实习生”放出来了!
量子位· 2026-01-20 21:04
文章核心观点 - AI Agent正从割裂的工具进化为深度嵌入工作环境、理解完整职业上下文的“长期合伙人”,其核心在于直接交付最终结果的能力 [1][2][3] - MiniMax推出的AI原生工作台Agent 2.0,通过Desktop App与Expert Agents两大载体,旨在实现这一愿景,将内部已验证的高效工作流产品化并开放给外部用户 [4][40][41] Agent 2.0的核心组件与能力 - **Desktop App:打通云端与本地,具备强大执行力** - 核心逻辑是将云端模型能力连接到本地电脑,能直接读取本地文件与操控网页,介入实际工作流 [5][6][7] - 可主动调取本地资源处理任务,例如处理人才库表格、审核历史合同、调用创作素材,使用户无需手动搬运信息 [7][8] - 通过实际案例验证能力:能独立联网调研20款Micro-SaaS产品,自动检索其盈利模式、流量来源等信息,并将结果填回本地表格 [9][10][11][12] - 执行复杂任务时采用分组搜索的“串并联混合”方式,平衡速度与并发 [15] - 能基于调研数据自动生成图文并茂的深度调研报告,并调用专家模块生成完整的PPT文档 [12][20][22][28] - **Expert Agents:注入私有知识,成为垂直领域专家** - 专注于让AI适应具体任务场景,解决通用模型在处理高度专业化任务时的不足 [24][25] - 用户可将私有知识库(如SEO玩法、量化交易策略)注入Agent,使其产出符合特定标准的高质量结果 [26] Agent作为“长期合伙人”的三大核心能力 - **记忆的连续性**:理想的Agent应像老练的同事,能逐渐理解并记住用户的工作偏好与习惯,而非每次对话都重新开始 [31][32] - **对隐性经验的消化能力**:Agent需能将行业标准与团队内部操作流程内化为本能,直接交付符合团队标准的专业成果 [33][34] - **对业务环境的敏锐嗅觉**:Agent应连通业务系统,主动感知环境变化并实时响应,这是区分演示工具与实战工具的关键 [35] Agent在MiniMax内部的实际应用案例 - **全球商务组**:Agent能快速处理涉及20个不同国家潜在客户的名单,自动进行背景调查并生成20封定制化的破冰邮件 [36] - **设计组**:设计师可通过“Vibe Coding”直接指挥Agent修改代码,例如调整官网字体,无需等待前端排期 [37] - **产品经理**:Agent能像侦探一样介入调查用户投诉(如积分消耗异常),查明原因(用户上传37个超大文件)并主动拟定安抚方案与邮件草稿 [37] - **研发部门**:Agent能通读晦涩的运维手册,在系统报警时自动分析并给出建议;能像技术负责人一样自动拆解需求列表,接管基础代码的编写与测试 [38][39][40]
豆包的新身份曝光:在国际艺术展当起了“AI讲解员”
量子位· 2026-01-20 18:04
梦瑶 发自 凹非寺 量子位 | 公众号 QbitAI 前两天听同事说豆包在浦东美术馆接活儿了,不光带人 逛展 ,还包 讲解 的那种。(震惊.jpg) 我一听立马就不困了:AI讲解?还是豆包?有这新鲜事儿,咱高低得到现场围观一下啊! 于是我火速 翘班 找老板请假,打了趟飞的,直接闪现「AI与艺术」豆包讲解体验日活动现场。 but,进馆没多久我就意识到一个现实问题:我对这些展品的理解,基本为零…(纯·一点艺术细胞都没有) 既然如此,那就不为难自己了,索性直接摇豆包,一个 「视频电话」 打过去,藏品重点、展品背景全讲解得明明白白~ 此外活动现场还有个大彩蛋,浦美当场给豆包颁发了个 AI讲解员证书 ,真·官方权威认证了: 这一下午的展逛下来,脑子是真有点宕机了,我平时也没少用豆包,只是没成想,这AI啥时候都进化成这样了…… 实测"AI讲解员"豆包的业务水平 不知道大家跟我一不一样,对看展逛展这件事本身很感兴趣,可奈何自身没啥《艺术细胞》。 去是去了,但逛一圈下来感觉啥也没看懂……但!这回有「豆包」带着我逛可就不一样了。 这一次,咱势必要把这展看个明!明!白!白!正好看看这位AI讲解员的业务能力到底能不能打~ 这个AI ...
量子位编辑作者招聘
量子位· 2026-01-20 12:17
AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 编辑部 发自 凹非寺 量子位 | 公众号 QbitAI 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 岗位职责: 任职要求: AI产品方向 岗位职责: 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术、新工具应用于工作,提升工作效 ...
从「能用」到「好用」:数据可视化的三个维度,你还在第一层吗?——人大提出图表创作新方式
量子位· 2026-01-20 12:17
文章核心观点 - 数据可视化领域正面临从“画出来”到“画得活”的范式转变,静态视觉表现力与动态叙事能力成为新刚需[2] - 当前行业存在三大痛点:视觉设计依赖手工、效率低下;动画实现门槛高、灵活性差;交互逻辑缺乏标准化、难以复用[2][5][6][7][9] - 中国人民大学IDEAS Lab与山东大学交叉研究中心提出了三个系统性解决方案:PiCCL(静态图表创作)、CAST/CAST+(可视化动画)、Libra(交互逻辑),旨在将难以复用的能力转化为可自由组合的系统[11][12][13] PiCCL:静态图表创作新范式 - 传统图表创作方法存在局限:模板表达能力有限、代码门槛高、专业设计软件依赖人工且难以复用[16] - 主流可视化库基于Grammar of Graphics理论,擅长统计图,但难以完成高度图形化表达所需的细粒度图形操作[16] - 转向图像编辑软件或大模型生成,分别面临手工劳动量大或结果不精确、无法修改的问题[17][18] - PiCCL提出以“图形本身”为第一公民,引入“图形运算符”进行图形操作,配合“约束”与“布局”机制实现自动对齐与组织[21] - 通过“编码运算符”将数据绑定到图形视觉通道,并抽象出“图形化对象树”,实现数据与设计解耦,图表可封装为可复用模板并进行模块级拼接[21] - 该方案在模板易用性与自由设计表达力、数据严谨性与图像编辑灵活性之间找到了新路径[23] CAST/CAST+:可视化动画的系统性重构 - 动画长期被视为“表现层”技术,缺乏对数据—视觉编码—时间结构内在关系的显式建模[24] - 团队提出Canis,一种为可视化动画设计的领域特定语言,将动画建模为“由数据驱动的时序结构”[26][28] - Canis核心设计包括:以数据对应图元为动画操作单位;显式描述选择、分组、时序、过渡关系;将动画语义层与实现层解耦[31][36] - 为降低语言门槛,团队进一步开发了CAST,将Canis抽象模型转化为图形化系统,实现动画的“可视化结构编辑”[35] - 针对复杂动画中多类标记交错的时序关系,团队提出CAST+,引入嵌套选择机制并重构关键帧系统,使如坐标轴与数据点交替呈现等复杂动画实现系统化生成[37] - CAST+将动画时序纳入数据映射体系,使动画参数直接绑定数据属性,推动动画创作转向结构化、数据驱动的交互范式[37] Libra:交互逻辑的组件化系统 - 当前可视化交互多基于回调函数堆砌,逻辑高度定制,难以组件化及跨图表、跨库复用[39] - Libra将交互视为一等公民,拆解为可组合部件:Instrument、Layer、Interactor、Service、Command[45] - 其工作流程为:事件经Instrument解释,由Interactor翻译为高层动作,Service执行,Command封装动作并天然支持撤销/重做,feedforward/feedback显示在对应层[42] - 该框架在服务层面内置实现了“撤销/重做”能力,解决了因服务不掌握内部状态而难以实现的问题[42] - 通过Libra,交互从“写在图里的技巧”升级为“可复用、可扩展、可组合的组件系统”[43] 未来展望 - 在PiCCL、CAST、Libra等可视化语言基础上,团队正探索利用大模型生成更高效的可视化[44]
首个真正“能用”的LLM游戏Agent诞生!可实时高频决策,思维链还全程可见
量子位· 2026-01-20 12:17
文章核心观点 - AI+游戏已成为行业重要趋势,近期“快递员”账号在《英雄联盟》韩服以93%胜率登顶的事件引发广泛关注,凸显了市场对游戏AI的高度兴趣 [1][2][4] - 超参数科技推出的全新大模型原生驱动游戏智能体COTA,标志着大模型+游戏从实验室走向现实,具备通用游戏潜力并已实现大规模商业化部署 [7][8][9][55][56] - COTA通过创新的“双系统分层架构”和专门的大模型选型,成功解决了游戏AI领域长期存在的“实时性、对抗性、可解释性”不可能三角问题 [35][36][59] - 该产品不仅为玩家提供高拟人化、高透明度的游戏体验,也为开发者提供了通用性框架,有望革新多类游戏玩法,并作为通用智能体的试验场推动AGI发展 [67][70][72][77] 行业趋势与市场动态 - AI+游戏赛道吸引了全球众多游戏厂商的关注和布局 [6] - 当AI Agent基础能力趋于成熟,行业已进入进一步突破Game AI能力边界的新阶段 [57] - 游戏场景是通用智能体的理想练兵场,因其复杂度接近现实世界,成本低、风险可控且可复现 [72][73] 公司产品:超参数科技与COTA 1. **产品定位与特点** - COTA是一款由大模型原生驱动、具备通用游戏潜力的智能体产品,强调认知、执行、策略和辅助 [9][10] - 产品设计目标是成为玩家的“游戏搭子”,通过思维链(CoT)实现决策过程可视化,建立玩家信任 [9][20][67][68] - 与依赖预设脚本的传统AI Bot或强化学习黑盒模型不同,COTA追求高智商与高透明度 [35] 2. **技术架构与创新** - **模型选型**:采用Qwen3-VL-8B-Thinking作为基座模型,在逻辑推理能力与实时响应效率间取得平衡 [39] - **双系统分层架构**:模拟人类快慢思考,拆分为负责战略的指挥官(Commander)和负责毫秒级执行的操作员(Operator) [40][41][43][47] - **训练管线**:包含基于思维链的监督微调(SFT)、大规模自我博弈的群相对策略优化(GRPO)以及与人类偏好对齐的DPO阶段 [50][51][52] - **性能指标**:将系统整体响应时间压缩到百毫秒级,最快可缩减至100ms,满足高强度对抗游戏的实时性要求 [53] 3. **实机性能表现** - 当前在FPS游戏Demo中展示,该类型游戏容错率低,对实时感知和决策要求极高 [12][13][14] - 智能体在急停拉枪、掩体博弈、投掷物使用、团队集火包抄等复杂操作上表现流畅自然 [28][29] - 在单人模式中能有效带领玩家,指令清晰,反馈及时,拟人化程度高,无明显机械感 [30][31][32] - 智能体依靠策略运营和类似人类的意识获胜,而非超越人类的反应速度 [33][34] 产品应用前景与行业影响 1. **对游戏体验与设计的革新** - **MMORPG**:使NPC成为具备严密逻辑和长期记忆的数字生命,提升互动质量与沉浸感 [60][61][62] - **MOBA**:AI可成为战术大师,通过逻辑严谨的战略与玩家博弈,提供趋近真人玩家的对战体验 [63] - **SLG**:重构策略深度与沉浸感,让AI对手更聪明,队友更懂行,战斗更真实 [64][65][66] - **商业价值**:提升玩家长期留存率,拉动转化,为游戏厂商在存量竞争时代提供商业竞争优势 [68] 2. **对开发者的价值** - 为开发者提供一套面向未来、具备高通用性潜力的游戏智能体框架 [70] - 打破技术壁垒,使开发者无需为每款游戏单独打造AI,可高效将大模型Agent技术应用于多类产品中 [70] - 推动行业从代码预设向智慧涌现的范式转变 [71] 3. **对通用人工智能(AGI)的意义** - COTA验证的“双系统分层架构”可为现实世界问题(如具身智能)提供解题思路,解决高层语义理解与底层运动控制的协同难题 [74][75] - 展示了如何让“LLM大脑”处理复杂推理,同时让“LLM小脑”完成毫秒级精准执行,该能力可迁移至大量现实问题 [76] - 作为“从仿真到现实”技术路线的枢纽,可带动通用人工智能加速演进,其突破也将反哺并重新定义下一代游戏Agent [77]