原生智能体
搜索文档
全球科技(计算机)行业周报:原生智能体加速演进,关注AI算力及应用端-20260309
华安证券· 2026-03-09 19:46
行业投资评级 - **增持** [1] 核心观点 - **原生智能体加速演进,关注AI算力及应用端投资机会** [1] - **GPT-5.4发布标志着原生智能体与复杂工作流技术的重大进步,驱动AI数字员工发展** [3][5] - **Gemini 3.1 Flash-Lite的推出体现大模型推理侧的降本增效趋势** [4][5] - **建议关注AI算力基础设施、端侧智能硬件、Agent应用等方向** [5] - **相关公司包括:寒武纪、中科曙光、用友网络、鼎捷数智、金山办公、同花顺、焦点科技、赛意信息、阜博集团、昆仑万维** [5][15] 1 计算机行业观点 - **OpenAI发布GPT-5.4,原生支持电脑操作** [3][12] - 模型具备百万级上下文,融合高阶推理、编程、深度网页搜索与原生计算机操作能力 [3][13] - 在OSWorld-Verified桌面导航测试中成功率达**75.0%**,超越人类平均水平 [3][13] - 支持最高**1000万像素**的全保真图像输入 [3][13] - 在衡量44种职业能力的GDPval测试中,**83.0%**的案例达到或超越人类专业人士水平 [3][13] - 引入“工具搜索”功能,在同等准确率下将Token使用量最高降低**47%** [3][13] - 在ChatGPT中引入“前言”机制,允许用户实时调整模型思考方向 [3][13] - **谷歌推出Gemini 3.1 Flash-Lite,主打极速与性价比** [4][14] - API定价为每百万输入/输出Token仅**0.25美元**和**1.50美元** [4][14] - 首字响应速度与前代2.5 Flash相比增加**2.5倍**,整体输出速度提升**45%** [4][14] - 在GPQA Diamond测试中得分**86.9%**,在逻辑推理与多模态核心测试中领先同级竞品 [4][14] - AI Studio标配“thinking levels”功能,允许开发者动态调节模型“思考深度” [4][14] 2 市场行情回顾 - **计算机板块表现** [17] - 本周(报告期内)计算机行业指数下跌**5.29%** [17][20] - 跑输上证综指**4.36**个百分点,跑输创业板指**2.84**个百分点,跑输沪深300指数**4.22**个百分点 [17] - 年初至今计算机行业指数上涨**2.86%** [17][20] - 本周计算机行业指数在申万31个行业中排名第**29**,在TMT四大行业中位列第**3** [17] - **计算机个股表现** [22][23] - 本周软件、信息技术个股表现较为突出 [22] - 周涨幅前十个股中,科远智慧上涨**16.81%**,中科星图上涨**15.13%**,迪威迅上涨**9.49%** [23] - 周跌幅前十个股中,容知日新下跌**17.90%**,奥普特下跌**15.29%**,奥飞数据下跌**13.79%** [23] - 建议关注景气度向上的金融IT、工业软件、信创等产业 [22] 3 科技软件行业新闻 - **算力** [25] - 全国两会热议人工智能高质量发展,建议推动AI从“算力比拼”转向“智效竞争” [25] - 建议强化“算力—系统—应用—模型”纵向整合,建立国家级高质量语料库 [25] - 河南省算力规模已达**10.36 EFlops**,正承接东部算力需求,助力“东数西算”战略 [25] - **低空经济** [26] - 小鹏汇天“陆地航母”飞行器批量试产下线,标志着低空出行产品迈向商业化量产 [26] - 量产工厂满产后可实现每**30分钟**下线一台的效率 [26] - **汽车智能化** [28] - 小鹏汽车CEO何小鹏建议推动自动驾驶政策从L2级向L4级跨越 [28] - 建议在特定低风险场景下开展L4级无人驾驶C端应用的地方试点 [28] - 建议出台政策支持人形机器人端侧“大脑”技术的突破与本地部署 [28] - **网络安全** [28] - 生成式AI智能体规模化落地,网络攻防进入“AI对抗AI”时代 [28] - Check Point推出ThreatCloud AI平台,依托跨越**30年**的攻防数据与**55个**AI引擎重塑网络防御 [28] - 奇安信董事长指出网络安全行业正迎来AI重新定义安全、高对抗攻击成常态、市场需实战化防护三大变革 [28] - **数据要素** [30] - 武汉市上线湖北省数据知识产权综合服务平台,集成存证、交易、融资对接等八大功能 [30] - 活动现场达成数据知识产权与商标质押融资协议,授信达**1600万元** [30] - **人工智能** [31] - 工信部等8部门印发《“人工智能+制造”专项行动实施意见》 [31] - **2025年**我国人工智能核心产业规模已超**1.2万亿元**,规上制造业AI普及率超**30%** [31] - 人形机器人款数占比超全球半数 [31] - 中央企业近两年智算规模增长达**17倍** [31] 4 科技软件相关公司动态 - **博睿数据**:2025年营业总收入约**1.29亿元**,同比下降**8.13%**;净亏损**-9,411.25万元**,亏损同比收窄**18.29%** [33] - **金山办公**:2025年营业总收入约**59.29亿元**,同比增长**15.78%**;净利润约**18.43亿元**,同比增长**12.03%** [33] - WPS 365业务收入约**7.20亿元**,同比高速增长**64.93%** [33] - **云天励飞**:2025年营业总收入约**13.08亿元**,同比增长**42.57%**;净亏损**-4.02亿元**,亏损同比收窄**30.50%** [33] - **指南针**:2025年度利润分配方案为每10股派发现金红利**0.8元**,共计**48,783,353.20元** [33] - **汉仪股份**:2025年净利润**1,482.22万元**,同比增长**68.27%** [33] - **德赛西威**:2025年营业收入约**301.23亿元**,同比增长**25.33%**;净利润约**21.39亿元**,同比增长**38.25%** [35] - 智能驾驶业务营收同比增长**50.31%** [35] - 拟每10股派发现金红利**10元** [35]
杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切争议
AI前线· 2025-11-11 14:42
文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型,该模型被定位为“模型即Agent”,在多项关键基准测试中表现优异,甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计,通过KDA注意力机制、原生INT4量化等系统性工程优化,实现了在推理、编码、搜索和写作等任务上的能力跃迁,标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中,Kimi K2 Thinking得分44.9,高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中,Kimi K2 Thinking得分60.2,显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中,Kimi K2 Thinking达到99.1%,与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口,输入定价为每百万tokens 0.60美元,输出定价为每百万tokens 2.50美元,具备成本优势[12] - 模型可稳定完成200-300次连续工具调用,远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制,采用“增量更新+门控”方式,解决了MoE模型长上下文一致性差和KV缓存大的问题,相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练,模型在几乎不损失精度的前提下,推理速度提升约两倍,显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%,结合MoE架构,共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本,公司澄清并非官方数据,强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距,但解释这是为追求思维深度所做的权衡,并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈,表示已在减少语言啰嗦重复方面取得进展,并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%,展现出“智能体级”开发能力,能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中,模型具备“边搜索边推理”的能力,能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色,能将零散灵感组织成结构清晰的长篇文本,并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”,为开源阵营提供了对抗闭源巨头的底气[27]
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
量子位· 2025-09-05 12:28
核心观点 - 字节Seed团队发布UI-TARS-2智能体 通过多轮强化学习训练实现跨平台自主操作GUI 在电脑、手机、浏览器及游戏场景中表现优于Claude和OpenAI等竞争对手 [2][4][23][25] 技术架构与设计思路 - 采用统一Agent架构 以大语言模型为核心决策器 支持自然语言指令到GUI/终端/工具操作的通用执行循环 [7] - 整合多模态感知与环境交互 输入端包含屏幕截图、文本上下文及历史操作轨迹 输出端支持点击坐标、拖拽动作、命令行及API请求 [7] - 构建混合操作流 智能体可无缝组合GUI点击、终端命令和API调用 例如网页找资料后调用搜索API处理数据 [7] - 核心目标为构建原生通用跨平台GUI智能体 覆盖电脑、手机、网页、终端及游戏复杂任务 [6] 性能表现与基准测试 - 在OSWorld测试中得分47.5 超过Claude-4-Sonnet的43.9和OpenAI CUA-o3的42.9 [23][25] - 在WindowsAgentArena测试中得分50.6 超过UI-TARS-1.5的42.1 [23][25] - 在TerminalBench命令行任务中得分45.31 超过Claude-4-Opus的43.2和OpenAI o3的30.2 [23][25] - 在15款小游戏中平均得分达人类水平的59.77% 显著高于OpenAI CUA的24.73%和Claude Computer Use的21.61% [25][27] - 在Shapes游戏中得分5.9 超过人类水平的5.42 在2048游戏中得分932.4 接近人类水平的1024.31 [27] 多轮强化学习与数据飞轮 - 通过多轮强化学习解决GUI操作四大难题:数据稀缺、环境割裂、能力单一及训练不稳定 [4][5][10] - 采用冷启动策略 通过合成数据和人工标注构建高质量监督微调数据集 [11] - 通过拒绝采样生成新轨迹 按质量筛选后高质量数据进微调集 低质量数据进预训练集 形成模型与数据相互增强的循环 [12] - 针对奖励稀疏问题 对可验证任务采用明确信号奖励 对模糊任务训练智能体自身作为奖励模型输出成功分数 [16] - 采用异步rollout模式 将模型推理与执行过程分离 并优化PPO算法包括解耦GAE和不对称裁剪 [17] 工程实现与平台支撑 - 构建统一沙盒平台 支持百万级交互训练 解决传统环境难复现、易崩溃及吞吐量低的问题 [20][21] - 沙盒平台兼容多载体 包含云虚拟机文件系统、远程VS Code及Jupyter等工具 覆盖桌面-移动-游戏全场景 [18][22] - 基于Seed-thinking-1.6模型训练 总参数230B 含532M视觉编码器和23B激活参数 [23]