Agent模型 - 财报，业绩电话会，研报，新闻

Agent模型

搜索文档

数字生命卡兹克· 2026-03-06 06:38

GPT-5.4模型发布与性能概览 - OpenAI发布了GPT-5.4 Thinking和GPT-5.4 Pro模型，现已集成至ChatGPT、API和Codex平台，该模型融合了公司在推理、编码和智能体工作流方面的最新进展[1] - 在关键基准测试中，GPT-5.4 Thinking在GDPval知识工作任务评估中取得83.0%的得分，优于Claude Opus 4.6的78.0%和GPT-5.3 Codex的70.9%[13][15][16] - 在软件工程能力测试SWE-Bench Pro中，GPT-5.4 Thinking以57.7%的得分与GPT-5.3 Codex的56.8%基本持平[13][17] - 在操作系统使用能力测试OSWorld-Verified中，GPT-5.4 Thinking获得75.0%的得分，超过Claude Opus 4.6的72.7%[13][19] - 在智能体核心能力测试Toolathlon中，GPT-5.4 Thinking以54.6%的得分显著领先于Claude Opus 4.6的44.8%[13][22][23] GPT-5.4的模型能力定位与优势 - GPT-5.4被定位为优秀的智能体基座模型，其能力构成被概括为：GPT-5.3 Codex级别的代码能力、超越GPT-5.2的世界知识、更强的工具使用能力以及极具成本效益的Codex订阅额度[11][24] - 该模型解决了此前GPT-5.3 Codex“不说人话”和世界知识薄弱的痛点，同时保持了顶级的编程能力，使其在需要结合业务理解和代码执行的复杂任务中表现更佳[2][3][11][16] - 模型支持100万token的上下文窗口，较GPT-5.3的40万token有大幅提升，这对维持智能体在长任务中的上下文理解至关重要，尽管超过27万token后计费会翻倍[25] - GPT-5.4是OpenAI首个内置原生计算机使用能力的主线模型，能出色地编写通过Playwright等库操作计算机的代码，并能根据屏幕截图发出指令，实现了代码与视觉能力的结合[27] 技术特性与成本分析 - 新引入了“工具搜索”功能，模型不再一次性接收所有工具定义，而是按需查找并追加，OpenAI内部测试显示该配置在保持相同准确率的同时将总体token使用量减少了47%[30][31][34] - 发布了新的`playwright-interactive`技能，允许Codex以代码和视觉两种方式调试Web和Electron应用[27][28] - API定价方面，GPT-5.4的输入价格为每百万token 2.50美元，输出价格为每百万token 15美元，虽高于GPT-5.2，但显著低于Claude Opus 4.6的5美元/25美元（输入/输出）[38][39] - 对于大多数用户而言，通过20美元的ChatGPT Plus订阅即可使用GPT-5.4，并能利用Codex平台慷慨的额度，这相比必须通过昂贵API调用的Claude模型具有巨大成本优势[11][36][39] 市场影响与生态整合 - GPT-5.4的发布被视为对Claude Opus 4.6在智能体模型领域主导地位的有力挑战，其综合能力与成本优势可能改变开发者的模型选型偏好[2][11][39] - OpenAI对第三方工具调用Codex额度持开放支持态度，这与Anthropic封禁OpenClaw等行为形成对比，有利于其构建更开放的开发者生态[7][9] - 模型已迅速集成至ChatGPT和Codex平台，社区用户正积极推动其在OpenClaw等流行智能体框架上的支持，预计将很快完成适配[40][49][52] - 初步体验显示，GPT-5.4在自然语言表达上更接近“人话”，在任务理解和沟通上有了明显改善，尽管在部分领域（如前端审美、写作风格）与顶尖竞品相比仍有提升空间[42][43][45][47]

Artificial Intelligence

Artificial Intelligence

GPT-5.4

低空经济迎来密集催化，通用航空ETF基金(561660)红盘向上

新浪财经· 2026-02-24 10:12

市场表现与资金流向 - 截至2026年2月24日，中证通用航空主题指数上涨0.48%，其成分股雷科防务、四川九洲、光启技术、海格通信、宝钛股份分别上涨4.79%、2.70%、2.52%、2.45%、2.19% [1] - 通用航空ETF基金上涨0.08%，最新报价为1.3元 [1] - 通用航空ETF基金近3天获得连续资金净流入，合计净流入657.46万元，日均净流入219.15万元，最高单日净流入265.04万元 [1] 行业政策与催化 - 辽宁省近期印发政策，对低空飞行器整机、关键设备及核心零部件、关键材料研发制造、运营服务能力建设等项目，按照贷款本金年化利率1.5%给予贴息支持，单个项目年度贴息最高100万元，单个企业年度贴息最高500万元 [1] - 辽宁省政策提出，稳妥有序拓展低空经济应用场景，对获评省级低空经济应用场景典型案例的项目，给予最高100万元的资金支持 [1] 技术发展趋势 - 春节期间，国内外大模型如智谱GLM-5、MiniMax M2.5、阿里Qwen3.5等密集迭代，聚焦“执行智能”与复杂系统工程及长程Agent任务能力，而非单纯参数比拼 [2] - AI正从对话工具加速蜕变为物理世界操作引擎，在无人机集群调度、通航飞行器自主起降、空管智能决策等场景中，具备强工程适配性的Agent模型将成为低空智能基础设施的核心使能技术 [2] 指数与基金构成 - 通用航空ETF基金紧密跟踪中证通用航空主题指数，该指数选取50只业务涉及航空材料及零部件、通航飞行器制造、通航基础设施、通航运营与保障、通航应用等通用航空相关领域的上市公司证券作为样本 [2] - 截至2026年1月30日，中证通用航空主题指数前十大权重股包括航天电子、海格通信、中国卫通、中科星图、华测导航、北斗星通、洪都航空、雷科防务、中航机载、西部超导，前十大权重股合计占比45.73% [2]

资源不到万亿 OpenAI 的 1% ，Kimi 新模型超越 GPT-5

Founder Park· 2025-11-07 20:00

产品发布与核心能力 - 公司推出开源模型K2 Thinking，是其迄今为止最强的开源思考模型[2] - 模型采用1T参数、MoE架构、32B激活参数、原生INT4量化，并支持256k上下文长度，更好支持国产GPU[3] - 在“人类最后的考试”基准测试中取得44.9%的SOTA成绩，表现超过同类型闭源模型[10] - 模型无需人工干预，可自主实现高达300轮的工具调用和多轮思考能力，解决更复杂问题[6] 技术路径与架构演进 - 从K2到K2 Thinking，技术路径从“模型即Agent”演进到“模型即Thinking Agent”[6] - 模型支持多步工具调用，需将思考内容返回模型进行多次推理以保持连贯性，此能力与Claude的“扩展思考”类似，但OpenAI的GPT系列和Google的Gemini模型尚未支持[21][22][23] - 公司选择先做“交互”再做“反思”的技术范式，重点是多轮工具使用和测试时扩展[16][17][18] - 此技术进展被视为实现AI L3级别的重要突破[20] 行业竞争与资源对比 - 公司估值约为33亿美元，而OpenAI估值为5000亿美元，Anthropic估值为1830亿美元，Grok估值为2000亿美元[28][26] - 公司员工约200人，训练成本约460万美元，而xAI拥有20万块H100 GPU集群，员工超1200人，Grok 4训练成本可能达4900万美元[28][29] - 中国基础模型公司面临资源稀缺挑战，但公司用不到1%的资源实现了对国际巨头的技术超越[29] - 在HLE测试集上，旗舰模型成绩从最初不到20%提升至目前超过40%，显示模型能力持续进步[13]

Artificial Intelligence

Agent模型

Artificial Intelligence

K2 Thinking

GPT-5

Grok4

Artificial Intelligence

Agent模型

Artificial Intelligence

K2 Thinking

GPT-5

Grok4

实测Kimi全新Agent模型「OK Computer」，很OK

量子位· 2025-09-27 09:30

产品发布 - Kimi发布全新Agent模型OK Computer 依托Kimi K2技术平台 [1][4] - 模型具备网页制作、PPT生成、数据处理等多项功能可处理100万行数据并生成交互式仪表板 [4][30] 功能特性 - 设计类任务支持网页自动生成与Python编程根据单句提示词自主完成模块设计与实现 [9][10][14] - 生成类任务整合文本、图像及音频生成能力支持儿童故事绘本创作与文艺风格PPT制作 [19][20][22] - 分析类任务实现长文档检索与大数据处理自动完成数据搜集、分析及可视化呈现 [28][29][30] 技术实现 - 采用像素风界面设计提供简洁直观的用户交互体验 [7] - 任务执行过程自主生成Todo清单实时标记进度状态（x表示完成 -表示进行中） [16] - 支持静态部署与动态资源调用自动完成网页搜索和素材生成等预处理操作 [17] 性能表现 - 网页生成功能实现按钮跳转、等级分类、对比可视化等复杂交互设计 [12] - PPT输出文件支持后期人工编辑具备完整可修改性 [24][26] - 数据分析模块自动构建评估维度无需人工设定分析框架 [31]

Agent模型

Artificial Intelligence

OK Computer

Kimi K2

Agent模型

Artificial Intelligence

OK Computer

Kimi K2