多模态架构
搜索文档
月之暗面 Kimi 近 20 天收入超去年全年,成国内最快晋级十角兽公司
新浪财经· 2026-02-24 06:26
公司融资与估值 - 公司近期完成新一轮超7亿美元(约合48.38亿元人民币)的融资,由阿里、五源、九安等老股东联合领投,腾讯也参与投资 [4] - 公司连续融资总额已超12亿美元(约合82.93亿元人民币),创下近一年大模型行业的最高融资金额记录 [1] - 公司从成立到估值突破100亿美元(晋级“十角兽”)仅用时两年多,创下国内公司最快晋级速度,其估值较天使轮的3亿美元翻了30多倍 [1] 财务与收入表现 - 公司旗下K2.5大模型发布不到一个月内,近20天累计收入已超过2025年全年总收入 [1] - 收入增长主要受全球付费用户及API调用量大涨共同驱动,其中海外付费用户保持高速增长 [1] - 公司海外收入规模已超过国内收入 [1] 产品与技术进展 - 公司于今年1月27日宣布推出并开源了最新的Kimi K2.5模型,同时智能助手K2.5版本正式上线 [4] - K2.5模型被描述为公司目前最智能的模型,在Agent、代码、图像、视频及一系列通用智能任务上取得开源state-of-the-art表现 [4] - K2.5模型是公司迄今最全能的模型,采用原生多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务 [4]
月之暗面Kimi发布并开源K2.5模型
人民网· 2026-02-02 09:21
公司产品发布 - 月之暗面公司发布了新一代开源模型Kimi K2.5,该模型在HLE、BrowseComp、DeepSearchQA等多项agent评测中均取得全球开源模型的最佳成绩,是公司目前最智能的模型 [1] - Kimi K2.5基于原生多模态架构设计,支持视觉与文本输入,将视觉理解与推理、编程、Agent等能力全部集成到一个模型中 [1] - 公司创始人表示,团队重构了强化学习的基建,并专门优化了训练算法,以确保模型能达到极致的效率和性能 [1] 产品技术特性与创新 - 在Kimi K2.5更新中,研发团队推出“Agent集群”功能,模型可自主创建“分身”智能体,按需组成不同角色团队并行工作 [1] - 在大规模搜索等场景下,Agent集群相比单Agent执行,可以大幅提升复杂任务处理效率 [1] - 公司同时推出新的编程产品Kimi Code,该产品不仅能够直接在终端运行,还能与VSCode、Cursor、Zed等主流编辑器集成 [1] - 借助K2.5的多模态优势,开发者可以直接输入图片和视频进行编程辅助,旨在简化编程流程,降低技术门槛 [1]
月之暗面Kimi发布新模型 付费模式更新
新京报· 2026-01-27 19:37
模型发布与核心能力 - 月之暗面于1月27日发布并开源Kimi K2.5模型,公司称其为迄今最智能、最全能的模型 [1] - 模型在多模态能力上取得突破,采用原生多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务 [1] - 模型在代码能力上显著提升,支持从自然语言对话生成完整前端界面,并能通过视觉能力解析用户上传的录屏,自动拆解交互逻辑并用代码复现 [1] - 模型实现从单一Agent到Agent集群的进化,能根据任务需求现场调度多达100个分身,并行处理1500个步骤,由主agent负责最终结果验收 [1] 产品模式与功能细分 - Kimi K2.5上线四种具体模式:K2.5快速(快速响应)、K2.5思考(支持多轮搜索思考回答复杂问题)、K2.5 Agent(支持解读PPT、研报、网站、文档、表格等)、K2.5 Agent集群(支持海量搜索、长文写作、批量处理) [2] 商业化模式更新 - 此次版本更新伴随着会员权益变更,使公司商业化模式进一步清晰 [2] - 免费版用户每月可获得1次深度研究、3次OK Computer、3次PPT的使用次数 [2] - 付费会员支付不同费用可在每月享受不同次数的相应服务 [2]
图像分词器造反了!华为 Selftok:自回归内核完美统一扩散模型,触发像素自主推理
机器之心· 2025-05-17 14:00
自回归范式在视觉生成领域的挑战与突破 - 当前视觉生成领域强行将图像网格化为空间token塞入自回归架构,导致因果链破碎,无法真正实现AR本质[1] - 华为盘古团队提出Selftok技术,通过反向扩散过程将自回归先验融入视觉token,使像素流转化为严格遵循因果律的离散序列[1][5] - 该技术入选CVPR 2025最佳论文候选(14/13008,0.1%)[3] 离散化视觉token的技术优势 - 连续视觉表征存在三重缺陷:预测稳定性差(MSE训练误差高于XE分类器)、强化学习复杂度激增、解耦能力受限导致模式坍缩[6] - 离散表征可保持高精度,实现因子更好解耦,且严格满足贝尔曼方程,使RL策略优化具有理论最优解[6][25] - 华为方案在ImageNet重建指标达SOTA:1024 token时rFID 0.54、PSNR 26.30、SSIM 0.805[29] Selftok核心技术架构 - 采用双流编码器:图像分支继承SD3 VAE隐空间,文本分支创新使用可学习连续向量组捕捉扩散特征[20] - 量化器通过EMA更新codebook和"code偏移监测-重激活"机制,解决传统训练不均衡问题[20] - 解码器引入时序感知token分配策略,昇腾910B2上单卡推理速度从8.2秒压缩至0.31秒[20] 多模态训练与强化学习优化 - 预训练扩展LLaMA-3-8B词表,新增32,768个图像token,复用LLM训练范式[24] - 设计两类奖励函数:基于程序的目标检测评估(提升图文一致性)和基于VQA任务的通用评估[25] - RL优化后模型在GenEval Bench达92分,超越GPT-4o;DPG Bench达85.57分,多项子任务SOTA[29][30] 跨模态生成与编辑性能 - 纯AR架构实现LLM与diffusion融合,单凭next-token prediction统一跨模态生成[7] - 图像编辑任务中结构距离35.89、PSNR 23.76,显著优于Prompt-to-Prompt等传统方法[33] - 多轮编辑展示精确指令遵循能力,非编辑区域保持效果匹配GPT-4o和Gemini-2.0[35]