Workflow
开源模型
icon
搜索文档
Perplexity CEO表示将利用Kimi K2进行后训练
快讯· 2025-07-13 14:16
行业动态 - 美国AI搜索初创公司Perplexity获英伟达投资 其CEO阿拉温德在社交媒体宣布将基于Kimi K2模型进行后训练 [1] - Perplexity此前已使用深度求索(DeepSeek)的R1模型进行训练 显示公司持续整合全球领先的开源模型资源 [1] 技术突破 - 月之暗面Kimi本周五发布万亿参数开源模型K2 该模型在多项测试中取得全球主流开源模型最佳成绩 [1] - K2模型表现优异 被Perplexity选为后训练基础 体现其技术领先性和商业应用潜力 [1]
Kimi K2 详测|超强代码和Agent 能力!内附Claude Code邪修教程
歸藏的AI工具箱· 2025-07-12 02:16
Kimi K2模型发布 - Kimi推出拥有1T参数量的MoE模型K2 在基准测试中取得开源模型SOTA成绩 尤其在代码、Agent、数学推理任务上表现突出 [2][3] - K2模型完全开源 包括预训练模型和指令微调模型 用户可在Kimi官网快速尝试 [3] - 模型前端能力接近Claude Sonnet 3.7和4之间 在多个提示词测试中表现优异 [4] 技术能力测试 - 前端能力测试显示K2能完美处理复杂PPT逻辑提示词 为每个卡片添加回弹和缓动效果 图表动效适合展示汇报 [6][7][8] - 在日签网站构建测试中 K2表现与Claude Sonnet 4相当 能完成所有功能并处理简单文案排版 [9][10][12] - 点阵动画测试中 K2首次运行即成功 修复后所有调整选项和夜间模式均正常工作 达到Gemini或Sonnet 3.7水平 [14][15][16] - 复杂Markdown笔记编辑器测试显示K2能处理编辑和渲染逻辑 首次生成结果功能完整 经调整后样式问题得到解决 [17][18][21] 商业应用潜力 - K2兼容Anthropic模型调用方式 可替换Claude Code默认模型 避免封号风险 配合16元/百万Token的价格优势 [4][23] - 16元/百万Token的定价结构显著低于同类产品 可能改变行业成本结构 使小团队也能承担AI产品运营成本 [34][38] - 模型开源特性将激活国内AI编程和Agent产品势能 推动行业普及 [34][35] - 工程实用性填补国内空白 可能带动免费增值模式和实验性功能开放 [38] 部署与使用 - 用户可通过月之暗面开发者后台创建API Key 充值后即可使用 [25][26] - 安装Claude Code需先安装Node.js 然后通过npm安装@anthropic-ai/claude-code [27][29] - 替换API请求地址和Key后即可在Claude Code中使用K2进行编程 [30][31][32] - 已有Claude Code用户可通过GitHub项目快速配置 只需输入API Key [33]
阿里通义正式开源网络智能体WebSailor
快讯· 2025-07-07 17:07
阿里云宣布,通义正式开源网络智能体WebSailor。目前WebSailor的构建方案及部分数据集已在Github 开源。据阿里云介绍,英文版和中文版BrowseComp评测集的实测结果显示,WebSailor-32B、 WebSailor-72B不仅在开源模型和Agent阵营里实现了断层领先,甚至超越了DeepSeek R1、Grok-3等闭源 模型,仅次于闭源的OpenAI DeepResearch。 ...
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
量子位· 2025-07-07 15:43
复杂信息检索挑战 - 简单问题如城市人口查询可通过搜索引擎直接解决 但复杂问题如涉及多线索交叉验证的乐曲溯源则超出普通开源模型能力范围 [1][2] - BrowseComp基准将答案线索拆解为零碎信息并散布在不同时期和类型的信息源中 形成"信息迷雾网" 需要多步推理和交叉验证才能串联线索 [6] - 闭源系统如OpenAI的DeepResearch已实现超越人类的表现 但因其黑盒特性导致开源社区难以借鉴经验 [10] WebSailor技术方案 - 通过SailorFog-QA数据集模拟高不确定性环境 采用随机游走建图策略构建非线性知识网络 并对问题内容进行模糊化处理提升训练难度 [14][15][16] - 创新性使用开源模型生成Action-Observation轨迹后重构Thought过程 形成简洁有效的RFT冷启动数据集 [19][20] - 开发DUPO强化学习算法 通过双阶段动态采样策略将训练效率提升2-3倍 重点针对困难样本进行重复训练 [22][23][24] 性能表现 - WebSailor-72B在BrowseComp-en/zh基准分别达到12%和30.1%准确率 全面刷新开源模型纪录 [26] - 在Xbench-DeepSearch和GAIA基准分别取得55%和55.4%的分数 显著超越DeepSeek R1和GPT-4o等模型 [26] - 简单任务测试中WebSailor仍保持优势 在SimpleQA子集上表现优于所有对比方法 显示技术方案的兼容性 [28] 行业影响 - 首次验证开源模型可挑战BrowseComp这类超越人类能力边界的复杂任务 缩小与闭源方案的差距 [5][29] - 提供"高难度数据合成+冷启动+高效RL"的通用workflow 为开源社区攻克复杂推理任务提供方法论 [30] - 开源部分SailorFog-QA数据和模型checkpoint 降低研究者进入门槛 推动行业技术民主化 [30][31]
AI周报|华为盘古团队否认开源模型抄袭;英伟达市值逼近4万亿美元
第一财经· 2025-07-06 09:52
苹果AI战略转向 - 苹果可能放弃自研大语言模型 转而采用OpenAI的ChatGPT或Anthropic的Claude模型为Siri提供技术支持 [5] - 苹果自研模型在多轮对话、复杂逻辑推理等核心指标上与GPT-4o、Gemini存在代际差距 [5] - 原计划2026年推出的"Apple Foundation Models"驱动版Siri因技术瓶颈多次延期 [5] 华为盘古模型争议 - 华为否认盘古Pro MoE开源模型抄袭 声明称是基于昇腾硬件平台开发的基础大模型 [2] - 盘古团队承认部分基础组件代码参考了业界开源实践 但严格遵守开源许可证要求 [2] - 研究显示盘古大模型与阿里通义千问Qwen-2.5 14B模型在参数结构上存在0.927的高相关性 [2] 英伟达市值创新高 - 英伟达市值一度突破3.92万亿美元 超过苹果创下的3.915万亿美元纪录 [3] - 6月以来英伟达股价累计上涨17.92% 年初至7月3日累计上涨18.67% [3] - AI推理需求激增 tokens生成在过去一年增长50-100倍 [3] Meta人工智能布局 - Meta成立"超级智能实验室" 整合基础AI研究、大语言模型开发和AI产品团队 [4] - 新部门引入Scale AI前CEO等11位行业重量级人物 包括6名OpenAI华人员工 [4] - 扎克伯格已在人工智能领域投资143亿美元 [4] 大模型开源趋势 - 百度开源文心大模型4.5系列10款模型 包括47B、3B MoE模型和0.3B稠密型模型 [7] - 华为开源盘古70B稠密模型和720B MoE模型 [7] - 阿里、腾讯等也已通过开源大模型布局AI生态 [7] xAI融资进展 - xAI完成100亿美元新一轮融资 包括50亿美元债务和50亿美元股权 [8] - 资金将用于开发全球最大数据中心之一和旗舰平台Grok [8] - xAI目前每月烧钱高达10亿美元 今年营收预计仅5亿美元 [8] AI人才争夺战 - Meta挖角OpenAI顶级研究员 开出1亿美元签约奖金 [9] - OpenAI CEO批评Meta招聘方式 称可能导致企业文化问题 [9] - 人才争夺导致研究人员薪资上涨 [9] 存储行业动态 - DDR4内存条价格近一个月上涨近一倍 16G 3200现货价涨幅超200% [13] - 原厂减产DDR4 将产能转向DDR5和HBM [13] - HBM成为SK海力士、美光、三星等存储原厂的竞争重点 [13] 英伟达GB300部署 - CoreWeave成为首家部署GB300 NVL72系统的AI云服务提供商 [14] - GB300 NVL72系统AI性能超过每秒百亿亿次浮点运算 每个机架提供40TB快速内存 [14] - Blackwell架构芯片占英伟达数据中心收入近70% [14]
人均1亿美元年薪挖人;机器狗售价1299美元,会踢球会聊天;小米1999元AI眼镜,深夜放大招…… |混沌 AI 一周焦点
混沌学园· 2025-07-04 18:12
本周核心趋势 - Meta以人均1亿美元年薪+无限制算力挖走8名OpenAI核心研究员,其中7人为华人顶尖人才,计划组建50人"超级智能团队"对抗OpenAI [2][3] - 开源模型加速普及,小公司机会增多,Meta通过吸纳OpenAI人才推动开源模型发展 [3][6] - AI智能体40%项目因成本失控与价值模糊面临失败,能真正解决实际问题的才能存活 [3][8][9] - AI深入改造传统行业,美团推出餐饮AI决策助手"袋鼠参谋",小米发布AI眼镜,推动行业落地 [3][5][15] - 小模型性能突出,智谱开源9B模型获23项SOTA,快手开源8B视频理解模型,推动高效模型竞争 [12] 巨头人才争夺与开源发展 - Meta挖角OpenAI暴露AI行业顶尖人才垄断化趋势,Llama 4模型失利加速人才掠夺 [4] - OpenAI面临GPT-5研发窗口期被压缩危机,xAI等新势力加入加剧全球AI人才流动 [4] - 开源与闭源阵营对抗,Meta通过吸纳人才推动Llama系列开源模型发展 [6] - 算力与数据垄断焦虑,顶尖人才依赖巨头资源加速模型迭代 [6] AI产品与商业化落地 - 美团推出"袋鼠参谋",依托400万门店数据为商家提供智能经营解决方案,覆盖赛道选择、开店选址等四大场景 [5] - Hengbot推出全球首款集成OpenAI的机器狗Sirius,售价1299美元,瞄准消费级市场 [7] - 出门问问发布AI硬件TicNote,内置Shadow AI实现自动化记录与分析,售价999元起 [13][14] - 小米发布AI眼镜,起售价1999元,续航8.6小时,融合多模态交互功能 [15] 模型能力与开源突破 - Black Forest Labs开源120亿参数图像编辑模型FLUX.1 Kontext,挑战闭源巨头 [10][11] - 智谱开源9B视觉语言模型GLM-4.1V-9B-Thinking,获23项SOTA,浦东创投10亿元投资 [12] - 快手开源8B语言模型Keye-VL,视频理解得分67.4,支持复杂任务 [12] AI Agent与行业应用 - Gartner预测40% Agentic AI项目因成本与价值问题将终止,但长期看好2028年15%日常工作由AI完成 [8][9] - Siro获5000万美元B轮融资,专注AI销售教练方案,将线下销售"暗数据"转化为可复用资产 [16][18] - 真正成功的AI Agent需解决实际产业问题,如美团餐饮AI与Siro销售AI [17][19]
赛道Hyper | Black Forest开源新模型:文本P图党福音
华尔街见闻· 2025-07-03 13:50
行业动态 - 开源平台Black Forest推出文生图模型FLUX 1-Kontext开发者版本 凭借自然语言指令实现图像编辑功能成为行业焦点 [1] - 该模型在人类偏好评估、指令编辑等多项关键指标优于OpenAI最新发布的GPT-image-1 标志着开源模型在高精度图像编辑领域取得新进展 [1] - 开源与闭源模型的博弈持续深化 开源属性显著降低企业应用门槛 [5] 技术架构 - FLUX 1-Kontext由自然语言解析、图像生成和多模态融合三个关键模块构成 [2] - 自然语言解析层采用改进型Transformer架构 配置8层自注意力机制 能对用户指令做深度语义拆分 [3] - 图像生成引擎基于改进版扩散模型(DPM-Solver++)构建 创新引入动态噪声调度机制 依据指令复杂程度自动调整去噪迭代次数 [4] - 多模态融合层借助预训练的CLIP模型与视觉Transformer 将768维文本特征向量与1024维图像特征向量进行动态匹配 [4] 竞争优势 - 支持本地化部署 以50人团队年生成10万张图像的场景测算 可节省60%以上服务器成本 [5] - 针对Stable Diffusion系列长文本解析能力弱的问题 支持最长512 tokens连续指令输入 对包含5个以上操作步骤指令的完成率超过50% [5] - 在艺术风格迁移方面 通过风格向量池机制预编码100种主流风格 用户只需输入风格名称即可快速调用对应参数 [5] 应用场景 - 在广告领域 伦敦数字营销公司BrandLab使用该模型后 产品图修改时间从2小时缩短至5分钟 人力成本降低约40% [6] - 设计教育领域变革 罗德岛设计学院2025年春季学期开设"AI指令设计"课程 学生可快速将创意转化为设计初稿 [6][7] - 未来有望在医疗、教育、娱乐等领域发挥作用 如生成医学影像、教学插图、游戏影视图像等 [10] 发展挑战 - 训练数据包含约1.2亿张互联网图像 存在侵权风险 [9] - 技术层面 模型在处理透明材质、复杂反光等物理效果时仍有不足 对中文指令的理解准确率比英文低15% [9] - 伦理风险显现 6月出现利用该模型制作虚假新闻图片的事件 现有水印嵌入防护技术易被破解 [9] 未来规划 - 下一版本将引入实时交互编辑功能 支持语音指令实时调整图像 同时将模型体积压缩至当前的20% [9] - 与多家博物馆合作训练艺术风格迁移专项模型 有望实现对达芬奇、毕加索等艺术家风格的精准复刻 [9] - 开源文生图模型"深耕垂直场景"策略 可能推动AI绘画市场从通用工具向行业解决方案转型 [9]
腾讯混元推出首款开源混合推理模型,擅长Agent工具调用和长文理解
快讯· 2025-06-27 16:43
腾讯混元开源混合推理MoE模型 - 公司宣布开源首个混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B [1] - 模型效果比肩同等架构领先开源模型,但推理速度更快,性价比更高 [1] - 开发者可通过更低门槛方式获得更好模型能力 [1] - 模型已在Github和Huggingface等开源社区上线 [1] - 模型API在腾讯云官网正式上线,支持快速接入部署 [1] - 这是业界首个13B级别的MoE开源混合推理模型 [1]
大模型首次直接理解代码图:不用Agent自动修bug,登顶SWE-Bench开源模型榜单
量子位· 2025-06-27 14:08
核心观点 - 蚂蚁开源的新模型CodeFuse-CGM在SWE-bench Lite上以44%的bug解决率超越所有开源方案,性能媲美闭源模型[1][2] - 该模型首创将仓库代码图模态(CGM)融入大语言模型,直接理解代码结构,显著提升跨文件修复和补全能力[12][14][16] - 完全基于开源模型实现,摆脱对GPT-4等闭源模型的依赖,提供更可控透明的解决方案[6][33] - 通过Graph-RAG框架将传统Agent方案的10个模块精简至4个,效率大幅提升[21][23][28] 技术突破 模型架构 - 采用图-语言多模态设计:图模态包含7种节点类型(函数/类/文件等)和依赖关系边,语言模态处理自然语言提示[14][16] - 创新性技术:节点token压缩(CodeT5+编码器)、512倍上下文扩展适配器、图感知注意力掩码实现GNN式消息传递[17] - 两阶段训练:子图重构预训练(Graph-to-Code任务)和噪声增强微调(10%噪声输入提升鲁棒性)[18][19][20] 性能表现 - SWE-bench Lite:44%解决率,超越最佳开源基线KGCompass 7.33个百分点[5][25] - SWE-bench Verified:50.4%解决率,较开源基线提升10.2%;Java项目提升4.4%至14.29%[26][29] - 代码补全任务:在ComplexCodeEval和CrossCodeEval跨文件场景显著领先同尺寸开源模型[30] 行业意义 - 首次证明开源模型可通过结构融合实现仓库级任务,打破闭源模型垄断[6][12][33] - 验证Graph-RAG框架替代复杂Agent的可行性,核心模块减少60%[21][23] - 技术全栈开源(论文/代码/权重/数据),适配CodeLlama/DeepSeek等多类基座模型[31][34] - 解决传统AI编程仅限函数级任务的局限,实现跨模块的"真正项目理解"[9][32]
苹果Meta狂抓AI,抢人并购
虎嗅· 2025-06-24 07:27
行业竞争格局 - AI领域三巨头微软、亚马逊和谷歌以及OpenAI、Anthropic、xAI等公司已形成领先优势,苹果与Meta面临边缘化风险 [2] - 谷歌基于Gemini模型巩固AI搜索业务地位,并进军AI短视频领域挑战TikTok,可能蚕食Meta的Reels广告市场 [7] - OpenAI正在开发AI硬件,可能成为继MacBook与iPhone后的"第三核心设备",直接威胁苹果生态 [11] 公司战略与困境 - 苹果在WWDC未展示实质性AI创新,端侧设备AI体验进展缓慢,30亿参数模型落后于华为、小米的70亿参数模型 [6][8] - Meta的Llama4开源模型未达预期,旗舰模型发布推迟且未成为行业基准测试首选 [7] - 两家公司均面临缺人、缺方向的困局,战略执行混乱导致人才流失 [12] 并购与人才争夺 - Meta以143亿美元收购Scale AI近半数股份,并试图整合SSI、Perplexity等估值超百亿美元的AI公司 [2][16] - 扎克伯格亲自参与顶尖人才招募,挖角DeepMind、OpenAI等团队核心成员 [15][18] - 苹果考虑收购Perplexity(140亿美元估值)或Mistral(60亿美元估值),但面临欧盟和微软的竞争阻碍 [19][21] 技术发展瓶颈 - 苹果纠结于AI技术是否符合其"完美"用户体验标准,担忧隐私与幻觉问题 [13] - Meta首席科学家Lecun质疑大型语言模型的发展方向,导致内部技术路线分歧 [14] - 两家公司在智能眼镜领域布局均受限于大模型能力不足,Meta暂聚焦拍照/语音交互 [10] 市场动态与财务动作 - 华为推出鸿蒙6操作系统及50+智能体框架,小米开源70亿参数多模态模型MiMo-VL [8] - 苹果去年股票回购达1100亿美元,今年计划回购1000亿美元,可能调整资金用于并购 [22] - 硅谷进入大模型时代第二波并购潮,继谷歌/亚马逊收编AI公司后,苹果与Meta加速布局 [23]