Step 3

搜索文档
阿里通义千问再放大招
21世纪经济报道· 2025-08-20 09:45
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit模型,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型,行业多模态大模型在2025年迭代加速 [1] - 谷歌研究报告显示,预计2025年全球多模态AI市场规模将达24亿美元,2037年底将达989亿美元 [1] 国内厂商布局 - 阿里开源升级版视觉理解模型Qwen2 5-VL,72B版本在13项权威评测中视觉理解能力超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频实时交互,可部署于手机等终端 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其Step系列基座模型矩阵中多模态模型占比达70% [5] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升,从6 0版本开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内发布六款多模态模型,覆盖数字人生成、世界模拟等核心场景 [5] 技术进展与挑战 - 多模态模型Qwen-Image-Edit基于20B参数模型训练,实现图片中文字精准编辑,兼具语义与外观双重编辑能力 [4] - 当前多模态领域仍处于发展初期,视觉数据表征空间达百万维度连续空间,远超文本数万维度的离散符号系统 [7] - 视觉数据缺乏天然语义信息,需建立跨模态映射关系,但缺乏标注数据支持 [8] - 当前多模态模型主要依赖语言推理,图形和空间结构推理能力薄弱,无法解决简单空间问题 [9] 行业趋势 - 业内普遍认为多模态融合是通向AGI的必经之路,2025年下半年或将迎来多模态模型全面普及 [1] - 中国企业在多模态领域集体崛起,改变由OpenAI、Google主导的AI创新叙事,在视觉推理、视频生成等细分领域领先 [7] - 2025年被视为AI应用商业化元年,多模态技术驱动数字人直播、医疗诊断、金融分析等场景落地 [7]
阿里通义千问再放大招 多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 20:57
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,专注于语义和外观编辑,支持双语文本修改、风格迁移及物体旋转 [1] - 阿里半年内连续推出Qwen2 5-VL、Qwen2 5-Omni、Qwen-Image等多模态模型 [1] - 谷歌研究报告显示,预计至2025年全球多模态AI市场规模将飙升至24亿美元,2037年底预计将达到989亿美元 [1] - 商汤科技联合创始人林达华表示未来多模态模型甚至能在纯语言任务上超越单一语言模型 [1] 国内厂商布局 - 2023年12月谷歌原生多模态Gemini 1 0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阿里推出Qwen2 5系列强化多模态能力,Qwen2 5-VL在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3 5 [3] - 阿里发布首个端到端全模态大模型Qwen2 5-Omni,支持文本、图像、音频、视频的实时交互 [3] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其多模态模型占比达7成 [4] - 商汤发布日日新V6 5大模型,多模态推理与交互性能大幅提升 [4] - 智谱推出开源视觉推理模型GLM-4 5V,涵盖图像、视频、文档理解等任务 [5] - 昆仑万维一周内连续发布六款多模态模型,覆盖数字人生成、世界模拟等场景 [5] 技术挑战与发展 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [6] - 视觉数据表征空间达到百万维度的连续空间,与文本存在本质差异 [6] - 视觉数据本身不包含语义信息,需要建立跨模态映射关系 [7] - 当前多模态模型对于图形和空间结构的推理能力薄弱 [7] - 主流多模态模型后续思考推理过程仍主要依赖纯语言推理 [7] 行业趋势 - 2025年被业内人士普遍视为"AI应用商业化元年",多模态技术是核心驱动力 [6] - 多模态能力将成为AI系统的标配,如何转化为实际生产力是产业界下一步重点 [8]
阿里通义千问再放大招,多模态大模型迭代加速改写AGI时间表
21世纪经济报道· 2025-08-19 20:21
多模态大模型发展现状 - 阿里通义团队推出Qwen-Image-Edit,基于20B参数的Qwen-Image,支持双语文本修改、风格迁移及物体旋转,拓展生成式AI在专业内容创作中的应用 [1] - 阿里半年内连续推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型,Qwen2.5-VL 72B版本在13项权威评测中视觉理解能力全面超越GPT-4o与Claude3.5 [3] - 阿里Qwen-Image-Edit登上AI开源社区Hugging Face模型榜单首位,成为全球热度最高的开源模型 [3] 行业竞争格局 - 谷歌原生多模态Gemini 1.0模型上线,将AI竞赛由文本领域带入多模态领域 [2] - 阶跃星辰发布Step 3基础大模型,原生支持多模态推理,其基座模型矩阵中多模态模型占比达7成 [4] - 商汤发布日日新V6.5大模型,从6.0开始全部为多模态模型 [5] - 智谱推出开源视觉推理模型GLM-4.5V,昆仑万维一周内发布六款多模态模型 [5] 市场规模与趋势 - 预计2025年全球多模态AI市场规模将达24亿美元,2037年底预计达到989亿美元 [1] - 2025年被业内人士视为"AI应用商业化元年",多模态技术是核心驱动力 [7] - 中国企业在视觉推理、视频生成等多个细分领域已排在权威榜单前列 [7] 技术挑战 - 多模态领域仍处于发展初期,诸多基础性问题尚未解决 [8] - 视觉数据表征空间达到百万维度的连续空间,与文本的数万维度存在本质差异 [8] - 当前多模态模型对于图形和空间结构的推理能力薄弱,无法解决简单空间问题 [10] - 多模态模型思维方式主要依赖逻辑推理,缺乏空间感知能力 [10] 发展方向 - 多模态能力将成为AI系统标配,如何转化为实际生产力和社会价值是下一步重点 [10] - 未来多模态模型可能在纯语言任务上超越单一语言模型 [1] - 2025年下半年或将迎来多模态模型的全面普及 [1]
关于 AI Infra 的一切
虎嗅· 2025-08-11 18:50
AI Infra 行业定义与架构 - AI Infra 包括硬件和软件两部分 硬件指 AI 芯片 GPU 交换机等设备 软件可分为三层 最底层类似 IaaS 解决基础计算 通信和存储问题 中间层类似 PaaS 包含资源调度 资源管理等平台 MaaS 归属这一层 最上层近似 SaaS 应用层 但在 AI Infra 领域更倾向于理解为训练及推理框架的优化层 [2][3][4][5] AI Infra 发展历程与人才 - 第一批 AI Infra 人是有算法背景的人 如贾扬清 李沐 陈天奇 他们为充分利用 GPU 而做 AI Infra 第二批人更多是上规模 让 AI Infra 在工业界得到应用 [6][7] - 大模型兴起对 Infra 从业者是特别好的机会 AI Infra 进入主舞台 类似搜索引擎兴起时的 Google 需要世界一流 Infra 处理规模空前的互联网数据 大模型对算力和数据提出前所未有的要求 这样的窗口可能十年 二十年才会出现一次 [8][9][10][11][12] - AI Infra 和移动互联网 Infra 底层目标一致 都要高效稳定整合计算 通信和存储资源 但实操层面对硬件 网络互联 存储方式要求完全不同 AI Infra 绝对核心是 GPU 传统 Infra 核心是 CPU AI Infra 更极致 更贴合 AI 特殊需求 [13][14][15] - 未来做 AI Infra 的人 既有新成长起来的工程师 也有传统 Infra 人转型而来 Infra 更强调积累 与算法不同 算法非常依赖年轻人 有做算法的朋友说过算法人只有两年保质期 两年后陷入思维定势 跟不上新东西 [16][17][18] AI Infra 核心指标与价值 - 线上服务侧关注模型响应首字延迟 吐字稳定顺畅 整体成本降低 训练侧关注每张 GPU 处理的数据量和训练效率 [19] - 所有产品都依赖 Infra 区别在于是否投入成本做自己的 Infra 以及投入是否值得 假设有 1 万张 GPU 每月租金 1 亿 雇 Infra 工程师把 GPU 利用率提升 10% 每月能节省 1000 万 或多赚 1000 万 优化 Infra 后省下的钱可轻松 cover 人力成本 投入 Infra 可帮公司挣钱 确定性很高 [20][21][22][23] - 较小公司可用同样逻辑计算 值不值得雇 10 人优化性能 对比云厂商标准化方案成本 如果自己做不到更低成本 用 MaaS 或公有云服务更划算 服务商价值锚点是帮助规模较小公司节省 Infra 优化成本 [24][25] 第三方 AI Infra 公司机会与挑战 - 短期第三方价值是为客户提供 API 集贸市场 自由选择不同 API 因为模型厂商 Infra 主要服务自家模型或 API 公有云也提供类似服务 但仍有第三方空间 长远如果第三方没有独特价值 易被云厂商或模型公司吃掉 [26][27] - AI Infra 底层是硬件 上层是模型 当硬件和模型都逐渐开放和普及时 只做中间 Infra 层价值有限 且非常卷 难拉开技术差距 难形成长期壁垒 今天领先一点 几个月后可能被赶上 第三方想做出壁垒 需和硬件或模型做垂直整合 [28][29] - 以 MaaS 生意为例 MaaS 可看作 API 分发平台 真正能留住用户的是别人没有的东西 如与特定硬件厂商深度合作 以更低成本获得算力资源 有对硬件独到见解 这些是差异化优势 建议不要做夹在模型和硬件中间的人 可选择站在模型侧或硬件端 [30][31][32][33] - 当前是硬件和模型都在追求极致的时刻 需要既懂硬件又懂模型 这种两头通能力是 Infra 人特长 往上和模型做深度整合 或往下与硬件做 co-design 就有很多机会 如果固步自封 只在中间做优化 就把路走窄 [34][35] - 关键必须是主动参与者 而不是被动搭便车的人 如果比硬件厂商更懂模型 可影响硬件设计方向 如果比模型团队更懂硬件 可反向影响模型架构设计 具备这种影响力 成功是共赢 失败也是主动做出的判断和选择 [36][37][38] Infra 对模型效果影响与性能指标 - Infra 水平会影响模型效果 Infra 对大模型公司非常重要 各家公司参与同一场比赛 给定算力 怎么训出最好模型 假设都拿 5000 张卡 其他条件相同 如果 Infra 优化更好 效率高出 20% 同样时间能多学 20% 数据 训练出的模型效果更好 [40][41][42] - Infra 有标准化性能指标 如 MFU 衡量硬件利用率 分子是实际完成的浮点运算次数 分母是理论最大算力 MFU 越高 硬件用得越充分 但衡量 Infra 性能很复杂 仅靠单一指标难判断优劣 Infra 性能和硬件 模型 优化目标都密切相关 [43][45] - DeepSeek 能冲出来 一大原因是选对了优化目标 当时优化目标是给定推理成本 怎么训出最好模型 而其他所有人目标是给定训练算力 怎么训出最好模型 2024 年 9 月 o1 发布后 让大家看到推理阶段让模型多思考一会 最终输出效果更好 这种训练方式符合强化学习机制 DeepSeek 优化目标更符合强化学习需求 能以更低推理成本 更快速度输出结果和训练模型 率先完成 R1 甩开其他团队 [46][47][48][49][50] - Infra 有各种性能指标 但想取得好结果 最重要的是想清楚哪一个指标优先级最高 指标要符合产品需求 也要顺应行业发展方向和未来技术趋势 不同团队技术水平有高低 但真正拉开差距的是有没有选对努力方向 [51][52] - 从 o1 R1 验证强化学习路径后 当前最重要指标是 decoding 速度 推理分输入和输出两部分 输入关键指标是模型处理长文本速度 输出关键指标是模型吐字速度 后者最重要 决定线上业务成本 也直接决定强化学习效率 如果输出很慢 获得 reward 速度就比其他模型慢 但现在还有人很看重 MFU 等老指标 特别关注这类指标的人对当下技术认知有问题 [54][55] Infra 与算法团队协作与组织架构 - 最理想合作方式是大家像一个团队 为共同目标协作 很多事情有 trade-off 如损伤系统性能换算法提升 或反过来 最好两边一起讨论该谁让步 这是小团队优势 在大厂很难实现 [56][57][58] - 在大厂 Infra 总被视为支持性角色 算法人给 Infra 人提需求 Infra 人没有反向影响力 在很多人眼里 Infra 核心是降本 但降本通常不是最优先目标 需要纠正观念 Infra 实际上可对模型效果有正向影响 不仅仅是降本 [59][60][61] - 很多问题到最后是组织架构问题 模型由算法 Infra 和数据铁三角决定 三者缺一不可 必须协同 但很多人对模型理解存在偏差 模型算法效果往往取决于数据 而不是算法 模型效率成本主要由 Infra 决定 也不是算法 [62][63] - 比较合理组织架构是让 Infra 人设计模型结构 因为 Infra 人最知道怎么提高效率 节省成本 让数据的人负责刷模型点数和 benchmark 分数 因为他们最懂怎么喂模型 而算法人应该主要负责训练范式革新 但现在很多团队中 基本都是算法人在设计模型结构 刷模型点数 算法人不一定最适合做这些事 [64][65] 行业踩坑案例与经验 - 阶跃一开始对自己算力和能力过于自信 干了一个比 Llama 还大的模型 虽然训出来 但这个巨大模型有问题 过程中犯了一些错误 赌的事情可能会错 踩坑后再爬起来往前走 [66][67] - 最近有家公司开源模型 声称参数量不大 但算法做得好 效果可越级媲美更大模型 但模型因为架构设计问题 实际运行效率非常低 还不如大模型快 反映很多做算法的人并不真正懂硬件 也不了解模型在 Infra 层怎么运行 [68][69][70] - 算法人员做模型架构研究时 可能画图横轴模型尺寸或激活量 纵轴算法效果指标 试图找到 sweet point 让模型尺寸不大情况下算法效果不错 然后丢给 Infra 人优化 即便 Infra 人满足需求 模型实际运行也会出问题 如果真要画图 横轴应该是模型实际运行成本或运行效率 纵轴是模型效果 跑大量实验 找到真正可落地最优点 这件事只有在拉通所有团队后才可能完成 [71][72][73] 模型发展前景与多模态 - 模型范式革新不会那么快 但多模态还是有突破可能性 尤其是多模态生成和理解统一 现在多模态状态像 20 年 bert 模型 具备理解能力 但还没真正做通理解和生成 做通标志是同一个模型在理解任务上超越专门做理解模型 在生成任务上击败专门做生成模型 像 GPT-3.5 出来让很多做翻译等专用模型退休 [75][76][77] - Google Veo 3 效果很不错 但偏上一代模型 核心是做生成 工程做得比较好 把配乐等功能很好融合起来 技术突破和产品效果不是线性相关 Veo 3 把上一代技术发挥到非常强水平 但本身没带来太多范式上创新 [78][79][80] 初创或第三方 AI Infra 公司机会 - 训练侧商业模式不太成立 因为训模型的人非常懂行 难挣到这些人钱 他们也不愿把训练过程中研发细节交给第三方 否则泄露核心竞争力 排除训练后 推理侧还有一些机会 如推理加速 推理优化 [81][82] - 开源模型对 AI Infra 发展有促进作用 开源模型火起来 大家研究怎么把它跑得更好 促进 AI Infra 进步 但所有事情都有两面性 如果某个开源模型太火 大家花很多精力优化它 可能反而影响创新 如 DeepSeek 出来前 很多人优化 Llama DeepSeek 新范式一出 之前在 Llama 上很多积累就废掉 [83][84] 国产芯片与开源策略 - 现在 Infra 基本围绕英伟达卡做优化 虽然有团队尝试用国产芯片替代英伟达 但很多时候国产卡不是跑不动 而是性价比不如英伟达 当 DeepSeek 这样好用开源模型出现后 做一体机公司发现用英伟达卡跑 DeepSeek 比用国产卡更有性价比 更愿选择英伟达卡 [85][86] - 希望国产卡在技术层面具备竞争力 根据国产卡特性专门设计模型结构 让它在国产卡上高效运行 达到 SOTA 水平 阶跃开源 Step 3 是国内首个支持第三方商用 数百 B 规模视觉推理模型 能跑出 SOTA 水平 [87] - 视觉推理是模型根据图片 视频抽帧等视觉信息 直接完成推理任务 如让机器人去柜子拿东西 目标物品被杂物遮挡 机器人要进行视觉推理 进行任务拆解和决策 对于机器人或手机 汽车等智能设备 天然有视觉模态 根据周边环境 看到的东西决定怎么完成复杂任务 是典型视觉推理模型做的事情 视觉推理模型更常见应用场景是拍照解题 [88][89][90][91] - 之前有模型可做到拍照解题 但是把图片转成文字 再做文字推理 这种方式不是真正视觉推理 现在不需要中间转文字过程 让模型直接看图推理 如让机器人拿东西 目标物品周围有很多遮挡 难用文字描述清楚物理世界中位置关系 会丢掉很多信息 但模型直接看图 能直观知道该先拿开这个东西 再拿开那个东西 最后拿到目标物品 [92][93][94][95] - 选择开源是希望全国上下产业都获益 给所有国产芯片免费商用授权 开放模型权重 尽量帮他们做好模型适配 把 Step 3 在国产卡上推理成本压到很低水平 提高国产卡在性价比上竞争力 通过开源帮助国产芯片构建商业竞争力 也希望他们能推广模型 最后实现共赢 [96][97][98] 多模态成本与 Infra 人价值 - 多模态理解现在不算贵 但生成还是挺贵 尤其是视频生成 对成本降低蛮乐观 一年后应该能下降很多 能不能到十分之一不好说 但几分之一没问题 [99][100][101] - 在大模型时代 Infra 人容易被低估情况好很多 Infra 已是模型能力核心组成部分之一 DeepSeek 做得好是因为梁文锋是 Infra 人 梁文锋做量化出身 量化强调低延迟 需要对 Infra 有研究 在算法 数据和 Infra 之间 最擅长 Infra 这在业界是共识 DeepSeek 的 Infra 工程师数量比算法工程师多 但在很多大公司里 情况反过来 这可能是在过去一段时间里 一些大厂比较挣扎的原因之一 [102][103][104][105][106] - 在大模型快速发展阶段 需要有大量 Infra 人 把硬件设计和模型优化做到极致 并且做好垂直整合 但在大厂里 人才结构错配 不符合做好 AI 本质需求 [107] 给 AI Infra 从业者建议 - 建议靠近模型 或者靠近硬件 希望打心底对 Infra 感兴趣 有足够主观能动性去做各种各样 co-design [108][109] - Richard Sutton 的《The Bitter Lesson》核心观点是从长期来看 胜出永远是那些能最大程度利用计算资源方法 短期内各种奇技淫巧可能有效 但不能本质解决问题 虽然文章从算法视角写 但对 Infra 人同样有重大指导意义 因为最根本任务是设计出能发挥硬件全部性能模型和系统软件 让模型能充分利用这些资源 最希望是有朝一日 还能反过来影响硬件 换取摩尔定律不断延续 [109][110][111]
关于 AI Infra 的一切 | 42章经
42章经· 2025-08-10 22:04
AI Infra的定义与架构 - AI Infra包括硬件和软件两部分 硬件指AI芯片 GPU 交换机等设备 软件层面类比云计算分为三层 [3][4] - 最底层类似IaaS 解决基础计算 通信和存储问题 中间层类似PaaS 包含资源调度 资源管理等平台 MaaS归属这一层 [4][5] - 最上层近似SaaS应用层 但在AI Infra领域更倾向于理解为训练及推理框架的优化层 [5] AI Infra的发展历程 - 第一批AI Infra人如贾扬清 李沐 陈天奇等有算法背景 他们为充分利用GPU而开发AI Infra [6] - 第二批AI Infra人主要推动AI Infra在工业界的规模化应用 [6] - 大模型兴起使AI Infra进入主舞台 类似搜索引擎兴起时的机会窗口 可能十年二十年才出现一次 [7][9][10] AI Infra与传统Infra的差异 - AI Infra绝对核心是GPU 传统Infra核心是CPU [11] - AI Infra需要更极致 更贴合AI特殊需求 太阳底下没有太多新鲜事但要做到更极致 [12] - Infra人才相比算法更强调积累 算法依赖年轻人而Infra需要长期经验 [14] AI Infra的核心指标与价值 - 线上服务侧关注首字延迟 吐字稳定性 整体成本 训练侧关注每张GPU处理数据量和训练效率 [15] - 优化Infra可显著降低成本 例如1万张GPU每月租金1亿 利用率提升10%可节省1000万 [18][19] - 小公司可通过对比云厂商方案决定是否自建Infra 云服务商价值在于帮助小公司节省优化成本 [20][21] AI Infra的商业模式 - 第三方公司短期价值在于提供API集贸市场 让客户自由选择不同API [22] - 长期来看 第三方需与硬件或模型垂直整合才能建立壁垒 避免被云厂商或模型公司取代 [24][25] - MaaS服务商可通过与硬件厂商深度合作获得差异化优势 类似游戏机独占游戏 [26][27][28] AI Infra与模型效果 - Infra水平影响模型效果 优化更好的Infra可在相同算力下多学20%数据 提升模型效果 [36][37] - MFU是常见指标但单一指标难判断优劣 DeepSeek的MFU偏低但Infra并不差 [37][38] - DeepSeek成功关键在于选对优化目标 即给定推理成本训出最好模型 而非传统训练算力优化 [39][40][41] AI Infra的未来趋势 - 当前最重要指标是decoding速度 直接影响线上业务成本和强化学习效率 [44] - 多模态仍有突破可能性 需实现理解和生成的统一 类似GPT-3.5让专用模型退休 [63][64] - 开源模型促进AI Infra发展但也可能阻碍创新 如过度优化Llama影响新范式探索 [69] AI Infra的组织架构 - 理想协作是Infra 算法 数据团队共同决策 大厂中Infra常被视为支持角色缺乏影响力 [46][47][49] - 合理架构应是Infra人设计模型结构 数据人负责刷分 算法人主攻训练范式革新 [54] - 大厂人才结构错配 如DeepSeek Infra工程师多于算法工程师 而多数大厂相反 [81][82] AI Infra的创业机会 - 训练侧商业模式难成立 因训练方不愿泄露核心竞争力 推理侧如加速优化仍有机会 [67][68] - 国产芯片需专门设计模型结构提升性价比 Step 3开源模型支持国产卡商用并达到SOTA [69][73][74] - 多模态成本有望大幅下降 理解已不贵但生成仍贵 视频生成一年后可能降至几分之一 [75][76][77]
2025年7月中国AI大模型平台排行榜
36氪· 2025-08-07 18:12
行业趋势与热点 - WAIC 2025线下观展人次突破35万 汇聚800余家参展企业 展示3000多项前沿科技成果[15] - 具身智能成为焦点 AI从数字世界走向物理世界 宇树、云深处、优必选、银河通用等公司成为核心玩家[15] - 大模型改变具身智能定义 从规则编程演进为语言和感知联合驱动的类人决策模式[16] - 多智能体协作成为新趋势 解决单一智能体在复杂任务中的局限性[17] - 厂商密集开源模型 阿里、月之暗面、智谱、阶跃星辰等头部企业推动开源生态发展[19] - 开源促进技术传播和创新 吸引人才和资源涌入 形成国产模型生态根系[20] 主要企业动态 阿里巴巴 - 7月27日在WAIC上开源三款大模型:千问3基础模型、千问3推理模型和AI编程模型Qwen3-Coder[21] - Qwen3-Coder在SWE-Bench评测中比肩Claude4 使初级程序员一天完成资深程序员一周工作量[22] - 发布自研AI智能眼镜"哇哦Quark Glasses" 融合通义千问大模型和夸克AI能力[21] - 7月23日开源多模态推理模型HumanOmniV2 实现对多模态信息的全面理解[22] 字节跳动 - 7月30日发布豆包・图像编辑模型3.0、同声传译模型2.0和豆包大模型1.6系列升级版[23] - 7月24日发布端到端同声传译模型Seed LiveInterpret 2.0 延迟和准确率接近人类水平[24] - 7月22日推出通用机器人操作大模型GR-3 配套机器人ByteMini有22个自由度[24] - 7月21日推出AI编程助手TRAE 2.0的SOLO模式 开发效率提升40%[24] 华为 - 7月25日在WAIC发布昇腾384超节点 由384颗NPU互联组成 算力达300 PFLOPS[26] - 昇腾已适配和开发超过80个大模型 联合2700+行业合作伙伴孵化6000+行业解决方案[26] - 华为云新一代昇腾AI云服务在芜湖、贵安、乌兰察布和林格尔数据中心上线[27] 百度 - 7月26日在WAIC展示飞桨、文心大模型、昆仑芯等核心技术[28] - 7月17日上线无广告AI搜索App "TizzyAI" 接入文心大模型4.0[28] - 7月2日进行搜索十年来最大改版 搜索框升级为"智能框" 支持超千字文本输入[29] - 接入自研视频生成模型MuseSteamer 实现画面与音效协同创作[30] 腾讯 - 发布四款开源小尺寸模型 参数分别为0.5B、1.8B、4B、7B 消费级显卡即可运行[31] - 7月27日发布并开源业界首个3D世界生成模型——混元3D世界模型1.0[31] - 发布全栈AI IDE产品CodeBuddy IDE 提升软件开发效率[32] - 7月11日发布混元大模型最新版本hunyuan-t1-20250711 采用Hybrid-Transformer-Mamba架构[33][34] 科大讯飞 - 7月16日升级"讯飞星火X1" 多语言支持扩展至130+语种 中英同传首字响应时间缩短至2秒[35] - 星火法律大模型在政法场景应用 审查效率提升50%以上[35] - 在WAIC为40万场次会议提供实时翻译服务 覆盖50多个国家和地区[36] - 发布5款AI录音笔新品 在韩国众筹平台Wadiz实现单品销售冠军[37] 360集团 - 纳米AI升级为"多智能体蜂群" 全球首个迈入L4级别的智能体系统[38] - 已有超过5万个L3级推理智能体 上线10余类多智能体蜂群[38] - 宣布将推出AI录音笔与智能眼镜两款硬件产品[39] 智谱AI - 7月28日发布GLM-4.5系列 采用MoE架构 动态激活参数仅为总参数的1/10-1/3[40] - 在12项评测基准综合平均分中位列全球第三、国产第一、开源第一[40] - API调用价格低至输入0.8元/百万tokens、输出2元/百万tokens 仅为Claude 4的1/10[40] - 获得浦东创投集团和张江集团总额10亿元战略投资[40] 昆仑万维 - 7月30日开源多模态统一预训练模型Skywork UniPic[42] - 7月23日发布音乐模型Mureka V7 同步上线音频模型Mureka TTS V1[42] 商汤科技 - 发布日日新V6.5大模型 多模态推理能力超越Gemini 2.5 Pro、Claude 4-Sonnet[43] - 推理成本降低60% 在教育领域帮助学生提升学习效率15-30%[43] - 联合十余家国产生态伙伴发布"商汤大装置算力Mall"[43] - 发布具身智能平台「悟能」 支持机器人实现自主决策与物理世界交互[43] 快手 - 可灵AI在全球拥有超过4500万创作者 累计生成超2亿个视频和4亿张图片[45] - 服务超过2万家企业客户 覆盖广告营销、影视动画、游戏制作等行业[45] - 发布创意工作台"灵动画布" 提升创作效率及体验[45] 月之暗面 - 7月11日发布Kimi K2大模型 总参数规模达1万亿 采用MoE架构[48] - 在LM Arena排行榜登顶全球开源模型榜首 总榜排名第五[47] - SWE-bench Verified通过率达71.6% API调用价格仅为闭源模型的1/5[48] MiniMax - 在WAIC展示首款全栈通用智能体MiniMax Agent 30分钟开发完成演唱会选座系统[49] - 7月18日发布Agent全栈开发功能 支持零代码开发复杂应用[50] - 即将完成近3亿美元新融资 估值将超过40亿美元[50] 阶跃星辰 - 7月31日开源新一代基础大模型Step 3 总参数量达3210亿 激活参数量为380亿[51][52] - 与吉利汽车联合展示智能座舱Agent OS 具备多模态融合交互功能[51] - 推出Step 3o Vision和Step-Audio 2多模态模型[51] 技术突破与创新 - 多智能体蜂群架构实现智能体从单兵作战到群体协同的进化[17][38] - MoE架构广泛应用 显著降低推理成本[40][48][52] - 3D世界生成技术突破 几分钟内生成可360°漫游的虚拟世界[31] - 端到端同声传译模型达到人类水平 首字响应时间缩短至2秒[24][35] - 多模态融合技术成熟 支持图像、视频、文本联合理解与生成[41][43] 商业化进展 - 智能体在金融、医疗等行业规模化应用 审查效率提升50%以上[25][35] - API调用价格大幅降低 智谱GLM-4.5价格仅为Claude 4的1/10[40] - 硬件产品密集发布 包括AI眼镜、智能录音笔、机器人等[21][39][24] - 企业级应用快速发展 可灵AI服务超过2万家企业客户[45]
腾讯研究院AI速递 20250806
腾讯研究院· 2025-08-06 00:01
Claude Opus 4.1内测与行业动态 - Claude Opus 4.1正在内部测试,预计半月内发布,主打提升推理和规划能力 [1] - Anthropic年收入增长5倍达50亿美元,编程客户Cursor和GitHub Copilot贡献14亿美元API收入 [1] - Claude在AI编程领域优势明显但面临OpenAI等竞对威胁 [1] 腾讯ima功能更新 - ima新增AI播客功能,基于混元大模型提供自然对话与优质听感 [2] - 支持文件夹一键导入功能,大幅简化知识导入流程 [2] - 新增Xmind脑图解读与知识库内容置顶功能,提升知识管理效率 [2] 阿里开源Qwen-Image模型 - 通义千问开源200亿参数图像生成模型Qwen-Image,中英文文本渲染能力出色 [3] - 模型能精准生成含复杂文字的图像,包括PPT、海报和商品宣传图 [3] - 采用MMDiT架构和渐进式训练策略,多项基准测试达SOTA水平 [3] 华为开源盘古模型与CANN架构 - 华为开源三款盘古模型,规模分别为1B、7B和718B,Ultra MoE达7180亿参数 [4] - AI计算架构CANN及Mind系列应用使能套件全面开源开放 [4] - 采用Multi-head Latent Attention和负载均衡策略等创新技术 [4] 纳米AI多智能体蜂群技术 - 纳米AI推出多智能体蜂群,一句话生成10分钟高质量AI视频,降低95%制作成本 [5] - 引入L4级智能体标准,实现多智能体共享记忆和协作 [5] - 单步智能体成功率达99.97%,支持无限Token和上下文长度 [5] 谷歌大模型对抗赛 - 谷歌发起首届大模型对抗赛,8款顶级AI模型将在国际象棋领域对决 [6][7] - 参赛模型包括OpenAI、DeepSeek、Kimi、谷歌、Anthropic和xAI等 [6] - 比赛采用单败淘汰制,全程透明直播 [7] 苹果脑控技术进展 - 苹果与Synchron合作推出BCI HID协议,让脑电波成为原生输入方式 [8] - 渐冻症患者通过Stentrode脑机接口设备成功操控iPad [8] - 相比Neuralink采用低风险无创手术方式 [8] 宇树科技机器人产品 - 宇树科技发布四足机器狗Unitree A2,可负重100kg,最大奔跑速度5米/秒 [9] - 此前发布人形机器人R1,售价3.99万元起,被称为行业"价格屠夫" [9] - 公司2024年营收突破10亿元,Go1机器人全球出货量超5万台 [9] AI对社会结构影响预测 - 前谷歌高管预警2027年起AI将开启15年"地狱期",中产阶级或被消灭 [10] - 预测未来社会将只剩顶端0.1%富人和底层民众 [10] - 2042年后或进入AI主导的乌托邦时代 [10] 阶跃星辰开源基座模型 - 阶跃星辰开源基座模型Step 3,为3210亿参数的多模态推理模型 [11] - CEO坚信多模态生成与理解统一是通往AGI的必由之路 [11] - 聚焦智能终端Agent和垂类Agent两大方向 [11]
大模型降温?AI小虎讲新故事:抢做能用好用的Agent
南方都市报· 2025-08-01 22:28
Manus新功能发布 - Manus发布新功能Wide Research 目前仅对Pro用户开放 未来将向Basic和Plus用户开放 [1] - Manus近期经历裁员风波 与阿里在中国的合作搁置 [1] - Peak季逸超上次为产品录制视频是在今年3月Manus引发Agent热潮时 [1] WAIC展会动态 - 今年WAIC吸引800余家企业参展 40余款大模型亮相 2024年参展模型数量达近百款 [2] - "AI大模型六小虎"中的百川智能与零一万物缺席今年展会 [2] - 阶跃星辰发布新一代基础大模型Step 3 与吉利合作推出AI智能座舱银河M9 实现端到端语音大模型量产上车 [3] - 阶跃星辰已覆盖国内超一半头部国产手机厂商 深度合作打造手机Agent体验 [3] 大模型厂商新动向 - 月之暗面发布并开源万亿参数Kimi K2大模型 强调通用Agent任务能力 [5] - 智谱发布GLM-4.5和GLM-4.5-Air模型 在12个基准测试中显示其国内排名第一 [5] - Minimax发布行业最高难度运动场景视频生成模型Hailuo 02和MiniMax Agent等产品 [5] - 商汤科技林达华表示Agent依赖大模型的推理、反思、规划、决策能力 是技术落地重要载体 [5][6] Agent应用趋势 - Agent从通用走向垂类场景 行业更关注能否创造实际价值 [7] - 腾讯展示12个垂直智能体应用 覆盖企业服务、生活服务与办公效率场景 [8] - 腾讯共富AI智能体针对微信生态"土特产"小店与农文旅营销场景 [8] - 金山办公WPS AI 3.0搭载Agent能力 专攻办公场景 可实现PPT一键生成和自主排版 [8] 企业级Agent部署 - 极光集团推出Multi-Agent平台 内置多种AI Agent角色 90%业务布局海外 [10] - 极光采取端到端项目制交付方式 强调私有化部署重要性 [10] - 恒生活数科依托"恒纪元"大模型打造六大金融智能应用矩阵 加速金融服务转型升级 [11] - Agent在C端商业化可能性被探讨 翻译等场景可能成为突破口 [11]
国产大模型与AI芯片联盟,意义有多重大?
观察者网· 2025-07-30 20:03
模芯生态创新联盟成立 - 10家国产大模型、AI芯片和算力加速企业联合成立联盟,探索从大模型开发阶段适配国产AI芯片[1] - 联盟首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等近10家厂商[3] - 上海企业在联盟中占据半壁江山,体现上海高科技产业软硬结合与产业链一体化优势[1][23] 阶跃星辰Step 3模型突破 - 发布新一代多模态推理大模型Step 3,在国产芯片上推理效率最高达DeepSeek-R1的300%[3][8] - 基于NVIDIA Hopper架构芯片分布式推理时,实测吞吐量较DeepSeek-R1提升超70%[8] - 采用多矩阵分解注意力(MFA)架构,键值缓存用量较DeepSeek多头注意力机制降低93.7%[13] 国产芯片适配策略革新 - 颠覆传统开发顺序,在模型开发阶段主动适配国产芯片特性,避免硬件滞后于模型迭代[10] - 针对国产芯片制程工艺和HBM性能相对落后的现状,优化算法设计[10] - Step 3算术强度特性与昇腾910B高度匹配,解码效率超过华为盘古Pro MoE模型[11] 国产芯片训练挑战 - 国产芯片适配主要集中于推理环节,训练环节仍存在显著困难[15] - 国内最大全国产算力集群为科大讯飞与华为共建的"飞星二号",达万卡级别,总算力仍逊于英伟达集群[16] - 无问芯穹与上海算法创新研究院基于3000卡沐曦GPU集群,实现百亿参数模型600小时不间断训练[16] - 需重构底层工具链以适配不同芯片架构,工具链开发人才稀缺[17] 多模态技术商业化前景 - 多模态被视为下一代技术突破方向,基础架构创新空间较大[20] - 阶跃星辰预计2024年营收达10亿元,对比智谱同年收入约2-3亿元且亏损20亿元[22] - 已发布十余款多模态模型,覆盖语音、视觉、图像编辑、视频生成等垂直领域[22] - 智能终端Agent覆盖超一半头部国产手机厂商,与吉利合作实现端到端语音大模型首次量产上车[22] 上海AI产业生态优势 - 上海人工智能企业达24733家,较上年增长5.1%,新增注册资本超1000万企业104家[24] - 坐拥中芯国际、华虹等晶圆厂及长三角HBM先进封装产能,支撑GPU产业发展[24] - 上海模速空间孵化器日均Token调用量突破100亿[24] - 国有资本积极参与早期投资,如上海国投先导基金投资壁仞科技及阶跃星辰[24]
国产AI算力的“阶跃”时刻
观察者网· 2025-07-30 17:26
国产算力芯片生态发展 - 四家国产算力芯片领军企业创始人罕见同台对话 凸显行业协同趋势[1] - 阶跃星辰联合近10家芯片及基础设施厂商发起"模芯生态创新联盟" 首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯等[3] - 上海企业在模芯联盟中占据半壁江山 2024年上海人工智能企业达24733家 较上年增长5.1% 新增注册资本1000万及以上企业104家[17][18] 阶跃星辰Step 3模型突破 - Step 3在国产芯片上推理效率最高达DeepSeek-R1的300% 在NVIDIA Hopper架构芯片上吞吐量提升超70%[3][6] - 采用多矩阵分解注意力机制(MFA) 较DeepSeek的多头注意力机制(MLA)降低键值缓存用量93.7% 对国产芯片更友好[11] - 模型开发阶段主动适配国产芯片特性 在算术强度特性上与昇腾910B高度匹配[8] 多模态商业应用落地 - 阶跃星辰预计2024年全年营收达10亿元 对比智谱2024年收入约2-3亿元[13] - 多模态模型覆盖国内超一半头部手机厂商 与吉利合作实现端到端语音大模型首次量产上车[15] - 已发布十余款多模态模型 包括Step系列基础模型及语音、视觉理解、图像编辑等垂直模型[15] 硬件适配系统化创新 - 阶跃星辰将模型与硬件视为协同系统 在昇腾910B上解码效率超过华为盘古Pro MoE模型[9] - 模芯联盟旨在建立产品开发进度同步机制 未来可能提前获取芯片设计信息[12] - 国产芯片制程工艺和HBM性能相对落后 需在算法设计层面进行调整优化[8] 上海AI产业发展优势 - 上海坐拥中芯国际和华虹等主要晶圆厂 HBM所需先进封装产能多位于长三角[18] - 上海模速空间日均Token调用量突破100亿大关 基于3000卡沐曦GPU集群实现600小时不间断训练[18] - 上海国投先导人工智能产业母基金首投壁仞科技 生态体系将参与阶跃星辰最新融资[18]