量子位
搜索文档
Wan2.5+Midjourney V7,阿里夸克这个新AI鲨疯了!价格还砍一大刀
量子位· 2025-09-24 11:32
产品发布与定位 - 夸克发布"造点"AI平台 集成Wan2 5视频生成模型和Midjourney V7图像生成模型 实现双强模型联合[1][2][8] - 平台定位为国内首个支持音视频同步生成的AI平台 具备自动配乐 口型同步及音画对齐能力[8][21] - 移动端通过夸克APP提供对话式图片编辑功能 支持换发型 换背景等指令操作[36][38][44] 核心技术功能 - 图像生成采用Midjourney V7模型 支持多图参考 风格代码 精细化参数控制及120+特征词库[12][14] - 视频生成采用通义万相Wan2 5模型 支持音效自动匹配 声音驱动及复杂运镜要求[8][20][26] - 提供智能润色 美学控制滑块(风格化/怪异化/多元化) 亚洲人像优化及中文文字生成能力[11][12][14] 应用场景演示 - 商业级应用:支持微距广告拍摄(如口红质感特写) 赛博朋克城市大片及一镜到底竞速场景[18][22][23] - 文化元素应用:成功生成动态古风市井图 处理多层次吆喝声与细节动作 支持兵马俑 灯笼等中国元素[29][30][33] - 趣味生成:实现巨大猫猫喵叫 ASMR音效 兵马俑吃月饼等创意场景[35] 定价与推广策略 - Midjourney V7会员定价48元/月(生成400张) 较海外版10美元/月(200张)降价50%[49] - 视频生成功能开放7天免费体验(9月24日-30日) 通过降价策略降低创作成本[1][51]
OpenAI一口气建5个算力中心!英伟达喂饱孙正义和甲骨文
量子位· 2025-09-24 09:21
OpenAI数据中心建设计划 - OpenAI宣布与甲骨文及软银合作新建五个数据中心 作为其“星际之门”计划的一部分[1][8] - 新建数据中心将使“星际之门”计划提前完成 并将该项目的规划容量增加到近7GW 相当于七座大型核反应堆[2][3] - 其中三个数据中心与甲骨文合作建设 分别位于德克萨斯州沙克尔福德县 新墨西哥州多尼亚安娜县以及中西部一个未披露地点[9] - 另外两个数据中心由OpenAI和软银旗下SB Energy负责运营 分别位于俄亥俄州洛兹敦和德克萨斯州米拉姆县[10] OpenAI与甲骨文的合作模式 - OpenAI与甲骨文的合作模式为“以租代售” 数据中心主要由甲骨文公司拥有和运营 OpenAI以主要租户身份使用[13] - 双方此前已在得克萨斯州阿比林合建数据中心 并于七月达成协议决定对该数据中心进行扩建 开发高达4.5GW的数据中心容量[12] - 甲骨文正在阿比林建设八个数据中心大厅 每个大厅约100MW 建成后将容纳超过40万块GPU 规模达到1.4GW[15] - 阿比林的数据中心已在甲骨文云基础设施上运行 并为OpenAI的训练和推理工作负载提供支持[14] 英伟达对OpenAI的投资 - 英伟达宣布计划用1000亿美元投资OpenAI 用于建设10GW的数据中心 相当于400-500万块GPU[16] - 1000亿美元投资将分批进行 OpenAI每建成1GW的设施就获得100亿美元投资 首批计划明年下半年完工[17] - 该投资金额相当于OpenAI估值的五分之一[19] - 英伟达的投资消息提高了OpenAI按计划向甲骨文采购云资源的确定性[19] 行业合作格局变化 - OpenAI 甲骨文与英伟达形成了紧密的三角合作关系:OpenAI采购甲骨文云服务 甲骨文购买英伟达GPU 英伟达投资OpenAI[4] - OpenAI的“星际之门”计划是一个总称 用于指代其所有数据中心项目 其中不包括与微软合作开发的项目[21][22] - 作为OpenAI老牌投资方的微软 在“星际之门”计划的蓝图中已被排除在外[23] - OpenAI首席执行官奥特曼透露 公司在算力建设方面未来几个月还会有新的计划 合作伙伴以及一些“新的想法”[5]
8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉
量子位· 2025-09-23 19:01
模型发布与市场反响 - 行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5技术报告正式发布 [1] - 模型在HuggingFace和ModelScope平台的合计下载量已超过22万次 [4] - 模型开源后广受社区好评,并登上HuggingFace Trending榜单第二名 [3] 核心技术突破 - 提出统一的3D-Resampler架构,实现最高96倍的视觉压缩率,将6个连续视频帧压缩为仅64个视觉Token [8][11] - 采用面向文档的统一OCR和知识学习范式,摆脱对外部解析工具的依赖,在OmniDocBench上取得通用MLLM中的最好表现 [8][26] - 运用可控混合快速/深度思考的多模态强化学习策略,在节省30%训练开销的同时,推理耗时仅为同规格深度思考模型的42.9%-68.2% [9][29] 性能评测表现 - 模型参数量为8B,在OpenCompass综合评测中取得77.0的平均分,超越GPT-4o-latest和Qwen2.5-VL-72B等模型 [2][34] - 在Video-MME视频理解评测集上,时间开销仅为同级模型的1/10,显存占用相比Qwen2.5-VL7B减少至46.7% [8][36] - 在幻觉抑制方面表现优异,ObjHalBench的CHAIRs指标为9.3,优于对比模型 [33] 效率与成本优势 - 统一的3D-Resampler架构实现了图像与视频处理的统一编码,从2D扩展至3D仅需轻量化的SFT阶段,极大降低训练成本 [12][14] - 在OpenCompass评测中,模型以7.5小时的推理时间获得77.0的分数,优于其他同规模模型所需11.0小时和17.5小时 [37] - 高密度视频压缩技术使模型在处理视频时具有显著的效率优势,时间开销大幅降低 [36] 行业影响与学术认可 - MiniCPM-V系列模型由清华大学自然语言处理实验室和面壁智能联合开发,系列模型总下载量超过1300万次 [49] - 相关技术论文发表于国际著名期刊Nature Communications,谷歌学术引用超过600次 [49] - 系列模型曾入选HuggingFace 2024年度最受欢迎和下载开源模型榜单、中关村论坛年会10项重大科技成果等 [49]
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
量子位· 2025-09-23 19:01
核心观点 - 浙江大学与通义实验室Mobile-Agent团队提出UI-S1框架 采用半在线强化学习训练范式 显著提升GUI智能体在动态多轮任务中的表现 在AndroidWorld任务中达到34.0%成功率 接近GPT-4o的34.5% [1][2][25] - 该方法融合离线训练稳定性与在线学习长程优化能力 通过模拟在线交互过程 在不依赖真实环境交互的前提下提升模型连贯性与推理能力 [2][4][9] - 创新性体现为三大核心技术:半在线机制模拟在线交互 补丁机制修复采样偏差 长程奖励建模捕获轨迹级优势 [10][12][20] 技术架构创新 - 半在线机制在离线数据中保留模型自身原始输出(动作选择与思维链) 使模型感知历史行为并调整后续决策 增强策略一致性与多轮连贯性 [14][15][16] - 补丁机制提供三种可配置策略:Thought-Free Patch仅修正动作 On-Policy Thought Patch引导模型生成正确推理 Off-Policy Thought Patch调用外部模型重写思维链 [17][18] - 长程奖励建模引入折扣因子γ(最优值为0.5) 结合未来步骤潜在价值形成综合奖励 弥补传统离线RL无法捕获未来收益的缺陷 [20][21][43] 性能表现 - 在AndroidWorld任务中UI-S1-7B达到34.0%成功率 较基础模型提升+19.1个百分点 接近GPT-4o(34.5%)且优于UI-TARS-7B(33.0%) [25][27] - 单轮任务保持优势 GUI Odyssey任务较基础模型提升+7.1个百分点 证明未牺牲局部精度 [27][28] - 动态评测指标SOP与真实在线性能高度对齐 支持更高任务多样性和更快评估速度 [23] 机制有效性验证 - 提高补丁阈值显著提升性能:当阈值从0增至8时 AndroidWorld得分从21.0提升至34.5 [31] - On-Policy Thought Patch性能最优但计算开销大 Thought-Free Patch性价比最高且接近最优性能 [32][33] - 较高补丁阈值维持策略熵 避免过早收敛 促进探索多样性 [19][35][36] 数据与扩展性 - 性能增长符合指数型数据规模律 补丁阈值从0增至无穷时指数系数k从-1.13提升至-0.73 表明单位数据边际收益改善 [38][39][40] - 联合使用SFT与半在线RL效果最优 AndroidWorld任务成功率34.0% 分别高于单独使用Semi-online RL(30.4%)和SFT(21.7%) [27][44]
中国AI高速路,华为给出开源开放方案
量子位· 2025-09-23 19:01
超节点技术架构创新 - 华为发布创新的超节点架构,覆盖数据中心到工作站的全场景产品线 [3] - Atlas 950 SuperPoD采用正交架构实现零线缆电互联和液冷接头浮动盲插设计,光模块液冷可靠性提升一倍 [4] - 创新的UB-Mesh递归直连拓扑网络支持8192卡无收敛全互联,以64卡为步长按需扩展 [4] - Atlas 850是业界首个企业级风冷AI超节点服务器,支持多柜灵活部署形成1024卡集群,无需改造现有风冷机房 [8] - Atlas 350标卡采用昇腾950PR芯片使向量算力提升2倍,推荐推理场景性能提升2.5倍 [10] - TaiShan 950 SuperPoD具备百纳秒级超低时延和Tb级超大带宽,提升数据库及大数据场景业务性能 [13] 性能对比优势 - Atlas 950超节点相比英伟达NVL144规模达56.8倍、总算力达6.7倍、内存容量达15倍(1152TB)、互联带宽达62倍(16.3PB/s) [5] - 对标英伟达2027年计划上市的NVL576仍保持领先优势 [6] - Atlas 950 SuperCluster规模达xAI Colossus的2.5倍,算力达1.3倍,成为全球最强算力集群 [48] 开源开放生态战略 - 全面开放超节点技术硬件包括NPU模组、风冷/液冷刀片、AI标卡等基础硬件 [18] - 开放灵衢协议和超节点参考架构,允许产业界基于技术规范自研产品 [17] - 操作系统灵衢组件全部开源并合入openEuler等社区,支持用户自行迭代维护 [20] - 昇腾CANN全面开源开放,Mind系列组件同步开源并支持PyTorch等开源社区 [20] - 通过开源降低适配成本,推动产业协同发展和行业场景化解决方案建设 [22][23] 灵衢协议技术特性 - 灵衢(UnifiedBus)是面向超节点的互联协议,实现资源池化、线性扩展和长稳可靠 [33] - 通过大带宽低时延互联网络统一通信协议,消除协议转换开销并实现全局资源池化 [31] - 解决传统集群规模扩大时效率下降和可靠性难题,使集群像单机一样协同工作 [32] - 协议全面开源支持自由开发系统调度软件,促进生态繁荣 [34][36] 产业应用与生态建设 - 超节点已服务于互联网、金融、运营商、电力、制造等行业 [29] - 构建开放的综合交通枢纽式生态,打破封闭式协议隔阂 [40][42] - 支持不同规模用户搭建AI高速路,实现硬件软件算法共建共赢 [51] - 形成AI时代自主可控的技术基座和标准话语权 [52] - 通过最大市场优势形成创新飞轮效应,类似新能源汽车发展路径 [53]
Qwen开源版Banana来了!原生支持ControlNet
量子位· 2025-09-23 16:13
新图像编辑模型Qwen-Image-Edit-2509 - 支持多图融合功能 包括人物+人物、人物+商品、人物+场景等多种玩法[2] - 增强单图一致性 涵盖人物、商品、文字等要素的一致性处理[2] - 原生支持ControlNet 可通过关键点图改变人物姿势并实现换装需求[4] 多图输入应用场景 - 人物+人物生成结婚照 支持中式及西式婚礼场景定制[7][12] - 人物+场景实现环球旅行 自动适配场景细节如神态、光影等[14][16] - 人物+物体快速生成奢侈品展示 如豪车与包包的高精度合成[17] 高级图像编辑能力 - 支持关键点姿势编辑与同步换装 适用于证件照、形象照及生活照[20][22][25] - 多姿势编辑功能 涵盖俏皮动作、比心、举黑板等场景[29] - 长文字渲染与老照片修复 包括照片上色及破损修复[33][36][40] 文字与物体处理增强 - 文字一致性支持字体类型、颜色及材质编辑[50] - 定点文字修改功能 可精确修正圈出的错字[55] - 多物体处理能力 成功处理含14只猫的复杂图片[47][49] 深度控制与草图生成 - 深度图控制保持物体与场景一致性 生成泥泞道路、丛林等复杂场景[60] - 关键点生成支持全类型人物 涵盖不同性别、时代及着装[60] - 草图控制生成功 实现时空穿梭感的高氛围图像生成[64] 全模态模型Qwen3-omni - 跨模态领先性能 在36项音频及音视频基准测试中获32项开源SOTA及22项总体SOTA[69] - 文本性能表现突出 WritingBench得分83.0 超越GPT-4o的75.5及Gemini-2.5-Pro的80.5[70] - 音频处理能力卓越 Fleurs-zh错误率仅2.19% 低于Qwen2.5-Omni-7B的2.54%及Gemini-2.5-Pro的2.71%[70] 实时与长音频处理 - 端到端音频对话延迟低至211ms 视频对话延迟低至507ms[72] - 支持长达30分钟音频理解 具备长上下文处理能力[73] 个性化与工具集成 - 支持system prompt定制 可修改回复风格及人设如广东幼儿园老师或四川女汉子[74][75] - 支持function call工具调用 实现与外部服务高效集成[76] - 开源通用音频Captioner模型 具备低幻觉及详细描述能力[77] 多模态应用扩展 - 实时翻译与网页内容总结 支持多语言输出[71] - 音乐风格分析与数学推理 兼容器语音助手功能[78]
DeepSeek V3.1更新「最终版」!下一次是V4/R2了???
量子位· 2025-09-23 11:14
模型更新与性能改进 - DeepSeek-V3.1-Terminus版本发布 主要针对用户反馈问题修复 包括缓解中英文混杂和偶发异常字符问题[2][3] - 新版本优化Code Agent与Search Agent表现 提升AI Agent能力[7][8] - 模型评测显示Terminus版本在多数基准测试中表现提升 包括MMLU-Pro从84.8提升至85.0 GPQA-Diamond从80.1提升至80.7 Humanity's Last Exam从15.9大幅提升至21.7[9] - Agent能力显著增强 BrowseComp从30.0提升至38.5 SimpleQA从93.4提升至96.8 SWE Verified从66.0提升至68.4 SWE-bench Multilingual从54.5提升至57.8[9] 版本命名与未来规划 - Terminus版本名称暗示可能是V3系列最终版本 下一步可能推出V4或R2架构[5][7][11] - 公司被曝预计2024年底推出新模型 重点发展更强大AI Agent能力[8][14] - 部分基准测试出现性能波动 如Codeforces评分从2091下降至2046 引发用户讨论[9][10] 模型获取与行业动态 - 新模型已在Hugging Face和ModelScope平台开放下载[15] - 行业正在开展2025人工智能年度榜单评选 设立企业 产品 人物三大维度五类奖项[15]
全是套路!英伟达千亿美元投OpenAI,奥特曼拿钱买卡还让甲骨文赚差价
量子位· 2025-09-23 09:10
英伟达与OpenAI战略合作 - 英伟达计划向OpenAI投资最高1000亿美元 分阶段投入 首笔100亿美元将在首个1GW数据中心部署完成时支付 预计2026年下半年基于Nvidia Vera Rubin平台落地[1][3][13] - OpenAI承诺构建至少10GW的AI数据中心 全部采用英伟达系统 相当于部署400-500万个GPU[1][11] - 建成1GW数据中心的成本约为500-600亿美元[2][12] 三方供应链与资金循环 - OpenAI向甲骨文支付3000亿美元云服务订单 推动甲骨文单日股价暴涨36% 市值增长2510亿美元[16] - 甲骨文需向英伟达采购GPU以支持云服务 形成资金流动闭环:英伟达投资OpenAI→OpenAI支付甲骨文→甲骨文采购英伟达芯片[6][17][18] - 三方各获核心利益:OpenAI保障算力基础 英伟达锁定客户并巩固供应链地位 甲骨文提升云计算市场份额[18][23][24] 合作背景与战略意义 - OpenAI的ChatGPT周活用户达7亿 需大规模算力支持模型迭代与运维[22] - 英伟达通过投资强化与AI龙头企业的绑定 同时近期还对英特尔、Nscale等公司投资 并斥资超9亿美元收购AI Infra初创公司[30][31] - 双方强调计算基础设施为未来经济基石 合作将推动AI领域下一次飞跃[26][27][29]
百度开源视觉理解模型Qianfan-VL!全尺寸领域增强+全自研芯片计算
量子位· 2025-09-22 19:16
文章核心观点 百度智能云千帆推出全新视觉理解模型Qianfan-VL系列并全面开源 该系列包含3B、8B和70B三个版本 针对企业级多模态应用场景深度优化 在通用能力 垂直场景OCR和教育以及思考推理方面表现卓越 基于百度自研昆仑芯P800芯片实现高效计算 在多项基准测试中达到SOTA水平[1][2][3] 模型性能与效果 - 在通用能力基准测试中 模型性能随参数规模增大提升显著 3B 8B 70B版本在ScienceQA测试中精准度分别达95.19% 97.62% 98.76% 在RefCOCO物体识别测试中平均得分达85.94% 89.37% 91.01%[2][4] - 多尺寸模型满足不同场景需求 3B 8B 70B三种规格覆盖不同规模企业需求 8B和70B模型支持通过特殊token激活思维链能力 覆盖复杂图表理解 视觉推理和数学解题场景[3] - OCR与文档理解能力增强 具备全场景OCR识别能力 包括手写体 数学公式 自然场景文字和卡证票据信息结构化提取 在OCRBench测试中得分达831 854 873[3][5][6] 技术架构与计算能力 - 采用先进多模态架构设计 通过持续预训练和四阶段训练策略实现领域能力显著提升 构建面向多模态任务的大规模数据合成管线 涵盖文档识别 数学解题 图表理解等核心任务[9][12] - 基于百度自研昆仑芯P800芯片构建超大规模分布式计算系统 支持单任务5000卡规模并行计算 显著提升大模型任务处理性能与运行效率[1][12] 应用场景案例 - 数学推理场景中 8B和70B模型在MathVista-mini测试中得分达69.19%和78.6% 在MathVision测试中得分达32.82%和50.29% 展现卓越复杂图表理解和数学解题能力[7][8] - 文档理解场景中 模型可精准解析财务报表等复杂版面文档 实现自动版面元素分析和表格图表解析 支持文档智能问答与结构化解析[27][29][31] - 模型同样适用于图表分析 视频理解等场景 均呈现卓越效果[33] 开源与推广 - Qianfan-VL系列模型全面开源 提供3B 8B 70B三个版本 即日起至10月10日可在百度智能云千帆平台免费体验8B和70B模型[1][34] - 开源资源包括模型Blog GitHub主页 Hugging Face仓库和技术报告 全方位支持开发者使用和研究[34]
腾讯用AI把美术管线重新做了一遍,混元3D Studio架构曝光
量子位· 2025-09-22 19:16
核心观点 - 腾讯混元3D Studio是一个专为3D设计师、游戏开发者和建模师打造的专业级AI工作台 通过集成七大核心技术模块实现从概念设计到动画生成的全流程自动化 将3D资产生产周期从几天缩短至分钟级 [3][4][6] 核心技术模块 组件拆分 - 利用连通性分析和语义分割算法自动拆解复杂模型为功能独立组件(如步枪的弹匣、枪管和枪托) 支持独立编辑和动画制作 [9] - 采用原生3D分割模型P³-SAM进行部件检测 包含特征提取器、三个分割头和IoU预测头 通过FPS生成点提示和NMS合并冗余掩码 [14][15][18] - 提出可控扩散框架X-Part 基于部件级提示和语义特征扰动实现有意义的部件分解 在多个基准测试中达到最优表现(CD1指标0.11 Fscore-0.1达0.80 Fscore-0.5达0.71) [21][25][26] 可控图像生成 - 支持文本或图像输入生成多视图设计图 专用A-Pose标准化模块确保角色骨架姿势一致性 风格迁移模块匹配目标游戏美术风格 [9][32] - 图像风格化模块通过三元组训练数据(输入参考图像 风格类型 风格化3D设计图)实现写实图像与风格化作品的精确映射 [33][34] - 姿态标准化模块采用分辨率递进训练(512×512至768×768) 结合SFT和DPO微调提升生成图像在面部、复杂服饰等细节的保真度 [40][41] 高保真几何生成 - 基于Hunyuan3D框架 包含ShapeVAE变分编码解码结构和DiT扩散模型 通过21层Transformer堆叠(含MoE子层)提升模型容量 [43][45][46] - 支持单视图/多视图图像条件生成 引入包围盒条件控制(编码高宽长为条件向量)和多视图图像条件约束(通过LoRA适配层合成多视角视图) [47][49][51] - 采用流匹配目标训练 将高斯噪声映射到形状潜变量 实现高效高质量采样 [47] 低模拓扑生成 - 采用自回归模型PolyGen从高模点云预测低模拓扑顶点和面 通过Blocked and Patchified Tokenization(BPT)方法提升训练推理效率 [57][59][60] - 网络结构包含点云编码器(Perceiver架构)和Hourglass Transformer解码器 采用截断训练策略(4k面序列片段)和滚动缓存推理 [60] - 基于拓扑感知掩码的DPO后训练 通过边界边比(BER)、拓扑分数(TS)和豪斯多夫距离(HD)指标优化网格质量 [61][62][63] 语义UV展开 - 提出SeamGPT框架 通过自回归方式生成艺术家风格裁切缝 将曲面裁切问题建模为序列预测任务 [71][72] - 采用交叉熵损失和KL散度损失训练 结合随机缩放(0.95-1.05区间)、顶点抖动和旋转等数据增强技术 [73] - 在Bowl(0.49)、Ball(0.31)等多个模型上达到最优平均分数(1.95)优于Xatalas(1.98)、FAM(8.52)等方法 [74][75] 纹理生成与编辑 - 将2D扩散模型扩展为几何条件多视角生成模型 支持文本和图像引导的PBR材质编辑(包括基础色、金属度、粗糙度和法线贴图) [77][80][81] - 基于8万份高质量PBR材质数据集训练 采用MoE架构自适应处理图像输入(通过CLIP相似度判断几何匹配度) [81][83][84] - 创新性适配3D VAE框架压缩多域材质数据 实现4K分辨率纹理合成 [95] 绑骨蒙皮与动画特效 - 分人形角色动画(基于22关节模板骨骼)和通用角色动画(自回归骨骼生成+几何拓扑感知蒙皮)两条处理路径 [97][98][99] - 显式融合骨骼特征、顶点特征和拓扑关系 提升蒙皮精度和稳定性 [99] - 支持姿势标准化(转换任意姿势为T型姿势)和动作重定向 输出可直接用于Unity或Unreal Engine的可驱动动画资产 [99][105] 系统集成与输出 - 通过统一资产图协同管理各模块输出元数据 实现参数化控制和增量式更新 无需全量重算 [103][104] - 最终输出可根据目标游戏引擎规范配置导出 支持专业流水线应用 [105]