量子位

搜索文档
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
量子位· 2025-06-20 13:53
预训练模型架构探索新方法 - 提出"嫁接"技术可直接修改预训练模型组件来研究新架构,避免从头训练的高成本[2] - 该方法类比软件开发中的代码复用逻辑,显著提升研究效率[3] - 在DiTs模型测试中,混合设计仅需2%预训练计算量即可保持原模型性能[5] 技术实现细节 - 采用两阶段架构编辑法:激活蒸馏(L1/L2损失函数)和轻量级微调(5×10-5权重衰减)[16] - 自嫁接对照实验显示仅需8k样本初始化,10%训练数据微调即可恢复模型性能[19] - 计算图修改涉及MHA/MLP算子替换,需解决新算子初始化和误差累积两大问题[14][15] 实验验证结果 - 混合架构实验:50% MHA替换为SWA时FID仅增0.4,全替换导致FID>75[20] - 文生图模型PixArt-Σ经嫁接后生成速度提升1.43倍(235ms→164ms),质量下降<2%[23][24] - 并行化改造使DiT-XL/2深度减半(28→14层)仍保持更优生成质量[25][26] 应用价值与局限 - 22种嫁接模型已开源,涵盖MLP宽度调整(r=3/6)和Hyena系列算子替换[22][29] - 当前局限在于仅验证DiT-XL/2模型及特定算子替换方案[27] - 方法显著降低架构探索门槛,尤其适合计算资源有限场景[28]
小扎抢人抢到了Ilya头上:收购不成,转头挖走CEO
量子位· 2025-06-20 11:28
被小扎pick的是 Daniel Gross ,Ilya初创公司SSI (Safe SuperIntelligence) 的创始三人组之一,也是SSI的现任CEO。 鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 扎克伯格为了AGI大业疯狂挖人,这回挖到了Ilya头上。 最新消息是,小扎想连人带团队把Ilya的初创公司揽入麾下,遭拒之后,扭头就挖Ilya的联创去了。 △ Daniel Gross 除了Gross本人,这次Meta还向GitHub前首席执行官Nat Friedman抛出了橄榄枝,并计划入股Gross和Friedman共同经营的风险投资基金 NFDG。 p.s. 这家风险投资基金本身就投了SSI,还投了Pika、Perplexity等AI初创明星。 消息还称两人将在Alexandr Wang领导下开发产品——就是 扎克伯格上周刚拉来加入超级智能小组的Scale AI创始人 。 CEO弃估值320亿美元SSI而去 还是先来看看这次小扎出手"捕获"的AI人才履历。 Daniel Gross ,1991年生人,毕业于哈佛大学计算机系。 在2024年6月加入Ilya Sutskever的创业团队之前 ...
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-20 11:28
核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - **基础预训练阶段**:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - **监督微调阶段**:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - **RGPO强化学习**:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - **视觉理解**:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - **图像生成**:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - **推理任务**:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]
Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软
量子位· 2025-06-19 17:07
代码修复评测基准 - 主流评测基准SWE-bench存在数据过时、覆盖面窄、维护成本高等问题,限制AI模型真实能力评估 [1] - 微软发布SWE-bench-Live新基准,引入GitHub最新Issue提升实时性,实现全自动化环境构建与更新 [1] - 首批任务覆盖1319个真实Issue,涉及93个开源项目,领域包括AI/ML、DevOps、Web开发等,增强评估多样性 [14][16] REPOLAUNCH技术框架 - 采用智能Agent框架REPOLAUNCH,自动识别CI/CD配置和README文件,完成Docker环境搭建与测试验证 [3][5] - 通过ReAct模式(推理+行动)迭代调试环境,模拟开发者行为并固化Docker镜像确保可复现性 [7][8] - 支持每月自动更新,消除数据泄露与模型过拟合风险,同时可扩展至新手环境配置、遗留项目重建等场景 [3][9][12] 模型性能对比 - 传统基准SWE-bench Verified中OpenHands+Claude 3.7 Sonnet准确率43.2%,在SWE-bench-Live降至19.25%,揭示静态基准过拟合问题 [10] - 模型对非原有SWE-bench仓库的Issue修复成功率(18.89%)显著低于原有仓库(22.96%),显示对新场景适应不足 [13][14] - 模型在单文件修改任务表现较好,但面对多文件、50万行以上大型项目时准确率急剧下降 [18] 基准技术指标 - 平均每个任务涉及3.3个文件修改,9个代码块(Hunks)和102.6行代码变更 [16] - 测试用例规模差异大:F2P测试平均5.4个,P2P测试中位数达1865个 [16] - 仓库代码规模中位数52k行,文件数量中位数222个,反映真实开发场景复杂度 [16]
英伟达中国一把手造国产GPU,冲刺IPO了
量子位· 2025-06-19 17:07
公司上市进展 - 摩尔线程IPO辅导状态变更为"辅导验收",辅导机构为中信证券[1][2] - 公司于2020年6月成立,注册资本3.3亿元,实控人张建中持股44.07%[7][8] - 2023年11月启动上市时估值达255亿元,累计完成6轮融资超45亿元[3][4] 创始团队与技术背景 - 创始人张建中曾任英伟达全球副总裁兼中国区总经理,团队具备近20年GPU行业经验[3][8] - 公司成立19个月即交付国产全功能GPU"苏堤",采用MUSA架构集成四大计算引擎[9] - 当前产品线覆盖芯片/显卡/集群,提供AI加速计算基础设施解决方案[9] 产品布局与技术突破 B端产品 - 推出大模型智算加速卡MTT S4000、训推一体机MCCV D800等AI基础设施[10] - 2024年3月通过中国信通院大模型适配认证,支持DeepSeek开源项目[11] - 专业显卡MTT X300在数字孪生/GIS领域性能提升,5月完成渲染优化[13] C端产品 - 2022年推出支持DirectX 12的消费级显卡MTT S80,配备PCIe Gen5接口[13] - 2024年5月显卡驱动升级使3DMark测试成绩提升35%[13] 资本市场表现 - 投资方包括红杉中国、腾讯、字节跳动、小马智行等头部机构[5] - 2024年2月获高粱基金战略投资,概念股和而泰盘中涨幅超8%[4][6] 行业竞争格局 - 同期启动IPO的GPU企业包括燧原科技(融资近70亿元)和壁仞科技[14] - 燧原专注AI芯片,腾讯持股20.49%;壁仞2024年获上海国投领投融资[14]
嚯!国产视频模型的物理水准超神了 | 实测MiniMax海螺02
量子位· 2025-06-19 14:25
核心观点 - MiniMax发布新一代视频生成模型Hailuo 02,在物理场景理解和复杂指令执行方面表现突出,支持1080p高清输出和多种视频时长[4][15] - 该模型在体操、镜子成像等复杂物理场景中表现优异,相比早期模型违背常识的概率大幅降低[4][32][34] - 模型能够精准执行包含多要素、大跨度的复杂指令,生成效果稳定且具有纪录片质感[36][40][44][46] - 在图生视频方面,模型可直接生成可用于广告营销等商业场景的高质量视频,无需后期剪辑[56][57][59] - 模型采用噪声感知计算重分配(NCR)架构,训练和推理效率提升2.5倍,参数量达前代3倍,训练数据提升4倍[77][79][82] - 公司正构建从文本、语音到视频的全模态能力体系,技术布局覆盖基础模型和Agent等方向[86][87] 技术性能 - 原生支持1080p高清视频输出,同时提供768p选项,画面质感显著提升[4][15] - 支持6秒和10秒两种视频时长,可通过拼接延长[15] - 在Arena ELO基准测试中得分1332,超越谷歌Veo 3(1241)和快手Kling 2.0(1194)[12] - 训练效率提升2.5倍,参数量达前代3倍,训练数据规模扩大4倍[79][82] - 采用NCR架构实现降本增效,推理成本创新低[77][84] 应用场景 - 体育场景:精准生成体操运动员动作和复杂物理交互[1][2][4] - 影视特效:可生成雨滴悬停等好莱坞级特效画面[65][66][69] - 广告营销:直接生成Labubu玩偶宣传片等商业级视频[57][58] - 社交媒体:支持旅游打卡、灵魂画手等短视频玩法[61][63][50][52] - 纪录片制作:能处理四季变换等时间跨度大的专业需求[44][46] 用户体验 - 新用户赠送500免费积分,生成10秒768p视频消耗50积分[14] - 提供预设提示词库和运镜指导资源,支持AI自动优化提示词[71] - 网页和APP端同步上线,国内用户使用友好[12][13] - 生成效果稳定,相同提示词产出结果一致性高[40] 行业地位 - 视频生成能力进入全球第一梯队,部分表现超越谷歌Veo 3[11][73] - 在物理场景理解和复杂指令执行方面建立技术壁垒[22][32][52] - 国产模型中率先实现语音生成领域全球基准测试双料第一[86] - 通过技术创新持续提升性价比,重新定义行业标准[77][84]
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
量子位· 2025-06-19 14:25
核心观点 - GUIRoboTron-Speech是首个能够直接利用语音指令和设备屏幕截图进行端到端决策的自主GUI智能体,旨在提供更直接、高效且无障碍的交互体验[1] - 语音模态蕴含独特价值,不仅传递指令内容,还包含身份、情绪等非言语线索,对实现真正个性化和智能化交互至关重要[2] - 传统"语音识别转录+文本GUI代理"方案存在计算负担、延迟和声学信息丢失等问题,而GUIRoboTron-Speech通过端到端语音GUI代理直接处理语音指令和屏幕截图[4][5] 技术方案 数据生成 - 利用随机音色TTS模型将大规模文本指令数据集转换为包含多种说话人风格和音色的高质量语音指令数据集,解决数据稀缺难题[8] 训练框架 - 基础Grounding阶段:模型学习建立语音指令与GUI界面视觉元素之间的精确对应关系[10] - 规划Planning阶段:模型掌握多步骤复杂任务的理解与执行能力,展现逻辑推理与任务规划能力[10] - 启发式混合指令训练策略:混合使用语音和文本指令,强制模型同等关注两种模态,缓解模态偏见[11] 性能表现 模态对比 - 纯语音指令相比纯文本指令平均定位精度低1.6%,但混合指令训练策略使语音指令性能超越纯文本指令(81.0% vs 80.7%)[12] - 在planning能力训练中,基于混合指令训练的语音指令表现优于纯文本指令[13] 基准对比 - 在AndroidControl-Low上实现最高平均成功率(+1.3%),在AndroidControl-High上领先7.8%[14][15] - 在GUI-Odyssey上仅次于使用内部数据的UI-TARS模型[14][15] - 与同参数量级基线对比,GUIRoboTron-Speech在多项指标上保持领先地位[14] 应用场景 - 在指令长度较短(用户意图清晰)场景下,语音指令表现优于文本指令,但文本指令在承载复杂用户意图时更具优势[15] - 未来需重点解决复杂用户指令的稳定承载问题[16] 研发方向 - 美团招聘实习生岗位涉及GUI自动化操作、端到端强化学习、2D/3D世界模型探索、多智能体交互等前沿技术方向[17][18] - 另一岗位聚焦图表数据多模态理解,重点开发chartQA和chart2Coder技术,提升推理性能和评测多样性[18]
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
量子位· 2025-06-19 14:25
核心观点 - AI大牛田渊栋团队提出连续思维链(CoCONUT)方法,通过连续隐向量实现并行搜索,显著提升模型在复杂任务(如有向图可达性问题)中的推理效率[1][2][7] - 连续思维链类比量子叠加态,可同时编码多路径信息,相比离散思维链(需O(n²)步解码)仅需D步(D为图直径),理论效率提升显著[7][8] - 实验显示2层连续CoT模型在ProsQA数据集上准确率接近100%,远超12层离散CoT模型(83%)和无CoT基线(75%)[27][28] 技术实现 注意力选择器机制 - 设计类似导航仪的注意力选择器,根据特定标记(如边结束token)动态聚焦源/目标节点,确保信息精准提取[11][12][13] - 无明确标记时自动回溯初始条件,防止模型迷失[14] 双层Transformer架构 - **第一层**:5个注意力头整理边信息,标注起点/终点并保留初始节点嵌入[19][20][21] - **第二层**:并行探索路径,通过叠加态(节点集合Vc)扩展新节点(Vc+1),实现广度优先搜索[22][23][24] - MLP层过滤噪声节点并平衡权重,优化路径探索[29] 性能验证 - 在ProsQA子集(需3-4推理步长)测试中,连续CoT模型准确率接近100%,离散CoT模型为83%[26][27][28] - 注意力模式分析证实叠加态搜索行为存在,支持理论假设[30] 研究者背景 - 田渊栋任职Meta GenAI,业余创作科幻小说《破晓之钟》,探讨AI模仿数据与人类智慧的本质差异[31][32][39] - 新作延续世界观,涉及群体意识与星际殖民议题,计划用AI辅助写作[44][45]
AI眼镜主题沙龙报名,一起碰撞产业一线共识|量子位AI沙龙
量子位· 2025-06-19 10:56
林樾 发自 凹非寺 量子位|公众号 QbitAI 你在考虑买自己的第一副 AI眼镜 吗? 在过去的一个月里,各大企业的AI眼镜就陆续发布了近十款,几乎可以被称为2025年目前最 受关注的AI硬件。 从场景佩戴到追求全天候,更轻重量、更长续航、更加外观时尚,AI眼镜正在不断迭代,更 加接近大众的日常生活。一场 「百镜大战」预选赛 或将启幕。 那么,第一代AI眼镜面世接受市场检验后,有什么可以总结的?打造一款爆款AI眼镜,需要 解决哪些方面的挑战?AI眼镜的killer应用会是什么? 6月25日 周三下午15:00, 「量子位·AI沙龙」 邀请到了AI眼镜厂商 影目科技 、 李未可科 技 ,以及AI眼镜生态链的参与者 小米 、 百度智能云 ,一同来讨论AI眼镜距离「全民标 配」还有多远? 参会嘉宾 杨龙昇 影目科技创始人、CEO 原酷派集团智能终端总经理,爱普生AR中国区顾问,2023胡润U35中国创业先锋获奖人。 十年行业经验,熟悉算法、硬件到AR全产业链,曾参与行业多款里程碑式产品的设计开发, 如PICO2、暴风3等。 专注于Xiaomi Vela融合系统开发与嵌入式智能系统架构设计。长期关注多模态AI边缘计 ...
MiniMax AI超级智能体发布!编程/多模态能力突出,MCP工具无缝集成,无需邀请码即可试用
量子位· 2025-06-19 10:56
MiniMax Agent发布 - 推出AI超级智能体MiniMax Agent 具备专家级多步骤规划 任务分解和端到端执行能力 设计定位为"可靠队友"[1][2] - 支持生成15分钟速读概述 可快速完成特定任务如影视速通[3][4] - 内部试用两个月 已成为50%以上员工的日常工具[5] - 全量开放无需邀请码 新用户获1000积分 提供19元月套餐(15任务)和69元专业版(60任务)[6][17] MiniMax Agent核心功能 - 提供编程能力 3分钟可构建交互式网页如"在线卢浮宫" 支持音频介绍等多媒体元素[9][11] - 具备多模态理解生成能力 支持音频/视频输入和图片/音频/PPT/动画输出[13] - 无缝集成MCP工具 通过@调用 MCP Market已上线多种工具[14][16] MiniMaxWeek技术发布 - 第一天开源MiniMax-M1模型 全球首个开源大规模混合架构推理模型 支持100万token输入(DeepSeek R1的8倍) 8万token输出(超Gemini 2.5 Pro的6.4万) 生成10万token时算力仅需DeepSeek R1的25%[20] - 第二天发布海螺2.0版本 处理极端物理情况 原生支持1080P 指令遵循和生成质量达一流水平 成本效率破纪录[21] - 第三天发布MiniMax Agent 完成技术发布三连击[22] 行业活动预告 - 6月25日将举办AI眼镜主题线下沙龙 参与方包括影目科技 李未可科技 小米 百度智能云等 探讨第一代AI眼镜市场反馈 爆款挑战及Killer应用[22]