Workflow
机器之心
icon
搜索文档
阶跃星辰×光影焕像联合打造超强3D生成引擎Step1X-3D!还开源全链路训练代码
机器之心· 2025-05-16 10:42
核心观点 - 阶跃星辰与光影焕像联合发布并开源3D大模型Step1X-3D 该模型总参数量达4 8B(几何模块1 3B 纹理模块3 5B) 具备高保真与可控性 可广泛应用于游戏 影视 工业设计等领域 [1] - Step1X-3D通过数据驱动与算法协同优化 建立了包含200万高质量训练样本的数据库 并采用增强型网格-SDF转换技术 使水密几何转换成功率提升20% [4][7] - 模型采用3D原生两阶段架构 解耦几何与纹理表征 几何生成采用混合VAE-DiT架构 纹理生成基于SD-XL模型优化 实现细节生动且多视图一致 [10][15][16] - Step1X-3D在CLIP-Score等核心指标上超越主流3D模型 成为开源社区最具竞争力的3D生成方案 [25] 技术架构 - **几何模块**:采用混合VAE-DiT架构生成水密TSDF表示 通过锐利边缘采样技术精准还原几何细节 参数量1 3B [15] - **纹理模块**:基于SD-XL模型深度定制 利用几何条件引导与多视图同步技术 参数量3 5B [16] - **控制技术**:兼容主流2D生成模型控制方法(如LoRA微调) 支持对称性 表面细节等属性调控 [18][19] 数据与训练 - **数据处理**:从超500万原始数据中筛选出200万高质量样本 并开源800K 3D资产及完整预处理策略 [4] - **训练优化**:采用FLUX MMDiT结构与Rectified flow算法 实现3D表示的直接建模 [13] 应用与性能 - **应用场景**:覆盖游戏娱乐 影视动画 工业制造等领域 提供从创作到落地的全链路支持 [1] - **性能表现**:在CLIP-Score等自动评估中多项指标领先 生成内容与输入语义一致性达行业最高水平 [23][25] 团队背景 - **阶跃星辰**:以构建AGI为目标 规划从单模态到多模态统一的技术路径 [27] - **光影焕像**:专注3D AIGC与空间智能技术 团队含港科大博士及字节 美团等企业人才 [27][28]
「边思考、边搜索、边写作」WebThinker开启AI搜索&研究新纪元!
机器之心· 2025-05-15 16:40
研究背景 - 大型推理模型如OpenAI-o1和DeepSeek-R1在数学、编程等领域表现卓越,但在需要实时网络信息的复杂任务中存在局限性[6] - 现有开源深度搜索智能体采用RAG技术,但受限于预定义工作流程,难以深入探索网页信息[8] 技术框架 - WebThinker框架包含两种运行模式:问题解决模式和报告生成模式[13] - 问题解决模式赋予LRM深度网页探索功能,可自主发起网络搜索并提取信息[13] - 报告生成模式实现自主思考-搜索-写作策略,整合推理、搜索和报告撰写[13] - 框架采用强化学习训练策略,提升LRM调用研究工具的能力[15] 技术创新 - 突破传统RAG限制,实现端到端任务执行,无需遵循预设工作流程[10] - 深度网页探索器使LRM能自主搜索、导航并提取高质量信息[15] - 自主思考-搜索-写作策略配备三种专门工具:撰写、检查和编辑报告[15] 实验结果 - 在GPQA、GAIA、WebWalkerQA和HLE四个基准测试中表现优异[18][20] - WebThinker-32B-RL在GPQA科学问答中取得70.7%平均准确率,显著优于基准模型[21] - 在GAIA通用AI助手任务中达到48.5%准确率,优于其他方法[21] - 在Glaive研究报告生成任务中,完整性(8.4)和彻底性(8.2)评分领先[23] 应用前景 - 可应用于金融、科学、工程等知识密集型领域的研究工作[6] - 未来可扩展多模态深度搜索能力,处理图像、视频等信息[33] - 计划增强GUI网页探索能力,支持更复杂的交互任务[35]
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心· 2025-05-15 14:04
国产大模型技术突破 - 国产大模型MiniMax的Speech-02语音大模型在国际权威语音评测榜单Artificial Analysis上登顶,击败OpenAI和ElevenLabs [1] - Speech-02在字错率(WER)和说话人相似度(SIM)等关键指标上取得SOTA结果,WER最低达0.83(中文)和1.65(英文),SIM最高达0.799(中文)和0.738(英文) [1][24] - 该模型成本仅为ElevenLabs竞品模型的1/4,展现出极高的性价比优势 [4] 核心技术创新 - 采用自回归Transformer架构,实现真正意义上的零样本语音克隆,仅需几秒参考音频即可模仿目标说话人特征 [12][14] - 提出Flow-VAE架构,通过流匹配模型增强语音生成质量,使合成语音更接近真人 [13][17] - 引入T2V框架,结合自然语言描述与结构化标签信息,实现高度灵活可控的音色生成 [21] 多语言与跨语言能力 - 支持32种语言,在中英、粤语、葡萄牙语、法语等语种表现突出 [38] - 在24种测试语言中SIM指标均显著优于ElevenLabs multilingual_v2模型 [26] - 跨语言测试显示WER表现优异,如越南语WER仅0.659,泰语2.826,阿拉伯语1.446 [28] 产品特性与用户体验 - 提供超拟人化语音合成,预置数百种多语言声音库,错误率比真人更低 [32][33] - 支持声音克隆功能,用户可通过简短录音获得专属AI语音 [34][36] - 提供7种情绪控制选项(悲伤、快乐、生气等),可调节语速和语调 [36][37] 商业化应用前景 - 已形成文本、语音、视频完整产品链,如海螺AI等产品 [44] - 应用场景覆盖语音助手、声聊唱聊、配音等领域,加速商业化进程 [44] - 接入AI硬件生态,包括儿童玩具、教育学习机、汽车智能座舱等赛道 [44]
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 14:04
核心观点 - 提出新型深度思考范式PENCIL,通过交替执行「生成-擦除」机制显著提升大模型复杂推理能力 [1][3] - PENCIL在理论上实现图灵完备性,能以最优空间O(S)和时间O(T)复杂度解决所有可计算问题,传统CoT需O(T)空间导致指数爆炸 [23][24] - 实验显示PENCIL在3-SAT、QBF等NP完全问题上准确率保持≥99%,Einstein's Puzzle任务中25M小模型准确率达97%远超CoT的25% [15][21][22] 交替生成-擦除范式 - 动态擦除机制:引入[CALL][SEP][RETURN]特殊标记,按规则丢弃无用中间结果,上下文长度从数万token压缩至千级 [5][8][9] - 支持递归结构:擦除后的上下文可包含其他特殊标记,实现类似函数调用的多层嵌套 [9] - 三大应用模式:任务分解(子问题处理)、搜索回溯(无效路径清理)、摘要总结(冗长思考压缩) [13] 性能优势 - **准确率**:在n=10的SAT任务中PENCIL准确率99% vs CoT 50%,QBF任务100% vs 73% [15][16] - **计算效率**:相同FLOPs下PENCIL训练收敛速度更快,上下文长度控制在问题规模n的线性增长(O(n))而非CoT的指数级(O(exp(n))) [12][17] - **资源节省**:KV缓存复用机制使自注意力计算量减少,25M参数模型在Einstein's Puzzle上准确率提升3.88倍 [21][22] 理论突破 - 空间最优性:将图灵机模拟的上下文长度从O(T)降至O(S),尤其适合S<<T的NP完全问题(如旅行商问题) [24][25] - 实现路径:通过FASP编程语言构造「思考-总结」循环,证明固定大小Transformer可达成最优复杂度 [28] - 本质差异:传统CoT需保留完整计算历史,PENCIL通过状态摘要实现内存回收 [27]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-14 16:09
以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 合作伙伴介绍 腾讯青云计划 腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工 作机会、解锁前瞻性技术课题培养中国未来的科技人才。 今年腾讯将继续深度参与多场全球顶级学 ...
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]
叶子豪、陈天奇等人开源项目FlashInfer入选,MLSys2025最佳论文奖公布
机器之心· 2025-05-14 12:36
核心观点 - 国际系统领域顶会 MLSys 2025 最佳论文奖由两篇华人主导的论文获得,分别是华盛顿大学等机构合作的《FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving》和瑞典查尔摩斯理工大学的《The Hidden Bloat in Machine Learning Systems》[1] - FlashInfer 是一个高效可定制的大语言模型注意力推理引擎,其技术已被集成到多个主流项目中[2][5] - 另一篇获奖论文提出了 Negativa-ML 方法,可显著减少机器学习系统中的代码臃肿问题[31][32] FlashInfer 论文 项目背景 - FlashInfer 是华盛顿大学、卡耐基梅隆大学和 OctoAI 合作的研究项目,旨在创建灵活的大语言模型推理内核库[4] - 项目提供多种 LLM GPU 内核的高性能实现,包括 FlashAttention、SparseAttention 等[4] - 首个适用于 DeepSeek MLA 的 Blackwell 内核也出自 FlashInfer[5] 技术优势 - 与当前最先进的 LLM 部署方案相比,FlashInfer 在多种场景下显著提升性能: - token 间延迟减少 29% 至 69%[7] - 长上下文推理任务延迟降低 28% 至 30%[7] - 并行生成场景推理速度提升 13% 至 17%[7] - 采用块稀疏行格式(BSR)存储键值缓存,支持动态配置块大小[16] - 兼容 NVIDIA Turing 到 Hopper 全系架构,针对不同硬件采用优化算法[17] 系统设计 - 通过 JIT 编译支持自定义注意力变体,用户只需定义函数子模块即可生成优化内核[20][21] - 采用 Plan/Run 模式处理不规则负载,借鉴 Inspector-Executor 模式[26] - 提供面向用户的 API,支持动态选择最优 CUDAGraph 执行[23] The Hidden Bloat in Machine Learning Systems 论文 研究内容 - 提出 Negativa-ML 方法,可分析 ML 框架共享库并识别消除臃肿代码[31] - 重点关注设备代码中的不必要代码,这是现有研究忽略的领域[31] - 在 300 个共享库的十个工作负载中验证方法有效性[31] 研究成果 - 平均减少设备代码大小达 75%,主机代码大小达 72%,文件总大小达 55%[32] - 峰值主机内存使用量减少最多 74.6%,GPU 内存使用量减少最多 69.6%[32] - 执行时间最多减少 44.6%[32]
ICML 2025 | 如何在合成文本数据时避免模型崩溃?
机器之心· 2025-05-14 12:36
合成数据与模型崩溃 - 生成式人工智能技术快速发展,合成数据成为大模型训练重要组成部分,未来GPT系列语言模型将依赖人工数据和合成数据混合的大规模语料 [1] - 合成数据不加控制使用可能引发"模型崩溃"问题,即便单次训练混入较多比例合成数据也会导致模型性能急剧下降,难以泛化到真实数据 [1] - 非迭代式模型崩溃现象:实验显示即使只进行一次预训练,混入高比例合成数据也会显著导致性能下降,在多个语言理解任务上得到验证 [6] 合成数据的结构性缺陷 - 合成数据相比人工数据存在两类结构性缺陷:分布覆盖收窄(缺乏低频与长尾样本)和特征过度集中(n-gram等语言特征分布密度过高) [7][13] - 这些缺陷导致难以体现语言多样性,并易使模型过拟合 [13] Token-Level Editing解决方案 - 研究团队提出Token-Level Editing方法,通过在真实数据上引入细粒度"微编辑"操作构建"半合成"数据,避免模型崩溃 [3][9] - 该方法仅针对模型"过度自信"的token进行替换,保留原始数据长尾结构,编辑规则基于条件概率估计和编辑阈值 [10][11] - 理论证明该方法测试误差存在固定上界,避免误差无界增长,实现"理论上不崩溃"的数据增强路径 [14][15][16] 实验验证结果 - 预训练阶段:在PIQA、BoolQ等通用任务上,使用编辑数据的模型表现优于纯合成数据方案,如OLMo-1B平均分提升+0.36个百分点 [18] - 持续预训练阶段:在生物医药等专业任务中带来跨域泛化提升,如PubMedQA任务准确率提升高达+13.6% [18] - 监督微调阶段:在指令理解与代码推理等复杂任务中展现强鲁棒性,如LLaMA-3平均提升+0.4~0.5% [18]
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
机器之心· 2025-05-14 12:36
多模态大模型Seed1.5-VL发布 - 火山引擎发布5款AI模型和产品,包括豆包・视频生成模型Seedance 1.0 lite、升级后的豆包1.5・视觉深度思考模型(Seed1.5-VL)、新版豆包・音乐模型等 [1] - Seed1.5-VL具备更强的通用多模态理解和推理能力,新增视频理解、多模态智能体能力 [3] - 模型仅需一张图和提示词就能精准识别多种元素并分类给出坐标 [4] - 在60个公开评测基准中,有38个取得SOTA表现,性能与Gemini2.5 Pro相当 [6] 模型性能表现 - 推理输入价格仅为每千tokens 0.003元,输出价格为每千tokens 0.009元 [7] - 在视觉定位测试中,10秒内精准识别货架商品并完成价格计算 [14] - 能准确识别5只"生气"的小猫并给出坐标 [17] - 10秒内解决公务员图形推理题目,展示强大视觉推理能力 [20] 技术架构创新 - 由视觉编码模块SeedViT(532M参数)、MLP适配器和基于MoE架构的Seed1.5-LLM(20B激活参数)组成 [27] - 训练分为三个阶段:初期对齐视觉语言表征、中期强化知识积累、后期加入视频等新领域数据 [29] - 采用监督微调与强化学习组合策略,整合RLHF/RLVR等先进技术 [30] - 采用多模态并行框架和局部贪心负载均衡算法优化计算效率 [31] 应用场景 - 可用于构建AI视觉助手、巡检系统、交互Agent或智能摄像头 [7] - 多模态智能体能力可识别并点击"点赞"按钮,模拟用户行为 [22] - 正在重塑与视觉世界交互的方式,拓宽通用视觉系统应用路径 [31]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-13 17:30
此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 为了服务中国 AI 社区,近年来机器之心持续举办了多场 NeurIPS、CVPR、ACL 论文分享会,受到了海内外 AI 社区的极大关注,众多高校、企业都积极 参与。 2025 年 6 月 7 日,机器之心计划在北京举办「CVPR 2025 论文分享会」,广 ...