Workflow
机器之心
icon
搜索文档
海外华人15人团队打造,统一理解与生成的图像模型,超越Nano banana登顶图像编辑
机器之心· 2026-03-06 14:16
文章核心观点 - Luma AI公司发布其首个统一图像理解与生成模型Uni-1,该模型采用decoder-only自回归Transformer架构,将理解与生成能力整合于单一模型,旨在让AI具备“思考”能力[1][2] - 在RISEBench推理式生成基准上,Uni-1取得当前最优成绩,并在ODinW-13开放词汇密集检测等理解任务上展现出强劲竞争力[10][83] - 该模型通过“推理式生成”技术,在处理复杂指令时先进行结构化内部推理,再执行渲染,其生成训练被证明能显著提升模型的细粒度理解能力[79][80][81] - 与谷歌、OpenAI等大公司依赖巨量资源的路径不同,Luma AI凭借小规模精英团队和更聪明的架构设计,试图在资源有限的条件下实现超越规模优势的结果[95][97][98][99] 模型技术架构与性能 - **统一架构设计**:Uni-1采用decoder-only自回归Transformer架构,将文本token和图像token表示在同一个交错序列中,实现了对时间、空间和逻辑的联合建模,使文本和图像既可作输入也可作输出[79] - **性能基准表现**:在评估生成模型推理能力的RISEBench基准测试中,Uni-1取得当前最优成绩,该基准覆盖时间、因果、空间和逻辑四个推理维度[81] - **理解能力验证**:在传统上由专门理解模型主导的ODinW-13开放词汇密集检测基准上,Uni-1取得了有竞争力的成绩,验证了“生成训练提升理解能力”的技术假说[83] 模型具体能力展示 - **中文文字渲染**:在生成包含“新春快乐”、“马年大吉”等中文文字的马年新春贺卡任务中,Uni-1在文字完整性、排版合理性和视觉风格一致性上均优于对比模型GPT Image 1.5和Google Nano Banana Pro[18] - **信息图理解与生成**: - 在将公益海报提取为信息图的任务中,Uni-1准确还原了文字内容并保持了正确的层级结构,而对比模型存在混淆层级或内容不完整的问题[22] - 在生成关于“水钟与古代计时”的密集文字信息图任务中,Uni-1在布局规划、文字清晰度和图文配合方面表现优于其他模型[28] - 在生成“种子到植物生命周期”平铺式信息图时,Uni-1准确呈现了完整生命周期阶段,并正确展示了植物形态的渐变关系[36] - **参考图引导生成**: - 在需要融合4张参考图(两只猫、一位真人、Luma AI logo)合成会议场景的任务中,Uni-1准确保留了每个参考对象的身份特征并实现了合理构图[39] - 在处理5张不同参考图(3只动物、一个logo和学术礼帽)融合为连贯场景的任务中,Uni-1展现了精确的多源参考信息控制能力[43] - **草稿引导编辑与转化**: - 在将外套设计草稿与面料材质参考结合生成写实产品概念图的任务中,Uni-1准确映射了面料纹理,生成了具有商业可用度的渲染图[50] - 在将粗略漫画分镜草稿转化为精细漫画插图的任务中,Uni-1完整保留并精细化了所有细部信息,体现了对草稿语义的深层理解[59] - **风格迁移与角色一致性**: - 在将现代女性发型迁移至《蒙娜丽莎》画像并保留油画风格的任务中,Uni-1在风格一致性和迁移准确性上取得了平衡[63] - 在生成展示同一角色从童年到老年在钢琴前的6帧故事板任务中,Uni-1全程维持了角色身份特征的一致性、叙事连贯性和时间逻辑[69] - **多轮交互编辑**:在对泰迪熊照片进行连续三轮编辑的任务中,Uni-1精准执行了每一轮指令,并保持了各轮之间主体身份和空间关系的连贯,展现了统一架构在理解和生成协同上的优势[73] - **专业视觉任务**:在根据三张面部照片生成标准UV贴图的任务中,Uni-1在面部特征对齐、对称性和肤色一致性方面优于对比模型[76] 行业背景与竞争格局 - **行业技术路线演变**:当前视觉AI领域,图像理解与图像生成长期是两条独立的技术路线,Uni-1代表了从“分治”到“统一”的技术趋势[78] - **主要竞争者动态**:谷歌近期推出了主打“又快又便宜”的Nano Banana 2模型,并在社交平台引发关注[5] - **资源路径差异**:谷歌、OpenAI、Meta等大公司依赖巨量资源堆砌模型上限,而Luma AI等初创公司则尝试通过更聪明的架构设计以小博大[97][98][99] 公司团队与未来规划 - **核心团队**:Uni-1由不到15人的核心研究团队开发,由两位华人学者领衔[85] - 首席科学家宋佳铭,其发明的DDIM算法被Stable Diffusion、DALL・E等广泛采用,引用量超过万次,并曾获ICLR 2022 Outstanding Paper Award[86][87][88] - 研究负责人William Shen(沈博魁),研究横跨计算机视觉、机器人、图形学和生成模型,曾获CVPR Best Paper Award提名,其创立的公司被Luma AI收购[90][91][94] - **未来规划**:Uni-1是Luma迈向统一多模态智能的第一步,后续统一框架将从静态图像扩展到视频、语音和交互式世界模拟等模态,旨在构建能完成“看、说、推理、想象”的多模态系统[98]
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster
机器之心· 2026-03-06 12:31
行业技术演进 - 视频生成领域正从传统的单镜头生成迈入多镜头视频生成时代,近期可灵3.0、Seedance 2.0等产品已展示出多镜头叙事能力,支持一次生成多个导演级镜头[2] - 对于预算有限的开发者而言,参数量在10B(百亿)以上的大模型开发成本较高,100B(千亿)以上的模型更是令人望而却步[2] 公司/研究团队创新 - 大连理工大学、香港中文大学与快手可灵团队联合推出了名为“MultiShotMaster”的高度可控多镜头视频生成框架[2] - 该框架的创新性在于,即使在参数量约为1B(十亿)左右的小模型上,也能实现导演级的镜头调度和连贯叙事,并支持多图参考和主体运动控制[2] - 该论文已被CVPR 2026录用,基于Wan 1.3B和14B的多镜头模型的训练和推理代码已开源[4] - 开源版MultiShotMaster在由北大等高校举办、华为赞助的AAAI CVM Workshop竞赛中斩获冠军,竞赛重点考核世界知识一致性、相机移动一致性和跨镜头ID一致性[5] 技术框架核心 - MultiShotMaster调整了传统单镜头文生视频模型架构,使其能够生成多镜头视频,每个镜头单独通过3DVAE编码并在时序上级联融合[7] - 作者提出了“多镜头叙事RoPE”,在原始的3D RoPE基础上于镜头切换处施加相位偏移,这能显式标记镜头边界并维持叙事顺序,从而支持用户自由设定镜头数量和时长[7] - 框架构建了“总分式提示词结构”,使用全局提示词描述角色外观、环境及风格,镜头级提示词描述角色交互、场景布局、相机运镜,并防止跨镜头信息泄露[8] - 为实现可控性,框架设计了“时空位置感知的RoPE”,将指定时空区域的RoPE重采样为更细粒度后分配给参考图像tokens,从而实现参考图像在指定时空位置的注入[11] - 通过复制同一角色的Token并分配不同的时空RoPE,可以控制同一主体的运动轨迹[12] - 框架设计了“多镜头-多主体Attention Mask”,允许跨镜头视频tokens交互,但限制每个镜头的视频tokens仅能与视频内的参考tokens交互[12] - 整个框架没有引入外部参数,而是利用并改进了视频生成模型原有的3D-RoPE,实现了可控的多镜头视频生成,支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化以及背景可定制的场景一致性[12] 实验数据与结果 - 在定量和定性的比较中,MultiShotMaster在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能[17] - 定量实验结果显示,在文本对齐(Text Align.)指标上,带参考图的MultiShotMaster模型得分为0.227,高于对比模型VACE(0.201)和Phantom(0.224)[21] - 在镜头间语义一致性(Inter-Shot Consistency Semantic)指标上,带参考图的MultiShotMaster模型得分为0.702,高于其他对比模型[21] - 在叙事连贯性(Narrative Coherence)指标上,带参考图的MultiShotMaster模型得分为0.825,显著高于其他对比模型[21] - 在参考一致性(Reference Consistency)的多个子项(主体、背景、接地)上,带参考图的MultiShotMaster模型也取得了最佳或领先成绩[21] 数据构建方法 - 训练数据构建采用自动化流程:使用镜头切换检测模型TransNet V2将长视频裁切成短片段,再用场景分割模型SceneSeg聚合同一场景片段并采样多镜头视频[19] - 引入总分式提示词结构,使用Gemini-2.5-Flash生成全局描述和每个镜头的描述[19] - 整合YOLOv11、ByteTrack和SAM来检测、追踪和分割主体图像,再利用Gemini-2.5-Flash根据主体外观合并跨镜头的跟踪结果[19] - 使用OmniEraser获得干净的背景参考图[19] 总结与影响 - MultiShotMaster通过对RoPE的创新性改进,实现了高度可控的多镜头视频生成,其多镜头叙事RoPE与时空位置感知RoPE,在无需引入额外参数的情况下,实现了对镜头边界、角色一致性及运动轨迹的精细化操控[23] - 在仅约1B参数的模型规模下,该框架即展现出了卓越的叙事连贯性与跨镜头一致性,验证了其实现导演级控制的巨大潜力[23] - 自动化的多镜头数据标注流程及开源模型将为研究社区提供强力支持,有望推动AI视频创作进入一个叙事更连贯、表达更自由的新阶段[24]
李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型
机器之心· 2026-03-06 12:31
行业背景与赛道定义 - AI领域最前沿方向“世界模型”正经历革命,其核心挑战是智能体对**空间智能**感知的缺失,这横跨了虚拟与现实之间的鸿沟 [1] - 2024年,由李飞飞教授创立的World Labs强势入局,点燃了**空间智能**这一**千亿级**赛道的全球战火,该公司近期完成新一轮融资后**估值飙升至50亿美元**[1] - World Labs的核心产品RTFM(实时帧模型)是一个**实时生成式世界模型**,旨在构建拥有**永久一致性**的3D场景,使智能体能理解并实时交互物理世界 [1] 公司技术与产品突破:InSpatio-WorldFM - 国内创业公司影溯(InSpatio)发布并开源了实时帧生成模型 **InSpatio-WorldFM**,这是一个实时交互的3D世界模型,标志着中国团队在空间智能底层技术上取得奠基性突破 [2] - 该模型由**浙江大学**章国锋博士领衔的团队开发,凭借在3D视觉和空间计算领域**20多年**的底蕴,通过独创的**“数据升维”与“几何约束”**策略,激活了互联网海量2D存量视频数据中蕴含的3D空间知识 [4] - 这一技术路径破解了行业“高质量、规模化3D数据贫矿”的局限,将海量2D数据高效转化为驱动3D世界模型的高维原动力 [5] - 模型能够高效进行**多视角一致的空间推理**,并支持**实时交互式探索**[6] - 模型生成的3D虚拟世界具有高度一致性,在空间几何、光照与物理规律上非常稳定,**无限时长推理不会出现遗忘和衰退**[8] - 模型对算力需求低,目标是让实时空间推理能在**消费级GPU**上实现,甚至在**单块RTX 4090 GPU**上就能实现实时推理,将空间智能从数据中心扩展到边缘设备 [8] - 模型支持**整体一致性编辑**,可在保持几何、光照、材质与物理逻辑全局一致的前提下,进行跨视角、跨区域的统一调整,编辑对象是一个**可控、连贯、具物理约束的三维世界本体**[8][9] 核心技术路线与优势 - 当前主流世界模型(如谷歌Genie 3、OpenAI Sora)本质上是基于**2D像素概率预测**的视频生成模型,而影溯的技术路线是构建**原生的3D世界**[11][12] - 模型将**“三维多视图一致性”**作为核心约束机制,赋予空间智能**物理级的持久一致性**,解决了2D模型常见的物体变形、背景扭曲等问题 [14][16] - 这种3D机制突破了2D视频模型的极限时空记忆,解决了**“长时序遗忘”和“空间几何崩塌”**问题 [17] - 模型采用**“显式锚点 + 隐式记忆”**混合架构设计,利用前馈式重建技术生成显式物理空间锚点,并提供隐式记忆,让AI拥有“三维坐标体系”,理论上**生成的时长是无限的**[19][20] - 在训练上,团队利用在SLAM、NeRF和3DGS等领域的技术积累,能够**极低成本地合成海量高质量的3D训练数据**,打破了3D训练数据匮乏的行业瓶颈 [20] - 模型训练仅动用了**100张卡**的算力规模,远低于当前主流视频模型训练所需的算力 [13] - 模型展现出卓越的**像素级前景锁定能力和精准运镜控制**,支持将视频中的动态前景无缝转移到另一空间环境,并保证高度一致性 [12][13] 团队背景与商业壁垒 - 影溯核心团队由**浙江大学计算机辅助设计与图形系统全国重点实验室**(图形学全球排名第三)与原**商汤科技3D视觉与混合现实团队**的顶尖专家组成,堪称国内空间计算领域“梦之队”[24][25] - 创始人**章国锋**为浙江大学求是特聘教授、国家杰青,在SLAM和3D重建领域深耕超过**20年**[25] - 联合创始人兼CTO**刘浩敏**曾主导实现业内首个手机端无标志SLAM商业系统,比苹果ARKit和谷歌ARCore早了**3年**[25] - 公司已构建**三维场景重建与生成平台**,具备大尺度真实场景的快速扫描与重建生成能力,提供从数据采集到应用开发的完整工具链 [26] - 公司构建了行业内独有的**“3D数据升维引擎”**,从海量视频中抽取3D知识,用几何约束工具链打破3D数据荒,这构成了其**核心商业壁垒和技术护城河**[26][27] 战略定位与行业影响 - 与World Labs选择闭源不同,影溯确立了**开源共建**的核心战略,认为空间智能的未来应由全球开发者共同创造 [28] - 公司下一步计划提供更丰富的技术细节,并推出扩展版模型及**支持与动态世界实时交互**的体验应用 [28] - InSpatio-WorldFM等开源空间智能模型的推出,为生成模型、具身智能体和现实世界机器人提供了全新的起点 [29]
FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度
机器之心· 2026-03-06 12:31
文章核心观点 - FlashAttention-4 作为深度学习底层优化技术的重要更新,通过算法与内核的协同设计,针对新一代 Blackwell GPU 架构进行了优化,显著提升了注意力机制的计算效率 [1] - 在 Blackwell B200 GPU 上,FlashAttention-4 使注意力机制的执行速度几乎与矩阵乘法一样快,前向传播最高可达 1605 TFLOPs/s,利用率为 71% [1][10] - 该技术解决了由硬件非对称扩展带来的新瓶颈,并通过利用 Blackwell 的新硬件特性、新型流水线设计和调度优化实现了性能突破 [5][11] - FlashAttention-4 的发布被视为一个里程碑,其性能提升将直接惠及所有前沿大模型,带来更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] FlashAttention-4 的技术背景与挑战 - **硬件趋势与瓶颈转移**: AI 行业正迅速转向部署 Blackwell 架构系统,现代加速器延续了“硬件非对称扩展”趋势,即张量核心吞吐量增长远快于共享内存带宽、特殊函数单元等其他资源 [5][6] - 从 Hopper H100 到 Blackwell B200,BF16 张量核心吞吐量增加了 2.25倍 (从 1 到 2.25 PFLOPs),但 SFU 数量和共享内存带宽基本保持不变 [6] - 这种扩展不对称性对像注意力这样的复杂内核优化产生了深远影响,性能瓶颈已从张量核心转移至其他部分 [7][10] - **注意力机制的复杂性**: 注意力机制的核心包含两个通用矩阵乘法,中间夹着 softmax,但在实践中还涉及大量辅助工作,如数据搬运、同步、布局转换等 [8][9] - 传统观点认为注意力性能由 GEMM 速度决定,但在 B200 上分析显示,主要瓶颈在于前向传播中的 SFU 单元和反向传播中的共享内存流量 [10][14] FlashAttention-4 的核心设计与优化 - **协同设计思路**: 通过最大化矩阵乘法与其他瓶颈资源之间的重叠来提升性能 [10] - **利用 Blackwell 新硬件特性**: - **张量内存**: 每个 SM 配备 256 KB 的 TMEM,与张量核心直接连接,用于存储中间结果 [12] - **完全异步的第五代张量核心**: 支持异步执行并将结果存储在 TMEM 中,单个 CTA 可使用的最大 UMMA tile 约为 Hopper 架构的 2 倍,减轻了寄存器压力并支持更深流水线 [12] - **2-CTA MMA**: 支持一对 CTA 共同执行一个 UMMA 运算,可将 MMA 的 tile 尺寸扩展到 256×256×16,减少冗余数据传输并降低每个 CTA 的资源占用 [13] - **新型流水线设计**: - **前向传播**: 在 FMA 单元上通过多项式近似实现指数函数的软件仿真以提升吞吐量;引入条件式 softmax 重缩放,跳过 90% 不必要的重缩放操作,缓解 SFU 瓶颈 [1][14] - **反向传播**: 利用 TMEM 存储中间结果以缓解共享内存流量压力;结合 2-CTA MMA 模式进一步降低共享内存访问,并将 atomic reduction 次数减少一半;支持确定性执行模式 [14] - **调度优化**: 引入新的 tile 调度器,解决因果掩码和变长序列导致的负载不均衡问题 [14] 性能表现与行业影响 - **性能基准测试**: 在 B200 上的测试显示,FlashAttention-4 性能显著优于其他实现 [19] - **前向传播**: 比 cuDNN 9.13 快 1.1–1.3 倍,比 Triton 实现快 2.1–2.7 倍 [19] - **反向传播**: 在长序列长度场景下,表现始终优于其他基准模型 [19] - 相比 FlashAttention-3,性能提升了 2–3 倍 [28] - **框架集成与行业反响**: - PyTorch 官方宣布其 FlexAttention 现已支持 FlashAttention-4 后端,使研究人员无需在“灵活性”和“高性能”之间做选择 [24][27] - 在算力受限的工作负载下,相比 Triton,FlexAttention 使用 FlashAttention-4 后端仍可实现 1.2 倍到 3.2 倍的性能提升 [27] - 该技术被认为将直接惠及所有前沿大模型,因为更快的注意力意味着更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] 实现与工具 - **编程语言与框架**: FlashAttention-4 完全使用 CuTe-DSL 实现,这是 CUTLASS 提供的 Python 内核 DSL,可将编译时间缩短约 20–30 倍,使安装/编译只需几秒钟而非几分钟/几小时 [17]
ICLR 2026 Oral|多模态知识图谱对齐难:破解噪声关联至为关键
机器之心· 2026-03-06 11:28
文章核心观点 - 一篇被机器学习顶会ICLR 2026接收为Oral的论文,提出了一种名为RULE的新方法,旨在解决多模态知识图谱实体对齐任务中普遍存在的“噪声关联”和“潜隐关联”两大挑战[2][3] - 该方法通过构建统一的可靠度量化准则、实施鲁棒的多属性融合与跨图谱对齐策略,并在测试时引入关联推理模块,显著提升了实体对齐的准确性和鲁棒性[7][8] - 实验表明,RULE方法在包含人工注入噪声的严苛评估环境下,在5个广泛应用的数据集上全面领先于现有先进方法,验证了其有效性及现实数据集中噪声问题的普遍性[22][27] 研究背景与问题定义 - 多模态知识图谱能集成文本、图像、结构化关系等多模态数据,而实体对齐是构建和融合此类图谱的核心技术,旨在从不同来源的图谱中识别同一实体[2] - 现实中的大规模知识图谱融合面临“噪声关联”和“潜隐关联”的双重挑战[3] - **噪声关联**:指错误的关联匹配,例如因视觉相似将演员徐锦江的照片关联到“海王”杰森·莫玛,或因名称相似混淆不同的电影与人物实体[5] - **潜隐关联**:指看似不同但本质相同的属性,例如查询足球运动员C罗时,其关联图像是“葡萄牙国旗”,这实际代表了他的国籍,但模型可能因表面差异而无法识别[5] - 现有方法通常假设所有关联都是正确的,但据统计,部分基准测试中**超过50%的实体受噪声关联影响**,这会导致模型性能显著下降[6] 提出的解决方案(RULE方法) - 提出了**双重准则驱动的可靠度建模**,通过计算**不确定度**和**共识度**来量化实体与跨图谱关联的可靠度,以识别噪声[10][13][14] - 基于关联可靠度,实施了**鲁棒的跨图谱对齐**,采用基于Dirichlet分布的证据学习,让可靠实体对产生充足证据,约束不可靠实体对产生有限证据[15][16] - 实现了**鲁棒的多属性融合**,利用跨图谱属性-属性关联的可靠度来识别错误的实体-属性关联,并通过加权融合强调可靠属性、弱化不可靠属性来获取实体表征[17][18] - 创新性地引入了**测试时关联推理模块**,利用多模态大模型的内蕴知识,通过思维链驱动反思来挖掘属性间的潜隐关联,矫正初步对齐结果,从而提升准确率[19][20] 实验设计与结果 - 为评估鲁棒性,研究团队通过人工注入噪声构建了严苛的评估环境,噪声注入维度包括:实体-实体噪声关联、实体-属性噪声关联、属性-属性噪声关联[22][23][24] - 在**不使用名字属性**的设定下,RULE方法在**原始数据集(Inherent DNC)**上的平均H@1指标达到**73.8%**,显著高于其他对比方法(最佳对比方法PMF为68.6%)[25] - 在注入**20%噪声**和**50%噪声**的设定下,RULE的平均H@1指标分别为**70.6%** 和 **64.3%**,均大幅领先于所有对比方法,展示了卓越的抗噪声能力[25] - 在**使用所有属性**的设定下,RULE的表现更为突出,在原始、20%噪声、50%噪声设定下的平均H@1指标分别达到**98.8%**、**98.5%** 和 **97.9%**,全面领先[26][27] - 可视化分析证实,可靠度量化策略能有效区分正确与噪声关联,测试时关联推理模块能成功挖掘图像属性间的潜在关联(例如将国家徽章与地图关联到同一实体),从而提升排名[28] 研究意义与贡献 - 该研究首次系统揭示了多模态知识图谱中噪声关联与潜隐关联问题,并从多属性融合、跨图谱对齐、测试时推理三个层面探索了其负面影响[12][31] - 成功将噪声关联学习范式引入多模态实体对齐任务,拓展了噪声关联的定义外延,涵盖了实体内和跨图谱两个层面[31] - 构建了用于评估方法鲁棒性的统一基准测试,涵盖5个数据集,为后续研究提供了实验观察和评估体系[12][31] - 指出了现有基于特征相似性匹配方法的固有缺陷,提出的关联推理机制为挖掘实体间潜在关系(潜隐关联)提供了新思路,对多模态任务研究具有启发意义[31]
OpenAI点赞转发的冠军项目,背后藏着一个国人3D生成团队
机器之心· 2026-03-06 11:28
文章核心观点 - 3D生成技术正从演示型工具向生产型组件转变,其核心价值在于稳定性、可控性与可复用性,这使其能够被整合进开发者和企业级的生产工作流[5][6][8][15] - 影眸科技(DeemosTech)的Hyper3D Rodin技术,通过提供高稳定性、可控的3D生成与编辑能力,已成为从独立开发者到英伟达等顶级公司工程化管线中的关键技术组件[3][12][15][23] - 行业焦点正从“能否生成”转向“可编辑、可复用”,下一代3D生产基础设施需要支持完整的“生成-编辑”闭环工作流,以满足从快速原型开发到高精度生产的不同场景需求[20][26][35][42] 一、3D 生成从演示工具到生产工具 - 应用StoryWorld展示了3D生成的新范式:用户通过手机摄像头和语音指令即可在真实空间中生成、定位并操控完整的3D资产,实现类似电影导演的取景与运镜[1][5] - 与传统的AR叠加静态物体不同,StoryWorld中的3D对象是完整的三维资产,支持多角度观察和动态拍摄控制[5] - Hyper3D Rodin因其在实时文/图生3D中表现出的稳定性与可控性,被选为StoryWorld在24小时黑客松开发中的核心技术,开发者称“没有Rodin就无法实现”[3][6] - 这种应用将创作重心从“生成单一结果”转向“场景构建与镜头语言”,标志着3D生成技术从“演示型技术”向“生产型组件”演进[7][8] 二、从黑客松到工程化生产管线 - Hyper3D Rodin被应用于两类高要求场景:一是OpenAI Codex Hackathon的快速原型开发,二是英伟达(NVIDIA)CES主题演讲的Keynote制作管线[3][12] - 在英伟达的工程化生产流程中,团队需要制作12K超清画面、保持多主体细节,并拥有快速迭代的工作流。Hyper3D Rodin承担了3D模型生成任务,并需在多个制作阶段保持角度、光照一致性和细节还原度[15] - 能够被纳入英伟达这类代表行业标准的工程化管线,表明该技术在精度、稳定性和工程适配能力上通过了严格验证[15] - 从黑客松的“极限速度”到企业级的“工程标准”,共同验证了当3D生成作为生产组件时,稳定性、可控性与可复用性是第一优先级[15] 三、从“生成”到“编辑”:3D可控成为生产级流程基础范式 - 影眸科技团队在2025年发布了Rodin Gen-2 Edit,推出了基于自然语言的3D模型局部编辑功能,实现了业内首个将“3D生成”与“3D编辑”整合的完整商用工作流[20] - 编辑功能操作直接:用户框选需要修改的区域并输入文字指令,即可完成局部调整,无需推倒重来[21][34] - 该编辑能力是平台级基础设施,不仅适用于自身生成的模型,任何第三方3D资产(包括历史存量模型)均可导入平台进行编辑,极大增强了资产的复用性[23] - 公司从初代Rodin开始就将可控性作为底层能力设计,引入了3D ControlNet,允许用户自由设定模型的长宽高、内部结构和表面轮廓[30] - 公司还推出了递归分件技术BANG,支持将3D模型“爆炸式拆解”成多个部件并反复重组,进一步增强了可控性和编辑灵活性[31][33] - 这些功能使AI 3D建模工作流形成闭环,无论是新生成模型还是旧资产,都能实现持续迭代和修改,从而真正融入生产流程[35] 四、多模态技术演进路径:从生成到可控 - 生成式AI的演进遵循“先生成 → 再增强可控性 → 最终支持编辑”的清晰逻辑[27] - 在发展早期,3D生成同样难以避免“抽卡”式的随机性,需要通过多次尝试来匹配需求[27] - 随着类似ControlNet等引导技术的发展,用户可以在生成前通过信号引导来更好地控制结果,减少随机性[29] - 在3D领域,由于产品化起步晚、生态分散,多数团队仍停留在“可控生成”阶段,而影眸科技通过持续迭代ControlNet、BANG分件技术和Edit编辑功能,一步步将3D生成从“抽卡游戏”进化为“可控设计”[31] 五、行业焦点的转移:下一代3D生产基础设施 - AI 3D行业的焦点正在从“能不能生成”转向“可编辑、可复用”,技术正逐步沉淀为创作与生产链路中的工作流组件[42] - 对开发者而言,3D资产不再只是最终交付的文件,而是能被反复调用、持续迭代的生产要素[42] - 对3D大模型公司而言,能否在关键环节稳定产出,并在编辑与复用环节补齐能力,将越来越影响其在全球创作链路中的定位[42] - Hyper3D Rodin被从OpenAI黑客松到NVIDIA企业级管线的顶级开发者持续选择,展示了领先的3D生成技术从实验室走向工程化与生产化应用的路径[43] - 当3D生成技术能同时满足快速开发、高精度制作和日常迭代修改的需求时,才真正完成了从技术演示到生产工具的转变[43]
OpenClaw绝配!GPT-5.4问世,AI能力开始大一统,就是太贵
机器之心· 2026-03-06 11:28
GPT-5.4核心发布与核心能力 - OpenAI发布GPT-5.4,其核心创新是引入了**原生计算机使用能力**,模型能够直接操作软件、使用工具、浏览网页、执行工作流程并规划跨应用程序的复杂任务,最多可处理**100万个上下文token**[2][7] - 新模型将**推理、编码、智能体和计算机控制**能力融合在同一个前沿模型中[7] - 此次发布恰逢知名开发者Peter Steinberger加入OpenAI不久,其理念(如OpenClaw架构)被认为对GPT-5.4的设计有显著影响,例如实现了工具定义的按需查找,而非全部塞入prompt[4][6] 产品定价与市场定位 - GPT-5.4已在OpenAI的API和Codex中提供,并正在ChatGPT中逐步向Plus、Team和Pro用户推出,取代了GPT-5.2 Thinking模型[7] - OpenAI同时推出了**GPT-5.4 Pro**,面向Pro和企业版用户,专为追求极致性能的复杂任务设计[7] - API定价方面,GPT-5.4的输入价格为**$2.50 / 百万token**,输出价格为**$15 / 百万token**,均高于GPT-5.2[8] 性能基准测试结果 - **计算机使用**:在OSWorld-Verified测试中,GPT-5.4取得**75.0%** 的成功率,远超GPT-5.2的**47.3%**,也超越了人类的**72.4%**[12][13] - **知识工作**:在GDPval测试中,GPT-5.4在**83.0%** 的比较中达到或超过行业专业人士水平,优于GPT-5.2的**70.9%**[16][40] - **网络搜索**:在BrowseComp测试中,GPT-5.4比GPT-5.2提升**17%** 至**82.7%**,而GPT-5.4 Pro达到**89.3%**,创下新高[35][40] - **软件工程**:在SWE-Bench Pro测试中,GPT-5.4取得**57.7%** 的成绩,与GPT-5.3-Codex的**56.8%** 持平或更优[22][40] - **高级数学**:在FrontierMath Tier 4(最难的数学基准)测试中,GPT-5.4 Pro取得**38%** 的成绩,远超一年前最佳成绩的**2%** 以及当前最佳开源模型的**4.2%**[8] - **工具使用**:在Toolathlon测试中,GPT-5.4取得**54.6%** 的准确率,优于GPT-5.2的**45.7%**[32][40] 关键技术改进与效率提升 - **工具搜索功能**:模型可按需查找工具定义,而非将所有工具定义预先加载。在评估的250项任务中,此功能在保持相同准确率的同时,将总token使用量减少了**47%**[29][30] - **token效率**:GPT-5.4是OpenAI目前token效率最高的推理模型,与GPT-5.2相比,解决问题所需的token数量显著减少,意味着更低的费用和更快的速度[38] - **处理速度**:在Codex中启用`/fast`模式后,GPT-5.4的token处理速度最高可提升**1.5倍**[24] - **视觉与文档解析**:在MMMU-Pro测试中,GPT-5.4在不使用工具的情况下取得**81.2%** 成功率,优于GPT-5.2的**79.5%**;在OmniDocBench测试中,其平均误差为**0.109**,优于GPT-5.2的**0.140**[20] 用户体验与工作流程优化 - 在ChatGPT中,GPT-5.4 Thinking可以预先提供思考计划,用户可在运行过程中随时调整方向,以获得更符合需求的答案[37] - 模型改进了深度网络搜索,尤其是在处理高度具体的查询时,并能更好地保留需要长时间思考的问题的上下文信息[37] - 模型增强了创建和编辑电子表格、演示文稿和文档的能力,其生成的演示文稿因更强的美观性、更丰富的视觉效果和更高效的图像生成功能而获得人类评分者青睐[40] 行业影响与未来展望 - 行业观点认为,GPT-5.4具备原生计算机使用能力,对于开发者和智能体而言是一次**重大飞跃**[12] - OpenAI研究科学家Noam Brown表示,GPT-5.4在计算机应用和经济价值任务上已取得巨大进步,预计**今年内AI能力将继续大幅提升**[40] - 有观点认为,ChatGPT的能力**很快就会比最好的咨询公司、投资银行和律师事务所都更出色**,甚至有人认为GPT-5.4 Pro达到了**AGI级别的智能**[41][44]
ICLR 2026 | OpenAI打广告后,如何成为爆款?CMU提出AutoGEO解密流量密码
机器之心· 2026-03-05 19:03
行业趋势:生成式搜索引擎重塑内容分发规则 - AI搜索引擎(如Google AI Overview、ChatGPT)正逐渐取代传统搜索入口,用户习惯向“问AI”转变[2] - 内容曝光规则发生结构性变化:从争夺网页排名(Ranking)转变为争夺在AI生成答案中的“可见性”(Visibility in answers)[6][7] - 内容的成功不再仅取决于标题和流量,更大程度上取决于AI的引用偏好,被引用的网页未必最权威或最早发布,而是写法更适合被拼进回答[2] 技术概念:生成式引擎优化(GEO)与合作式立场 - 生成式搜索引擎的基本流程是“检索+综合+生成”,这催生了新的优化领域——生成式引擎优化(Generative Engine Optimization, GEO)[7] - GEO旨在优化网页内容以提高被AI“采纳进答案”的份额,其核心指标包括引用字数(Word)、引用位置权重(Pos)和综合指标(Overall)[7][10] - 与传统SEO不同,单纯优化SEO未必能提升在生成式引擎中的可见性,且过度优化可能损害答案的可靠性与效用,因此提出了“合作式(Cooperative)”优化立场[7] 核心研究:AutoGEO框架与规则发现 - 卡内基梅隆大学研究团队提出了AutoGEO框架,其核心贡献是将生成式引擎的偏好从“玄学”转化为可执行的规则集[8][9] - AutoGEO首先通过对比“可见性差距最大”的网页对,自动抽取生成式引擎的偏好规则,而非直接改写网页[10] - 规则发现过程采用四段式LLM处理:解释(Explainer)、提炼(Extractor)、合并(Merger)和过滤(Filter),将海量样本压缩为规则[12] 实施方案:两种低成本部署路径 - **路线A:AutoGEO API**:基于提示词(Prompt-based)的即插即用方案,将规则集嵌入prompt,调用强LLM API(如Gemini、GPT)进行重写,优点是部署快,缺点是受API成本和吞吐限制[13] - **路线B:AutoGEO Mini**:基于强化学习(RL-based)的小模型方案,通过微调小模型进行改写,推理成本仅为API方案的约0.0071倍,实现了超低成本部署[9][14] - AutoGEO Mini的训练结合了冷启动(Cold start)和GRPO强化学习,奖励函数综合了结果奖励(Outcome reward)、规则奖励(Rule reward)和语义奖励(Semantic reward)[21] 评估体系:有效性与合作式效用 - 评估不仅关注可见性(GEO)指标,还显式评估引擎效用(Generative engine utility, GEU),确保优化不以牺牲答案质量为代价[16][20] - 实验在三个数据集(GEO-Bench、Researchy-GEO、E-commerce)和多种前沿LLM引擎(Gemini、GPT、Claude)上进行,验证了方法的普适性[16][17] - 实验结果表明,AutoGEO API在可见性指标上提升显著,比最强的基线模型高50.99%[18] - 具体数据:在Researchy-GEO数据集上,AutoGEO API的Overall可见性分数从Vanilla的20.18提升至43.76;在GEO-Bench数据集上,从19.44提升至34.92;在E-commerce数据集上,从18.32提升至34.05[19] - 在提升可见性的同时,GEU指标(如精确度、召回率、清晰度)多数情况下与原始版本(Vanilla)接近,实现了合作式优化[20][23] 关键发现:规则的非通用性与领域特异性 - 不同LLM引擎之间存在通用的偏好规则,但也存在引擎特异性(engine-specific)的独特规则[25] - 规则在不同领域间迁移时重叠度显著下降,存在严重的领域偏移(domain shift)[25] - 例如,电商领域更偏好可操作指导(actionable guidance),而研究类领域更偏好深度解释(in-depth explanation)[25] - 这表明未来可能出现“同一页面多版本”以迎合不同引擎或不同领域意图的情况[28] 行业影响与未来展望 - AutoGEO将GEO从依赖人工经验的“玄学”推进到了可工程化、可量化的阶段[30] - 生成式搜索时代的新现实是:网页内容需要首先通过“答案机器的消化系统”[29] - 这可能导致互联网内容生态的演变:如果大量网页开始“为引用而写”,引擎将面临区分“更有信息量”与“更像会被引用的信息”的挑战[29] - 未来可能引发平台与内容方之间持续的“规则-反规则”军备竞赛[30]
高德纳:「震惊!震惊!」Claude破解《计算机程序设计艺术》难题
机器之心· 2026-03-05 19:03
AI在数学与计算机科学领域的突破性进展 - 著名计算机科学家、图灵奖得主高德纳对AI(Claude Opus 4.6)的强大能力表示震惊,因其解决了他研究数周的开放性问题[2][5][8] - 该事件标志着自动推理和创造性问题解决领域的巨大进步,引发了技术社区的广泛关注[8][22] AI解决具体图论难题的过程 - 高德纳在为著作撰写内容时,遇到了一个关于有向图分解为三个长度为m³的有向环的开放性问题[13] - 他的朋友Filip Stappers将问题交给Claude处理,在人类指导下,Claude通过超过30次探索,最终编写了一个能为所有奇数m找到解的Python程序[11][14][25] - 探索过程中,Claude自主更换数学工具,识别出有向图为凯莱图,并引入了“纤维分解”框架,最终在第31次探索时给出具体构造程序[15][16][25] - 高德纳随后进行了严谨的数学证明,验证了3到101之间所有奇数m的分解方案,并指出在所有同类分解法中恰好有760种对奇数m有效的解,Claude准确找到了其中一种[19][20] AI在数学研究中的能力与局限 - 开发者认为,此次事件的核心意义在于AI展现了自主更换探索工具、排查无效路径的能力[22] - 对于偶数m的情况,Claude未能发现通用规律,后续甚至无法正确编写探索程序,目前仍是未解之谜[11][21][26] - 另一位研究者借助gpt-5.3-codex生成了处理偶数m(高达m=2000)的代码,但由于模式复杂,人工证明其正确性难度极大[26] AI在数学与编程竞赛中的整体进展 - 在数学竞赛方面,2025年7月,Google DeepMind的Gemini(Deep Think模式)在国际数学奥林匹克(IMO)试题评测中达到金牌标准成绩(35分),并能输出完整自然语言证明[27] - OpenAI的内部模型也达到了类似水平[27] - 在编程竞赛方面,2025年9月,OpenAI和Gemini都声称达到了国际大学生程序设计竞赛(ICPC)金牌水平,能在严格时间限制内解决高难度算法问题[27] AI在科研协作中的角色演变 - AI在科研中的角色显著增强,开始借助外部工具参与数学研究与问题验证[27] - 例如,GPT-5.2借助外部工具,协助数学家解决了数个悬而未决的Erdős猜想,并得到了数学家陶哲轩的验证[27] - 部分系统已展示出生成研究草稿与进行结构化推理的能力[27] - 驱动突破的核心机制转向“测试时计算扩展”或“慢思考”策略,通过在推理阶段投入更多算力,并行探索多条路径并进行自我验证[27] - 展望未来,随着自然语言理解与形式化逻辑的深度融合,AI将成为数学家与工程师身边得力的合作者,帮助攻克停滞多年的科学难题[27]
ICLR 2026|滑铁卢大学联合可灵提出UniVideo:统一视频理解、生成、编辑多模态
机器之心· 2026-03-05 15:43
模型架构与核心创新 - 提出UniVideo模型,这是一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型,旨在突破当前多模态模型主要局限于图像领域的现状[2] - 模型采用双流架构,结合了多模态大语言模型(MLLM)的指令理解与推理能力,以及多模态扩散Transformer(MM-DiT)的高质量视觉生成能力[2][9] - 该设计无需额外的任务特定设计即可理解多模态指令、区分任务类型,并能够泛化到未见过的任务及新的任务组合,为视频生成与编辑提供了更强的扩展性[2][11] 统一多模态任务能力 - UniVideo将多达10种视频生成与编辑任务统一到单一的多模态指令范式中,包括多模态理解(I/V2T)、文本到图像/视频生成(T2I/T2V)、图像到视频生成(I2V)、图像/视频编辑(I2I/V2V)以及上下文图像/视频生成与编辑(Multi-ID2I等)[12][13][16][18][20][22] - 模型通过MLLM处理多模态指令并生成高层语义表示,同时利用MM-DiT在潜空间中进行条件视觉内容生成,实现了灵活的任务调度[13][14] 性能表现与实验结果 - 在定量评测中,UniVideo在多项评测指标上优于任务特定的基线方法,并在多数实验设置下达到或超过当前最优方法(SoTA)[24] - 在上下文插入(In Context Insert)任务中,UniVideo (Mask Free) 在CLIP-I指标上达到0.693,在Aesthetic指标上达到6.031,表现优于或接近Kling1.6、Pika2.2等模型[26] - 在上下文交换(In Context Swap)任务中,UniVideo (Mask Free) 的CLIP-I为0.728,Aesthetic为6.190,表现领先[26] - 在单参考生成(Single Reference Generation)任务中,UniVideo的人类评价得分(SC↑)为0.88,显著高于VACE的0.31、Kling1.6的0.68和Pika2.2的0.45[27] - 在多参考生成(Multi Reference (> 2) Generation)任务中,UniVideo的人类评价得分(SC↑)为0.81,同样领先于其他对比模型[27] 泛化能力验证 - 模型展现出对未见视频编辑指令的泛化能力,通过联合多任务训练,成功将图像编辑能力迁移至视频领域,实现了对自由形式(free-form)视频编辑指令的理解与执行[28] - 模型还展现出对新任务组合的泛化能力,即使在训练阶段未显式包含相关组合,仍能自然泛化,体现了统一多模态框架在组合泛化方面的显著优势[29][33] 行业影响与学术认可 - 该研究工作已被顶级学术会议ICLR 2026接收,并且代码与模型均已开源,这有助于推动行业在统一多模态视频生成与编辑方向上的技术进步与应用探索[3][5] - 该成果表明,统一多模态建模不仅可行,而且可能是一条比依赖多个孤立模型更具扩展性的技术发展路径[32][33]