Workflow
多模态模型
icon
搜索文档
智源研究院王仲远:世界模型的关键是真正预测下一个状态
经济观察网· 2025-11-01 18:51
世界模型成为AI新焦点 - 2025年“世界模型”成为AI领域最受关注的词汇之一 其核心是让AI理解世界运作规律 实现从识别生成到想象预测的跨越 [2] - 随着大模型红利减弱 行业正寻找新增长点 世界模型被视为重要方向 [2] 智源研究院Emu3.5模型技术突破 - 智源研究院发布悟界·Emu3.5多模态世界大模型 采用自回归架构统一了图像 文本与视频的生成和理解 能够预测下一个状态 [2] - 模型基于超过10万亿token的多模态数据训练 视频数据累计时长达790年 参数规模为340亿 [3] - 通过“离散扩散自适应”推理方法 图像生成速度提升近20倍 同时保持高质量输出 [3] - 模型在三个维度实现突破 理解高层级人类意图并生成多步骤行动路径 动态模拟物理世界 提供泛化交互能力 [3] 世界模型的核心价值与应用 - 世界模型核心是对因果与物理规律的理解 而非简单的视频生成 [3] - Emu3.5不限定用途 既可支撑具身智能 也能生成多模态训练数据 展示了中国科研团队的原创路线 [4] - 未来AI的发展方向是理解世界本身并在其中行动 [4] 行业巨头布局世界模型 - DeepMind推出可生成交互式3D世界的Genie 3 OpenAI强化Sora的物理一致性 [2] - 英伟达 华为 百度等公司正从机器人与自动驾驶场景切入 让AI从看懂迈向参与 [2]
“100个国产Sora2已经在路上”
投中网· 2025-11-01 15:03
行业融资动态 - LiblibAI完成1.3亿美元B轮融资,为2025年至今国内AI应用领域最大规模单笔融资,由红杉中国、CMC资本及某战略投资方联合领投[3] - 爱诗科技完成1亿元人民币B+轮融资,由复星锐正、同创伟业、顺禧基金等共同投资,距离上一轮6000万美元B轮融资仅隔40天,两轮累计融资超5.2亿元[3] - 爱诗科技旗下产品PixVerse与拍我AI用户规模突破一亿,年度经常性收入超过4000万美元[3] - 生数科技宣布完成数亿元人民币规模的A轮融资,由博华资本领投,百度战投等老股东持续跟投[10] 技术突破与产品进展 - OpenAI发布Sora2视频生成模型,实现物理模拟精确度、画面逼真度、生成可控性的质的飞跃,支持语音、音效与人物口型精准同步[4][7] - Sora2首次实现通用视频与音频生成系统,能生成高真实感视觉内容并合成环境声、语音与音效[7] - 同步推出社交应用SoraApp,支持用户一键生成视频、Remix他人作品、上传人像Cameo客串,首周iOS下载量达62.7万次,高于ChatGPT首周的60.6万次[4][7][8] - Sand.ai上线音画同步视频模型GAGA-1,生成视频自带声音、音效和情绪,质感与电视剧片段相似[8] - 爱诗科技产品MAU超过1600万,商业化不到一年收入增长超过10倍[9] - 生数科技平台累计生成视频数量超过3亿条,商业化8个月ARR突破2000万美元[10] 市场竞争格局 - 中国AI视频领域出现多家竞争者,包括生数科技、Minimax、快手的可灵、字节的Seed等[10] - 字节跳动被视为中国AI视频创业者的主要竞争对手,爱诗科技和Liblib两家头部公司创始人均出自字节[10] - 谷歌推出Veo3.1与Veo3.1Fast正面迎战OpenAI,百度宣布视频生成模型百度蒸汽机升级支持AI长视频实时交互生成[8] 行业趋势与认知 - Sora2被定义为视频领域的"GPT-3.5时刻",展示模型能讲故事的能力,语言模型的智能正向多模态模型扩散[6][7][13] - 模型能力被视为核心竞争优势,应用公司摸索的有效功能可能只是帮助模型公司明确优化方向[13] - AI视频从工具向社区演进,可能出现新的社区物种,内容供给侧爆发和UGC文化变化带来机会[16][17] - 企业需将业务理解内化进模型,模型本身成为价值交付者,对团队科研、产品与商业化能力要求极高[14]
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪· 2025-10-30 19:56
模型核心定位与能力概述 - 北京智源人工智能研究院发布开源原生多模态世界模型悟界·Emu3 5 定位为世界模型基座 在AI领域开辟全新赛道 [1][11] - 模型具备图、文、视频任务综合处理能力 包括画图改图、生成图文教程 视频任务增强了物理真实性 [1] - 核心能力体现在世界探索与具身操作 能像智能体一样理解长时序、空间一致的序列 模拟虚拟世界中的探索和操作 [12] 技术性能与基准测试表现 - 模型参数量为34B 基于Decoder-only Transformer框架 单一模型可完成视觉叙事、视觉引导、图像编辑、世界探索、具身操作等多种任务 [17] - 在多项权威基准测试中 性能媲美甚至超越Gemini-2 5-Flash-Image 在文本渲染和多模态交错生成任务上优势显著 [9] - 采用离散扩散适配技术 将图像推理速度提升近20倍 解决了自回归模型生成图像慢的问题 [26] 关键技术创新点 - 模型将所有任务统一为下一状态预测任务 通过强大的多模态分词器将文本和图像转换为离散Token序列 [17] - 在超过10万亿Token的多模态数据上进行预训练 主力数据为互联网视频的连续帧和转录文本 使其沉浸式学习时空连续性和因果关系 [18] - 视觉分词器基于IBQ框架 拥有13万视觉词汇表 并集成扩散解码器 能实现高达2K分辨率的高保真图像重建 [19] - 预训练后经过大规模有监督微调和大规模多模态强化学习 使用复杂奖励系统进行优化 [25] 应用场景与功能演示 - 能够以第一人称视角构建动态3D虚拟世界 用户移动和转身时能动态构建下一步场景 全程保持空间一致性 [3][6] - 擅长提供具有连贯性和指导意义的视觉内容 例如根据狐狸草图指令一步步生成从草图到最终手办形态的完整视觉流程 完美保留核心特征和神态 [13] - 支持生成分步教学指南 如手把手教做菜、画画、种菜 并能进行多图、多轮指令的复杂图像编辑 主体一致性和风格保持能力达业界顶尖水平 [14][15] - 演示案例包括高精度操作如一句话消除手写痕迹 以及复杂任务如按照多步指令整理桌面 [1][22][24]
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测
机器之心· 2025-10-24 14:26
图像编辑模型评测框架 - 在AIGC领域,图像编辑正取代一次性生成,成为检验多模态模型能力的关键场景[2] - 研究者提出了EdiVal-Agent,一个以对象为中心的自动化、细粒度多轮编辑评估框架[2] - 该框架能自动生成多样化编辑指令,并从指令遵循、内容一致性、视觉质量多维度进行精细评估[2] 现有评测方法的局限性 - 当前主流评测分为基于参考图像和基于大模型打分两类[6] - 基于参考图像的方法覆盖面有限,易继承旧模型偏差[6] - 基于大模型打分的方法存在空间理解差、细节不敏感、审美失准等问题,难以精确可靠衡量编辑质量[6] EdiVal-Agent的核心工作流程 - 第一步是对象识别与描述,自动识别图中所有可见对象并生成结构化描述,汇总成对象池[17] - 第二步是指令生成,覆盖9种编辑类型和6个语义类别,动态维护三个对象池[18][19] - 第三步是自动评测,从指令遵循、内容一致性和视觉质量三个维度评估模型表现[20][21] 评测指标设计 - EdiVal-IF衡量指令遵循能力,使用开放词汇检测器进行几何验证和语义核对[25] - EdiVal-CC测量未被编辑部分的一致性,计算背景区域与未修改对象之间的语义相似度[25] - EdiVal-VQ评估整体视觉质量,但因其是否应追求"美化"存在争议,未纳入最终评测指标[24][28] - 最终综合指标EdiVal-O通过几何平均融合EdiVal-IF和EdiVal-CC[22] 人类一致性验证 - EdiVal-Agent的指标EdiVal-IF与人类判断的平均一致率高达81.3%[31] - 传统评测方法表现明显更低,VLM-only为75.2%,CLIP-dir为68.9%[31] - 人工之间的一致率为85.5%,意味着EdiVal-Agent的表现已接近人类评测上限[32] 主流模型性能对比 - 在13个代表性模型评测中,Seedream 4.0在指令遵循能力上领先,最终评分排名第一[36] - Nano Banana在速度与质量上达成平衡,内容一致性尤为出色,排名第二[36] - GPT-Image-1指令遵循能力出色但因追求美观而牺牲一致性,位列第三[36] - Qwen-Image-Edit出现典型"曝光偏差",在开源模型中排名第一,总排名第六[37]
不到 3 个月估值破 40 亿,Fal.ai CEO:模型越多,我们越值钱
36氪· 2025-10-24 08:55
2025 年 10 月 22 日,AI 基础设施公司 Fal.ai宣布完成新一轮 2.5 亿美元融资。据悉,凯鹏华盈与红杉资本领投此轮,公司估值超40亿美元。 距离上一轮 15 亿美元估值的 C 轮融资,还不到 3 个月。 这家不足 50 人的初创公司,没有训练任何自研大模型,也不追逐最强参数。 它只做一件事:让模型能调用、可商用。 Fal.ai 联合创始人兼 CEO Gorkem Yurtseven 在随后的专访中这样定义自己: 不再比拼模型能力,而是让任何模型都能被开发者用起来。模型越多,我们的平台就越有价值。 18个月前,他们还在做数据基础设施工具,为大公司处理数据清洗与转换。 直到Stable Diffusion爆火,他们看到底层逻辑变了:过去是训练模型难,现在是模型太多,反而没人能用好。他们砍掉付费产品,把模型当原料,把推理 变成流水线。 (来源TechCrunch :Fal.ai完成新一轮融资,估值超40亿美元) 今天,Fal平台托管 600 多个模型,服务超过 200 万开发者。 Adobe、Canva、Shopify、Perplexity 已将它作为生成式媒体的基础设施。 这家公司不讲"AGI ...
史上最全robot manipulation综述,多达1200篇!八家机构联合发布
自动驾驶之心· 2025-10-15 07:33
文章核心观点 - 人工智能正以前所未有的速度从"会说"迈向"会做",具身智能成为连接认知与行动的关键前沿,机器人操作在其中扮演核心角色[5] - 该综述论文使用17张图、15张表格、超1000篇参考文献,系统梳理了机器人操作领域的全景图谱,提出了统一的理解框架[6] - 论文扩展了传统的"高层规划—低层控制"划分,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制提出基于训练范式的新分类法[9][11] 机器人操作研究演进 - 从早期的规则控制与运动规划,发展到如今融合强化学习、模仿学习与大模型的智能控制体系,经历范式转变[6] - 控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习)[15] - 硬件沿革从机械手、机械臂发展到移动机器人平台[15] 研究框架与分类体系 - 提出统一的高低层控制框架:高层规划涵盖任务规划、语言、代码、运动、可供性和3D表示[14][21] - 低层学习控制采用三层结构分类:输入建模、潜表征学习和策略学习[22][24] - 系统总结了机器人操作面临的两大核心瓶颈:数据采集与利用、系统泛化能力[27] 数据集与仿真平台 - 梳理了多种仿真器与基准,包括MetaWorld、Franka Kitchen、RLBench等平台,支持50-1000+任务数量[16] - 数据集类型涵盖抓取数据集、轨迹数据集、具身问答与功能可供性数据集等[16] - 例如CALVIN数据集包含40M演示,Maniskill2包含2144物体和20任务[16] 操作任务分类 - 将操作任务分为抓取、基础操作、灵巧操作、软体机器人操作、可变形物体操作、移动操作、四足机器人操作和人形机器人操作等8类[17][19] - 各任务类型有明确技术定义,如抓取狭义定义为机器人生成抓取位姿,灵巧操作通过多指手实现精确物体控制[17] - 基础操作指单臂或双臂在桌面场景执行的简单任务(如拾放、分拣)[17] 未来研究方向 - 构建真正的"机器人脑",实现通用认知与控制[35] - 打破数据瓶颈,实现可扩展的数据生成与利用[35] - 强化多模态感知,提升与复杂物体的交互能力[35] - 确保人机共存安全,推动机器人走向真实世界[35]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
恒生大科技们假期表现
小熊跑的快· 2025-10-09 13:06
海外AI硬件与芯片格局 - AMD被纳入以OpenAI为核心的AI硬件闭环圈子 成为利好因素 尽管其未来在台积电3nm/2nm制程的产能分配和MI450芯片的具体落地规模尚不确定[1] - 大型云厂商因是经营稳健的老牌公司 由职业经理人管理 主要专注于资本支出季度增加数十亿美元和稳定股票回购 不太可能加入千亿美元规模的循环圈子 导致其股价近期表现落后[3] - 台积电作为圈子外的例外 股价持续创新高 凸显其在AI芯片制造领域的核心地位和强大实力[3] AI多模态模型进展 - OpenAI的Sora 2模型被视为视频生成领域的GPT-3.5时刻 在复杂动作模拟、多镜头指令跟随及不同风格视频生成上实现巨大飞跃[3] - Sora应用在国庆期间登顶免费应用下载排行榜首位[4][6] - Google Gemini 3模型将多种模态整合 实现输入输出的自由切换 表明多模态模型正在持续进化[8] 国内科技资产与港股市场 - 国内优质资产集中于港股科技板块 例如阿里巴巴及其云业务 以及两个晶圆厂 其逻辑在于无论AI领域如何发展 核心的产能争夺始终是关键[8] - 恒生科技指数ETF自4月8日至10月9日涨幅达34.7% 年初至今涨幅为43% 但同期科创板50指数和创业板指数涨幅分别为50%和52% 恒生科技涨幅相对较小[13] - 恒生科技指数整体估值仅为24.9倍 远低于科创板的204倍估值 从优质资产估值水平看 存在较高的补涨概率[13]
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来
机器之心· 2025-10-09 10:24
多模态模型技术路线创新 - 传统CLIP-style encoder方法将视觉表征过早拉近到文本空间,导致原生视觉结构被不可逆压缩/丢失,语言模型需二次解码跨模态embedding,造成对齐脆弱和推理链条变长[2] - 北大、UC San Diego和BeingBeyond联合提出Being-VL方法,将视觉与文本对齐步骤后置,先在纯自监督、无语言条件设定下将图像离散化并分词,再与文本在同一词表、同一序列中由同一Transformer统一建模,从源头缩短跨模态链路并保留视觉结构先验[2] Being-VL实现方法 - 实现分为三步:首先用VQ(如VQ-GAN)将图像量化为离散VQ tokens,随后训练视觉版BPE,不仅看共现频次,还显式度量空间一致性,优先合并既常见又在不同图像中相对位置稳定的token对,得到更具语义与结构的BPE tokens,最后将视觉tokens与文本tokens串成同一序列,进入同一个自回归LLM统一建模,不再依赖额外projector或CLIP对齐[3] - BPE词表学习仅依赖图像统计,不看文本,真正把语言对齐留到后续阶段[3] 与传统方法的本质差异 - 传统做法让LLM去再解释外部视觉encoder的连续embedding,这会放大模态鸿沟并诱发幻觉[6] - Being-VL把视觉提前离散化为可组合的tokens,并在序列里与文本统一建模,减少表征形态错位,缩短跨模态因果链条,从而在保持感知细节与高层语义的同时降低想象成分[6] 视觉BPE tokenizer设计 - 针对视觉场景设计BPE tokenizer,提出Priority-Guided Encoding:基于score P(a,b)=F(a,b)+α・S(a,b)进行BPE词表构建,其中F为邻接频次,S衡量在不同图像中的相对位置一致性,相似度用高斯核对齐,使视觉词表既覆盖高频模式又保留空间结构[7][8] - 此过程完全不依赖文本[8] 三阶段训练策略 - 采用三阶段训练并显式控制解冻顺序:Stage-1只训练新扩展的视觉token embeddings(包括VQ与BPE两部分),其余参数全部冻结,完成基础对齐而不扰动原有语言能力;Stage-2解冻LLM前若干层(默认约25%),让跨模态交互首先在底层表征中发生;Stage-3全量解冻,在更复杂的reasoning/instruction数据上收尾,强化高级能力[9][10][12] - 与解冻节奏配套,数据采用curriculum:从基础caption与属性识别,逐步过渡到视觉问答与多轮指令,显式对齐BPE的由局部到整体的层级特性,消融表明渐进解冻+curriculum明显优于单阶段训练[10] 实验效果与性能分析 - 实验表明,把图像先离散化并做视觉BPE,再与文本在同一序列里统一建模,既稳又有效,相较传统先拉到文本空间的做法更少丢失原生视觉信息,在细节敏感的问答与抗幻觉上更可靠[14] - 移除BPE后性能与稳健性整体下降,说明增益主要来自于把常见且空间关系稳定的视觉模式合成更有语义的tokens,让LLM在更合适的粒度上推理[14] 可视化与词表规模影响 - Visual BPE Token激活机制可视化显示,引入不同词表大小的visual BPE后,文本与视觉token的权重分布趋于均衡与同构,说明BPE在更细粒度上对齐了子词/子片段层面的统计与表征空间,降低模态间的分布漂移与共现偏差[16] - BPE词表规模在训练资源受限情形下,与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡,处于甜点区,词表继续增大(≥16K)时会出现大量低利用率、呈稀疏分布的token,导致单位算力收益下降,但预示在数据规模扩张时有更强上限潜力[19] 技术发展历程 - Being-VL-0给出视觉离散化+BPE的可行性与动机,从理论分析与toy实验出发,得出结论BPE-style合并能把必要的结构先验灌注进token,使Transformer更易学习,并初步探索两阶段训练(PT→SFT)、文本embedding冻结策略与数据scaling带来的稳健增益[21] - Being-VL-0.5将这一路线进一步优化为统一建模框架,包括频次与空间一致性联合的Priority-Guided Encoding、VQ/BPE/LLM三阶段渐进解冻及配套curriculum数据策略[24]
阿里巴巴通义千问技术负责人组建内部机器人AI团队
新浪财经· 2025-10-08 23:57
公司战略与组织架构 - 阿里巴巴已成立隶属于通义千问的"机器人和具身AI小组" [1] - 该团队由公司高管、通义千问技术负责人林俊旸领导 [1] 技术研发方向 - 团队专注于将多模态模型转化为能够执行长时序推理任务的基础智能体 [1] - 林俊旸参与了可处理声音、图像及文本输入的多模态模型研发 [1] - 公司认为相关应用"理应从虚拟世界迈向现实世界" [1]