Workflow
多模态模型
icon
搜索文档
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
36氪· 2025-10-30 19:56
最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。 第一视角漫游动态3D世界: 要知道,现在AI迭代的速度,正在刷新所有人的认知。 尤其是在文生视频这条赛道上,几乎每个月都有新技术出来"搞事情"。 肉眼可见,AI视频一个比一个真,一个比一个长。 but,先别急着鼓掌—— 真正的赛点,早已不是"像不像",而是"懂不懂"。 它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过是"高级的 GIF"。 现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。 从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI模拟动态物理世界的能力又双叒增强了。 它能让你以第一人称视角进入它所构建的虚拟世界。你的每一次移动、每一次转身,它都能动态构建出你下一步应该看到的场景,全程保持空间一致性。 除了上面展示的探索3D游戏世界, ...
Seedream 4.0大战Nano Banana、GPT-4o?EdiVal-Agent 终结图像编辑评测
机器之心· 2025-10-24 14:26
图像编辑模型评测框架 - 在AIGC领域,图像编辑正取代一次性生成,成为检验多模态模型能力的关键场景[2] - 研究者提出了EdiVal-Agent,一个以对象为中心的自动化、细粒度多轮编辑评估框架[2] - 该框架能自动生成多样化编辑指令,并从指令遵循、内容一致性、视觉质量多维度进行精细评估[2] 现有评测方法的局限性 - 当前主流评测分为基于参考图像和基于大模型打分两类[6] - 基于参考图像的方法覆盖面有限,易继承旧模型偏差[6] - 基于大模型打分的方法存在空间理解差、细节不敏感、审美失准等问题,难以精确可靠衡量编辑质量[6] EdiVal-Agent的核心工作流程 - 第一步是对象识别与描述,自动识别图中所有可见对象并生成结构化描述,汇总成对象池[17] - 第二步是指令生成,覆盖9种编辑类型和6个语义类别,动态维护三个对象池[18][19] - 第三步是自动评测,从指令遵循、内容一致性和视觉质量三个维度评估模型表现[20][21] 评测指标设计 - EdiVal-IF衡量指令遵循能力,使用开放词汇检测器进行几何验证和语义核对[25] - EdiVal-CC测量未被编辑部分的一致性,计算背景区域与未修改对象之间的语义相似度[25] - EdiVal-VQ评估整体视觉质量,但因其是否应追求"美化"存在争议,未纳入最终评测指标[24][28] - 最终综合指标EdiVal-O通过几何平均融合EdiVal-IF和EdiVal-CC[22] 人类一致性验证 - EdiVal-Agent的指标EdiVal-IF与人类判断的平均一致率高达81.3%[31] - 传统评测方法表现明显更低,VLM-only为75.2%,CLIP-dir为68.9%[31] - 人工之间的一致率为85.5%,意味着EdiVal-Agent的表现已接近人类评测上限[32] 主流模型性能对比 - 在13个代表性模型评测中,Seedream 4.0在指令遵循能力上领先,最终评分排名第一[36] - Nano Banana在速度与质量上达成平衡,内容一致性尤为出色,排名第二[36] - GPT-Image-1指令遵循能力出色但因追求美观而牺牲一致性,位列第三[36] - Qwen-Image-Edit出现典型"曝光偏差",在开源模型中排名第一,总排名第六[37]
不到 3 个月估值破 40 亿,Fal.ai CEO:模型越多,我们越值钱
36氪· 2025-10-24 08:55
2025 年 10 月 22 日,AI 基础设施公司 Fal.ai宣布完成新一轮 2.5 亿美元融资。据悉,凯鹏华盈与红杉资本领投此轮,公司估值超40亿美元。 距离上一轮 15 亿美元估值的 C 轮融资,还不到 3 个月。 这家不足 50 人的初创公司,没有训练任何自研大模型,也不追逐最强参数。 它只做一件事:让模型能调用、可商用。 Fal.ai 联合创始人兼 CEO Gorkem Yurtseven 在随后的专访中这样定义自己: 不再比拼模型能力,而是让任何模型都能被开发者用起来。模型越多,我们的平台就越有价值。 18个月前,他们还在做数据基础设施工具,为大公司处理数据清洗与转换。 直到Stable Diffusion爆火,他们看到底层逻辑变了:过去是训练模型难,现在是模型太多,反而没人能用好。他们砍掉付费产品,把模型当原料,把推理 变成流水线。 (来源TechCrunch :Fal.ai完成新一轮融资,估值超40亿美元) 今天,Fal平台托管 600 多个模型,服务超过 200 万开发者。 Adobe、Canva、Shopify、Perplexity 已将它作为生成式媒体的基础设施。 这家公司不讲"AGI ...
史上最全robot manipulation综述,多达1200篇!八家机构联合发布
自动驾驶之心· 2025-10-15 07:33
文章核心观点 - 人工智能正以前所未有的速度从"会说"迈向"会做",具身智能成为连接认知与行动的关键前沿,机器人操作在其中扮演核心角色[5] - 该综述论文使用17张图、15张表格、超1000篇参考文献,系统梳理了机器人操作领域的全景图谱,提出了统一的理解框架[6] - 论文扩展了传统的"高层规划—低层控制"划分,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制提出基于训练范式的新分类法[9][11] 机器人操作研究演进 - 从早期的规则控制与运动规划,发展到如今融合强化学习、模仿学习与大模型的智能控制体系,经历范式转变[6] - 控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习)[15] - 硬件沿革从机械手、机械臂发展到移动机器人平台[15] 研究框架与分类体系 - 提出统一的高低层控制框架:高层规划涵盖任务规划、语言、代码、运动、可供性和3D表示[14][21] - 低层学习控制采用三层结构分类:输入建模、潜表征学习和策略学习[22][24] - 系统总结了机器人操作面临的两大核心瓶颈:数据采集与利用、系统泛化能力[27] 数据集与仿真平台 - 梳理了多种仿真器与基准,包括MetaWorld、Franka Kitchen、RLBench等平台,支持50-1000+任务数量[16] - 数据集类型涵盖抓取数据集、轨迹数据集、具身问答与功能可供性数据集等[16] - 例如CALVIN数据集包含40M演示,Maniskill2包含2144物体和20任务[16] 操作任务分类 - 将操作任务分为抓取、基础操作、灵巧操作、软体机器人操作、可变形物体操作、移动操作、四足机器人操作和人形机器人操作等8类[17][19] - 各任务类型有明确技术定义,如抓取狭义定义为机器人生成抓取位姿,灵巧操作通过多指手实现精确物体控制[17] - 基础操作指单臂或双臂在桌面场景执行的简单任务(如拾放、分拣)[17] 未来研究方向 - 构建真正的"机器人脑",实现通用认知与控制[35] - 打破数据瓶颈,实现可扩展的数据生成与利用[35] - 强化多模态感知,提升与复杂物体的交互能力[35] - 确保人机共存安全,推动机器人走向真实世界[35]
史上最全robot manioulation综述,多达1200篇!西交,港科,北大等八家机构联合发布
具身智能之心· 2025-10-14 11:50
文章核心观点 - 具身智能是人工智能迈向通用智能的关键前沿,其核心在于机器人操作技术,该技术正经历从基于规则到融合大语言模型和多模态模型的范式转变 [3][4] - 一篇由多机构学者联合撰写的综述论文系统性地梳理了机器人操作领域,提出了统一的理解框架,涵盖硬件基础、任务数据、控制框架及泛化研究,旨在推动机器人从“执行任务”到“理解与学习任务”的演进 [4][6][7] 机器人操作领域综述概览 - 该综述使用17张图、15张表格和超1000篇参考文献,构建了机器人操作的全景图谱,内容覆盖硬件与控制基础、任务与数据体系、高低层控制框架及跨本体与跨模态的泛化研究 [4][6] - 论文扩展了传统的“高层规划—低层控制”框架,高层规划纳入语言、代码、运动、可供性与三维表示,低层学习控制则提出基于训练范式的新分类法,包含输入建模、潜表征学习和策略学习三个核心部分 [6][9][13] 机器人硬件与控制范式演进 - 机器人硬件从机械手、机械臂发展到移动机器人平台,控制范式从基于经典算法(如RRT、MPC)演进到基于学习的方法(如强化学习/模仿学习) [14] - 机器人模型的分类方式及其验证流程构成了评估体系,反映了领域技术栈的成熟度 [14] 仿真器、基准与数据集 - 综述整理了多个主流仿真器与基准,例如MetaWorld(80物体、50任务)、CALVIN(40M演示数据)、Maniskill2(2144物体、20任务)等,覆盖从基础操作到灵巧操作、移动操作等多种任务类型 [15][18] - 数据集类型包括抓取数据集、单/跨具身仿真器基准、轨迹数据集及具身问答数据集,支持多样化的机器人操作研究与验证 [17] 高层规划与低层控制框架 - 高层规划被扩展至语言、代码、运动、可供性和3D表示,凸显其在语义决策中的作用,例如通过大语言模型生成任务计划或代码 [21][24] - 低层学习控制提出三层结构分类法:输入建模(处理输入数据)、潜表征学习(构建可迁移表示)、策略学习(生成精准动作),为控制策略研究提供系统化视角 [22][23] 机器人操作核心瓶颈 - 领域面临两大瓶颈:数据采集与利用(涉及人类示教、合成数据生成、众包收集等途径)以及系统泛化能力(包括环境、任务和跨具身泛化) [27][28] - 数据利用方法涵盖数据扩展、选择重加权、检索与增强技术,而泛化挑战的解决方案旨在提升机器人对未知场景的适应能力 [27][28] 未来研究方向 - 未来重点方向包括构建通用“机器人脑”实现认知与控制、突破数据瓶颈以 scalable 生成利用数据、强化多模态感知提升复杂物体交互、确保人机共存安全推动真实世界应用 [32][34]
恒生大科技们假期表现
小熊跑的快· 2025-10-09 13:06
海外AI硬件与芯片格局 - AMD被纳入以OpenAI为核心的AI硬件闭环圈子 成为利好因素 尽管其未来在台积电3nm/2nm制程的产能分配和MI450芯片的具体落地规模尚不确定[1] - 大型云厂商因是经营稳健的老牌公司 由职业经理人管理 主要专注于资本支出季度增加数十亿美元和稳定股票回购 不太可能加入千亿美元规模的循环圈子 导致其股价近期表现落后[3] - 台积电作为圈子外的例外 股价持续创新高 凸显其在AI芯片制造领域的核心地位和强大实力[3] AI多模态模型进展 - OpenAI的Sora 2模型被视为视频生成领域的GPT-3.5时刻 在复杂动作模拟、多镜头指令跟随及不同风格视频生成上实现巨大飞跃[3] - Sora应用在国庆期间登顶免费应用下载排行榜首位[4][6] - Google Gemini 3模型将多种模态整合 实现输入输出的自由切换 表明多模态模型正在持续进化[8] 国内科技资产与港股市场 - 国内优质资产集中于港股科技板块 例如阿里巴巴及其云业务 以及两个晶圆厂 其逻辑在于无论AI领域如何发展 核心的产能争夺始终是关键[8] - 恒生科技指数ETF自4月8日至10月9日涨幅达34.7% 年初至今涨幅为43% 但同期科创板50指数和创业板指数涨幅分别为50%和52% 恒生科技涨幅相对较小[13] - 恒生科技指数整体估值仅为24.9倍 远低于科创板的204倍估值 从优质资产估值水平看 存在较高的补涨概率[13]
Being-VL的视觉BPE路线:把「看」和「说」真正统一起来
机器之心· 2025-10-09 10:24
多模态模型技术路线创新 - 传统CLIP-style encoder方法将视觉表征过早拉近到文本空间,导致原生视觉结构被不可逆压缩/丢失,语言模型需二次解码跨模态embedding,造成对齐脆弱和推理链条变长[2] - 北大、UC San Diego和BeingBeyond联合提出Being-VL方法,将视觉与文本对齐步骤后置,先在纯自监督、无语言条件设定下将图像离散化并分词,再与文本在同一词表、同一序列中由同一Transformer统一建模,从源头缩短跨模态链路并保留视觉结构先验[2] Being-VL实现方法 - 实现分为三步:首先用VQ(如VQ-GAN)将图像量化为离散VQ tokens,随后训练视觉版BPE,不仅看共现频次,还显式度量空间一致性,优先合并既常见又在不同图像中相对位置稳定的token对,得到更具语义与结构的BPE tokens,最后将视觉tokens与文本tokens串成同一序列,进入同一个自回归LLM统一建模,不再依赖额外projector或CLIP对齐[3] - BPE词表学习仅依赖图像统计,不看文本,真正把语言对齐留到后续阶段[3] 与传统方法的本质差异 - 传统做法让LLM去再解释外部视觉encoder的连续embedding,这会放大模态鸿沟并诱发幻觉[6] - Being-VL把视觉提前离散化为可组合的tokens,并在序列里与文本统一建模,减少表征形态错位,缩短跨模态因果链条,从而在保持感知细节与高层语义的同时降低想象成分[6] 视觉BPE tokenizer设计 - 针对视觉场景设计BPE tokenizer,提出Priority-Guided Encoding:基于score P(a,b)=F(a,b)+α・S(a,b)进行BPE词表构建,其中F为邻接频次,S衡量在不同图像中的相对位置一致性,相似度用高斯核对齐,使视觉词表既覆盖高频模式又保留空间结构[7][8] - 此过程完全不依赖文本[8] 三阶段训练策略 - 采用三阶段训练并显式控制解冻顺序:Stage-1只训练新扩展的视觉token embeddings(包括VQ与BPE两部分),其余参数全部冻结,完成基础对齐而不扰动原有语言能力;Stage-2解冻LLM前若干层(默认约25%),让跨模态交互首先在底层表征中发生;Stage-3全量解冻,在更复杂的reasoning/instruction数据上收尾,强化高级能力[9][10][12] - 与解冻节奏配套,数据采用curriculum:从基础caption与属性识别,逐步过渡到视觉问答与多轮指令,显式对齐BPE的由局部到整体的层级特性,消融表明渐进解冻+curriculum明显优于单阶段训练[10] 实验效果与性能分析 - 实验表明,把图像先离散化并做视觉BPE,再与文本在同一序列里统一建模,既稳又有效,相较传统先拉到文本空间的做法更少丢失原生视觉信息,在细节敏感的问答与抗幻觉上更可靠[14] - 移除BPE后性能与稳健性整体下降,说明增益主要来自于把常见且空间关系稳定的视觉模式合成更有语义的tokens,让LLM在更合适的粒度上推理[14] 可视化与词表规模影响 - Visual BPE Token激活机制可视化显示,引入不同词表大小的visual BPE后,文本与视觉token的权重分布趋于均衡与同构,说明BPE在更细粒度上对齐了子词/子片段层面的统计与表征空间,降低模态间的分布漂移与共现偏差[16] - BPE词表规模在训练资源受限情形下,与VQ等规模的码本在表达能力与训练效率之间取得更佳平衡,处于甜点区,词表继续增大(≥16K)时会出现大量低利用率、呈稀疏分布的token,导致单位算力收益下降,但预示在数据规模扩张时有更强上限潜力[19] 技术发展历程 - Being-VL-0给出视觉离散化+BPE的可行性与动机,从理论分析与toy实验出发,得出结论BPE-style合并能把必要的结构先验灌注进token,使Transformer更易学习,并初步探索两阶段训练(PT→SFT)、文本embedding冻结策略与数据scaling带来的稳健增益[21] - Being-VL-0.5将这一路线进一步优化为统一建模框架,包括频次与空间一致性联合的Priority-Guided Encoding、VQ/BPE/LLM三阶段渐进解冻及配套curriculum数据策略[24]
阿里巴巴通义千问技术负责人组建内部机器人AI团队
新浪财经· 2025-10-08 23:57
公司战略与组织架构 - 阿里巴巴已成立隶属于通义千问的"机器人和具身AI小组" [1] - 该团队由公司高管、通义千问技术负责人林俊旸领导 [1] 技术研发方向 - 团队专注于将多模态模型转化为能够执行长时序推理任务的基础智能体 [1] - 林俊旸参与了可处理声音、图像及文本输入的多模态模型研发 [1] - 公司认为相关应用"理应从虚拟世界迈向现实世界" [1]
大厂AI模型专题解读
2025-09-28 22:57
行业与公司 * 行业为人工智能大模型,特别是中国国内的大模型行业,涉及的公司包括阿里巴巴、字节跳动、腾讯、百度、快手、Meta、谷歌、OpenAI等 [1][2][4][5][7][15][18] 核心观点与论据 **国内外大模型差距** * 国内大模型在基础架构上依赖海外提出的Transformer、MoE等,缺乏自研突破性架构创新 [1][2] * 国内AI大厂的GPU算力远低于海外巨头,受中美贸易战影响,差距通常高出一个量级 [1][2] * 商业模式差异导致模型上限存在差距:国外如GPT追求顶级性能(例如OpenAI的GPT Pro月费200美元,号称媲美博士级别),而国内模型更侧重推理成本控制和性价比,以适应国内用户消费习惯 [1][2] * 在多模态商业化落地方面,海外具有先发优势,用户量和收入领先国内一个量级,例如音乐生成领域海外最好模型Suno的收入大约是国内最好产品的10倍 [18] * 国产多模态模型在长文本理解、多样化场景处理及泛化性方面与海外领先水平存在差距 [7][8] **国内大模型的优势与特点** * 国内数据法律相对宽松,成为追赶海外大模型的一项优势 [1][3] * 国产多模态模型聚焦国内场景(如电商广告、短视频等),生成内容更贴近国人需求,在性价比和成本控制上优于海外模型 [1][7][8] * 国内模型更注重实际应用和成本效益 [1][2] **公司战略与布局** * 阿里巴巴采取几乎全开源策略,包括完整的模型权重、代码及训练数据,以扩大影响力,并整合其云服务系统形成闭环互利模式 [1][4][15] * 阿里巴巴通过提供不同参数大小版本和公开打榜测试来提高可信度,因此开源认可度较高 [1][4] * 字节跳动依靠独占基础模型优势,在C端商业化同时加固技术壁垒 [15] * 百度侧重B端技术落地与整合,不参与开源及C端竞争 [15] * 部分前期投入基础模型但无法追赶上的公司转向应用开发,并将之前的架构和细节开源 [15] **技术架构与发展** * MoE(Mixture of Experts)架构已成为大模型标配,通过门控系统分配输入内容给对应专家系统处理,降低计算成本和推理时间 [1][10] * MoE架构未来优化方向包括精准入口分层、专家系统结构差异化和训练稳定性(解决某些专家系统过劳或躺平的问题) [1][10] * 2025年开始,Agent技术成为重点发展目标,其优势在于整合完整链路(前置用户理解、调用工具、结合自身能力生成完整系统) [16][22] * 到2026年,MCP(Multi-Chain Protocol)概念将普及,解决不同上下游数据输入输出连接问题,降低工具集成成本 [2][22] * 未来模型算力尺寸将大幅缩小,实现降本增效,并部署在端侧设备上,自监督模型强化将减少对人为参与和数据标注的依赖 [2][22] **多模态模型发展** * 国内各大厂商(阿里、字节、腾讯、百度、快手等)均在积极布局多模态模型,涵盖文本、图像、音频、视频、3D生成等领域 [5][6][7] * 代表性产品包括阿里的天工GL、OMI和通义万象,快手的可灵,腾讯的混元,字节的豆包等 [7] * 3D生成是国内新兴领域,但数据处理和训练成本高,下游应用尚不明确,目前主要集中于VR场景生产 [18] **行业经济性与商业化** * 从2024年中期开始,大模型API和C端定价降低,原因是前期大量企业投入预训练导致GPU算力资源稀缺,后期部分厂商放弃训练,算力资源释放,加上技术进步(如云浮加速优化),导致成本下降 [2][13] * 尽管用户付费减少,但由于成本降低,对企业收入仍产生正向影响,行业整体成本转化率增加 [13] * C端主要采用订阅制,B端API市场较为混乱,不同厂商的API被下游公司整合成C端产品出售,增加了用户选择但也提升了大厂运营推广成本 [14] * 国内用户对收费服务接受度低,付费转化率大约在3%至5%,30日留存率仅为3%至6% [20] * 成功的AI产品案例(如AI陪玩对话系统)通过结合情感陪伴和专业功能来吸引用户付费 [21][22] **挑战与未来展望** * 端侧AI设备(如机器人、眼镜)融合面临挑战:模型部署在设备上需解决成本、重量、续航问题;部署在云端需克服互动性、延时性及网络问题 [19] * 预计眼镜或头戴式运动装备将优先实现端侧AI融合 [19] * 国内免费的大厂对话机器人及多模态产品月活跃用户数达数千万,但免费策略的可持续性待观察,未来需探索付费转化路径 [19] * 幻觉问题的改善主要依赖数据质量和训练方法(如让模型识别自身不了解的信息),预计到2026年底通用大模型幻觉率将有显著改善 [10][11][12] * 展望2026年,关键技术突破可能包括Agent技术普及、模型算力尺寸缩小、自监督模型强化,目标是实现ASI(Artificial Super Intelligence) [22] 其他重要内容 * 短剧内容与AI剪辑工具融合方面,生成与编辑是不同方向,部分厂商转向编辑功能,但目前编辑功能仍处于辅助地位 [9] * 海外市场目前尚未有一键生成短剧或剧本内容的AI视频多模态工具,未来可能需要剧本大模型与agent链路结合来实现 [9] * 在基于剧本大模型做落地产品方面,可灵和奇梦两家公司已进行相当成熟的系统研究(但涉及机密信息未透露具体厂商) [10]
国内的这款“赛博陪玩”闯进了东京TGS
虎嗅· 2025-09-28 15:17
编辑|苗正卿 头图|东京TGS展 这是29年来史上最大规模的东京TGS游戏展(日本东京游戏展览会,以下简称"TGS"),16万平方米的展厅,有超1000家参展企业来自中国。但在最大的游 戏主展馆,却只有一家与AI有关。 而对于这25万参展观众来说,AI,或者说AI如何与游戏结合,还不是他们关注的重点。就连TGS留给这家国内AI游戏公司的位置也只有一个小角落。 但对于国内唯一拿到TGS入场券的AI游戏陪伴公司"心影随形"来说,已经足够让他们兴奋。 创始人刘斌新在现场激动地向虎嗅分享,自己是如何接收到来自TGS的邀请函邮件,并决定将出海的第一站瞄向日本。 大约两个月前,刘斌新的邮件箱里收到一封来自东京TGS的邀请函。而引起TGS注意的是,其在海外社交媒体(X和YouTube)上的宣传都是用日语。 "最开始都是我们联合创始人王碧豪在发这些blog。"刘斌新告诉虎嗅。 在他们二人中,王碧豪才是那个更资深的游戏玩家。据刘斌新介绍,碧豪从小就很喜欢玩游戏,每年在游戏上花的时间超过300个小时。也就是说,即使在 工作日,碧豪平均每天也会花将近一个小时玩游戏。 而二人的结识还要追溯到更早。从2013年在百度开始,王碧豪就是刘 ...