多模态大模型
搜索文档
“百度不做”,仅仅一年,李彦宏反悔了
搜狐财经· 2025-10-20 16:59
行业战略转变 - 百度创始人李彦宏在2024年10月内部讲话中表示AI视频大模型投入周期过长可能10年或20年都无法获得业务收益因此百度不会去做此类模型 [1] - 2025年9月30日Sora 2发布后仅14天百度便高调推广其AI视频模型“百度蒸汽机”与谷歌Veo 3.1形成竞争态势显示公司战略从回避转向积极参与 [2] - 中国AI视频应用从2024年初Sora发布时的沉寂转变为2025年的火热各大厂商包括阿里、腾讯、字节、百度均推出产品市场竞争加剧 [4][12] 技术差距与演进 - 2024年2月Sora通过“建构现实”能力超越其他仅“模拟现实”的应用例如能再现咬苹果留下齿痕的物理规则细节提升视频真实感 [5] - 2024年中国大厂因基础大模型与Open AI、谷歌存在巨大差距优先聚焦追赶GPT-4而非开发文生视频模型导致初期回避Sora竞争 [10][12] - 2025年初深度求索推出“物美价廉”的DeepSeek模型减轻行业焦虑基础大模型竞争迭代加速成本下降推动多模态能力发展 [12] - 当前AI视频模型沿两大方向演进:视频质量提升如画面更真实、提示词更准确以及用户编辑能力强化如局部修改和对象增删 [15] - 音频即时生成功能填补了AI视频仅能制作“默片”的短板而测试显示Sora 2注重娱乐性谷歌Veo 3.1强调物理规则差异化竞争明显 [16][17] 商业化前景 - Sora 2通过成本降低和可用性增强用户可直接生成复杂电影片段减少修改需求AI演员如蒂利·诺伍德出现可能替代真人颠覆传统影视行业 [19][20] - Sora 2推出免费用户“一键创作视频”功能推动从网页端向APP移动端战略下沉通过个性化设计如插入用户形象加速社交传播 [22] - Open AI计划为创作者提供变现机制目标是让90%以上免费用户找到盈利途径构建类似TikTok的用户生产与消费闭环平台 [22][24] - 全球生成式AI视频竞争加剧但平台化机会有限同一类型“平台”数量不会太多导致厂商间血腥厮杀以争夺主导地位 [24]
让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准
量子位· 2025-10-19 12:10
IWR-Bench团队投稿 量子位 | 公众号 QbitAI 多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对AI自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这 些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。 为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了 IWR-Bench ——一个旨在更真实地评估LVLM交互式网 页重建能力的评测基准。 IWR-Bench的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资 源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则 的2048、订机票等应用。 这项任务的难度远超预期。在对28个主流模型的全面测试中,即便是表现最好的模型 GPT-5 ,其综合得分也仅有 36.35 分。这一结果清晰 地指出了当前模型的核心短板,IWR-Bench不仅为领 ...
对话智元机器人合伙人王闯:我们的出货量比马斯克还多!人形机器人会比汽车产业还大!
新浪财经· 2025-10-18 21:31
行业技术发展现状与展望 - 机器人行业技术发展远超预期,去年WAIC展会中十几家企业以静态展示为主,行走稳定性不足,而今年人形机器人已能完成复杂舞蹈动作,过去预计3-5年解决的技术难题在一年内便取得突破 [5] - AI(尤其是具身智能)为机器人研发带来革命性提效,以双足机器人行走训练为例,过去需4-5人投入数月,如今借助AI加速技术,1-2人仅需两周即可完成且效果更优;机器人学习舞蹈动作的周期从1-2个月大幅缩短至两三天 [8] - 技术在过去一年迎来大爆发,完全颠覆了此前认为人形机器人应用还需三五年才能谈及的认知,机器人技术进步迅速 [13][15] 商业化路径与落地场景 - 商业化落地遵循从易到难的节奏,优先攻克市场需求迫切且技术可实现的场景,当前优先选择不与物理世界复杂接触的场景,后续逐步拓展至物理接触简单、规则明确、精度要求低的场景,再向柔性操作与高精度任务进阶 [5] - 公司已明确八大可落地场景,其中料箱转运、文娱商演、讲解接待为典型代表;在工厂料箱转运场景中,机器人3小时可搬运500余个箱子,效率达人类的70% [5] - 今年11月公司将上线扫码取物功能,用户扫码后机器人可前往指定地点取物并送达,以替代重复性劳动,缓解高峰期用工紧张 [8] - 机器人最初目标是拟人,接着是类人,最后是超越人,目前行业刚处于拟人阶段,离类人水平还有很大差距,因为机器人缺乏对人类触觉、温度等方面的敏锐感知 [24][25] - 从成本角度讲,机器还不能替代人工,未来五年能替代就已经很不错,当前目标是在文娱商演和展厅讲解接待等场景先将其用起来 [22][24] 产品形态与市场定位 - 十年后机器人形态将是轮式、足式并存;双足机器人因能适配人类现有基础设施(如台阶、马路牙子),未来若保有量达100万台将满世界可见,并分化出大、中、小不同型号 [6] - 轮式机器人在特定场景如工厂(平整地面、范围固定)具备不可替代的优势,在负载能力、续航时长、运行噪音控制及搬运平稳性上均优于双足机器人,效率更具竞争力 [6] - 智能机器人需兼顾高端与平价市场,推出功能达标且价格亲民的产品,以确保不同年龄、技能水平的劳动者能融入新生态,例如计划研发不同型号的养老机器人,让基础款产品功能满足需求且价格可及 [9] 产业规模与竞争格局 - 人形机器人产业最终会比汽车产业还要大,不可能被一两家龙头垄断,因为产业规模足够大,细分领域需求千奇百怪,全球不同区域也有差异化需求 [17] - 人形机器人赛道能够容得下10家以上的公司,但前10家公司会活得比较好、利润较高,越往后毛利率可能较差,公司目标是做到比较头部的位置 [17] 公司运营与业绩 - 公司远征系列机器人已出货约1000台,明年计划达几千台,公司自称已是全球人形机器人出货量最大的企业 [18] - 2024年是量产元年,2025年是商用化元年,公司今年营收规模相比去年增长了好多倍,可能十倍都不止,行业正以指数级发展 [20] 产品研发挑战 - 人形机器人量产难度比消费电子大得多,因为其产业链不够成熟,核心关节、灵巧手及自身设计均不如消费电子成熟,且机器人有几十个自由度,每个都需要标定以保证一致性和可靠性 [11] 特定应用场景规划 - 养老机器人发展分为多个阶段,第一阶段是陪伴(如说相声、跳舞、文艺表演),公司已开始实践并很受欢迎;预计约3年后进入第二阶段(如帮助提东西和出行),5年后再考虑卧床看护阶段 [27]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-18 00:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶等前沿技术方向 [3] - 其他关键领域包括具身交互、联合预测、SLAM、3D目标检测、世界模型等 [3] - 技术布局覆盖闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘标准 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有发表成果的候选人 [4] 合伙人待遇与激励 - 为合伙人提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 公司提供创业项目合作与推荐机会 [5]
视觉中国:拟战略投资凌川科技,投资额度不超1亿元
新浪财经· 2025-10-17 12:09
合作公告 - 视觉中国与凌川科技于10月17日签署投资框架协议并达成战略合作 [1] - 双方合作领域包括AI视觉芯片、多模态大模型训练推理、智算解决方案 [1] 投资细节 - 视觉中国拟认购凌川科技增发的新股,投资额度不超过1亿元人民币 [1] - 视觉中国完成投资后,在未来凌川科技增加注册资本时有权按持股比例优先认购新增注册资本 [1]
多模态大模型首次实现像素级推理,3B参数超越72B传统模型,NeurIPS 2025收录
36氪· 2025-10-16 15:39
核心观点 - 香港理工大学与腾讯ARC Lab的研究团队提出首个统一的像素级多模态大模型UniPixel,该模型能在一个框架内完成目标指代、像素级分割与区域推理三大任务,实现了对用户提示的“感知—记忆—推理”全过程支持 [1][3][4] - 该模型通过引入对象记忆机制和统一视觉编码等创新设计,解决了传统多模态大模型难以进行精确目标识别和区域推理的痛点,在多项基准测试中性能超越现有模型 [4][8][20] 技术架构与创新 - UniPixel基于Qwen2.5-VL模型构建,支持图像与视频输入,并能处理文本、点、框、掩码等多种提示 [6] - 模型核心包含三大关键模块:提示编码器(统一编码三类视觉提示)、对象记忆体(动态存储用户指定目标)、掩码解码器(生成精确时空掩码) [8] - 通过扩展语言模型词表,增加`<REF>`、`<MEM>`、`<SEG>`等特殊Token,在语言生成与像素感知之间建立紧密连接 [9] - 对象记忆体机制允许模型在多轮对话中复用记忆对象,实现“上下文可控推理” [12][14] 性能表现 - 在ReVOS推理分割基准上,UniPixel-3B达到62.1 J&F,超过所有现有模型;7B版本达到64.0 J&F [20] - 在MeViS数据集上,UniPixel-7B的J&F达到54.7,显著优于对比模型 [20] - 在RefCOCO数据集上,UniPixel-7B在testA集达到83.8 cIoU,在RefCOCO+ testA集达到81.0 cIoU,表现最佳 [22] - 在VideoRefer-Bench区域理解任务上,UniPixel-7B在单帧和多帧评估中平均得分分别为3.47和3.48,优于GPT-4o等模型 [23] - 在新提出的PixelQA任务中,UniPixel-3B在点提示下的准确率达71.1%,超越Qwen2-VL 72B模型的69.3% [26] 训练与数据 - 采用模块化、分阶段的训练策略,逐步引入各组件进行联合训练 [16] - 训练数据规模约100万条样本,整合了涵盖文本、图像、视频及多种视觉提示类型的多个数据集 [17][18] 应用前景与影响 - 该技术有望应用于医疗诊断、自动驾驶、人机交互等需要精确区域感知和高可控性的场景 [4] - UniPixel代表了多模态AI从“模态对齐”走向“细粒度理解”的重要进展,为未来能精准聚焦、灵活交互的智能体形态提供了原型 [34]
多模态大模型首次实现像素级推理!3B参数超越72B传统模型,NeurIPS 2025收录
量子位· 2025-10-16 14:11
核心观点 - 香港理工大学与腾讯ARC Lab的研究团队提出了首个统一的像素级多模态大模型UniPixel,该模型首次实现了像素级推理,能够在一个模型中完成目标指代、像素级分割与区域推理三大任务[1][2][4] - 该模型通过引入对象记忆机制和统一视觉编码方式,实现了对用户提示的“感知—记忆—推理”全过程支持,突破了传统LMM只能进行整体图像推理的局限[8][9] - 论文已被NeurIPS 2025接收,代码、数据和Demo全部开源[5] 技术架构创新 - UniPixel基于Qwen2.5-VL模型构建,支持图像与视频输入,具备对文本、点、框、掩码等多种提示的感知与处理能力[12] - 模型引入了三大关键模块:提示编码器(支持点、框、掩码三种视觉提示统一编码)、对象记忆体(用于存储用户指定目标并支持多轮引用)、掩码解码器(实现精确的时空掩码生成)[15][16][19] - 对语言模型词表进行了扩展,增加了<REF>、<MEM>与<SEG>等特殊Token,在语言生成与像素感知之间建立了紧密连接[14] 对象记忆体机制 - 对象记忆体是一个可动态更新的哈希结构,用于在推理过程中存储与管理用户指定的目标区域[21] - 通过“记忆预填充”流程智能识别并生成对应的时空掩码,然后将其作为对象信息写入记忆体中[22] - 支持多轮对话中不断复用记忆对象,实现“上下文可控推理”,用户再次提及目标时只需使用之前定义的编号即可自动激活相应区域[23] 掩码引导推理 - 将掩码生成过程嵌入到语言模型推理流程中,实现了“语言引导分割,分割反哺理解”的双向闭环[26] - 模型在推理过程中生成<SEG> Token作为掩码触发标志,每个<SEG> Token会被输入到掩码解码器生成对应的目标掩码[26] - 这些掩码通过对原图片或视频进行池化,转化为LLM可识别的对象特征,用于回答更复杂的语义问题[27] 训练策略与数据 - 采用模块化、分阶段的训练策略,首先对视觉编码器和语言模型进行预训练,再逐步引入各组件进行联合训练[28] - 整个训练数据规模达到约100万条样本,支持从静态对象指代到时序掩码生成等多种任务类型[29] - 训练数据涵盖了Inst-IT-Image-Short-Caption(351K样本)、VideoRefer-Short-Caption(500K样本)等多个数据集[30] 性能评估结果 - 在10个公开基准测试集上进行了广泛实验,涵盖9大视觉-语言理解任务[31] - 在ReVOS推理分割基准上,UniPixel-3B达到62.1 J&F,超过所有现有模型[33] - 在MeViS数据集上,UniPixel-7B达到54.7 J&F;在Ref-YouTube-VOS数据集上达到72.1 J&F;在Ref-DAVIS17数据集上达到75.7 J&F[33] - 在RefCOCO数据集上,UniPixel-7B在testA集达到83.8 cIoU,在RefCOCO+ testA集达到81.0 cIoU,在RefCOCOg test(U)集达到78.4 cIoU[34] - 在PixelQA任务上,UniPixel-7B在点提示下达到71.5%准确率,超越72B参数的传统模型[40][41] 应用前景 - 该技术突破了传统方法中“提示-响应”一次性交互的局限,让模型具备了类似人类的“关注-记忆-归纳”能力[24] - 在医疗诊断、自动驾驶、人机交互等需要精确感知图中“具体区域”或“指定目标”的场景中具有重要应用价值[9] - 代表了多模态AI从“模态对齐”走向“细粒度理解”的重要里程碑,为未来能精准聚焦、灵活应对、自然交互的智能体发展奠定了基础[47][48]
大模型方向适合去工作还是读博?
具身智能之心· 2025-10-16 08:03
文章核心观点 - 文章探讨了大模型领域从业者面临的职业发展选择问题 即继续深造读博还是参与AI Agent创业潮 [1] - 决策需基于个人是否具备扎实的大模型基础以及是否适合扮演“开拓者”的研究角色 [1][2] - 大模型之心Tech知识星球被定位为一个综合性的学习与交流平台 旨在为不同阶段的从业者提供系统化支持 [2][4] 大模型行业现状与人才需求 - 大模型技术范围广泛 涉及生成、多模态、微调、强化学习、基准测试及多个下游应用领域 [1] - 通用大模型研发存在高壁垒 主要由顶级公司主导 [1] - 行业存在导师半路出家、学生基础不扎实的现象 凸显了系统性学习的重要性 [1][2] 大模型之心Tech知识星球资源 - 社区形式为视频、图文、学习路线、问答与求职交流的综合体 [2] - 已邀请40余位来自国内外顶尖高校(如清华、北大、上交、港科大等)和头部公司(如阿里、百度、字节、月之暗面等)的嘉宾 [4][66] - 提供大模型全栈学习路线图 覆盖RAG、AI Agent、多模态大模型等核心方向 [4] 技术路线覆盖详情 - RAG技术路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [9][10][16][18][20][22][24][25] - AI Agent技术路线包括前沿综述、评测、强化学习、多模态Agent、通讯协议等7个细分方向 [26][27][29][31][33][35][36][38][40][42] - 多模态大模型训练涵盖MLLM、VLM、微调、RLHF、MoE等9个技术模块 [44][47][49][51][53][54][55][56][58] - 大模型量化、部署及推理被列为独立的技术板块 [60][61][62][63] 社区附加价值 - 提供大模型学术进展与工业应用的最新信息 [7] - 具备工作岗位推荐功能 可第一时间对接企业需求 [7][68] - 计划通过行业大佬直播分享和独家岗位招聘信息进一步赋能社区成员 [64][65][67][68]
中金:如何看待Sora应用对互联网平台影响?
中金点睛· 2025-10-16 07:54
Sora App产品特点与市场表现 - Sora App于2025年9月30日发布,搭载Sora2视频生成模型,首周美国地区iOS下载量与ChatGPT刚上线时量级类似[2] - 应用采用垂直视频流设计,用户可上下滑动浏览AI生成的视频并进行评论互动[2] - Cameo功能允许用户通过简短视频录制生成高保真数字分身,并可精细控制使用权限;Remix功能支持用户对平台内容进行提示词驱动的二次创作[2][7] - Sora App上线后免费榜iOS排名迅速攀升,首日位列美国App Store免费总榜第3,并于10月3日登顶iOS免费榜首[5] Sora2模型技术突破 - Sora2模型能精准模拟复杂运动轨迹和物体碰撞等物理规律,大幅减少物体瞬移或运动失真现象[9] - 模型首次实现原生音视频同步生成,确保口型与语音精准对齐,并支持多镜头连续叙事以保持角色外观和场景连贯性[9] - 模型能力提升得益于与多模态大模型GPT-5的协同效应,GPT-5作为底层世界模型,Sora2则像视觉皮层和执行器[10][11] 行业竞争格局分析 - AIGC视频内容目前更像视频赛道的一个垂类内容,尤其类似Cameo类型内容偏向熟人社交网络分发,难以像短视频一样独立成为全新赛道[3][13][14] - 参考大语言模型经验,互联网巨头在模型层面的差距有望持续追赶,模型供给将逐渐不稀缺[3][15] - 国内即梦App的月活跃用户约为1,000万,与抖音及AI应用豆包(月活跃用户约1.5亿)相比仍有显著差距[14] - Sora App对国内市场没有直接影响,但主流平台有望持续跟进类似创作玩法以提升平台活跃度[3][16] 产品定位与差异化 - Sora App最大的创新在于其AI视频社交价值,用户可生成以自己为主角、与他人形象互动的视频,极大催化了创作意愿和分享欲[13] - 对比Runway ML、Pika AI、Veo 3等专注于专业视频制作的工具,Sora App将专业技术与社交功能结合,是工具型应用向内容社交功能渗透的创新[2][11] - OpenAI CEO表示用户更多使用Sora模型生成内容转发给朋友,考虑采用生成付费模式变现,说明当前Sora更像一个生产工具,消费平台仍在主流社交媒体[14]
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心· 2025-10-15 12:08
研究背景与目标 - 多模态大模型在真实世界应用的一个重要场景是自动解析旅行视频中的地理位置与时间顺序,以生成旅行计划[2] - 研究团队提出名为VIR-Bench的全新多模态大模型评估基准,旨在评测AI对旅行视频中地理位置与时间顺序的理解能力[4] 任务设计与数据集构建 - VIR-Bench的核心任务是行程还原,要求模型根据旅行vlog输出访问顺序图,包含访问地点及其顺序和包含关系的结构化表示[6] - 访问顺序图是一个有向图,节点分为Prefecture、City和POI三个层级,包含包含边和转移边两种关系[7] - 任务被拆解为节点预测和边缘预测两个子任务,分别评估模型的地理识别能力与时序推理能力[10][11][12] - 数据集包含200个在日本拍摄的旅行vlog,标注了3,689个POI,覆盖日本43个都道府县[13][17] 实验结果与洞察 - 开源模型整体性能落后于商用模型,尤其在POI节点识别和转移边预测子任务上差距明显[16] - 转移边预测是所有模型的最难关,部分模型结果接近随机水平[16] - 模型规模扩展对性能提升有显著作用,地理相关预训练是POI节点预测精度差异的关键因素[16] - 思维链推理在边缘预测中能带来显著改善,结合音频信息后效果提升尤为突出[16] - 增加输入帧数、更长的推理过程以及利用音频信息是模型性能提升的关键方向[18] - 当前模型整体性能远未达到可用水平,即使是得分最高的Gemini-2.5-Pro也存在大量错误[18] 模型性能数据 - 在节点预测任务中,表现最好的商用模型Gemini-2.5-Pro在Prefecture层级的F1分数为87.7,在City层级为68.6,在POI层级为52.8[19] - 在边缘预测任务中,Gemini-2.5-Pro在包含边预测的F1分数达到90.8,在转移边预测为66.8,综合F1为80.7[19] - 开源模型中表现最好的Qwen2.5-VL-72B在节点预测综合F1为38.1,在边缘预测综合F1为52.4[19] 应用前景与意义 - VIR-Bench为未来诸多应用打开窗口,其核心能力与机器人理解世界、规划路径以及自动驾驶系统的决策需求高度契合[19] - 该研究指明了多模态大模型的进化方向,包括更强的地理空间感知、更可靠的时间推理以及多模态信息的深度融合[20]