多模态智能
搜索文档
小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
量子位· 2025-11-13 08:49
小红书 投稿 量子位 | 公众号 QbitAI 还记得今年上半年小红书团队推出的DeepEyes吗? 是的,就是那款能像人一样「放大图片细节找线索」,基本实现了类似o3「用图像思考」的多模态模型。 如今,更强大的版本—— DeepEyesV2 ,重磅发布。 先说结论:DeepEyesV2不仅延续了DeepEyes的视觉推理优势,更突破性地实现了「代码执行+网页搜索+图像操作」的全工具协同,从「会 看细节」进化为「能主动解决复杂问题的智能体」。 下面详细展开—— 痛点1:工具调用能力薄弱。 当你对着一张陌生植物的照片询问AI——「这是什么花?」 传统多模态模型要么完全不具备工具调用能力,只能依赖内部知识库进行基础理解; 要么,只能单一调用某类工具,无法形成组合策略。 比如,DeepEyes虽能通过裁剪工具实现图像细粒度感知,却因缺乏信息检索能力,无法仅凭内部知识确定花朵品种; 相比之下,MMSearchR1虽支持搜索,却因没有细粒度感知能力,常因「看不清图像细节」导致检索失败。 这种「单工具依赖」,让模型在面对复杂任务时束手无策。 多工具协同的多模态推理 现有的多模态大模型虽然能够理解文本和图像等多种信息,但是 ...
腾讯研究院AI速递 20251111
腾讯研究院· 2025-11-11 00:30
生成式AI模型进展 - OpenRouter平台上线隐名模型Polaris Alpha,其知识库截止2024年10月,最大上下文容量256K,单次最大输出128K,目前可通过API免费调用 [1] - 纽约大学谢赛宁等发布Cambrian-S多模态新范式,提出"空间超感知"概念,在空间认知任务上中小型模型超越Gemini [2] - 阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX,该模型约3B参数,情感与风格控制准确率优于MiniMax、Doubao等闭源模型 [5] AI编程工具发展 - 美团推出AI IDE编程工具CatPaw,背后核心引擎为自研LongCat大模型,在内部研发人员周活占比超80%,每周新增代码中AI生成占比约50% [3] - 芸思智能推出AI IDE Vinsoo,通过算法突破实现极限有效上下文达千万量级,支持最多8个智能体同步运行开发 [4] - 行业观点认为AI工具无法替代创始人的销售能力,AI SDR仅在已有运转良好销售流程时有效,技术挑战和开源策略是护城河而非障碍 [9] 多模态AI硬件与应用 - 百度小度AI眼镜Pro正式开售,融合多模态AI大模型,支持中英文实时翻译3秒内出字幕等功能 [6] - 银河通用推出灵巧手神经动力学模型DexNDM,首次实现通用灵巧手对多类物体的稳定、多姿态、多轴向旋转操作,能完成拧螺丝等工具使用 [7][8]
进博会现场直击
证券日报· 2025-11-06 23:49
人工智能产业趋势 - AI已从技术展示升级为驱动产业变革的关键力量,渗透医疗、工业、零售、出行等全领域 [2] - 本届进博会展示400余项AI相关创新成果,显示全球AI产业从技术探索向价值创造全面转型的趋势 [2] - 人工智能大模型从通用能力展示转向垂直场景深耕,例如西门子的“工易魔方.妙一空间”将AI大模型与数字孪生技术融合 [3] 多模态与具身智能 - 具身智能机器人实现多模态人机交互的成熟化和工业场景具身操作的落地,例如智元创新公司的远征A2和灵犀X2机器人 [4] - 零售人形机器人能精准识别不规则商品,实现1人远程操控10家门店机器人,在夜间无人值守场景下节约90%人工成本 [4] - 到2030年,全球零售业若规模化应用AI,年度运营利润将新增3100亿美元,整体增幅近20%,企业运营利润率有望从3%提升至14.4% [4] 行业应用与市场前景 - 到2029年全球机器人市场规模将突破4000亿美元,具身智能机器人市场占比预计超过30% [6] - 在医疗领域,AI实现从诊断到治疗的全链条解决方案,例如西门子医疗的智慧影像链和迈兆辉健康的“AI魔镜”,其健康指标检测准确率达90% [7] - 迈兆辉健康的“AI魔镜”产品上市18个月售出2000台,积累了500万标本检测数据 [7] 工业与汽车智能化 - AI成为传统产业提质增效的核心引擎,例如ABB的冷轧工序智能制造方案实现节能减排与提质增效 [8] - 特斯拉首发Cybercab无人驾驶电动车,取消方向盘与脚踏板,计划2026年二季度量产,目前在美国开展路测 [8] - AMD提供覆盖数据中心、边缘终端、智能汽车的全场景AI解决方案 [3] 中国市场与生态合作 - 中国拥有全球最完整的工业体系、最庞大的消费群体和最丰富的应用场景,为AI技术产业化提供肥沃土壤 [10] - 前七届进博会累计展示新产品新技术新服务约3000项,意向成交额超5000亿美元,累计吸引境外参展商2.3万家次 [11] - 进博会成为全球前沿技术落地应用的重要窗口,中国正成为全球创新的催化剂和试验场 [11]
智源悟界·Emu3.5发布,开启“下一个状态预测”!王仲远:或开启第三个 Scaling 范式
AI前线· 2025-11-01 13:33
模型核心创新与定位 - 悟界·Emu3.5是全球首个基于"Next-State Prediction"范式的原生多模态世界模型,通过自回归架构实现对多模态序列的预测,模拟人类自然学习方式[2] - 模型核心能力是预测下一个时空状态,这对于具身智能至关重要,使其能理解世界运行规律并进行因果推理[2] - 该模型代表了一项融合算法、工程架构、数据训练范式与模型思想的综合性原始创新,而非单一的算法或工程改进[9] 核心技术特点与能力 - 具备三大核心能力:从高层级人类意图自主生成详细连贯的多步骤行动路径、在统一框架内动态模拟世界并预测物理动态与长时程因果关系、作为泛化交互基础提供关键的认知基础[3] - 采用自回归架构实现多模态数据大一统,能够大规模复用现有计算基础设施,其Next Token可以是视觉和文字Token且性能无损[8][10] - 通过自研DiDA技术将自回归模型的推理速度提升20倍,实现了可媲美闭源系统最强图像生成的能力,大幅降低了原生多模态的成本[17][19] 训练方法与数据规模 - 训练分为两阶段:首先在约13万亿tokens上进行端到端预训练,随后在1500亿样本上进行有监督微调,再通过大规模强化学习提升多模态推理与生成能力[12] - 预训练消耗超过10T Token,大部分数据是长视频而非文字主导,使用了约6300万条视频,平均时长6.5分钟,总时长约790年,覆盖教育、娱乐、体育等多个领域[13] - 模型目前仅为340亿参数规模,所使用的视频数据仅占全互联网公开视频数据的不到1%,显示出巨大的Scaling up潜力[13] 性能表现与行业意义 - 在多项基准测试中,Emu3.5在Alignment指标上得分为0.902,Text指标上得分为0.994,Overall综合得分0.564,表现优于包括Gemini-2.5-Flash-Image(0.550)在内的其他主流模型[5] - 该模型首次证明了多模态领域存在Scaling可能性,开启了继语言预训练Scaling和后训练与推理阶段Scaling之后的第三个Scaling范式[6] - 与市面上多数采用组合式架构的模型相比,Emu系列的自回归架构可扩展性更强,避免了模型遗忘现象,并解决了Agent任务优化等企业落地难点[8]
AI不再「炫技」,淘宝要让技术解决用户每一个具体问题
机器之心· 2025-10-28 12:31
文章核心观点 - 颠覆性创新通过使产品更简单、更便宜、更易用,让更多人参与,此观点在AI浪潮中依然适用 [2] - 淘宝将AI深度融入电商场景的每个环节,致力于解决具体用户问题,AI已成为其算法基因 [3] - 技术创新与商业变革双向驱动,形成“技术创造价值—价值反哺技术”的双螺旋演进模式 [12] - 多模态智能是AI时代的关键技术域,能实现跨模态推理,是支撑“所想即所得”终极消费体验的基石 [11][34] - 公司判断,若模型能力保持当前进化速度,狭义AGI很可能在5-10年内到来 [40] AI时代的技术演进与商业驱动 - 当前AI技术迭代迅猛,每年都呈现跳跃式发展,从ChatGPT到Sora 2,技术突破速度震撼 [7] - 回顾互联网发展史,技术升级与产品迭代始终围绕技术发展与商业变革双向驱动的螺旋轨迹演进 [7] - PC互联网时代关键词为“数字基石”,无线互联网时代关键词为“时空折叠”,AI时代关键词为“智能增强”,实现人类与技术的“共生” [10] - 与前两次技术革命不同,AI时代生成式AI带来生产力的代际提升,多模态智能成为核心技术域 [11] 淘宝的AIGX技术体系与多模态布局 - 公司于2024年3月全面升级AIGX技术体系,具备完整的技术链条,覆盖电商经营全部场景 [3] - 从2023年起大力布局AI,自研多模态、搜推广、视频生成等大模型家族,通用能力达国内第一梯队水平 [11] - AIGX技术体系覆盖AIGI(索引)、AIGR(推荐)、AIGB(出价)、AIGA(拍卖)、AIGC(创意)、AIGD(数据)等场景 [3] - 多模态智能是公司最重要的AI技术域,已在AIGX技术体系中深度应用 [13] 生成式推荐系统RecGPT的应用与成效 - 公司于2024年7月发布百亿参数推荐大模型RecGPT,实现生成式推荐技术升级,并接入手机淘宝“猜你喜欢” [14] - RecGPT基于多模态大模型,能结合世界知识生成新内容或个性化推荐序列,突破传统推荐系统的数据局限 [14][16] - 模型能理解用户长达十年的行为信息,全模态认知数以亿计商品,进行推理推荐潜在需求商品 [17] - 搭载RecGPT的推荐信息流实现用户点击量增长超过16%,用户加购次数和停留时长提升5%以上 [21] 多模态生成技术在电商场景的实践 - 自研视频生成模型“淘宝星辰”能基于单张商品平铺图,全自动生成虚拟模特展示图、视频片段及完整带货视频 [23] - 升级版“淘宝星辰・视频生成模型3.0”采用更紧凑的时空压缩VAE,提升语义理解,动作更灵动,画面更原生 [25] - 全模态大模型“TStars-Omni”支持文本、图像、视频、音频等多模态输入输出,能进行深度推理 [27] - 基于TStars-Omni的商品理解功能,可分析用户提问并给出建议,如判断冰箱是否能放入特定厨房 [28] 技术开放与生态建设 - 公司于2024年6月开源强化学习训练框架ROLL,专为高效、可扩展、易用设计,支持高达600B+参数模型的训练 [38][39] - 于2024年10月初开源生成式预估训练框架RecIS,为推荐模型与多模态大模型训练提供统一架构解决方案 [39] - 通过开源内部验证后的技术能力,旨在形成生态扩张动能,促进行业迈向超级智能时代 [39] - AI Agent产品iFlow CLI采用“一个内核,多种应用方式”设计,面向个人用户永久免费开放 [28][30]
开源仅一周,鹅厂文生图大模型强势登顶,击败谷歌Nano-Banana
机器之心· 2025-10-05 14:42
行业竞争格局 - 腾讯混元图像3.0以1167分登顶LMArena文生图完整榜单第一,超越谷歌Gemini-2.5-flash-image-preview(1151分)、字节跳动Seedream-4-2k(1144分)和OpenAI GPT-Image-1(1126分)等竞争对手 [1][2] - 图像生成领域呈现多模态融合与智能深化趋势,从“能生成”向“能理解、能推理、能控制”演进 [55] - 开源成为核心推动力,国内AI公司通过开放模型权重借助社区协作实现快速迭代 [56] 公司技术实力 - 混元图像3.0参数量达800亿,推理时每个token激活130亿参数,是公司规模最大、性能最强的开源文生图模型 [3] - 模型采用混合式离散-连续建模策略,在统一框架内融合语言建模、图像理解和图像生成三大功能 [42][43] - 基于超百亿规模原始图像库筛选构建近50亿张高质量训练数据集,数据纯净度不足45% [45] - 通过四阶段渐进式预训练和包括SFT、DPO、MixGRPO、SRPO及ReDA在内的后训练策略优化模型表现 [49][53] 产品性能表现 - 模型具备原生多模态架构和世界知识推理能力,能理解复杂提示并生成连贯故事场景,如“曹冲称象”九宫格漫画 [9] - 在精确文字生成和长文本渲染方面表现突出,有效改善文字乱码和字形扭曲问题 [16] - 支持多分辨率图像生成,在文图一致性与视觉质量方面超越Seedream 4.0、Nano Banana、GPT-Image等顶尖模型 [51][54] - 发布一周内GitHub星数突破1.7k,社区热度持续攀升 [6] 公司战略布局 - 公司围绕混元模型家族形成全栈式AIGC体系,涵盖图像领域的混元图像3.0、3D领域的混元3D 3.0、视频领域的HunyuanVideo以及世界模型HunyunWorld-1.0 [56] - 积极布局开源生态,混元翻译模型Hunyuan-MT-7B和世界模型HunyuanWorld-Voyager曾在Hugging Face趋势榜前三占据两席 [56] - 广泛的业务矩阵(社交、内容生产、广告推荐、游戏)为技术落地提供丰富场景和数据支撑 [58]
商汤林达华:破解图文交错思维链技术,商汤的“两步走”路径
36氪· 2025-08-15 17:09
多模态智能技术路径 - 多模态是通向AGI的必经之路 因语言仅是智能的产物而非本源 需通过多模态感知和处理信息实现通用性[4] - 智能演进需经历四次破壁:长序列建模、多模态理解、多模态推理、数字与物理空间交互[5] - 公司2023年初推出国内最早多模态模型 2024年突破原生多模态融合技术 2025年实现图文交错思维链[5] 原生多模态技术优势 - 适应训练通过微调实现模态对齐 成本低但仅僵硬遵循范例模式[7] - 原生训练在预训练阶段融合多模态数据 从根源具备多模态能力[7] - 公司2024年确定融合路径:预训练中段开始多模态融合 形成统一模型且不再生产单独语言模型[7] 技术成果与性能表现 - 2024年Q3完成融合训练数据配方验证 Q4完成千亿参数级别多模态模型训练[8] - 模型在OpenCompass和SuperCLUE评测中位居国内首位 语言任务与DeepSeek V3并列[8] - 日日新6.5仅有多模态模型 无单独语言模型 与国内其他厂商架构存在显著差异[9] 图文交错思维链突破 - 主流多模态模型推理链仍为纯文本 通过图像转文本描述再进行语言推理[9] - 公司通过图像编辑工具构建图文交错思维链 实现逻辑思维与形象思维结合[10] - 采用两步走路径:先通过工具构建对外智能体 再通过多模态理解实现内生混合思考[10] 模型架构效率优化 - 视觉编码器专注连续信号感知 语言模型主干处理离散语义 需差异化结构与学习方式[11] - 架构更新后处理高分辨率大图和长视频更快捷 数据优化使同性能下效率提升超3倍[11] - 性能成本曲线显著优化 实现比Gemini 2.5系列更优的效费比[11] 具身智能与世界模型 - 世界模型通过虚拟系统模拟现实交互 提供近真实反馈且效率远高于真实环境[12] - 开悟世界模型基于多模态能力构建 用智能汽车业务数据增强模拟生成能力[12] - 可根据指定路径生成多视角视频 有效支撑智能驾驶系统训练[12] 商业战略与落地成果 - 采用"基础设施-模型-应用"三位一体战略 形成技术与商业正向循环[13] - 基础技术实现原生融合训练/多模态强化学习/无限时长视频交互记忆等突破[14] - 生产力AI装机量从百万级走向千万级 交互AI落地新型硬件与机器人[14]
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
量子位· 2025-07-30 14:06
豆包APP视觉推理功能升级 - 核心功能升级为视觉推理,支持图片深度思考,通过开启深度思考模式可拍照或上传图片进行分析[4][5] - 分析过程结合以图搜图、图片分析工具(放大/裁剪/旋转)等多步骤,例如识别上海东方明珠年份为1999年左右[1][7][8] - 支持AI识别AI生成图片,通过放大细节识别右图西红柿蒂部不自然卷曲判定为AI生成[10][11][13] 实测场景表现 - 复杂图像处理:在熊猫群像中精准定位足球,采用"初步识别→放大区域→空间定位"三步骤[17][22][25] - 小众知识检索:识别鄂温克族口弦琴、云南翅果藤等冷门内容,结合图片检索+文字检索双重验证[29][34][35] - 学术与工作辅助:解答IMO数学题(经ChatGPT验证答案正确),一键提取财报数据并保持准确性[40][43][46][49] 技术模式创新 - 采用"边想边搜"动态推理机制,区别于传统AI"先搜后想",支持多轮搜索与工具调用[50][52][53] - 实现图搜文能力,例如通过技术截图反向定位OpenAI论文原文及图表出处[62][64][65] - 多模态融合:Transformer架构统一处理文字/图像/音频,支撑工业检测、医疗分析等场景需求[72][75] 行业趋势 - 视觉推理成为大模型技术新门槛,OpenAI的o3/o4-mini推动多模态深度理解范式[68][69][70] - 技术成熟度与行业需求(工业/医疗)形成共振,促进行业竞速发展[71][74][76] - 豆包APP将高阶视觉推理功能免费开放,降低用户使用门槛[76][77]
商汤发布「日日新V6.5」大模型,多模态能力大幅提升,让AI从“生产力工具”进阶“生产力”
财经网· 2025-07-30 13:40
多模态AI技术突破 - 多模态信息感知与处理是AGI核心要求及从语言模型迈向AGI的必由之路[1] - 多模态智能演进将驱动AI下一阶段发展 涵盖感知 推理及交互[1] - 商汤科技发布日日新SenseNova V6 5大模型体系 实现多模态基座大模型突破性升级[1] 日日新V6 5技术升级 - 实现三大突破性升级:强推理能力比肩Gemini 2 5 Pro和Claude 4-sonnet 性价比提升3倍以上 智能体支持端到端场景落地[3] - 多模态推理与交互性能大幅提升 超越Gemini 2 5 Flash和GPT-4o 成为国内首个实现图文交错思维的商业级大模型[4] - 采用改进的多模态融合架构 视觉编码器显著变轻 视觉表征在早期与语言对齐 预训练吞吐量提升20%以上 强化学习效率提升40% 推理吞吐量提升35%以上[5] 商汤小浣熊智能体升级 - 基于日日新V6 5多模态数据分析能力全面升级 可处理多模态复杂输入并实现专业可视化输出[6] - 在客户场景测试中达到Claude 4 Opus水平 大幅领先OpenAI o3 时序计算 数据匹配 数理计算和异常检测准确率接近100%[6] - 能够解析含合并单元格 缺失值 子表格及内嵌图表的复杂Excel表格 并生成完整分析报告[10] 实际应用场景 - 支持从截图提取表格信息并导出可编辑Excel表格 实现多模态全流程处理[10] - 教育版覆盖500+院校 10余种教育场景 25万+师生 帮助学生提升学习效率15-30% 降低学业焦虑发生率40% 课堂参与度提高2 1倍 资源错配率降低30% 心理健康干预及时性提升50%[13] - 金融版提供知识助手 智能问数及多模态智能理赔解决方案 构建人机协同智能决策新范式[14] - 产品矩阵累计服务用户数量超1000万[15] 行业意义 - AI凭借多模态融合能力突破逐步触达AGI边界 向类人标准靠近[1] - 实现从生产力工具到生产力的跨越 推动AI完成从工具到人的跃迁[3][6]