视觉理解模型

搜索文档
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
量子位· 2025-05-26 16:18
国产AI突破视觉理解能力 - 国产AI豆包成功解决大模型识别时钟难题,能通过视频实时准确报时,从4点14分到4点15分[1][2][3] - 豆包新增视频通话功能,实现边看边聊的交互方式,并接入联网搜索提升回答准确性和时效性[4][5][6] - 视频通话功能可实时总结微博热搜等网络热点新闻,增强互动趣味性和可靠性[7][8] 视频通话功能实测表现 - 豆包能作为看剧搭子,实时识别《甄嬛传》剧情并分析角色动机,如判断祺贵人企图借皇后之手扳倒甄嬛[15][16][17] - 在生活场景中,豆包可识别食材并详细讲解烹饪步骤,解决做菜难题[20][21][22] - 教育场景表现突出,能准确识别物理题、论文和代码,提供详细解题过程和答案[23] 核心技术能力解析 - 豆包·视觉理解模型具备强大内容识别能力,可精准识别物体类别、空间关系及文化知识,如识别猫的影子或丁达尔效应[24][25][26][27][30] - 模型拥有复杂逻辑计算能力,在教育场景中能理解微积分题目并进行推理计算[33][34] - 视觉描述和创作能力支撑视频通话功能实现又快又准的交互体验[35][36] 行业影响与趋势 - AI与人类交互方式正向更趣味化、实用化方向发展,视频通话功能体现技术落地价值[37] - 视觉理解技术的突破为AI在娱乐、教育、生活服务等场景的应用开辟新路径[15][20][23]
国产多模态模型持续加速迭代
太平洋· 2025-05-19 08:45
报告行业投资评级 未提及相关内容 报告的核心观点 - 近期AI文生图、文生音视频、3D生成模型持续迭代,生成质量和速度均有突破,有望提升用户体验,推动AI生成在多场景应用,加快产业落地 [6] - 建议关注AI+营销的天娱数科,AI+游戏的恺英网络、巨人网络、电魂网络,AI+影视的博纳影业等 [6] 根据相关目录分别进行总结 一周行情回顾 - 上周上证综指、传媒指数(中信)、深证成指、创业板指涨跌幅分别为0.76%、 -0.67%、0.52%、1.38% [11] - 上周传媒互联网板块涨幅最大的十只个股为*ST返利、迅游科技等,跌幅最大的五只个股为荣信文化、完美世界等 [13][15] 行业运行数据 游戏 - 2025年第一季度国内游戏市场实际销售收入857.04亿元,同比增长17.99% [16] - 2025年05月17日重点手游排名iOS畅销榜排名前三位分别为《和平精英》《王者荣耀》《无尽冬日》 [16] - 2025年4月微信小游戏买量投放排名前三的游戏分别为《无尽冬日》《向僵尸开炮》《英雄没有闪》 [23] AI - 2025年04月全球AI产品网页版访问量排名前三的分别为ChatGPT(53.1亿)、New Bing(14.5亿)、DeepSeek(4.69亿) [24] - 2025年04月国内AI产品网页版访问量排名前三的分别为DeepSeek(4.69亿)、纳米AI搜索(2.77亿)、豆包(0.54亿) [26] 电影 - 2025年至今内地电影总票房268亿元,05月17日单日票房6040万 [28] - 2025年05月17日电影综合票房排名前三分别为《水饺皇后》《猎金·游戏》《哪吒之魔童闹海》 [28] 电视剧 - 2025年05月15日CSM71卫视黄金剧场电视剧收视前三分别为《我家的医生》《我的后半生》《蛮好的人生》 [31] - 截至2025年05月16日电视剧集播映指数排名前三分别为《折腰》《淮水竹亭》《蛮好的人生》 [33] 综艺节目 - 截至2025年05月16日综艺节目播映指数排名前三分别为《歌手2025》《乘风2025》《奔跑吧第十三季》 [35] 渠道 - 2024年08月国内五大视频平台MAU分别为爱奇艺(3.94亿)、腾讯视频(3.86亿)、芒果TV(2.68亿)、哔哩哔哩(2.19亿)、优酷(1.99亿) [38] 直播电商 - 2025年05月05日 - 05月11日抖音直播主播销售排名前三分别为与辉同行(1亿+)、小北珠宝(1亿+)、新疆和田玉老郑(1亿+) [39] 广告营销 - 2025Q1全国户外广告投放刊例花费574亿元,同比增长6% [40] 重点公司重要公告速览 - 三七互娱25Q1拟向全体股东每10股派送现金股利2.10元,现金分红总金额约4.62亿元 [43] - 国脉文化拟以自有资金回购股份,金额不低于5000万元且不超过1亿元,回购价格不超过16元/股 [43] - 万达电影全资子公司影时光拟与关联方儒意星辰共同投资乐自天成,双方将开展战略合作 [43] - 中文在线多位董事拟减持公司股份,合计占公司总股本比例0.12% [43] - 顺网科技拟向全资子公司雾联科技增资3.1亿元,增资后注册资本将由4000万元增加至3.5亿元 [43] - 华策影视实控人拟减持不超过约2076万股公司股份,即不超过公司现有总股本的1.11% [43] 行业要闻 AI - 海外要闻:OpenAI发布AI编程智能体Codex,支持多任务并行,半小时可完成数天的软件工程任务 [45] - 国内要闻:昆仑万维开源交互式世界基础模型Matrix - Game;巨人网络与字节火山引擎开展AI领域合作;阶跃星辰发布并开源3D大模型Step1X - 3D;腾讯发布混元图像2.0模型;Manus上新文生图功能 [46][47][48] 游戏 - 点点互动《Whiteout Survival》位列4月中国手游海外收入第一 [51] - 完美世界《异环》发布最新实机视频 [52] - 世纪华通《云海之下》将于5月20日发布 [53]
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
歸藏的AI工具箱· 2025-04-24 17:34
从搜索到解决方案:解锁火山 DeepSearch 的“三连跳” MCP 玩法
歸藏的AI工具箱· 2025-04-24 17:34
最近真是捅了 MCP 窝了,上周火山开了一次开发者见面会,发布了挺多东西的,主要有: RTC 硬件这个也不太好测试,主要我也不懂,而且需要硬件,这次主要试一下 DeepSearch 服务。 其实现在所谓的 Agents 服务主要的任务和内容还是基于AI 搜索信息的加工和再整理,这部分是核心,也是 非常吃技术能力的地方。 火山把这部分能力变成应用之后对于开发者来说省了很多事情,人人都能搞 DeepSearch 了。 效果怎么样 先来一个最常见的问题和测试旅游规划。 即使这种看起来简单的任务很多 AI 搜索其实做的不好,看着内容输出很多,很多都是各个景点介绍的废话。 用户其实需要的是实时性比较强的信息,比如交通怎么安排,怎么样可以顺路,一些危险的项目需要准备哪些 东西等。 正式发布了豆包深度思考模型 Doubao-1.5-thinking-pro 和全新的视觉理解模型 Doubao-1.5-vision- pro,这个咱们上周介绍过了,视觉推理非常强大, 感兴趣可以去看我的测试 。 还发布了方舟 × RTC 硬件:把端侧自动唤醒与云端大模型语音能力一次打包,让玩具、家居、穿戴等设备 一键升级为能与人自然实时对话的 ...
AI应用催化不断,重点提示机会
江海证券· 2025-04-18 15:26
报告行业投资评级 - 行业评级为增持(维持) [1] 报告的核心观点 - 豆包大模型日均tokens调用量持续大幅攀升,利好数据要素和算力板块 [4] - 持续看好AI应用投资机会,提示重点关注汉得信息、创业黑马、合合信息等 [10] 根据相关目录分别进行总结 行业表现 - 近十二个月,行业1个月相对收益-6.58%、绝对收益-12.42%;3个月相对收益1.3%、绝对收益0.56%;12个月相对收益8.21%、绝对收益15.65% [2] 相关事件 - 2025年4月17日,火山引擎发布豆包1.5·深度思考模型,升级豆包·文生图模型3.0、豆包·视觉理解模型;面向Agent服务,发布OS Agent解决方案、GUI Agent大模型--豆包1.5·UI-TARS模型;面向大规模推理,发布AI云原生·ServingKit推理套件 [3] 豆包大模型调用量情况 - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍,是一年前发布时的106倍;2024年中国公有云大模型调用量激增,火山引擎以46.4%的市场份额位居中国市场第一 [4] 豆包1.5·深度思考模型 - 全新发布,采用MoE架构及双轨奖励机制;在数学、代码、科学等专业领域推理任务中表现出色,达到或接近全球第一梯队水平;在创意写作等非推理任务中,展示出优秀泛化能力;优化数据处理策略,融合处理可验证数据与创意性数据;采用创新双轨奖励机制,兼顾不同任务优化算法;总参数200B,激活参数仅20B,有训练和推理成本优势;提供行业极高并发承载能力,实现20毫秒极低延迟;豆包APP基于该模型定向训练可“边想边搜”,还具备视觉理解能力 [5][6] 豆包·文生图模型3.0 - 全新升级,能实现更好文字排版表现、实拍级图像生成效果和2K高清图片生成方式;可广泛应用于影视、海报等场景;在文生图领域权威榜单Artificial Analysis竞技场中,排名全球第一梯队 [7][8] 豆包·视觉理解模型 - 全新升级,具备更强视觉定位能力,支持多目标等定位及相关操作,可应用于线下门店巡检等场景;视频理解能力大幅提升,结合向量搜索可直接对视频进行语义搜索,适用于安防等商业化场景 [9] 火山引擎发布的其他内容 - 认为未来AI Agent将在应用Agent和OS Agent两个方向并行发展;发布OS Agent解决方案,通过veFaaS平台封装豆包大模型能力,便于企业和开发者构建轻量级应用;发布GUI Agent大模型——豆包1.5·UI-TARS模型,突破传统自动化工具依赖预设规则的局限;推出ServingKit推理套件,助力企业实现模型快速部署、推理优化及运维可观测,可在2分钟内完成671B DeepSeek R1的下载和预热,13秒内完成推理引擎加载 [10]
AI动态跟踪系列(六):OpenAIo3、豆包新品首发,关注原生Agent与多模态推理
平安证券· 2025-04-17 21:10
报告行业投资评级 - 强于大市(维持) [1] 报告的核心观点 - 近期新模型解题思路在思维链CoT基础上更重视模型原生Agent能力和多模态推理能力,全球大模型领域竞争激烈,看好AI主题投资机会 [3][34] - 当前Agent在企业端落地进度靠前,AI应用关注OA/ERP/编程/办公等领域,Agent拉动推理端及整体算力需求,看好国产AI算力产业链 [3][34] 根据相关目录分别进行总结 OpenAI o3、o4 - mini新增图像深度思考与Agent能力,Codex CLI智能体开源推动AI编程生态开放 - 4月17日OpenAI发布o3和o4 - mini,是其迄今最智能模型,核心突破在于图像深度思考和Agent能力 [3][4] - o3是强大推理模型,在多方面推动前沿发展,在多个基准设新SOTA,困难现实任务重大错误比o1少20% [5] - o4 - mini针对快速、经济高效推理优化,在数学、编码和视觉任务表现好,非STEM任务及数据科学领域优于o3 - mini [5] - 图像推理方面,o3和o4 - mini首次在思维链中用图像思考,实现高级推理与多工具无缝结合,o3提供多模态代理体验 [9] - Agent方面,o3和o4 - mini可访问ChatGPT工具及自定义工具,能推理解决问题并快速生成答案 [10] - o3和o4 - mini性价比高于前身,预计实际使用更智能、便宜 [12] - OpenAI发布轻量级编程智能体Codex CLI,支持零配置启动,运行安全,可让用户从命令行体验多模态推理 [15] 豆包1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力 - 4月17日火山引擎发布豆包1.5·深度思考模型等新品,推理模型性能达或接近全球第一梯队,增加视觉理解能力,APP可“边想边搜” [3][17] - 多模态方面,豆包·文生图模型3.0在权威榜单排全球第一梯队,新版本豆包·视觉理解模型视觉定位和视频理解能力提升 [17][28] - 企业级服务方面,发布OS Agent、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [17] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍、发布时的106倍,2024年火山引擎公有云大模型调用量市场份额46.4%居中国第一 [18] - 豆包1.5·深度思考模型采用MoE架构,总参数200B,激活参数20B,有高并发承载能力和20毫秒极低延迟 [21] - 豆包APP基于该模型定向训练实现“边想边搜”,如推荐露营装备经3轮搜索给出细致推荐 [24] - 该模型具备视觉理解能力,可用于国外餐厅点餐、分析航拍地貌、企业项目管理等 [27] - OS Agent解决方案可让企业和开发者构建轻量级应用,复杂应用可调用豆包1.5·UI - TARS模型,该模型已上线火山方舟平台 [32] - ServingKit推理套件可助企业快速部署模型、优化推理、运维可观测,能提高KV cache命中率和TPS吞吐量,降低GPU消耗 [33] 投资建议 - AI应用方面,AI + 企服建议关注泛微网络、致远互联等;AI + 办公推荐金山办公、福昕软件等,建议关注合合信息 [3][34] - AI算力方面,推荐海光信息、龙芯中科等,建议关注寒武纪、景嘉微等 [3][34]
豆包1.5深度思考模型发布:暴砍参数量,能看图思考,数学编程超DeepSeek-R1
36氪· 2025-04-17 16:54
文章核心观点 火山引擎发布豆包1.5·深度思考模型,在性能、能力和应用场景上有显著提升,同时升级了相关模型,其新能力或成推理模型升级重要方向,同日还发布了其他解决方案和套件 [1][3][21] 分组1:豆包1.5·深度思考模型发布及基础情况 - 火山引擎发布豆包1.5·深度思考模型,采用MoE架构,总参数量200B,激活参数20B,在多项基准测试达或接近全球第一梯队水平 [1] - 截至2025年3月底,豆包大模型日均tokens调用量超12.7万亿,是2024年12月的3倍,是一年前的106倍,2024年火山引擎以46.4%市场份额居中国公有云大模型调用量市场第一 [3] 分组2:豆包1.5·深度思考模型能力特点 - 较小参数量和激活参数量使其训练和推理成本低,高并发场景延迟仅20毫秒 [4] - 具备“边想边搜”能力,豆包App基于此模型定向训练,如推荐露营装备时可拆解需求、规划信息并补充搜索 [4] - 具备视觉理解能力,能基于文字、图像信息思考,如给出预算内点餐推荐 [6] - 模型团队优化数据处理策略,融合可验证与创意性数据,采用创新双轨奖励机制优化算法 [7] 分组3:豆包1.5·深度思考模型测试表现 - 在AIME 2024、2025数学测试中得分与OpenAI o3 - mini - high基本打平,Beyond AIME测试有明显差距 [8] - 在GPQA Diamond测试集得分为77.3,与OpenAI o1、o3 - mini - high仅有微小差距 [10] - 在Code Forces和SWE - bench编程基准测试接近或超越DeepSeek - R1 [10] - 在ARC - AGI测试得分39.9分,大幅超过OpenAI o1和o3 - mini - high [10] - 在创意写作等非推理任务展示泛化能力,能胜任更广泛复杂场景 [10] 分组4:相关模型升级情况 - 豆包·文生图模型3.0能实现更好文字排版、实拍级图像生成和2K高清图片生成,应用于多场景,在Artificial Analysis竞技场排名全球第一梯队 [11][13][15] - 豆包·视觉理解模型新版本视觉定位能力强,支持多种定位方式,应用于多场景,视频理解能力大幅提升,结合向量搜索可对视频语义搜索 [17][20] 分组5:其他发布内容及行业趋势 - 推理模型成国内厂商角逐重要方向,豆包1.5·深度思考模型新能力或成下一轮升级重要方向 [21] - 火山引擎同日发布OS Agent解决方案、GUI Agent大模型(豆包1.5·UI - TARS)和AI云原生·ServingKit推理套件 [21]
火山引擎发布Agent全栈解决方案
快讯· 2025-04-17 12:15
产品发布与升级 - 火山引擎发布豆包1 5・深度思考模型 面向企业市场 [1] - 同步升级文生图模型3 0和视觉理解模型 [1] - 推出OS Agent解决方案及AI云原生推理套件 帮助企业快速部署Agent应用 [1] 业务数据表现 - 截至2025年3月底 豆包大模型日均tokens调用量达12 7万亿 [1] - 调用量较去年5月发布时增长上百倍 [1]
字节 AI 再创业:独立组织、全链条的饱和出击
晚点LatePost· 2025-03-31 19:58
字节跳动AI战略布局 - 公司面对AI机遇采取饱和式投入策略,至少5个团队同时开发不同智能体产品,包括对内工具[3] - 2023年年中决定自主开发AI后,公司在算力芯片层、云计算层、模型研发层、应用层实现全链条布局[3] - 产品矩阵覆盖聊天机器人、AI搜索、AI浏览器、Agent平台、AI陪伴社交、AI教育等主流方向,主力产品豆包在2024年底成为中国日活最多AI应用[4] - 2025年设定三大目标:探索智能上限、探索新UI交互形式、加强规模效应,由Flow/Seed/Stone三大板块近2500人团队支撑[17] 技术研发进展 - 模型迭代速度显著提升,2023年8月至2025年5月共发布12个版本,涵盖对话/视频生成/音乐/视觉理解等多领域[10] - 2025年1月发布豆包大模型1.5 Pro版本,多模态与推理能力全面提升[10] - 组建独立模型研发团队Seed,整合原有AI Lab资源,40%研究人员为近两年新增[15] - 引入Google Fellow吴永辉等顶尖人才,设立Seed Edge前沿研究计划瞄准AGI探索[21] 市场竞争态势 - 主力产品豆包被腾讯接入DeepSeek的元宝快速追赶,后者用十分之一时间达到豆包20%用户规模[5] - 错过中国ChatGPT时刻,因内部对复现OpenAI o1模型存在时间误判[10] - 面临DeepSeek开源模型冲击,该团队不足200人却实现技术突破[4][13] - 豆包2025年DAU目标超5000万,季度增长目标从30%调高至150%[22] 组织架构创新 - 建立独立AI组织Flow/Seed,与抖音/TikTok等业务平级,直接向创始人汇报[15] - 打破原有薪酬考核体系,为AI团队提供百万年薪及5年长周期评估机制[15] - 创始人张一鸣深度参与技术研究,每月召集核心团队复盘进展[16] - 采用"能力中台"模式,将模型能力模块化供产品团队调用[21] 资源投入规模 - 2023年GPU储备超10万张,上半年英伟达订单超10亿美元[22] - 2025年AI算力采购预算达900亿元人民币,优先保障大模型研发[22] - 通过收购补充技术能力,包括Oladance耳机品牌及存算一体硬件公司[15] - 调动全集团资源支持,曾阶段性限制非AI产品在抖音体系的广告投放[22]