豆包视觉理解模型
搜索文档
春晚张杰《驭风歌》背后的马,是Seedance 2.0做的!
量子位· 2026-02-17 11:58
豆包大模型及火山引擎技术在春晚的应用与展示 - 豆包大模型家族的多项技术(包括豆包Seedance 2.0、Seedream、豆包语音识别模型、豆包TTS 2.0、字节Seed 3D模型、DA3模型等)在2025年央视春晚的多个节目中成功落地应用,从舞台视觉特效、机器人表演到直播互动与无障碍字幕,实现了全面覆盖 [6][38][43] - 火山引擎的视频云团队与方舟平台为春晚提供了关键的画质增强、高并发支持与空间视频技术,确保了8K高清、50FPS高帧率等超高规格节目的稳定呈现与流畅互动 [15][29][31] 视频生成与动态控制技术(Seedance 2.0) - **核心能力突破**:豆包Seedance 2.0视频生成模型实现了从“能生成”到“能控制”的进化,具备精细的微观控制能力、超强的指令遵循能力和多模态素材参考能力 [8][10][11] - **国风美学理解**:该模型成功处理了极具挑战的“中国水墨风”,在张杰《驭风歌》节目中生成了气势磅礴、奔腾的骏马动态水墨画卷,通过了春晚超级严格的审核 [4] - **复杂场景应用**:在《贺花神》节目中,为十几位明星定制了“一人一景”的中式视觉奇观,精准控制了植物缓慢绽放及纹理、层次、光影的细微变化 [7] - **视频动作迁移**:在《快乐小马》节目中,利用该技术将真人舞蹈动作一键迁移至卡通小马形象上,解决了不同拓扑结构间的适配难题,并保持了原图在剧烈运动时的稳定性 [13][14] 画质增强与空间视频技术(火山引擎) - **智能画质增强框架(MIPP)**:针对AIGC内容,火山引擎利用超分算法将720P视频提升至8K,并通过插帧技术将24帧补至50帧,同时结合视频理解技术进行针对性去噪、锐化等处理,抹平微小瑕疵 [16][17] - **空间视频技术(4D高斯泼溅/4DGS)**:在《梦底》节目中,通过70台工业级相机阵列采集演员数据,重建为4D数字资产,实现了与现场灯光实时互动的多个高精度虚拟分身同台表演,创造了虚实难辨的沉浸感 [18][20][21][23] - **性能与细节优化**:技术团队利用字节Seed 3D模型预制“影子几何”提升渲染效率,并引入DA3模型从单图推断高精度深度信息,确保了近景皮肤质感等细节的逼真度 [25] 机器人赋能与具身智能 - **多模态模型赋能**:豆包大模型全家桶为宇树机器人等春晚登台机器人提供了“眼”(视觉理解模型用于环境识别与避障)、“脑”(大语言模型用于理解自然语言指令)、“嘴”(TTS 2.0用于富有情感的语音合成)的能力,使机器人能看懂环境、听懂人话并带感情说话 [24][27][30] - **行业应用广泛**:豆包大模型在具身智能圈已服务宇树、银河通用、智元机器人等40多家公司 [40] 高并发AI互动与平台支撑(火山引擎方舟平台) - **首次AI互动**:今年春晚首次实现由大模型驱动的AI互动(如生成新春头像、定制祝福语),其本质是计算密集型的Agent过程,相比以往事务型互动算力消耗巨大 [28] - **抗洪峰解决方案**:火山引擎方舟平台通过跨机房联邦集群弹性伸缩、推理层硬件极限优化(如算子手写优化、Prefill/Decode分离)以及秒级权重复制加载等技术,成功顶住了亿万流量瞬间涌入的挑战 [29][31] 语音识别与无障碍字幕 - **复杂场景识别**:豆包语音识别模型在春晚直播的复杂噪声环境(含快语速、多梗、方言、掌声、背景音乐)下,展现了多方言鲁棒性、上下文感知(召回率提升15%以上)和低时延流式识别的能力,为抖音直播间提供了AI无障碍直播字幕 [36][37][39] 行业生态与合作伙伴 - **广泛的朋友圈**:豆包大模型通过火山引擎已渗透至多个行业,在车圈服务了超9成主流车企(包括奔驰、特斯拉、比亚迪、蔚小理等),在手机/PC圈与全球Top10手机厂商中的9家(如小米、OPPO、vivo、荣耀、三星)及联想等公司合作 [40] - **技术整合价值**:春晚作为一次大型“买家秀”,证明了豆包大模型及相关技术能够扛住顶级压力、真正落地并创造价值,其对中国文化的深刻理解与强大的工程化能力是关键 [41][42][45]
华为B端向下冲锋,中小企业数智化战场激战正酣
华夏时报· 2025-09-18 17:39
华为中小企业数智化战略 - 华为发布“4+10+N”中小企业智能化方案,旨在以一站式场景化方案助力中小企业智能化转型 [2] - “4”代表智能办公、智能商业、智能教育、智能医疗四个核心场景,“10”代表十个一站式场景化方案,“N”代表围绕核心场景定义的系列产品 [4][5] - 华为面向中国ICT分销伙伴发布“百&万计划”,目标发展100家分销钻石伙伴和10000家精英工程商 [2] - 华为2023年5月面向分销市场发布子品牌华为坤灵,用以支撑分销伙伴业务拓展 [3] - 2024年华为面向中小企业办公、经济型酒店等场景打造了超过400款适销产品,华为坤灵业务已覆盖全球100多个国家和地区 [5] 中小企业数智化市场概况 - 中小企业是国民经济和社会发展的重要力量,2024年末全国登记在册企业数量6122.6万户,其中中小企业数量超6000万户,较2012年末增长约3.6倍 [3] - 中小企业被视为企业数智化的下沉洼地,存在“不懂、不会、难寻帮助”等转型挑战 [3] - 科技大厂纷纷将增长目光投向B端市场,AI成为竞争中心,中小企业下沉市场成为拼抢战场 [2][6] 华为相关业务表现 - 2024年华为ICT基础设施业务收入3699亿元,同比增长约5%,约占公司总收入的43% [5] - 2024年华为中国区政企业务同比增长25%,中国区政企计算产业增长80%,鲲鹏、昇腾平台作用关键 [5] - 华为于2024年6月推出盘古大模型5.5,基于昇腾云全栈软硬件架构训练,已应用于政务、金融等30多个行业500余场景 [6] 行业竞争态势 - 除传统ICT设备厂商外,阿里、腾讯、字节等科技大厂也涌入中小企业数智化市场,展开激烈角逐 [6] - 大模型厂商在B端市场掀起价格战,例如阿里云通义千问视觉理解模型价格下调超过80%,字节跳动豆包模型定价比行业平均价格便宜85% [6] - B端市场竞争核心是技术与产业结合的能力,需懂行业、懂企业,成本及满足中小企业个性需求也是重要竞争维度 [7]
字节跳动推出豆包大模型1.6 逻辑推理全面升级
凤凰网· 2025-07-30 14:32
产品发布与升级 - 火山引擎官网推出三款新AI大模型:豆包大模型1 6、豆包视觉理解模型、豆包视频生成模型 [1] - 豆包大模型1 6具备更强推理能力、多模态理解能力、GUI操作能力和前端页面编程能力 [1] - 豆包视觉理解模型拥有更强视觉内容识别能力、理解推理能力及更细腻的视觉描述能力 [1] - 豆包视频生成模型支持将文本、图像生成高质量视频,能生成具备丰富细节层次的影视级视频 [1] - 发布豆包图像编辑模型3 0,实现精度与效率双提升,支持高清细节修复、风格迁移等复杂创意场景 [1] - 发布豆包同声传译模型2 0,优化多语言实时翻译能力,强化专业术语与跨文化语境理解 [1] - 豆包大模型1 6系列在知识覆盖、逻辑推理及轻量化部署上全面升级,适配更广泛终端与行业场景 [1] 生态开放与工具服务 - 火山引擎宣布开源扣子核心能力,开放模型微调框架等技术模块以降低开发门槛 [2] - 推出企业自有模型托管方案,支持私有数据训练模型的安全部署与运维 [2] - 上线Responses API标准化接口,助力企业快速集成对话、生成等AI能力,缩短应用开发周期 [2]
国产多模态模型持续加速迭代
太平洋· 2025-05-19 08:45
报告行业投资评级 未提及相关内容 报告的核心观点 - 近期AI文生图、文生音视频、3D生成模型持续迭代,生成质量和速度均有突破,有望提升用户体验,推动AI生成在多场景应用,加快产业落地 [6] - 建议关注AI+营销的天娱数科,AI+游戏的恺英网络、巨人网络、电魂网络,AI+影视的博纳影业等 [6] 根据相关目录分别进行总结 一周行情回顾 - 上周上证综指、传媒指数(中信)、深证成指、创业板指涨跌幅分别为0.76%、 -0.67%、0.52%、1.38% [11] - 上周传媒互联网板块涨幅最大的十只个股为*ST返利、迅游科技等,跌幅最大的五只个股为荣信文化、完美世界等 [13][15] 行业运行数据 游戏 - 2025年第一季度国内游戏市场实际销售收入857.04亿元,同比增长17.99% [16] - 2025年05月17日重点手游排名iOS畅销榜排名前三位分别为《和平精英》《王者荣耀》《无尽冬日》 [16] - 2025年4月微信小游戏买量投放排名前三的游戏分别为《无尽冬日》《向僵尸开炮》《英雄没有闪》 [23] AI - 2025年04月全球AI产品网页版访问量排名前三的分别为ChatGPT(53.1亿)、New Bing(14.5亿)、DeepSeek(4.69亿) [24] - 2025年04月国内AI产品网页版访问量排名前三的分别为DeepSeek(4.69亿)、纳米AI搜索(2.77亿)、豆包(0.54亿) [26] 电影 - 2025年至今内地电影总票房268亿元,05月17日单日票房6040万 [28] - 2025年05月17日电影综合票房排名前三分别为《水饺皇后》《猎金·游戏》《哪吒之魔童闹海》 [28] 电视剧 - 2025年05月15日CSM71卫视黄金剧场电视剧收视前三分别为《我家的医生》《我的后半生》《蛮好的人生》 [31] - 截至2025年05月16日电视剧集播映指数排名前三分别为《折腰》《淮水竹亭》《蛮好的人生》 [33] 综艺节目 - 截至2025年05月16日综艺节目播映指数排名前三分别为《歌手2025》《乘风2025》《奔跑吧第十三季》 [35] 渠道 - 2024年08月国内五大视频平台MAU分别为爱奇艺(3.94亿)、腾讯视频(3.86亿)、芒果TV(2.68亿)、哔哩哔哩(2.19亿)、优酷(1.99亿) [38] 直播电商 - 2025年05月05日 - 05月11日抖音直播主播销售排名前三分别为与辉同行(1亿+)、小北珠宝(1亿+)、新疆和田玉老郑(1亿+) [39] 广告营销 - 2025Q1全国户外广告投放刊例花费574亿元,同比增长6% [40] 重点公司重要公告速览 - 三七互娱25Q1拟向全体股东每10股派送现金股利2.10元,现金分红总金额约4.62亿元 [43] - 国脉文化拟以自有资金回购股份,金额不低于5000万元且不超过1亿元,回购价格不超过16元/股 [43] - 万达电影全资子公司影时光拟与关联方儒意星辰共同投资乐自天成,双方将开展战略合作 [43] - 中文在线多位董事拟减持公司股份,合计占公司总股本比例0.12% [43] - 顺网科技拟向全资子公司雾联科技增资3.1亿元,增资后注册资本将由4000万元增加至3.5亿元 [43] - 华策影视实控人拟减持不超过约2076万股公司股份,即不超过公司现有总股本的1.11% [43] 行业要闻 AI - 海外要闻:OpenAI发布AI编程智能体Codex,支持多任务并行,半小时可完成数天的软件工程任务 [45] - 国内要闻:昆仑万维开源交互式世界基础模型Matrix - Game;巨人网络与字节火山引擎开展AI领域合作;阶跃星辰发布并开源3D大模型Step1X - 3D;腾讯发布混元图像2.0模型;Manus上新文生图功能 [46][47][48] 游戏 - 点点互动《Whiteout Survival》位列4月中国手游海外收入第一 [51] - 完美世界《异环》发布最新实机视频 [52] - 世纪华通《云海之下》将于5月20日发布 [53]
字节 AI 再创业:独立组织、全链条的饱和出击
晚点LatePost· 2025-03-31 19:58
字节跳动AI战略布局 - 公司面对AI机遇采取饱和式投入策略,至少5个团队同时开发不同智能体产品,包括对内工具[3] - 2023年年中决定自主开发AI后,公司在算力芯片层、云计算层、模型研发层、应用层实现全链条布局[3] - 产品矩阵覆盖聊天机器人、AI搜索、AI浏览器、Agent平台、AI陪伴社交、AI教育等主流方向,主力产品豆包在2024年底成为中国日活最多AI应用[4] - 2025年设定三大目标:探索智能上限、探索新UI交互形式、加强规模效应,由Flow/Seed/Stone三大板块近2500人团队支撑[17] 技术研发进展 - 模型迭代速度显著提升,2023年8月至2025年5月共发布12个版本,涵盖对话/视频生成/音乐/视觉理解等多领域[10] - 2025年1月发布豆包大模型1.5 Pro版本,多模态与推理能力全面提升[10] - 组建独立模型研发团队Seed,整合原有AI Lab资源,40%研究人员为近两年新增[15] - 引入Google Fellow吴永辉等顶尖人才,设立Seed Edge前沿研究计划瞄准AGI探索[21] 市场竞争态势 - 主力产品豆包被腾讯接入DeepSeek的元宝快速追赶,后者用十分之一时间达到豆包20%用户规模[5] - 错过中国ChatGPT时刻,因内部对复现OpenAI o1模型存在时间误判[10] - 面临DeepSeek开源模型冲击,该团队不足200人却实现技术突破[4][13] - 豆包2025年DAU目标超5000万,季度增长目标从30%调高至150%[22] 组织架构创新 - 建立独立AI组织Flow/Seed,与抖音/TikTok等业务平级,直接向创始人汇报[15] - 打破原有薪酬考核体系,为AI团队提供百万年薪及5年长周期评估机制[15] - 创始人张一鸣深度参与技术研究,每月召集核心团队复盘进展[16] - 采用"能力中台"模式,将模型能力模块化供产品团队调用[21] 资源投入规模 - 2023年GPU储备超10万张,上半年英伟达订单超10亿美元[22] - 2025年AI算力采购预算达900亿元人民币,优先保障大模型研发[22] - 通过收购补充技术能力,包括Oladance耳机品牌及存算一体硬件公司[15] - 调动全集团资源支持,曾阶段性限制非AI产品在抖音体系的广告投放[22]