豆包1.5·视觉深度思考模型

搜索文档
全球AI周报:AI推动腾讯阿里业绩增长,GoogleI/O2025预计推出AI眼镜-20250519
天风证券· 2025-05-19 23:30
报告行业投资评级 未提及 报告的核心观点 - 从中国互联网科技大厂财报看,AI投入及产出可观,后续持续看好中国互联网大厂在AI领域布局与发展,尤其是模型迭代及多场景应用推进,建议关注头部AI科技企业创新进展,叠加DeepSeek最新模型发布预期,有望带来新一轮“中国AI”投资机会 [5] - 近期受关税缓和预期影响,AI相关标的反弹显著,市场对经济衰退风险担忧缓解,谷歌开发者大会、OpenAI新进展及智能驾驶商业化提速等对AI应用及智能驾驶行业有积极推动作用 [5] 各部分总结 重点公司财报AI进展 腾讯 - 一季度资本支出274.8亿元,同比增长91%,占营收15%;广告收入同比增长20%至319亿元,连续十个季度两位数增长;通过提升生成式AI能力升级广告技术平台;发布AI编程助手CodeBuddy,支持多项功能并全面兼容MCP开放生态 [5][13][37] - 本季度明确AI开始贡献收入,包括改进广告投放、优化内容推荐、应用于游戏、带来云收入;核心竞争力在于场景和应用构建,重点AI产品围绕场景和生态推出,预计未来在元宝及微信AI合作上有进展 [5][13] 阿里巴巴 - 云业务营收301亿元,同比增长18%,超彭博一致预期,人工智能相关产品收入连续七个季度三位数增长;截至4月底,阿里通义累计开源200余款模型,全球下载量超3亿次,基于通义千问的衍生模型数量突破十万种 [5][12] - 云业务Capex环比下降系季节性影响,虽市场担忧云业务利润率及Capex下降,但后续利润率有望回升,且未下调全年资本开支目标,AI投入坚定,单季度波动不影响长期增长目标 [5][12] 全球AI动态 海外AI - 谷歌2025年度Google I/O开发者大会5月20 - 21日举办,预计公布软件产品进展并预览新功能,聚焦多领域;此前暗示将展示搭载微型显示屏和Gemini人工智能助手的AI眼镜原型 [20] - Deepmind发布编程AI智能体AlphaEvolve,与大模型Gemini深度集成,可评估优化算法设计,在多方面有能力展示,技术架构含多个核心模块 [28] - OpenAI发布基于云端运行的编程智能体Codex,可并行处理多开发任务,核心模型codex - 1在SWE - Bench基准测试得分72.1%,优于Claude 3.7及o3 - high,目前向部分用户开放 [23] - 字节跳动火山引擎发布多个模型,包括豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,升级豆包·音乐模型,Data Agent亮相,Trae接入豆包深度思考模型并升级 [32] - Manus全面开放注册,提供免费积分和付费订阅计划,同时上线图像生成功能,强调执行能力,适合多步骤任务编排场景 [41] 中国AI - 本周阿里巴巴、腾讯发布财报,从财报看可对中国AI产业投资保持坚定乐观;后续持续看好中国互联网大厂在AI领域布局发展,建议关注阿里巴巴、腾讯控股、小米、快手、美团 [5] 投资建议 - 智能驾驶落地提速,看好特斯拉在FSD和Robotaxi领域进展,建议关注Uber在智能驾驶的AI应用布局 [5] - 算力需求预期强劲,继续看好英伟达、NEBIUS、Coreweave、Vertiv等核心算力提供商订单需求高景气度 [5] - OpenAI发布Codex有望提升AI在软件开发等领域应用效率,建议关注微软、企业SaaS、开发者工具相关企业收入提速,以及模型能力提升带来更多AI应用落地的企业 [5]
国泰海通|计算机:发展Agent已成各大厂共识,新规激发并购重组市场活力
国泰海通证券研究· 2025-05-19 22:20
AI Agent发展动态 - 字节跳动火山引擎发布豆包·视频生成模型Seedance 1.0 lite,支持文生视频、图生视频,生成时长5s/10s,分辨率480P/720P [2] - 豆包1.5·视觉深度思考模型激活参数仅20B,具备多模态理解和推理能力,在视频理解、视觉推理、GUI Agent等领域处于第一梯队 [2] - 字节升级豆包·音乐模型并推出Data Agent,Trae接入豆包深度思考模型,构建更强大的模型矩阵和智能体工具链 [2] - 谷歌DeepMind发布通用科学AI系统AlphaEvolve,可自主生成改进算法代码,已应用于解决数学难题和优化TPU设计,节省全球计算资源0.7% [4] 政策与行业整合 - 证监会修改《上市公司重大资产重组管理办法》,延长股份分期支付注册有效期至48个月,简化审核程序至5个工作日,鼓励私募基金参与并购重组 [3] - 新规提高对财务状况变化、同业竞争等监管包容度,完善锁定期规则支持上市公司吸收合并,有望加速计算机板块细分领域整合 [3] 商业化前景 - AI Agent技术迭代和落地在科技大厂中稳步推进,2025年或成为规模化商业落地元年 [1][2][4] - 火山引擎通过智能体工具帮助企业打通业务应用链路,AlphaEvolve已实现科研与芯片设计场景的实际应用 [2][4]
AI早报 | 软银对OpenAI的投资或降至200亿美元;月之暗面回应涉足AI医疗
搜狐财经· 2025-05-14 08:21
软银对OpenAI投资变动 - 软银对OpenAI的投资可能从400亿美元缩减至200亿美元 因OpenAI取消转为营利企业的计划 维持非营利组织控股结构 [2] - 原协议规定若OpenAI在2025年内未转型为公益公司(PBC) 软银有权将投资减半 [2] 火山引擎AI模型发布 - 火山引擎发布豆包视频生成模型Seedance 1 lite 支持文生视频、图生视频 生成时长5s/10s 分辨率480P/720P [2] - 同步推出豆包1 5视觉深度思考模型 升级音乐模型 企业用户可通过火山方舟平台调用API 个人用户可在豆包APP体验 [2] 月之暗面AI医疗布局 - 月之暗面优化Kimi在财经、法律、医学等专业领域的搜索信源质量 探索Agent产品方向 [3] - 公司回应称目标是为用户提供更可信、可靠的高质量专业回答 [3] 谷歌AI未来基金 - 谷歌启动"AI未来基金" 向初创公司提供DeepMind最新AI模型早期使用权、技术资源及股权融资 [3] - 获选企业有机会获得谷歌直接投资以加速AI规模化发展 [4] 腾讯混元开源多模态模型 - 腾讯混元联合多家机构开源UnifiedReward-Think模型 为首个具备长链式推理能力的多模态奖励模型 [4] - 模型提升复杂视觉任务的评估准确性、跨任务泛化能力及推理可解释性 开源内容包括完整训练脚本与评测工具 [4] 沙特HUMAIN与英伟达合作 - 沙特HUMAIN公司与英伟达合作建设AI工厂 计划部署数十万块先进GPU 目标五年内推动沙特成为AI领域全球领导者 [4] - 双方将开展大规模培训项目 为数千名沙特开发者提供AI、机器人、数字孪生等技术实践 [5] 智元机器人新设AI公司 - 智元机器人关联公司在四川成立智象启元智能科技 注册资本1000万人民币 业务含AI软件开发、系统集成等 [5] - 股东包括上海智元新创技术有限公司等三家实体 [5] 昆仑万维开源大模型 - 昆仑万维开源Matrix-Game大模型(17B+) 为工业界首个10B+级开源空间智能模型 专注游戏世界交互式生成 [6] - 该模型基于Matrix-Zero世界模型 针对开放式环境的高质量生成与精确控制设计 [6]
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型;昆仑万维宣布开源Matrix-Game大模型丨AIGC日报
创业邦· 2025-05-14 07:52
昆仑万维开源Matrix-Game大模型 - 昆仑万维正式开源17B+参数的Matrix-Game大模型 该模型为Matrix-Zero世界模型中的可交互视频生成大模型 是工业界首个开源的10B+空间智能大模型 [1] - Matrix-Game专为开放式环境中的高质量生成与精确控制设计 面向游戏世界建模的交互式世界基础模型 [1] 百型智能推出外贸行业垂类Agent - 百型智能发布国内首个外贸行业垂类Agent AI外贸员Zoe 可独立完成外贸开发拓客全链路 包括市场分析、客户寻找、精准筛选、开发触达、转化跟进 [2] - Zoe的转化率高出传统人工方式10倍以上 [2] 火山引擎发布豆包视频生成模型 - 火山引擎发布豆包视频生成模型Seedance 1 0 lite 支持文生视频、图生视频 视频生成时长支持5s、10s 分辨率提供480P、720P [3] - 同时发布豆包1 5视觉深度思考模型 并升级豆包音乐模型 企业用户可在火山方舟平台使用API 个人用户可在豆包APP体验 [3] 苹果发布FastVLM模型 - 苹果发布FastVLM视觉语言模型 专为高分辨率图像处理优化 可在iPhone等移动设备上高效运行 [4] - FastVLM通过FastViTHD视觉编码器实现85倍编码速度提升 为实时多模态AI应用铺平道路 [4]
布局AI生态 字节系大模型“实用至上”
上海证券报· 2025-05-14 02:45
大模型产品迭代策略 - 公司发布小而专、聚焦实用的大模型产品,强调"实用至上"和"小步快跑"的迭代思路 [1] - 相比追求"一鸣惊人"的大招,公司更注重多线程并进和可靠的商业场景落地 [1] - 新发布的豆包视频生成模型Seedance 1.0 lite参数规模小但实现影视级质量,支持文生视频、图生视频,生成时长5s/10s,分辨率480P/720P [1] 视频生成模型优化 - 通过优化语义理解能力提升指令遵循精度,增强对人物表情、衣着服装的精确控制 [2] - 模型针对电商广告、娱乐特效、影视创作等场景优化,帮助客户降低制作成本与周期 [2] - 视频生成速度大幅提升,兼顾效果、速度与性价比 [1] 视觉深度思考模型 - 豆包1.5·视觉深度思考模型激活参数仅20B,在60个公开评测基准中38个取得业内最佳表现 [3] - 模型具备强大多模态理解和推理能力,在视频理解、视觉推理、GUI Agent能力等方面处于第一梯队 [3] - 新增GUI Agent能力,可跨PC端/手机端完成复杂交互任务,如自动化检测App功能 [3] AI生态布局 - 公司AI生态已覆盖汽车、智能终端、互联网、金融等行业,服务4亿终端设备、80%主流车企、70%系统重要性银行 [4] - 推出Data Agent智能体,具备主动思考和分析能力,覆盖数据分析、智能营销等企业数据应用场景 [4] - 国内首款AI原生IDE产品Trae升级,支持通过MCP协议让AI主动调用外部工具 [4][6] 技术协议战略 - 公司积极布局MCP协议(模型上下文协议),称其为AI领域的"万能插座",可降低开发成本 [5][6] - 专注于企业端垂类智能体开发,同时为开发者提供便利工具,推动行业标准化 [6] - 通过技术和资源复用实现内外服务统一,提升性价比 [4][6]