Workflow
可图2.0
icon
搜索文档
快手成立可灵AI事业部 高级副总裁盖坤挂帅
每日经济新闻· 2025-04-30 19:59
公司战略与组织架构调整 - 公司正式成立可灵AI事业部,下设产品部、运营部和技术部,负责可灵、可图等系列大模型业务 [1] - 高级副总裁盖坤担任可灵AI事业部负责人,继续兼任社区科学线负责人,向CEO程一笑汇报 [1] - 社区科学线下成立基础大模型与应用部,负责LLM大模型、多模态理解大模型及应用技术研发 [1] - 独立的团队和组织架构设计旨在保持公司在视觉大模型领域的竞争力 [2] AI业务发展现状 - 2023年初启动AI战略,已打造快意语言大模型、可图图像生成大模型、可灵视频生成大模型等矩阵 [1] - 截至2023年6月,可灵AI累计完成超20次迭代,全球用户规模突破2200万 [1] - 2024年4月发布可灵2.0视频生成模型及可图2.0图像生成模型 [1] 商业化进展与目标 - 自商业化以来至2024年2月,可灵AI累计营业收入超过1亿元 [2] - CEO预计2025年可灵AI将实现收入的跨越式增长 [2] - AIGC短视频营销素材和虚拟数字人直播解决方案日均消耗突破3000万元 [2] 行业定位与价值 - AI已成为驱动平台流量增长和创造商业生态价值的核心引擎 [2] - 公司级战略凸显AI在整体业务中的核心地位 [1][2]
全球AI周报:微信推出首个AI助手“元宝”,OpenAI发布o3满血版和o4mini-20250421
天风证券· 2025-04-21 22:49
报告行业投资评级 未提及 报告的核心观点 - OpenAI及国内模型大厂相继发布最新模型,模型在COT思维链基础上持续优化,本轮OpenAI更新增强模型多模态思考能力,拓展AI应用场景广度,提升模型在复杂任务中的实用性与落地深度;近期中美科技巨头密集布局MCP协议,有望统一行业标准,提升行业整体效率,推动整体AI生态完善;2025年有望成为AI Agent商业化元年,看好模型能力、生态构建与产品落地能力的AI应用企业迎来估值重估 [4] 根据相关目录分别进行总结 全球AI产品更新 - 微信推出AI助手“元宝”,集成混元和DeepSeek双模引擎,无缝衔接微信生态,支持解析公众号文章、图片和文档(100M以内),提供智能互动和日常陪伴功能,初始语气活泼逗趣可调节 [4] - 快手“灵感成真”发布会推出可灵AI 2.0,宣布基座模型升级,面向全球发布可灵2.0视频生成模型与可图2.0图像生成模型,两款模型在团队内部评测中居业内首位,可图2.0领先Midjourney V7等行业头部模型 [4] - 字节跳动旗下火山引擎发布豆包1.5深度思考模型,对文生图模型3.0、视觉理解模型进行升级,推出OS Agent解决方案及垂类应用Agent(国内首个AI IDE——Trae) [4] - 阿里通义万相Wan2.1视频生成大模型正式开源,在处理复杂运动、还原真实物理规律、提升影视质感、优化指令遵循上优势显著 [4] - OpenAI线上发布o3和o4 - mini,在AIME、Codeforces等测试中全面超越前代,图像思维链首次融入,同步开源轻量级终端编码Agent——Codex CLI,启动百万美元支持计划 [4] - 谷歌发布首款混合推理模型Gemini 2.5 Flash,引入“思考预算”,可自定义推理深度控制思考模式,在复杂任务中表现更优异 [4] 重点公司业绩情况 - 台积电2025年Q1营收255.3亿美元,同比+35.3%,毛利率58.8%,略超越彭博一致预期;预计2025年AI加速器收入翻倍,2024年至2029年AI加速器营收将实现约45%复合增长率 [4] - 奈飞一季度营业收入105.42亿美元,同比+12.51%,每股盈利6.61美元,大幅超出彭博一致预期;预计2025年第二季度收入增长15%,全年广告营收有望大致翻倍 [4] 投资建议 - 建议关注中国AI企业腾讯控股、阿里巴巴、快手、美团,因其本土AI技术能力持续提升,互联网生态优势巨大,且互联网板块受外部政策影响相对小、宏观关联度相对低,短期估值或超跌,基本面短期维持相对强势 [4] - 建议关注海外AI企业英伟达、微软、特斯拉、Roblox、Netflix、Shopify、赛富时、多邻国、ROBINHOOD、APPLOVIN,近期美股波动加剧但AI技术迭代节奏依旧快速,本周AI产品能力进一步升级,市场关注点转向商业化兑现与财务表现,叠加财报季来临,需关注AI相关标的财务端表现及AI落地商业化进展动态,同时关注互联网娱乐板块在AI赋能下的收入表现与用户增长情况 [4] 全球AI动态更新 中国AI动态更新 - 微信推出AI助手“元宝”,搭载混元和DeepSeek双模引擎,无缝衔接微信生态,核心功能包括解析公众号文章、图片和文档(100M以内),进行智能互动和日常陪伴互动,针对微信场景优化,确保用户数据仅在本地处理,暂时不支持聊天问答之外的复杂功能,初始语气活泼逗趣可调节 [11] - 快手举办“灵感成真”可灵AI 2.0模型发布会,宣布基座模型升级,面向全球发布可灵2.0视频生成模型与可图2.0图像生成模型,可灵AI完成超20次迭代,全球用户规模突破2200万,月活用户量过去10个月增长25倍,累计生成超1.68亿个视频及3.44亿张图片,两款模型在团队内部评测中居业内首位,可灵2.0大师版升级可控生成与编辑能力,上线多模态视频编辑功能,可图2.0领先Midjourney V7等行业头部模型 [16] - 字节跳动旗下火山引擎发布豆包1.5深度思考模型,对文生图模型3.0、视觉理解模型进行升级,推出OS Agent解决方案及垂类应用Agent(国内首个AI IDE——Trae);豆包在专业领域推理能力测试中达或接近全球第一梯队水平,文生图模型Seedream3.0跻身全球第一梯队,视觉理解模型实现突破;Trae将AI与集成开发环境深度融合,具有交付化、智能化、协作化三大核心特质 [21] - 阿里通义万相Wan2.1视频生成大模型正式开源,在处理复杂运动、还原真实物理规律、提升影视质感、优化指令遵循上优势显著,支持中英文文字特效生成,在权威评测集VBench中总分位居榜首;基于主流视频DiT结构,利用Full Attention机制建模长时程时空依赖,噪声采样采用线性噪声轨迹Flow Matching方法,通过多项技术创新提升生成能力,已在GitHub、Hugging Face、魔搭社区开源,支持多种主流框架 [25] 海外AI动态更新 - OpenAI线上直播发布o3和o4 - mini模型,在AIME、Codeforces等测试中全面超越前代,首次在思维链中用图像进行推理,实现视觉感知重大突破,o3在编程、数学等领域表现优异,o4 - mini优化快速、低成本推理;推出轻量级终端编码Agent——Codex CLI,已在GitHub开源,启动100万美元计划支持相关项目并接受2.5万美元API积分资助申请;预计本月陆续发布DeepSeek R2、Anthropic的Claude 4以及马斯克剧透的「GroK - 3.5」 [29] - 谷歌发布Gemini 2.5 Flash,引入“思考预算”,可自定义推理深度控制思考模式,关闭思考模式时成本下降600%,开启后性能提升,在复杂任务中表现更优异,以超高性价比领跑,兼具最优性能和极低成本优势;在多项基准测试中成绩优异,大模型排行榜上位居第二,在数学等基准测试中碾压Claude 3.7 Sonnet,与o4 - mini相当,在模型输入/输出价格上更具性价比,在LMArena其他评估项目中多次夺冠 [35] 重点公司业绩情况 - 台积电2025年Q1营收255.3亿美元,环比-5.1%,略不及彭博一致预期;毛利率58.8%,环比-0.2 ppt;营业利润率48.5%,环比-0.5 ppt;净资产收益率32.7%,环比-3.5ppts;3纳米占晶圆收入22%,5纳米占36%,7纳米占15%,7纳米及以下先进制程技术占营收73%;高性能计算(HPC)业务占一季度营收59%,环比+7%;智能手机业务占28%,环比-22%;收入受智能手机市场季节性回落影响,部分被AI相关需求增长抵消;预计2025年AI加速器营收翻倍,2024年至2029年AI加速器营收将实现约45%复合增长率;全力扩大CoWoS封装产能,计划在2025年实现翻倍;预计第二季度收入284亿至292亿美元,该季度毛利率57%至59%,营业利润率47%至49% [38] - 奈飞一季度营业收入105.42亿美元,略超出预期,同比+12.51%;每股盈利6.61美元,大幅超出预期;营业利润33.47亿美元,同比27.12%;预计2025年第二季度收入增长15%,全年广告营收有望大致翻倍;预计全年运营利润率维持在29%,下半年因热门节目回归内容制作成本攀升,加上销售和营销费用增加,运营利润率将下滑;在美国和加拿大推出的低成本广告套餐能维持用户对娱乐的强劲需求,增强业务韧性 [38]
可灵2.0正式发布 - 现实,真的不存在了。
数字生命卡兹克· 2025-04-15 15:24
可灵2.0技术突破 - 可灵2.0在运镜幅度、物理规律、人物表演、动作稳定性、语义理解等方面实现水桶式提升,将AI视频技术推向新高度[7][9][12] - 霸王龙案例展示2.0版本在环境交互、运动感和物理反馈上的显著进步,1.6版本存在树木橡胶化等缺陷[9][11][12] - 摘眼镜案例体现2.0版本对精细动作的完美还原,包括镜片光影变化和物理反馈,1.6版本出现眼镜腿抖动等穿帮[14][16][17] 多主体交互能力 - 五人篝火场景中2.0版本实现自然表情交互和火光动态映射,1.6版本存在人工感[23][25][26] - 派大星吹笛案例展示2.0强大的语义理解能力,能准确呈现停顿观察等复杂指令[27] - 多人场景下2.0版本保持各主体动作协调,1.6版本出现假动作等问题[20][21] 情感表达真实感 - 小丑妆女孩案例中2.0版本实现电影级情绪传递,包括眼神变化和嘴角抽动等微表情[14][17] - 外星人哭泣、老人敬礼等案例展示2.0版本对复杂情感的精准刻画[30][31] - 通过淋雨失恋、开车第一视角等场景建立强烈沉浸感[32][34] 技术局限性 - 群像高速运动时部分人物稳定性不足,出现分裂现象[49][50] - 投篮等需要精确物理模拟的场景仍存在轨迹失真问题[55] - 怪物猎人等复杂群像场景中小尺寸人物会出现混乱[52] 行业影响 - 技术达到"信"而非"像"的级别,首次实现观众情感共鸣[41][44][45] - 当前水平已超越其他AI视频模型,直接对标好莱坞特效标准[57] - 代表AI视频领域审美跃迁,重新定义真实感标准[38][39][46]