Workflow
混元3D世界模型
icon
搜索文档
腾讯研究院AI速递 20250903
腾讯研究院· 2025-09-03 00:01
谷歌Gemini技术升级 - 谷歌Gemini API全面上线URL Context功能 支持深度访问和处理网页 PDF 图像等内容 采用两步检索流程 可解析PDF表格 文本结构 脚注等 处理容量上限达34MB 单次请求最多处理20个URL [1] - 该功能无需提取 分块 矢量化和存储等繁琐流程 直接解析50页PDF并精准提取数据 被评价为RAG的又一颗棺材钉 [1] 腾讯混元世界模型进展 - 腾讯发布混元3D世界模型HunyuanWorld-Voyager 是业界首个支持原生3D重建的超长漫游世界模型 能生成长距离 世界一致的漫游场景 支持视频直接导出为3D格式 [2] - 该模型在斯坦福大学WorldScore基准测试中位居综合能力首位 支持视频场景重建 3D物体纹理生成等多种应用 [2] Runway融资与业务拓展 - 视觉生成AI公司Runway获英伟达 谷歌和General Atlantic等投资者超5亿美元融资 估值达30亿美元 正式跨界机器人领域 [3] - Runway的AI世界模型可为机器人和自动驾驶汽车公司提供训练模拟 实现高效 低成本的虚拟测试环境 相比真实场景训练 用户能更精细地控制特定变量测试 [3] 腾讯优图开源智能体框架 - 腾讯优图实验室开源Youtu-Agent智能体框架 具备开源友好 成本低 灵活架构和自动智能体生成等特点 [4] - 该框架在WebWalkerQA基准上使用DeepSeek-V3.1达到71.47%准确率刷新开源效果SOTA 在GAIA文本子集达到72.8% 无需充值闭源模型 [4] - 框架采用DITA原则 提供四个典型应用案例 本地文件管理 数据分析 论文分析和广域综述 支持一键生成配置和启动测试 [4] AI游戏与模拟应用 - flowith团队发布基于多模态画布和Nano Banana技术的AI人生模拟器flolife.me 玩家可捏造角色后由AI接管整个人生模拟 [5] - 游戏流程包括输入角色名字 性别 出生地并分配属性 设置人格描述 系统自动生成完整人生线和分支选项 还能生成高光瞬间制作分享海报 [6] - 香港科技大学Aivilization小镇项目可创建自定义AI人物 设置MBTI性格与目标 在虚拟小镇生活成长 但评价体系单一 以金钱排名为唯一衡量标准 [7] - 顶尖玩家通过挖矿积累初始资金 升级房子后制造芯片 实现每天67680金币的被动收入 远超读书 休闲等生活方式的收益 [7] 智谱AI模型性能突破 - 智谱开源的GLM-4.5在伯克利工具调用排行榜上超越Claude Opus 4.1 运行相同任务的成本仅为对手的1.4% [8] - 该模型使用MoE架构 在CC-Bench评测体系中表现强劲 尤其在任务完成效果和工具调用可靠性方面 推理速度比Opus 4.1快3倍 比GPT-5快5倍 [8] - GLM-4.5已接入Claude Code Cline Gemini CLI等多款主流编程工具 价格仅为Claude的1/7 [8] 脑机接口技术突破 - 加州大学洛杉矶分校团队开发AI辅助非侵入性脑机接口系统 让瘫痪受试者在移动计算机光标任务中的表现提升近4倍 [9] - 系统采用AI副驾驶模式 人类专注决策 AI完成预测和辅助修正 能推断用户目标并实时辅助执行 [9] - 瘫痪参与者使用AI副驾驶系统可将光标控制接入时间从4.15秒减至0.05秒 机械臂任务正确放置率从0提高至93% [9] 特斯拉战略规划 - 马斯克发布《宏伟蓝图4》 宣布特斯拉未来80%价值将来自机器人Optimus 核心在于将AI引入真实物理世界 [10] - 蓝图4阐述五大核心原则 增长是无限的 创新消除限制 技术解决实际问题 自动化必须造福全人类 更广普及带来更大增长 [10] - 与前三次蓝图相比 蓝图4更加注重AI作为核心驱动力 汽车被视为机器人生态中的特例 一个特定场景下的轮式机器人 [11] AI教育应用现状 - 美国千人高校调查显示 85%学生在学习中使用AI 主要用于头脑风暴55% 问答50%和考试备考46% 而非单纯偷懒 [12] - 97%学生认为院校应积极应对AI带来的学术诚信挑战 但不支持使用AI检测软件21%或限制技术使用18% 而是希望学校提供AI合理使用教育53% [12] - 55%使用AI的学生认为AI对学习能力和批判性思维好坏参半 23%学生认为AI提升了高等教育价值 仅18%表示更质疑大学价值 [12]
AI迎来关键转折,空间智能爆发临界点已至?
36氪· 2025-08-13 18:39
空间智能的定义与重要性 - 空间智能是人工智能理解、生成、推理并与三维世界交互的能力,是人类和动物智能的核心,历经5.4亿年进化完善,而语言进化仅用不到百万年[1] - 空间智能是感知世界和与物理环境互动的基础,对机器人、智能辅助驾驶、虚拟现实和内容创作等领域不可或缺[1] - 中国工程院院士倪光南指出,AI与空间智能融合是落实国家"人工智能+"行动的关键技术,正在重构三维物理世界并拓展大模型通向物理世界的桥梁[3] 空间智能的技术挑战 - 空间智能开发比语言处理复杂,语言是线性一维的,而三维世界充满动态性和物理规律,从2D图像重建3D结构是数学上的"病态"问题,存在多种解法[6] - 语言数据在互联网上随处可见,但空间数据大多存在于感知中难以直接获取,数据稀缺性带来巨大挑战[6][7] - 维度复杂性挑战:语言是一维序列,现实世界是三维空间与一维时间结合,组合复杂性呈指数级增长,计算需求远超语言模型[6] - 信息获取非适定性挑战:从2D图像重建3D信息需要模拟人类的多模态感知能力[6] - 生成与重建二元性挑战:空间智能系统必须同时具备生成虚拟世界和重建真实物理世界的能力,要求算法遵守物理规律并捕捉细节[6] 空间智能的五层技术框架 - 第一层:底层三维属性重建,包括深度感知、相机定位、点云构建与动态跟踪等基础组件[8] - 第二层:三维场景组成要素重建,包括人物、物体和建筑结构等元素的几何重建,神经辐射场和3D高斯点云等技术实现高度真实感细节还原[9] - 第三层:完整的4D动态场景重建,引入时间维度构建动态表征系统,分为通用场景4D重建和人体运动专项建模[9] - 第四层:场景内部组成部分交互关系重建,建立场景元素间动态交互模型,重点研究人体与物体运动关联[10] - 第五层:引入物理规律和约束条件,整合重力、摩擦等基础物理规律,扩展至物体形变和碰撞检测等复杂物理现象[10][11] 行业应用与案例 - 自动驾驶领域:空间智能帮助辅助驾驶系统预测车辆行人行为并调整行车策略,提高安全性与效率[12] - 日本东京进行3D数字孪生化,绝对位置精度10cm以内,包含LiDAR点云和实时交通数据,预计2030年实现完整数字孪生城市[15] - 中国MogoMind模型整合车辆轨迹和交通流量等数据,具备六大关键能力:实时全局感知、物理认知理解、通行能力推理计算、最优路径规划、数字孪生和风险预警[16] - 医疗领域:空间智能对CT、MRI等影像数据进行三维重建分析,帮助医生更准确诊断疾病并提供手术导航[17] - 数字孪生城市提供实时反馈并随城市动态调整状态,使城市管理更加灵活高效,如新南威尔士州通过该技术实时调整交通减少拥堵[16] 技术演进与未来展望 - 空间智能代表AI领域崭新思维方式,将感知信息转换为外部环境抽象模型,使智能体能够预测和理解世界动态变化[12] - 空间智能是AI从"自发感知"走向"自主认知"的迈进,突破信息空间局限向真实三维世界扩展[12] - 英伟达科学家Jim Fan表示未来城市管理将依赖实时图形引擎中的模拟和集群系统,使机器人能快速适应复杂环境[16] - 通过高精度模拟环境训练,机器人能获得丰富训练数据并在复杂场景中快速学习,推动从虚拟到现实世界的顺利迁移[16]
港股异动 科网股表现亮眼 美联储降息升温提振市场情绪 腾讯(00700)绩前刷新逾四年新高
金融界· 2025-08-13 11:57
科网股市场表现 - 腾讯音乐-SW股价上涨15.52%至102港元 哔哩哔哩-W股价上涨5.68%至186港元 阿里巴巴-W股价上涨4.46%至121.8港元 百度集团-SW股价上涨3.43%至87.55港元 腾讯股价上涨3.49%至579港元 [1] 美国CPI数据与货币政策预期 - 美国7月CPI同比持平于2.7% 低于预期的2.8% 环比上涨0.2%符合市场预期 [1] - 7月核心CPI同比上涨3.1% 高于预期的3% 创2月份以来新高 [1] - 数据公布后市场预计美联储9月降息概率超过90% [1] - 7月美国非农数据大幅下修强化美联储9月降息预期 [1] 恒生科技板块估值与资金流向 - 恒生科技动态PE为21.87倍 显示估值性价比凸显 [1] - 科技板块轮动规律大概率兑现 成长属性将重新吸引资金 [1] - AI商业化提速和中报业绩验证成为资金关注焦点 [1] 腾讯控股业绩预期与业务展望 - 花旗预计腾讯2025年第二季度非通用会计准则净利润同比上升4.9%至601亿元人民币 [2] - 收入及利润可能达到或超出市场预期 游戏业务因新游戏贡献及递延收入具上行潜力 [2] - 2025年第三季度游戏业务受季节性因素、新游戏发布及内容升级支持 [2] - 公司将重点介绍混元3D世界模型等AI进展、元宝新功能、新游戏管线及微信搜索动能 [2]
科网股表现亮眼 美联储降息升温提振市场情绪 腾讯绩前刷新逾四年新高
智通财经· 2025-08-13 11:37
科网股早盘表现 - 腾讯音乐-SW(01698)涨15.52%报102港元 [1] - 哔哩哔哩-W(09626)涨5.68%报186港元 [1] - 阿里巴巴-W(09988)涨4.46%报121.8港元 [1] - 百度集团-SW(09888)涨3.43%报87.55港元 [1] - 腾讯(00700)涨3.49%报579港元 [1] 美国CPI数据影响 - 美国7月CPI同比持平于2.7%低于预期的2.8% [1] - 7月核心CPI同比上涨3.1%高于预期的3%创2月份以来新高 [1] - 数据公布后市场预计美联储9月降息概率超过90% [1] 恒生科技板块分析 - 恒生科技动态PE仅21.87倍性价比凸显 [1] - 美元强势局面可能不会持续 [1] - 科技板块轮动规律大概率会兑现 [1] - AI商业化提速和中报业绩验证将重新吸引资金 [1] 腾讯财报前瞻 - 腾讯将发布2025年第二季度财报 [2] - 花旗预期非通用会计准则净利润同比升4.9%至601亿元 [2] - 游戏业务因新游戏贡献及递延收入具潜在上行可能性 [2] - 第三季游戏业务因季节性因素和新游戏发布支持稳健收入 [2] - 公司将重点介绍AI模型及元宝新功能的最新进展 [2]
港股异动 | 科网股表现亮眼 美联储降息升温提振市场情绪 腾讯(00700)绩前刷新逾四年新高
智通财经网· 2025-08-13 11:29
科网股表现 - 腾讯音乐-SW(01698)早盘上涨15.52%至102港元 [1] - 哔哩哔哩-W(09626)早盘上涨5.68%至186港元 [1] - 阿里巴巴-W(09988)早盘上涨4.46%至121.8港元 [1] - 百度集团-SW(09888)早盘上涨3.43%至87.55港元 [1] - 腾讯(00700)早盘上涨3.49%至579港元 [1] 市场背景 - 美国7月CPI同比持平于2.7%低于预期的2.8% [1] - 7月核心CPI同比上涨3.1%高于预期的3%创2月份以来新高 [1] - 市场预计美联储9月降息概率超过90% [1] - 恒生科技动态PE仅21.87倍性价比凸显 [1] 行业展望 - 美元强势局面可能不会持续 [1] - 科技板块轮动规律大概率会兑现 [1] - AI商业化提速和中报业绩验证将重新吸引资金 [1] 腾讯财报前瞻 - 花旗预期腾讯二季度非通用会计准则净利润同比升4.9%至601亿元 [2] - 预计收入及利润将达到或超出市场预期 [2] - 游戏业务因新游戏贡献及递延收入具潜在上行可能性 [2] - 预计第三季度游戏业务将受益于季节性因素和新游戏发布 [2] - 市场关注点包括AI模型进展、新游戏管线及微信搜索动能 [2]
产业观察:【AI产业跟踪】字节开源AI Agent Coze
国泰海通证券· 2025-08-04 23:13
AI行业动态 - 上智院等联合发布星河启智科学智能开放平台,具备六大核心能力,支持多学科众研和干湿实验闭环[7] - 燧原科技AI算力部署规模达七万卡,推理卡"燧原 S60"支撑互联网客户及智算中心需求[30] AI应用资讯 - 商汤发布悟能具身智能平台,日日新V6.5多模态推理大模型跨模态推理精度超Gemini 2.5 Pro,性价比提升5倍[8] - 华为发布异腾智算平台AI-Box,搭载异腾400I Pro芯片,支持多模态大模型本地运行,适配工业质检等场景[9] - 腾讯发布具身智能开放平台Tairos,提供多模态感知、规划等模型及云服务工具,与硬件厂商合作推动行业落地[10] AI大模型资讯 - 阶跃Step 3模型总参数321B,激活参数38B,推理效率达DeepSeek-R1的300%,2025年预计收入近10亿[11] - 字节开源AI Agent Coze,GitHub星标超6000,支持可视化开发和一键分享至主流平台[14] - 智谱发布GLM-4.5融合大模型,总参355B,激活参32B,API价格低且生成速度快,获全球开源模型第一[17][22] - 京东云开源企业级全栈智能体JoyAgent,支持多智能体协同与并行处理,已应用于零售采销等场景[18] 科技前沿 - 后摩智能发布存算一体端边AI芯片M50,物理算力160TOPS,典型功耗仅10W,支持多模态大模型本地推理[32] - 钛动科技发布全球营销Agent Navos,将传统营销周期从数月缩至几天,提升人力资源效率数十倍[28]
开源首个3D世界模型,腾讯要用AI重塑娱乐产业,游戏只是前菜
36氪· 2025-08-04 15:40
腾讯混元3D世界模型技术特性 - 业内首个支持沉浸漫游、交互和物理仿真的3D世界生成大模型 用户通过文字描述即可生成支持交互、360度漫游及自主编辑的3D场景 并可直接导出标准3D模型文件兼容Unity、Unreal等主流游戏引擎 [1][3][4] - 采用全景图像生成与分层3D重建技术 通过语义层次化3D场景表示与生成算法将2D全景图逐级拆解并重构为3D模型 大幅简化传统建模流程 [6][8] - 消费级硬件需分多次生成模型 重点依赖显卡显存性能 腾讯官网提供每日20次免费使用次数 支持文生3D、图生3D及拓扑生成等功能 [8][9] 腾讯战略布局与行业影响 - 模型采用定制开源协议 允许月活低于100万的应用免费商用 针对高月活应用可能采用分成或买断等灵活授权方案 [5] - 通过降低3D内容开发门槛推动"创作平权" 可能重塑游戏、3D动画及交互视频等内容创作行业格局 [12][18][21] - 腾讯2021年以3.3亿美元收购Epic Games 40%股份 推动虚幻引擎免费使用加分成模式 此次开源进一步强化其在游戏开发底层生态的话语权 [16][18] 行业竞争态势与发展趋势 - 字节跳动2024年AI投入达800亿元 在游戏领域布局AI编程助手Trae集成游戏引擎 并推出AIGC图像创作平台"炉米Lumi" [19][21] - 阿里与巨人网络展开"游戏+AI"合作 涉及AIGC内容生成和玩法创新 部分游戏直接接入AI大模型提供个性化体验 [21] - 行业向个性化游戏演进 AI可动态生成剧情与关卡 智能体扮演NPC或伙伴角色 单机游戏可能具备传统网游的社交体验 [21]
2025世界人工智能大会这些新品最值得关注!一文看懂→
第一财经· 2025-07-29 18:47
机器人成为WAIC2025主角 - 机器人首次成为世界人工智能大会主角 几乎所有主要人形机器人公司如智元、宇树科技、银河通用、灵初均设展台展示进展[2][3] - 机器人硬件形态变化不大 仍以双足人形和轮式人形为主 但软件出现范式变化 从遥控进化到自主行走[3] - 腾讯已投入机器人领域7年 比现有多数人形机器人公司更久 成为今年领域最大变量[3] 具身智能模型突破 - 智元发布行业内首个面向真实世界双臂机器人的世界模型Genie Envisioner 整合预测-控制-评估环节 使机器人能预演动作后操作[9][11] - 生数科技与清华大学联合发布全球首个基于视频模型的具身基座模型Vidar 实现视频理解能力向物理决策能力迁移[12] - 商汤科技发布"悟能"具身智能平台 核心是世界模型 使机器人能理解三维空间与时序 生成动作方案完成任务[13] - 腾讯发布并开源混元3D世界模型1.0 可根据文本或图片在几分钟内生成360度3D场景 支持导出标准化3D Mesh资产[15][16] 大模型公司动态 - 大模型公司在WAIC2025相对低调 因上半年刚完成追赶DeepSeek的模型发布 MiniMax发布类DeepSeek R1的推理模型M1 月之暗面发布类DeepSeek V3的模型K2[5] - MiniMax称M1在Artificial Analysis开源模型榜单排名第二 月之暗面称K2在LMArena榜单综合表现超过DeepSeek R1成为第一[8] - 大模型公司竞争焦点转向争夺专业开发者注意力而非C端用户[8] AI应用产品进展 - 阿里巴巴公布首款自研AI眼镜研发进展 产品融合通义千问大模型和夸克AI能力 支持高德导航、淘宝比价等功能 预计年内发布[14] - 阶跃星辰发布新一代多模态推理模型Step 3 针对国产芯片优化 计划7月31日面向全球开源 公司今年收入目标10亿元人民币[17] - 千里科技联手阶跃星辰、吉利汽车发布智能座舱Agent OS预览版 具备自然语言交互和长短期记忆能力[18] - 快手可灵上线"灵动画布"功能 支持多人实时协作创作 用户数量已达4500万[19] 行业专家观点 - 星动纪元CEO陈建宇认为人形机器人大规模商业化在今明两年 规模化生产标准线为万台级别[21] - 宇树科技推出3.99万元人形机器人面向拳击文娱场景 星动纪元专注于工业方向全尺寸机器人[21] - 智元机器人姚卯青指出机器人需要高精度执行器、多维度传感器融合和高自由度本体构型[21][22] - 前腾讯技术负责人刘威认为世界模型需具备模拟预测探索能力 与多模态模型在交互方式和输出序列长度存在差异[23] - 亚马逊陈曦强调真实环境自主运行采集的数据最具价值[24] - UC Berkeley教授Sergey Levine提出将强化学习融入VLA模型可提升鲁棒性与性能[25] AI投资与商业化 - 2025年上半年中国AI投资热度大幅提升 融资额同比增加45.3% 投资事件数同比增加59.9% 财务投资人占比58.6%[34] - 光源资本郑烜乐指出创业公司机会在于成为"船"而非"礁石" 通过专业数据循环和场景理解建立壁垒[34] - 九合创投王啸认为AI应用需要闭环数据形成独立机会 编程数据过于公开难以建立壁垒[35] - 云启资本陈昱指出视频领域和SaaS重做是确定机会 通用型AI应用面临基模公司下场竞争和token成本挑战[36] - 蓝驰创投曹巍表示国内大B生意需要复合能力 工具类小B生意更市场化 AI应用国内市场生存艰难[40] - 无问芯穹汪玉指出AI 2.0时代token成为核心生产要素 端侧算力需求与现有能力存在10倍差距[42]
上海AI大会全景观察:大模型、具身智能与国产算力的角力场
格隆汇· 2025-07-29 18:27
大模型创新与应用拓展 - 腾讯全球首发开源"混元3D世界模型" 通过文字或图片输入可在几分钟内生成3D虚拟世界 大幅降低专业建模门槛并推动游戏开发、VR及数字内容创作领域发展[4] - 网易推出矿山级具身智能模型"灵掘" 采用端到端一体化模型设计 基于真实矿山作业数据训练 实现全面国产化框架与硬件芯片自主可控 显著提升露天矿山挖掘机装车场景的泛化性能[4] - 京东升级"JoyAI"大模型矩阵 覆盖3B至750B全尺寸模型 支持语言、语音、图像、视频及数字人多模态 已应用于零售、物流、医疗和工业等超百万商家及数百细分场景[5] - 大模型创新向多模态与特定场景应用拓展 开源趋势加速技术普及 腾讯开源混元模型促进全球开发者协同优化[5] 具身智能与机器人技术突破 - 超150台人形机器人同台亮相 上海智元机器人"天工Ultra"具备走跑跳、骑自行车及负重深蹲等运动技能 搭载多模态交互大模型实现毫秒级情感识别与拟人化回应 曾获全球人形机器人半程马拉松冠军[6] - 北京银河通用机器人零售抓取VLA模型 通过视觉识别探头实时规划路线 可精准抓取随机摆放物品包括卤蛋等柔软物体 技术处于全球领先水平[6] - 杭州云深处科技推出国内首款电力巡检轮足机器人 擎朗智能发布双足人形服务机器人XMAN 深圳赛博格机器人推出负载20千克且故障率低于0.1%的重载机器人Cyborg-R01 自主化率超90%[7] - 智能眼镜成为AI应用新风口 Rokid Glasses集成物体识别、实时翻译及导航功能 李未可科技智能眼镜支持近180种语言翻译及商务会谈纪要生成[7] - 机器人运动能力、交互与环境适应性全面提升 应用场景从工业物流向医疗零售及家庭服务拓展[8] 国产算力全链路自主化 - 沐曦首次公开展示自研训推一体GPU曦云C600 采用XCORE 1.5架构及HBM3e显存 支持人工智能训练与推理计算 其PCIe/OAM服务器解决方案实现编译器至卡间互联协议全链路国产化[9] - 中昊芯英"刹那"系列TPU采用自研指令集与Chiplet 2.5D封装技术 相同AI任务能耗降低30% 最高支持1024片芯片互联 单集群算力达400P(TF32)以上 适配千亿参数大模型与无人驾驶训练场景[10] - 华为"384超节点"实现业界最大规模384卡高速互联 已适配超80个大模型包括讯飞星火、DeepSeek及LLaMA等 并在互联网、金融、政务及医疗等行业落地解决方案[10] - 摩尔线程展示12项行业Demo 视频超分技术提供端侧2-4倍实时超分能力 以SDK形式支持播放器与浏览器集成[11] - 国产算力通过自主研发芯片与架构提升性能 注重行业应用结合 呈现高低搭配与全域覆盖发展态势[11] 行业发展趋势 - 人工智能技术向多模态、场景化及开源化方向演进 大模型与垂直行业深度融合挖掘数据价值[5][12] - 机器人技术从实验室走向实用化 产业即将迎来爆发期[8][12] - 国产算力聚焦自主可控与务实转型 推动人工智能产业健康发展[11][12]
AI应用货币化先锋:GPT5前瞻之多模态
民生证券· 2025-07-29 14:41
报告行业投资评级 - 推荐 维持评级 [4] 报告的核心观点 - 当前全球多模态AI正朝"多模态通才"转变,智能化水平与能力范围不断扩大,多模态AI应用或成AI大模型商业化变现前锋 [3][59] - 美图、快手等多模态AI产品体现出较强AI货币化能力,建议关注多模态AI相关标的以及受益于多模态AI发展的AI应用、AI算力等相关标的 [3][59] 根据相关目录分别进行总结 1 GPT5发布在即,有望挑战多模态AI新高度 1.1 多模态AI的新基准:"多模态通才" - 2025年5月,十所顶尖高校联合发布General - Level评估框架和General - Bench基准数据集,用五级分类制明确多模态通才模型能力标准 [9] - General - Level建立五个层级评价水平,当前全球多模态模型仍处于L4阶段,考察体系分四个方向:模态理解和同时进行多模态理解和生成、支持更广泛的模态、支持各种任务和范式、多模态智能体与多模态基础模型 [12] - L1 - L5评价分别要求:L1为专家型模型;L2为支持多任务的通才;L3为出现任务级协同的通才;L4为范式级协同的通才;L5为模态级全协同的通才,目前多数多模态通用智能体受架构限制,要达L5需实现所有模态间协同 [15][16] 1.2 科技巨头纷纷押注多模态AI - 腾讯混元3D世界模型是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,核心是语意层次化3D场景表征及生成算法,还披露一系列开源计划 [18] - 通义万相文生视频和图生视频模型是业界首个用MoE架构的视频生成模型,总参数量27B,激活参数14B,首创电影美学控制系统,2.2版本在多方面有显著提升,节省约50%计算资源消耗 [21] - 截至2025年3月31日,Figma全球有45万付费客户,总留存率96%,净美元留存率132%,年度付费超1万美元的付费客户达11107家,2025年有望推出Figma Make、Figma Draw、Figma Sites和Figma Buzz四款全新AI产品 [24][25][28] - 字节在Seed1.6模型系列探索Adaptive CoT技术,取得模型效果和推理性能平衡,Seed1.6 - Thinking在复杂文本场景推理能力和视觉推理能力提升 [26] 2 重点公司多模态AI业务梳理 2.1 美图:RoboNeo定义AIGC Agent新范式 - 美图推出RoboNeo,是集多种功能于一体的智能AI Agent,具备美学审美与落地执行力,可免费使用,覆盖品牌设计到电商物料输出全流程,支持一站式网页搭建 [29][31] 2.2 快手:可灵AI货币化进程亮眼 - 快手可灵2.0模型在多维度保持全球领先,发布全新交互理念Multi - modal Visual Language(MVL) [34] - 可灵在2025Q1实现1亿美元ARR,伴随AI功能上新和全球创作者计划,有望迎来付费用户增长和ARUP提升,加快AI货币化进度 [35] 2.3 万兴科技:天幕2.0+超媒Agent切入蓝海市场 - 万兴天幕2.0大模型在华为云加持下由千人团队打造,实现音视频垂类原子能力跃升,秉持"创意平权"理念,助力创作者生成音视频内容 [37] - 万兴超媒Agent依托天幕2.0打造,解决传统创作模式问题,具备全链路视频编辑能力、行业Know - How知识库沉淀、大模型与工具链深度耦合三大特点 [40] 2.4 合合信息:扫描全能王的能力范围加速扩展 - 合合信息"AI鉴伪"技术实现从静态图像到多模态信息鉴伪跨越,人脸鉴伪模型、AIGC图像鉴别技术、TextIn通用篡改检测平台有相应优势 [42] - 合合信息推出业内首个AI Agent跨平台云资源智能管理终端Chaterm,核心代码全面开源 [44] 2.5 福昕软件:智能文档解决方案加速落地 - 福昕提出"大模型+领域知识+工程方法"融合路径,构建"人工智能+政法"应用范式,智能文档技术让检察官聚焦核心价值环节 [48] - 福昕智能文档解决方案构建全链条能力,为检察机关提供数据治理能力,研发三大核心产品,与北京市人民检察院合作打造解决方案 [51] 2.6 其他多模态AI应用 - 北森AI面试官依靠人才评估与面试方法论沉淀和AI技术融合,有"专业评估逻辑 + 大模型能力"双重优势,岗位胜任力模型和AI技术与场景结合方面有特点 [53] - 粉笔AI面试点评是融合AI技术的智能化面试学习工具,提供沉浸式模拟训练、精准智能点评及个性化答题优化 [55] 3 投资建议 - 建议关注多模态AI相关标的:美图、快手、万兴科技、合合信息、福昕软件等;同时关注受益于多模态AI发展的AI应用、AI算力等相关标的 [3][59]