Workflow
视频生成模型
icon
搜索文档
展望一季度内地经济两大看点:环球市场动态2026年2月10日
中信证券· 2026-02-10 11:32
宏观经济展望 - 一季度宏观经济两大看点:“史上最长春节假期”的消费验证与“地方两会”的政策定调[6] - 消费复苏呈现“场景下沉”与“服务替代”特征,大宗商品受制于居民资产负债表修复节奏[6] - 政策重心从传统基建转向低空经济、算力等细分赛道,财政在化债与增长间维持紧平衡[6] - 内存价格在2026年第一季度环比上涨80%-90%[6] 全球股市动态 - 美股周一收涨:道指涨0.04%至50,135.9点,标普500涨0.47%至6,964.8点,纳指涨0.90%至23,238.7点[8][11] - 欧洲主要股指集体收涨:德国DAX指数涨1.19%至25,014.87点,泛欧STOXX 600指数涨约0.7%[8][11] - 亚太股市普遍上涨:韩国KOSPI指数涨4.1%至5,298.0点,日经225指数涨3.9%至56,363.9点[22][23] - 港股三大指数反弹:恒生指数涨1.76%至27,027.16点,大市成交额约2,551亿港元[13] - A股三大指数高开高走:沪指涨1.41%至4,123.09点,深成指涨2.17%至14,208.44点,创业板指涨2.98%至3,332.77点[17] 外汇与商品市场 - 中东局势引发忧虑,推动油价连升:纽约期油涨1.27%至64.36美元/桶[27][28] - 美元汇价下跌推动金价显著上升:纽约期金涨2.0%至5,050.9美元/盎司[27][28] - 美元指数下跌0.8%至96.82[27] 固定收益市场 - 美国国债收益率变动:2年期收益率跌1.2个基点至3.49%,10年期收益率跌0.4个基点至4.20%[30][31] - 亚洲信用市场情绪偏强,整体债券利差收窄1-2个基点[5][31] 板块与个股要闻 - AI行业收入增长强劲:4Q25可比口径AI年度经常性收入环比增长40%[24] - 高通预计2026财年二季度手机业务营收同比下滑约13%[9] - 白酒板块临近春节动销升温,终端补库意愿强烈[20]
全新视角看世界模型:从视频生成迈向通用世界模拟器
机器之心· 2026-02-07 12:09
文章核心观点 - 视频生成与世界模型是人工智能领域的热点,其目标是从生成逼真短片发展为可用于推理、规划与控制的通用世界模拟器,并与具身智能、自动驾驶等前沿场景深度交织,被视为通往通用人工智能的重要路径[2] - 当前研究存在定义模糊、分类重叠等问题,限制了技术标准化发展,为此快手可灵团队与香港科技大学(广州)团队联合发表了一篇系统综述,旨在弥合当代“无状态”视频架构与经典“以状态为中心”世界模型理论之间的鸿沟[2][3] - 该综述首次提出了以“状态构建”与“动态建模”为双支柱的全新分类体系,并倡导将评估标准从单纯的“视觉保真度”转向“功能性基准”,为视频生成演进为鲁棒的通用世界模拟器提供了清晰的路线图[3] 核心理论贡献 - 提出了全链路视角,涵盖从底层理论定义、中层架构设计到上层功能性评估的全生命周期分析,确保对视频世界模型全方位的理解[8] - 首次将当代“无状态”的视频扩散架构与经典的基于模型强化学习、控制理论进行深度映射,为世界模型找到了坚实的理论根基[8] - 明确了“持久性”与“因果性”是迈向通用世界模拟器的两大核心关隘,为业界从被动的“像素预测”转向具备闭环交互与因果干预能力的模拟器提供了清晰的路径参考[8] - 深度梳理了2024至2025年间涌现的视频生成最新工作,反映了当前技术从视觉保真度向物理一致性转化的前沿趋势[8] 世界模型的三大基石与核心操作 - 观察:环境的原始感官数据,在视频模型中表现为高维的像素级输入,提供世界的局部、间接视图[8] - 状态:模型通过提炼历史观察,过滤噪声,形成的足以解释当前世界的“内部表示”[8] - 动态变化:预判未来的“引擎”,它刻画了状态随时间演变的规律,让模型具备在脑海中“预演”物理法则的能力[9] - 状态估计:把高维、连续的观测序列压缩成一个紧凑的状态表示,用来刻画环境在当前时刻的关键状态[13] - 状态转移:刻画环境在动作作用下的因果演化,是世界模型的“内部模拟引擎”,用于预测未来状态或观测[13] 世界模型的学习方式 - 闭环学习:世界模型与策略模型联合训练,世界模型的参数更新直接受策略目标影响,可进一步分为顺序组合架构与统一架构[14] - 开环学习:将世界模型视为通过大规模被动数据预训练得到的独立模拟器;策略模型可在自身优化中调用世界模型进行“想象/规划”,但世界模型不接收来自策略奖励信号或损失函数的梯度更新[14] 支柱一:状态构建 - 现代视频生成模型在状态层面存在关键差距:多数模型缺乏显式压缩状态,而以观测序列充当隐式状态,随时间增长带来计算/记忆负担并削弱长程持久性[12] - 隐式状态范式:不构建固定大小的显式状态变量,而是通过外部记忆机制管理历史观测,动态提炼出“工作记忆”来支撑生成所需的长期一致性与上下文连贯[16] - 显式状态范式:将状态构建内化为模型自身的压缩过程,把历史上下文持续蒸馏进一个全局更新的潜在变量中,使其成为对视频演化过程的固定维度、可递推的数学摘要[17] - 隐式状态的管理机制主要包括压缩、检索和巩固三种核心操作,以处理长上下文信息[18] - 显式状态根据其与生成骨干的融合程度,可分为耦合状态与解耦状态[19] - 隐式状态与显式状态的系统性对比:隐式状态机制依赖外部管理,上下文选择多为启发式学习或基于规则,持久性受限于窗口,计算复杂度随历史长度线性或二次增长;显式状态机制依赖内部递归,上下文选择基于学习的物理/转移规律,支持全局连续性和无限时长,计算复杂度为常数[23] - 总体取舍是:隐式状态目前更稳妥地支持高保真视频生成,而显式状态更像通往高效、可长期推理的自主智能体与世界模拟的前沿方向[22] 支柱二:动态建模 - 现代视频生成模型在动态层面存在关键差距:标准模型常以双向注意力“一次性渲染”固定时长片段,缺少显式时间因果推进[12] - 增强因果推理能力的两条主要路径:一是因果架构重构,从模型结构与训练目标入手,把生成过程从“一次性渲染”改造成“按时间顺序预测”;二是因果知识集成,引入具备更强推理能力的多模态大模型作为“规划者/导演”,先在高层完成规划,再由视频生成模型负责高保真“渲染”[25] 评估标准的演进 - 主张将评估从“视觉美感”推进到“功能基准”,并提出三条核心评价轴:质量、持久性和因果性[26] - 质量:关注基础视觉保真度、短程时序相干性以及文本/条件对齐能力,代表性工具如VBench/VBench++等[44] - 持久性:关注长时程生成的稳定性与一致性,并通过“场景重访”等记忆任务检验模型能力,相关评测包括WCS以及基于rFID的重建一致性测试等[44] - 因果性:重点检验模型是否真正内化物理与逻辑规律,评测包括时间顺序与物理有效性,以及反事实干预下的响应是否合理,并进一步延伸到agent-in-the-loop的任务成功率与规划表现[44] 未来研究方向 - 视频生成迈向世界模拟的关键在于补齐两项核心能力:持久性与因果性[27] - 持久性方面:隐式状态需要从固定窗口等启发式记忆升级为可学习、可动态筛选的信息管理机制;显式状态则要在压缩效率与细节保真之间找到更好的平衡[27] - 因果性方面:一条路线是通过架构与数据设计提升因果推断能力,另一条路线是引入理解模型的推理先验来约束生成,但如何有效对齐生成与理解仍是核心挑战[27]
太火了!MiniMax 上市额度遭疯抢
是说芯语· 2026-01-09 07:51
MiniMax港股IPO认购情况 - 公司即将敲钟上市 创下近年来港股IPO机构认购历史记录[1] - 参与IPO认购的机构超过460家 超额认购达70多倍[1] - 国际配售环节需求峰值高达320亿美元 实际下单金额达190亿美元[3] - 剔除基石投资后超额认购倍数飙升至79倍 创近年港股科技股IPO机构认购新高峰[3] - 公开发售市场孖展金额超2533亿港元 超额认购倍数高达1209倍[3] - 暗盘开盘后股价最高触及211.2港元/股 收盘报205.6港元/股 较发行价区间上限上涨24.6%[3] 投资者结构与基石阵容 - 新加坡、中东、加拿大等多国主权基金纷纷出手 单家认购金额超10亿美元[3] - 长线基金合计下单规模突破60亿美元[3] - 与阿布扎比基金、未来资产等14家知名机构共同组成基石阵容 合计认购占比达69.8%[3] 公司业务与财务表现 - 公司构建了覆盖C端与B端的产品矩阵 核心AI原生产品包括大语言模型、视频生成模型等[4] - 截至2025年9月底 累计用户已突破2.12亿 覆盖全球200多个国家和地区 付费用户超177.1万[4] - 2025年前三季度营收达5343.7万美元 同比增长超170% 其中海外市场贡献占比超70%[4] - 公司毛利率从2023年的-24.7%持续转正 2025年前三季度已提升至23.3%[4] - 截至2025年9月底 公司录得1.8亿美元亏损 但账上现金储备为3.62亿美元 最新数据显示已超11亿美元[4] - 此次IPO募资的90%将投向未来五年的大模型研发及AI原生产品开发[4] 行业背景与市场意义 - 公司上市热潮恰逢港股AI板块集体爆发 近期壁仞科技、智谱AI等相关企业均创下千倍级超额认购纪录[5] - 政策支持与技术成熟度提升共同点燃了资本对AI赛道的热情[5] - 作为聚焦C端全球化市场的代表企业 公司的上市将完善港股AI生态布局[5] - 公司将成为检验资本市场对AI商业化价值判断的重要标杆[5]
速递|刷新港股纪录!MiniMax上市超额认购79倍,主权基金密集下单
搜狐财经· 2026-01-08 23:39
上市与市场反应 - 公司即将于1月9日在港股上市 创下近年来港股IPO机构认购历史记录 机构认购超过460家 超额认购达70多倍[2] - 国际配售订单需求达320亿美元 最终超过460家机构实际下单190亿美元 剔除基石部分后 国配认购超额约79倍[2] - 暗盘交易显示股价表现强劲 开盘后一路上涨 最高达211.2港元每股 最低180港元每股 收盘报205.6港元每股 涨幅24.6%[3] 机构投资者认购情况 - 此次认购打破了此前由宁德时代保持的纪录 宁德时代2025年登陆港股时剔除基石后超额认购30倍[2] - 公司获得众多头部长线基金及国家主权基金青睐 包括新加坡、南非、中东、加拿大等多国主权基金 其中部分主权基金认购金额超过10亿美元[2] - 长线基金的认购订单总额超过60亿美元 此外 外资长线基金及国家主权基金也参与了基石认购 14家基石投资者包括中东阿布扎比基金和韩国未来资产等[2] 收入构成与业务表现 - 公司收入主要来源于两部分:AI原生产品 以及开放平台及其他基于AI的企业服务[3] - 截至2025年6月底 AI原生产品收入达3802万美元 占总收入比重超过70% 平台及企业服务收入为1541万美元 占比28.9%[3] - 截至2025年9月底 AI原生产品累计用户达2.12亿 其中付费用户超过177.1万[3] 财务数据概览 - 公司总收入增长迅速 从2023年的346万美元 增长至2024年的3052.3万美元 2025年前九个月未经审计收入已达5343.7万美元[4] - AI原生产品收入占比持续提升 从2023年的21.9% 大幅增长至2024年的71.4% 2025年前九个月占比为71.1%[4] - 公司仍处于亏损状态 2024年全年亏损净额为4.65238亿美元 2025年前九个月未经审计亏损净额达5.12013亿美元[5] - 经调整亏损净额(非国际财务报告准则计量指标)显示亏损扩大 从2023年的8907.4万美元 增至2024年的2.44243亿美元 2025年前九个月为1.8628亿美元[5]
速递|大模型MiniMax上市额度超460家机构争抢,创近年来港股新记录
Z Potentials· 2026-01-08 23:06
IPO认购与市场热度 - 公司即将于1月9日在港股上市,其机构认购创下历史记录,参与认购的机构超过460家,超额认购达70多倍 [1] - 此次国际配售订单需求达到320亿美元,最终超过460家机构实际下单190亿美元,剔除基石部分后,国配认购超额约79倍 [1] - 此前港股IPO机构认购记录由宁德时代保持(2025年上市),其剔除基石后的超额认购为30倍,公司此次认购热度远超此记录 [1] 投资者结构 - 公司IPO受到全球顶级长线基金及主权基金的青睐,包括新加坡、南非、中东、加拿大等多国主权基金,认购金额超过10亿美元 [1] - 长线基金的认购订单总额超过60亿美元 [1] - 公司的14家基石投资者中,也包括了中东国家主权基金阿布扎比基金、韩国长线基金未来资产等知名机构 [1] 暗盘交易表现 - 上市前暗盘交易显示,公司股票开盘后一路上涨,最高达211.2港元每股,最低为180港元每股,最终收盘价为205.6港元每股,涨幅24.6% [2] 业务收入构成 - 公司收入主要来源于两部分:AI原生产品、开放平台及其他基于AI的企业服务 [2] - 截至2025年6月底,AI原生产品(包括大语言模型、视频生成模型等)收入为3802万美元,占总收入比重超过70% [2] - 同期,开放平台及企业服务收入为1541万美元,占总收入比重为28.9% [2] - 截至2025年9月底的九个月内,总收入为5343.7万美元,其中AI原生产品收入3802万美元(占比71.1%),开放平台及企业服务收入1541.7万美元(占比28.9%) [3][7] 用户与增长数据 - 截至2025年9月底,公司AI原生产品的累计用户达2.12亿,其中付费用户超过177.1万 [2] - 收入增长迅速:2023年总收入为346万美元,2024年增长至3052.3万美元,而截至2025年9月底的九个月内收入已达5343.7万美元 [3][7] 产品线收入细分 - AI原生产品线中,截至2025年9月底的九个月内,“海螺AI”成为最大收入来源,贡献1746.4万美元,占总收入32.6% [7] - “Talkie/星野”产品同期贡献1875万美元,占总收入35.1% [7] - 新推出的“MiniMax”应用在同期贡献75.6万美元,占总收入1.4% [7] 变现模式 - 公司变现方式多元化,包括多款产品的应用内充值、订阅、在线营销服务以及企业级AI服务 [6][7] - 以“Talkie/星野”为例,其收入来源包括应用内充值、订阅和在线营销服务,截至2025年9月底的九个月内,在线营销服务收入为1118.8万美元,占总收入20.9% [7] - 企业级AI服务(开放平台)是另一稳定收入来源,同期贡献1541.7万美元,占总收入28.9% [7] 财务状况 - 截至2025年9月底,公司亏损约为1.8亿美元,但现金及现金等价物超过3.62亿美元 [4] - 从调整后亏损(非国际财务报告准则计量)看,截至2025年9月底的九个月内,经调整亏损净额为1.8628亿美元 [5] - 历史财务数据显示,公司仍处于投入期,亏损额随收入增长而扩大,但现金储备相对充裕 [4][5]
明天上市,MiniMax上市额度已经被抢疯了
机器之心· 2026-01-08 22:24
IPO认购与市场热度 - 即将于1月9日上市的MiniMax创下港股IPO机构认购历史记录,参与认购机构超过460家,超额认购达70多倍[1] - 国际配售订单需求达320亿美元,最终超460家机构下单190亿美元,剔除基石部分后超额认购约79倍[2] - 暗盘交易显示股价表现强劲,开盘后最高达211.2港元,收盘报205.6港元,涨幅24.6%[3] 投资者结构与基石 - 认购受到众多长线基金及国家主权基金青睐,包括新加坡、南非、中东、加拿大等主权基金,其中多家认购金额超10亿美元[2] - 长线基金认购订单总额超过60亿美元[2] - 基石投资者包括14家机构,如中东阿布扎比基金、韩国未来资产基金等[2] 收入构成与业务模式 - 公司收入主要来自两部分:AI原生产品、开放平台及其他基于AI的企业服务[3] - 截至2025年6月底,AI原生产品收入达3802万美元,占总收入超70%;平台及企业服务收入1541万美元,占比28.9%[3] - 收入结构呈现多元化趋势,具体产品线包括MiniMax应用、Glow AI、MiniMax语音及Talkie/星野等[6] 用户规模与付费情况 - 截至2025年9月底,AI原生产品累计用户达2.12亿,其中付费用户超过177.1万[3] - 各产品变现方式包括应用内充值、订阅及在线营销服务等[6] 财务表现与亏损 - 截至2025年9月底,公司亏损约为1.8亿美元,现金持有超过3.62亿美元[4] - 财务数据显示亏损额逐年扩大,但经调整亏损净额(非国际财务报告准则)在2025年九个月为1.8628亿美元[5] - 部分投资者认为其商业模式清晰且营收方式逐步多元化,对公司未来实现收支平衡抱有信心[5] 历史收入数据 - 公司总收入从2023年的346万美元,快速增长至2024年的3052.3万美元,并在2025年前九个月达到5343.7万美元[4][6] - AI原生产品收入占比从2023年的21.9%大幅提升至2025年前九个月的71.1%[4][6] - 开放平台及企业服务收入占比从2023年的78.1%下降至2025年前九个月的28.9%[4][6]
AI上市潮打响!MiniMax不拼C端爆款,靠B端业务杀出差异化
搜狐财经· 2026-01-03 21:47
公司业务模式与财务表现 - 公司采用“B+C”双轮驱动的业务模式,其中B端业务是重要的营收和利润来源[5] - 2024年前三季度,B端业务贡献了1542万美元营收,占总营收近30%,同比增速高达161%[5] - B端业务毛利率达到69.4%,较去年提升了7个百分点,显示出强大的盈利能力[7] B端业务战略与运营 - 公司坚持“轻资产”运营,创始人闫俊杰(前商汤员工)坚决不做定制化私有部署,只提供标准化API服务[7] - 通过标准化服务有效控制了成本,开放平台服务全球100多个国家的企业客户,维护成本极低[9] - 公司模型能力全面,覆盖文本、语音、视频、音乐全模态,客户可直接调用而无需自研[9] B端业务的三层扩张路径 - **基础层(API生态)**:模型已集成至国际巨头(如谷歌、微软、亚马逊)及国内大厂(如字节、阿里、腾讯、小米)的平台,形成规模化效应[11] - **提效层(降本增效)**:为各行业提供降本解决方案,例如在影视行业,将特效场景制作成本从数十万降至数千元;在营销行业,帮助Monks公司将方案制作成本降低一半,人力需求从10人/周减少至3人/两天[13][15] - **融合层(产品嵌入)**:将模型深度嵌入企业产品,例如为字节、阿里的编程产品提供AICoding模型支持,该模型能理解需求、规划步骤并自我纠错[16];多模态能力应用于快看漫画(AI漫画)、Veed(数字人)、小米(机器人音色互动)及机器狗Vbot(空间智能Agent)等领域[17][19] 行业定位与竞争优势 - 公司团队约400人,业务覆盖范围相当于美国Anthropic、Runway、ElevenLabs和Suno四家独角兽公司的总和,体现了“花小钱办大事”的效率优势[21] - 在AI 2.0时代,公司模式避开了C端流量竞争,通过标准化服务和三层扩张将技术转化为可持续的营收,为中国AI企业的商业化提供了参考路径[21] - 公司与阿里云达成战略合作,未来三年的算力消耗和API服务收入目标指向进一步规模化扩张[23] 行业发展与商业化前景 - AI行业的竞争焦点正从纯技术比拼转向商业化落地能力,能够“打粮食”(产生收入)的业务成为核心竞争力[25] - 随着更多AI公司冲刺上市,B端业务预计将成为新的关键竞争领域[25] - 公司B端业务的成功证明了中国大模型公司不仅能够跟进技术,更能将技术转化为可持续的商业模式[23][25]
直面OpenAI竞争!MiniMax通过港交所聆讯,海外收入占比超七成
华夏时报· 2025-12-23 08:39
核心观点 - MiniMax作为国内“AI六小虎”之一,已向港交所递交聆讯后资料集,其2025年前三季度实现营收5343.7万美元(约合人民币3.76亿元),展现出强劲增长,但亏损亦在同步扩大 [1] - 公司的核心差异化在于全球化布局,2025年前三季度海外市场收入占比高达73.1%,业务覆盖全球200多个国家和地区,这使其直接与OpenAI等国际巨头竞争 [1][5] - 尽管营收快速增长且毛利率持续改善,但公司仍处于巨额亏损状态,其长期价值取决于技术领先性与产品解决实际问题的能力,上市是获取资金与品牌优势的起点 [4][6][7] 财务表现与商业化进展 - **营收高速增长**:2023年、2024年、2025年前三季度收入分别为346万美元、3052.3万美元、5343.7万美元,2025年前三季度收入已超5300万美元 [1][2] - **毛利率持续改善**:毛利率从2023年的-24.7%提升至2024年的12.2%,并进一步增至2025年前三季度的23.3% [2] - **销售成本占比下降**:销售成本占总收入的比例从2023年的124.7%降至2024年的87.8%,再降至2025年前三季度的76.7%,主要因推理成本效益提升 [3] - **亏损持续扩大**:2023年、2024年、2025年前三季度分别录得亏损2.69亿美元、4.65亿美元、5.12亿美元,经调整亏损分别为8910万美元、2.442亿美元、1.863亿美元,亏损主因大模型研发、AI基础设施的初始投资及金融负债公允价值亏损 [4] 用户与市场数据 - **用户规模庞大**:截至2025年9月30日,AI原生产品累计用户数超2.12亿,付费用户数约177.16万名 [2] - **开发者生态**:开放平台付费用户(单用户API消费不低于50美元)达约2500家,个人及企业开发者用户达13.2万 [2] - **全球市场排名**:按2024年全球基于模型的收入计,MiniMax为全球第十大大模型技术公司,市占率0.3%,排名第一的OpenAI市占率为30.1% [6] - **市场前景**:全球大模型市场预计2025年达220亿美元,MiniMax有望占据约0.3%的市场份额 [6] 全球化战略与竞争格局 - **收入地域结构剧变**:中国大陆收入占比从2023年的80.8%迅速降至2025年前三季度的26.9%,同期海外收入占比达73.1% [5] - **主要海外市场**:2025年前三季度收入来源地区占比为中国大陆26.9%、新加坡24.3%、美国20.4%、其他地区28.4% [5] - **直面国际竞争**:公司主动出海,约七八成收入来自海外,需在开放市场与OpenAI、Google等巨头直接竞争 [5] - **成本效率优势**:公司成立以来融资净额约15亿美元,截至2025年9月30日现金结余超10亿美元,仅花费约5亿美元,而OpenAI在大模型领域已投入约400亿至550亿美元,MiniMax成本约为其1% [6] 业务构成与投资背景 - **收入来源**:收入来源于全模态大模型矩阵(包括大语言、视频生成、语音生成模型)、AI原生产品(如MiniMax、海螺AI、Talkie/星野)以及面向企业和开发者的开放平台 [2] - **豪华投资方**:投资方包括阿里、腾讯、米哈游、高瓴、IDG、红杉中国、经纬等知名公司和机构 [2] 行业对比与市场观点 - **毛利率对比**:MiniMax的毛利率(2025年前三季度23.3%)显著低于同期智谱(2025年上半年50%),行业观点认为差异可能源于财务处理方式不同,而非业务效率的本质差别 [3] - **上市动机**:公司与智谱急于登陆港股,部分原因在于当前市场缺乏纯粹的AI大模型上市公司标的,率先上市可在AI概念受追捧的窗口期获得高估值溢价与融资优势,抢占品牌声量与资金储备先机 [7] - **长期挑战**:在巨头环伺、创新加速的行业背景下,公司长期前景面临严峻挑战,除非实现技术上的突破性创新,否则上市后二级市场表现可能呈现“先高后低”态势 [6][7]
字节大会来袭,利好AI应用!字节产业链含量33%的科创人工智能ETF(589520)逆市活跃,近3日吸金1346万元
新浪财经· 2025-12-18 10:55
科创人工智能ETF近期表现与资金动向 - 12月18日,科创人工智能ETF(589520)场内价格逆市上涨0.53% [1][9] - 该ETF此前连续3日获资金净流入,合计金额达1346万元 [1][9] - 其标的指数中,字节跳动产业链权重占比达33.66%,AI应用概念股权重占比达30.94% [3][12] 成分股市场表现 - 中科星图领涨,涨幅超过11% [1][9] - 星环科技上涨超过7% [1][9] - 思看科技、天准科技涨幅均超过5% [1][9] - 凌云光、奥比中光、优刻得、云天励飞等个股跟涨 [1][9] 行业催化事件与投资逻辑演变 - 字节火山引擎FORCE原动力大会于12月18-19日举行,预计发布豆包大模型新成员,实现性能提升与成本降低,并升级视频生成模型 [3][11] - 大会将重点关注Agent开发工具升级与生态扩容,推动AI在企业生产场景落地 [3][11] - AI投资逻辑正从硬件和基础设施转向实际应用和商业化,应用层被认为比算力层具有更大的想象空间和商业模式重塑潜力 [3][11] 行业发展的战略窗口期 - 政策驱动:新五年规划将“科技自立自强水平大幅提高”列为核心目标,为AI和国产替代提供长期支持 [5][14] - 业绩验证:2025年三季报显示,该ETF30只成分股中,20家实现盈利,22家归母净利润同比正增长 [5][14] - 外部压力:大国博弈背景下,科技安全主线明确,AI自主可控具有长期确定性 [6][14] - 补涨需求:中银证券指出,AI应用作为产业链下游涨幅有限,具备较高配置性价比,有望迎来补涨行情 [6][14] 产品定位与投资特点 - 科创人工智能ETF(589520)及其联接基金重点布局国产AI产业链,具备较强国产替代特点 [7][15] - 该产品前十大重仓股权重占比超过70%,第一大重仓行业半导体占比超过50%,集中度高,具备较强进攻性 [7][15]
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-22 08:03
核心观点 - 研究团队提出PhysicalAgent框架,旨在解决机器人操控领域的两大瓶颈:主流视觉-语言-动作模型依赖任务与平台特定微调导致跨平台鲁棒性差,以及基于世界模型的方法通用性受限 [2] - 该框架的核心思路是使用基础模型承担感知与推理的重任,仅保留轻量级机器人适配层负责执行,以实现跨形态、跨任务的通用操控,并通过迭代修正提升执行鲁棒性 [2] 架构设计:泛化性的核心逻辑 - 框架设计原则是感知与推理模块不绑定特定机器人形态,仅需为不同机器人训练轻量级骨骼检测模型,此设计计算开销小且数据需求低 [3] - 视频生成模型具有天然优势,因其预训练了海量多模态数据,隐含对物理过程的理解,且支持API调用无需本地训练即可快速集成 [5] - 视频生成模型能通过文本指令生成执行过程的视觉想象,与人类思考动作的方式一致,无需了解机器人内部结构 [5] - 同一感知-推理流程能为三种不同形态的机器人生成不同操控任务的视频,无需针对特定机器人重新训练,证明了架构的跨形态适配能力 [5] 视觉语言模型的作用 - 视觉语言模型作为框架的认知核心,通过多次调用实现指令-环境-执行的接地,而非单次规划 [6] - 其具体作用分为四步:接收指令与场景图像后分解高level任务为原子子任务;为每个子任务生成带约束的文本提示;每次执行后对比图像判断子任务完成情况并输出决策;框架不绑定特定视觉语言模型,具有模型无关性 [10] 扩散基世界模型:动作生成的新范式 - 核心创新是将动作生成为条件视频合成,而非直接学习控制策略 [6] - 使用现成的图像-视频基础模型,输入机器人当前相机帧与文本指令,生成物理合理的短动作视频 [10] - 对比现有方法,该框架直接使用通用图像-视频模型,无需为特定机器人-场景对训练模型,大幅降低泛化门槛 [10] - 具有三大优势:降低新机器人部署成本;可快速迭代替换更优模型;生成视频可被人类检查以提升安全性 [10] 机器人适配层:从视频到电机指令的落地 - 生成的动作视频需转化为机器人能执行的电机指令,此部分是框架中唯一需机器人特定适配的部分 [6] - 流程包括用微调后的模型从合成视频每帧中提取机器人关节关键点,形成40维特征向量/帧;再用多输出回归器将特征映射为低level电机指令 [11] - 每个新机器人仅需约1000个样本,30分钟即可收集完成训练数据 [11] 实验验证:效果与泛化性 - 实验分为两类,分别验证跨形态/感知模态的泛化性与迭代执行的鲁棒性 [8] - 在形态与感知模态研究中,框架的成功率显著优于基线,验证了扩散视频生成思路的有效性;平台对性能无显著影响,说明框架跨形态泛化能力稳定 [14] - 在物理机器人的迭代执行实验中,双臂UR3和Unitree G1人形机器人的最终成功率均达到80%,首次尝试成功率分别为30%和20%,成功所需平均迭代次数分别为2.25次和2.75次 [13][16] - 迭代修正能有效弥补首次执行的不足,前3次迭代后未完成任务比例骤降,是提升鲁棒性的核心 [16]