具身世界模型
搜索文档
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
机器之心· 2026-02-21 10:57
行业技术背景与核心挑战 - 赋予机器人“预演未来”的能力是具身智能发展的核心方向,即构建“具身世界模型”,让机器人在行动前能先在“脑海”中模拟动作后果 [3] - 当前技术面临三大核心挑战:1) 动作与画面“语言不通”,机器人使用关节角度等坐标数值,而视频生成模型处理像素,两者缺乏空间对齐的“硬连接” [6];2) 视角鲁棒性差,相机视角一旦变化,预测质量会骤降 [6];3) 通用性不足,不同机器人结构(如单臂、双臂)往往需要定制化模型,难以构建统一的世界模型 [7] 核心技术创新:BridgeV2W与具身掩码 - 中科第五纪与中科院自动化所团队提出的BridgeV2W,其核心创新是“具身掩码”,这是一种将机器人动作序列实时渲染为图像上二值“动作剪影”的方法,从而将坐标空间的动作无缝映射到像素空间 [8][9] - 该设计一举破解三大难题:1) 动作-像素对齐:掩码是像素级信号,与视频模型输入完全匹配 [15];2) 视角自适应:掩码随相机视角动态生成,动作与画面始终对齐,天然泛化到新视角 [15];3) 跨具身通用:只需提供不同机器人的URDF模型,即可用同一框架生成掩码,无需修改模型结构 [15] - 技术实现上,BridgeV2W采用类似ControlNet的旁路注入方式,将掩码作为条件信号融入预训练视频生成模型,并引入光流驱动的运动损失,引导模型聚焦于任务相关的动态区域 [10] 实验验证与性能表现 - **在DROID数据集(大规模单臂操作)上的表现**:BridgeV2W在PSNR、SSIM、LPIPS、FVD等核心指标上超越现有方法(SOTA)[13]。在“未见视角”测试中,BridgeV2W的PSNR为20.87,SSIM为0.833,LPIPS为0.127,FVD为191.3,均优于对比方法,展现了出色的视角鲁棒性 [14]。在“未见场景”测试中,其PSNR为19.73,SSIM为0.717,FVD为362.1,同样领先 [14] - **在AgiBot-G1数据集(双臂人形机器人)上的表现**:关键结果是,无需修改模型架构,仅替换URDF并重新渲染掩码,BridgeV2W就能无缝适配该完全不同的平台,并取得媲美单臂机器人的预测质量,这是迈向通用具身世界模型的重要一步 [17] - **下游任务应用价值**:BridgeV2W不仅生成视频,还能用于策略评估(在模型中“试跑”策略以降低真实试错成本)和目标图像操作规划(从视觉目标搜索出可行动作序列),验证了其实用性 [20] 数据利用与可扩展性优势 - BridgeV2W能够利用海量无标注的人类视频数据(如Ego4D FHO数据集)进行训练,仅需使用SAM等模型提取的手部掩码,而无需精确的URDF或相机标定信息 [22] - 实验数据显示,混合使用机器人数据与人类视频数据能取得优异效果:例如,“70% G1 seg + 30% G1 calc + Ego4D”混合数据训练的模型,PSNR达到24.58,SSIM为0.863,FVD低至118.5 [22] - 这揭示了一条关键的技术路线:训练时依靠“野生”视频扩大数据规模,部署时依靠轻量几何信息保证控制精度,实现了可扩展性与准确性的兼得 [24] 行业影响与发展前景 - BridgeV2W揭示的技术路线“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”具有三大关键优势:1) 启动数据飞轮,互联网视频规模远超机器人数据,使利用人类视频成为可能 [25];2) 自动继承技术红利,其架构能自然受益于Sora等底层视频生成模型的升级 [25];3) 成为通用具身智能的坚实基石,其展现的跨平台、跨场景、跨视角泛化能力是重要里程碑 [25] - 该工作为世界模型的规模化训练开辟了新路径,训练时无需URDF或相机标定,可直接利用海量无标注人类视频 [27] - 展望未来,随着视频生成模型参数规模从十亿迈向千亿,训练数据从数千小时机器人视频扩展到百万小时人类视频,以及具身掩码应用延伸至全身人形乃至多机协作,机器人的“预演能力”有望实现巨大飞跃 [28]
为什么春晚的机器人不“僵”了?具身智能正在经历一场大脑进化
机器人大讲堂· 2026-02-19 08:00
行业演进:从舞台表演到物理理解 - 人形机器人在春晚舞台的表现逐年进步,从2019年6台优必选Walker集体起舞,到2025年16台宇树H1表演赛博秧歌,印证了本体控制与群体协同的初步成熟[1] - 2026年春晚的机器人表演展现出超越视觉奇观的进步,机器人在复杂阵型变换与光影追踪下表现出生物般的灵动,这源于更先进的控制算法、毫秒级轨迹追踪及软硬件深度耦合[2][5] - 行业共识认为,预设的舞台场景已不足以应对真实世界挑战,机器人要进入非标工厂、杂乱家庭或多变养老院等场景,必须发展出能理解、预判并规划物理世界的“大脑”[5][6] 主流技术范式:VLA的成就与局限 - 视觉-语言-动作模型是当前具身智能最主流的“大脑”底座,2026年该赛道竞争激烈[7] - 蚂蚁灵波推出使用20000小时真实数据训练的最强开源VLA基座,拥有精确空间感知能力,可适配9种不同构型双臂机器人,实现“一个大脑,适配多个身体”[8] - 地平线的HoloBrain-0基座模型通过“具身先验”强化3D空间感,能处理折叠柔软衣物、抓取新物体等任务,并具备强大跨平台泛化能力[10] - 小米开源的Xiaomi-Robotics-0模型采用双脑协同架构,以47亿参数在消费级显卡上运行,在叠毛巾、拆乐高等单任务上可保持30分钟连续作业的高稳定性,几乎达到实用级[11] - VLA在结构化环境及单任务场景下已迈入实用门槛,但其“端到端”模式存在根本局限:缺乏对重力、重心等物理常识的理解,难以处理长序列任务中的意外,使其在真实复杂环境中受限[13] 技术跃迁:向具身世界模型演进 - 行业意识到下一场进化需从“看图说话”式的动作对齐转向“脑内预演”式的物理模拟,即从VLA向具身世界模型范式跃迁[14] - 全球范围内展开竞速:DeepMind的Genie模型通过海量视频训练证明AI可脑补出可交互的物理世界;NVIDIA的GR00T项目利用生成式AI在仿真环境中为机器人提供预演能力;Figure 02在其架构中强化“动作后果预测”,向世界模型靠拢[15] - 蚂蚁灵波在此次跃迁中采取硬核务实打法,通过开源给出从“视觉模拟”到“动作控制”的闭环方案[16] - 其核心系统之一LingBot-World构建了一个高保真、可交互且符合物理规律的仿真环境,机器人可在其中进行零成本模拟学习,再将经验迁移到现实[16] - 同步开源的LingBot-VA是全球首个自回归视频-动作一体化世界模型,可根据当前观测同步生成下一帧画面及对应动作,实现“边推演,边行动”,并能通过画面不对齐瞬间感知偏差并自动修正[18][21] - 这种“预测-对齐-修正”的闭环赋予机器人应对非标环境的物理直觉,是解决药房、家庭、工厂等复杂场景挑战的关键[21][22] 产业价值:推动规模化交付 - 从“动作映射”到“物理预演”的跨越为产业规模化交付扫清障碍[23] - 数据效率发生质变:在懂因果、懂常识的世界模型逻辑下,仅需30至50条演示数据就能类比学会新任务,极大缩减落地成本,而以往训练新技能需上万条真机数据[23] - 任务成功率确定性提升:在RoboTwin 2.0仿真基准数据中,具备“预判能力”的大脑在多任务成功率上稳定在91%以上,使机器人能在环境杂乱、传感器有噪声的非标工厂稳健完成长流程操作[23] - 大脑通用性增强:全栈开源方案提供了一套通用大脑适配多元硬件的底座,无论是宇树H1、G1还是各类工业机械臂,都可共用底层认知逻辑,使下游厂商无需为每款机器人重复开发,可专注于垂直场景工艺打磨[24][25] 发展路径与未来展望 - 具身智能发展是分步过程:2023年接入大模型让机器人“听懂人话”;2024年硬件成熟让机器人学会基本拿放;当前阶段是逻辑觉醒,机器人开始理解物理规律并在行动前进行脑内预演[26] - VA架构虽展现降维打击潜力,但并非唯一路径,业内对最优方案存在博弈,包括坚信大数据VLA可暴力模拟物理规律,以及主张用严谨数学公式确保极端场景零差错等不同路线[27] - 多路线交叉竞争让2026年具身智能赛道更具实战价值,当机器人拥有物理逻辑并能精准预判和稳健操作时,技术才算真正从表演舞台落到现实产业中[28] 产业链相关企业 - 文章末尾列举了工业机器人、服务与特种机器人、人形机器人、具身智能、医疗机器人及上游产业链等领域的大量相关企业名单[29][30][31][32]
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
AI科技大本营· 2026-02-11 14:50
文章核心观点 - BridgeV2W通过引入“具身掩码”这一创新设计,成功将机器人坐标空间的动作映射到视频生成模型的像素空间,解决了构建具身世界模型的核心挑战[2][8] - 该方法实现了动作与画面的像素级对齐、对任意新视角的鲁棒性以及跨不同机器人平台的通用性,为构建可扩展的通用机器人世界模型开辟了新路径[13][22] - BridgeV2W能够利用海量无标注的人类视频数据进行训练,同时继承视频生成领域的技术红利,展现出构建规模化机器人“数据飞轮”和迈向通用具身智能的巨大潜力[20][22] 当前具身世界模型面临的挑战 - **动作与画面“语言不通”**:机器人使用关节角、末端位姿等坐标数值,而视频生成模型处理像素,直接拼接动作向量效果有限,缺乏空间对齐的“硬连接”[5] - **视角鲁棒性差**:同一动作在不同相机视角下外观迥异,现有方法在训练视角外预测质量骤降,难以适应真实场景中多变的相机位置[5] - **跨平台通用性不足**:机器人结构(单臂、双臂、移动底盘)千差万别,现有方法需为每种机器人定制架构,难以构建统一的世界模型[6] BridgeV2W的核心技术创新 - **提出“具身掩码”**:利用机器人的URDF模型和相机参数,将动作序列实时渲染为每帧图像上的二值“动作剪影”,精准标出机器人在画面中的位置与姿态[8] - **采用ControlNet式旁路注入**:将具身掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力[9] - **引入光流驱动的运动损失**:防止模型只复现静态背景,引导其聚焦于任务相关的动态区域[9] 实验验证与性能表现 - **在DROID数据集(大规模单臂操作)上表现优异**:在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法[12] - **域内测试**:PSNR达22.89,SSIM达0.874,FVD为145.2,均优于对比方法[14] - **未见视角测试**:PSNR达20.87,SSIM达0.833,FVD为191.3,展现了卓越的视角鲁棒性[12][14] - **未见场景测试**:PSNR达19.73,SSIM达0.717,FVD为362.1,验证了出色的泛化能力[14] - **在AgiBot-G1数据集(双臂人形机器人)上无缝适配**:无需修改模型架构,仅替换URDF并重新渲染掩码,即取得媲美单臂的预测质量,PSNR达24.49,SSIM达0.868[16][17] - **下游任务应用验证其实用价值**: - **策略评估**:BridgeV2W在世界模型中“试跑”不同策略,其评估结果与真实成功率高度相关,大幅降低策略迭代成本[23] - **目标图像操作规划**:给定一张目标图像,能在“想象空间”中搜索出可行动作序列,实现从视觉目标到物理动作的闭环规划[23] 数据利用与可扩展性优势 - **训练时可利用海量无标注人类视频**:通过将机器人数据与无标定的Ego4D FHO(第一人称手部操作视频)混合训练,仅用SAM提取的手部掩码即可实现有效学习,无需URDF或相机标定[20][24] - **推理时依赖轻量几何信息**:部署时需URDF和相机参数渲染“计算掩码”以保精度,但训练门槛大幅降低[21][24] - **构建“数据飞轮”**:互联网视频规模远超机器人数据数个数量级,该方法为利用人类视频构建机器人世界模型迈出关键一步[22] - **自动继承技术红利**:架构使其能自然受益于视频生成底座模型(如Sora、Wan、CogVideoX)的升级,底座越强,“预演”越真[22] 行业意义与发展前景 - **迈向通用具身智能的重要里程碑**:展现出的跨平台、跨场景、跨视角泛化能力,是构建通用世界模型的坚实基石[22] - **揭示极具前景的技术路线**:“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”,为世界模型的规模化训练开辟全新路径[22] - **预示“机器人GPT时刻”**:让机器人借助视频生成模型“预演”自身行动后果的技术路线被证明可行且潜力巨大[25]
9点1氪|特朗普宣布下任美联储主席提名人选;广东连续8年成为第一生育大省;“黑白颠周媛”被立案调查
36氪· 2026-01-31 09:21
宏观经济与政策 - 美国总统特朗普提名前美联储理事凯文·沃什为下一任美联储主席人选 沃什曾持鹰派立场 近年转向支持特朗普的关税政策及加快降息立场 [2] - 2025年末广东省常住人口达12859万人 较上年末增加79万人 全年出生人口100.3万人 连续6年出生人口超百万 连续8年蝉联第一生育大省 [3] - 2025年广东省地区生产总值达145846.76亿元 经济总量连续37年居全国首位 占全国经济总量超十分之一 [3] 人工智能与科技行业 - Kimi公司海外收入已超过国内收入 新模型K2.5发布后全球付费用户实现4倍增长 在Openrouter上排名第三 [4] - OpenAI旗下AI视频生成应用Sora移动端下载量1月环比下跌45% 消费者支出环比下降32%至36.7万美元 近两月表现疲态 [7] - 蚂蚁灵波科技宣布开源具身世界模型LingBot-VA 首次提出自回归视频-动作世界建模框架 [16] - 苹果公司收购专注于“静默”通信技术的以色列人工智能初创企业Q.ai [15] - 谷歌旗下Waymo正式向部分用户开放旧金山国际机场的无人驾驶接送服务 [17] - 硅谷AI教育科技品牌Cosmo通过美国WASC的学校级全权认证 成为全球首个通过该级别认证的AI教育机构 [17] 消费与互联网 - 库迪咖啡将结束“全场9.9元不限量”活动 自2月1日起开启特价专区 部分产品延续9.9元 非特价产品按零售价售卖 饮品零售价在10.5元-15.9元之间 [11] - 市场监管总局公布直播电商领域典型案例 成都快购科技有限公司被处罚没款26692904.62元 [10] - 星巴克计划在2028财年全球净新增超2000家门店 其中约400家为美国自营店 目标合并净收入增长5%或以上 全球和美国同店销售增长至少3% [14][15] 金融市场与监管 - 工商银行宣布自2026年2月7日起 在非上海黄金交易所交易日将对如意金积存业务进行限额管理 [8] - 监管部门通报D基金公司利用不具备资格的互联网“大V”引流 致基金产品单日申购量超百亿 对该公司采取责令改正并暂停受理公募基金产品注册的监管措施 [9] - 美股三大指数1月30日集体下跌 道指跌0.36% 纳指跌0.94% 标普500指数跌0.43% 贵金属价格大幅下挫 [12] 公司动态与财报 - 万科2025年归母净利润预计亏损约820亿元 上年同期亏损494.78亿元 [22] - 三六零预计2025年净利润为2.13亿元-3.18亿元 同比扭亏为盈 [22] - 光线传媒预计2025年归母净利润15亿元-19亿元 同比增长413.67%-550.65% [23] - 阿迪达斯第四季度初步收入为60.8亿欧元 高于上年同期的59.7亿欧元 品牌汇率中性收入同比增长11% 并宣布2026年股票回购计划 [24][25] - 新易盛预计2025年净利润为94亿元-99亿元 同比增长231.24%-248.86% [25] - 西部黄金预计2025年净利润为4.25亿元到4.90亿元 同比增加46.78%-69.23% [26] - 大悦城预计2025年归母净利润亏损21亿元–27亿元 上年同期亏损29.77亿元 [27] - 小米SU7 Ultra车型2025年12月销量为45辆 较此前月销超3000辆的高点大幅下滑 [12] 资本市场与投融资 - 福布斯中国富豪榜更新 张一鸣、钟睒睒、马化腾稳居前三 雷军以304亿美元财富排名第十 马云以296亿美元财富排名其后 [5] - OpenAI据报道计划在第四季度IPO 已与银行就潜在上市举行非正式磋商并聘请新高管筹备 [18] - 伊戈尔、欣旺达电子、爱芯元智、澜起科技等公司均披露赴港上市相关进展 [18][19][20][21] - 医疗器械公司“益腾医疗”完成近亿元A轮融资 资金用于高端CT球管研发 [28] - 固态电解质材料公司因势新材完成数千万元天使轮融资 由瑞丞基金领投 资金用于产能扩建与技术研发 [29] 其他行业要闻 - 摩根大通策略师预测未来几年金价有望涨至8000美元至8500美元 [7] - 受内存供应紧张影响 苹果公司2026年将优先推进三款高端iPhone新机的生产与出货 延后标准版机型 [7] - 据报道 iPhone 18 Pro系列或与SpaceX星链合作 提供卫星通信服务 [8] - 原新加坡Sea AI Lab高级研究科学家庞天宇即将入职腾讯混元多模态部 [6] - 荃银高科因涉嫌信息披露违法违规被中国证监会立案调查 [11] - 美国总统特朗普起诉美国财政部和国税局 指控其泄露其税务信息 索赔至少100亿美元 [15] - 据报道埃隆·马斯克正考虑整合旗下资产以推进太空算力布局 [15]
9点1氪:特朗普宣布下任美联储主席提名人选;广东连续8年成为第一生育大省;“黑白颠周媛”被立案调查
36氪· 2026-01-31 09:21
宏观经济与政策 - 美国总统特朗普提名前美联储理事凯文·沃什出任下一任美联储主席,接替现任主席鲍威尔 [2][3] - 沃什在美联储任职期间持鹰派货币政策立场,但近年转向支持特朗普的关税政策及加快降息立场 [3] - 广东2025年末常住人口12859万人,比上年末增加79万人,全年出生人口100.3万人,连续8年蝉联“第一生育大省” [6] - 广东2025年实现地区生产总值145846.76亿元,经济总量连续37年稳居全国首位,占全国经济总量超十分之一 [6] 金融市场与监管 - 美股三大指数收盘集体下跌,道指跌0.36%,纳指跌0.94%,标普500指数跌0.43% [16] - 贵金属价格全线跳水,现货黄金盘中跌超12%至4682美元/盎司,现货白银盘中跌超35%至74.28美元/盎司 [16] - 监管通报“某基金产品单日吸金超百亿”事件,D基金公司因与不具备资格的互联网“大V”合作诱导投资者被责令改正并暂停受理公募基金产品注册 [13] - 工商银行宣布自2026年2月7日起,在非上海黄金交易所交易日对如意金积存业务进行限额管理 [12] - 摩根大通预测未来几年金价有望涨到8000美元至8500美元,因散户投资者更依赖黄金对冲美股下跌风险 [10][11] 科技与人工智能 - Kimi公司海外收入已超过国内收入,新模型K2.5发布后全球付费用户实现4倍增长 [8] - OpenAI的AI视频生成应用Sora移动端下载量1月环比下跌45%,消费者支出环比下降32%至36.7万美元 [10] - 蚂蚁灵波科技宣布开源具身世界模型LingBot-VA,将大规模视频生成模型与机器人控制深度融合 [19] - 苹果公司收购了专注于通过识别人类面部动作解读非语言交流的以色列AI初创企业Q.ai [19] - 原新加坡Sea AI Lab高级研究科学家庞天宇即将入职腾讯,加盟腾讯混元多模态部 [9] 消费与零售 - 库迪咖啡将结束“全场9.9元不限量”活动,2月1日起开启特价专区,部分产品延续9.9元,非特价产品按零售价售卖,饮品整体价格将明显上调 [14] - 星巴克计划在2028财年全球净新增超2000家门店,目标合并净收入增长5%或以上,全球和美国同店销售增长至少3% [18] - 阿迪达斯第四季度初步收入为60.8亿欧元,高于上年同期的59.7亿欧元,汇率中性收入同比增长11%,并宣布将回购10亿欧元股票 [28] 公司动态与业绩 - 万科2025年归母净利润预计亏损约820亿元,上年同期亏损494.78亿元 [26] - 光线传媒预计2025年归母净利润15亿元-19亿元,同比增长413.67%-550.65%,主要受益于《哪吒之魔童闹海》热映 [27] - 新易盛预计2025年净利润为94亿元-99亿元,同比增长231.24%-248.86%,受益于算力投资增长及高速率产品需求提升 [28] - 西部黄金预计2025年净利润为4.25亿元到4.90亿元,同比增加46.78%-69.23%,因自有矿山黄金产品销量增加及销售价格上升 [29] - 三六零预计2025年净利润2.13亿元-3.18亿元,同比扭亏为盈 [26] - 大悦城预计2025年归母净利润亏损21亿元–27亿元 [30] - 小米SU7 Ultra车型2025年12月销量为45辆,较此前月销超3000辆的高点大幅下滑 [16] 资本市场与融资 - 福布斯中国富豪榜更新,张一鸣、钟睒睒、马化腾稳居前三,雷军以304亿美元财富排名第十,马云以296亿美元排在其后 [9] - OpenAI计划在第四季度IPO,已与银行就潜在上市事宜举行非正式磋商 [21] - 欣旺达电子股份有限公司向港交所提交上市申请书,联席保荐人为高盛、中信证券 [22] - 爱芯元智在港交所公告,拟发行约1.049亿股H股,定价28.2港元/股,预期2月10日开始交易 [23] - 澜起科技在港交所公告,拟全球发售6589万股H股,发售价最高为每股106.89港元,预期2月9日开始买卖 [24] - 伊戈尔公告已向香港联交所递交H股上市申请 [21] - “益腾医疗”完成近亿元A轮融资,资金将用于高端CT球管的研发迭代与注册推进 [32] - 因势新材完成数千万元天使轮融资,资金将用于硫化物固态电解质的产能扩建与技术研发 [33] 行业事件与监管 - 网红周媛名下“黑白颠性商学院”因教授女性吸引男性课程遭封禁,被湖南长沙相关部门立案调查并责令停止线上线下活动 [6] - 市场监管总局公布直播电商领域典型案例,成都快购科技有限公司被罚没款约2669万元 [13] - 荃银高科因涉嫌信息披露违法违规被中国证监会立案调查 [15] - 昆明市住建局明确,由于缺乏上位法依据,空置房不能减免物业费 [12] 前沿技术与产业 - 马斯克被曝正考虑整合旗下资产以推进太空算力布局,设想在太空部署AI数据中心 [18] - Waymo正式启动旧金山国际机场的无人驾驶乘客接送服务,初期向部分用户开放 [20] - 硅谷AI教育科技品牌Cosmo通过美国WASC的学校级全权认证,成为全球首个通过该级别认证的AI教育机构 [20] - 苹果正在与SpaceX洽谈合作,希望为iPhone 18 Pro系列机型提供直连星链的卫星通信服务 [11] - 受内存供应紧张影响,苹果公司正优先推进2026款三款高端iPhone新机的生产与出货,延后标准版机型 [10]
宇树王兴兴:谁能把机器人用的大模型做出来,谁就是全世界最厉害的AI公司和机器人公司;蚂蚁灵波开源具身世界模型LingBot-VA丨AIGC日报
创业邦· 2026-01-31 09:12
大模型技术进展与市场表现 - Kimi K2.5模型上线3天,在海外知名编程工具Kilo Code上成为调用量最高的模型,并在全球大模型聚合平台OpenRouter上调用量进入全球前三,仅次于Claude Sonnet 4.5和Gemini 3 Flash两个闭源模型 [2] - 受K2.5上线带动,Kimi海外收入已超过国内,全球付费用户实现4倍增长 [2] 具身智能与机器人技术突破 - 蚂蚁灵波科技开源具身世界模型LingBot-VA,该模型首次提出自回归视频-动作世界建模框架,将大规模视频生成模型能力与机器人控制融合,使机器人能够“边推演、边行动” [2] - 宇树科技创始人王兴兴认为,谁能做出机器人用的大模型,谁就是全世界最厉害的AI公司和机器人公司,其公司终极目标是让机器人真正干活并创造实际价值 [2] 生物与基因科技AI应用 - 谷歌旗下DeepMind推出的AlphaGenome深度学习模型,能解码人类基因组中98%对健康至关重要的“暗基因组”,未来可用于深入了解遗传疾病、改进基因检测及研发新疗法 [2]
蚂蚁灵波开源具身世界模型LingBot-VA
新浪财经· 2026-01-30 10:13
公司动态 - 蚂蚁灵波科技于1月30日宣布开源其具身世界模型LingBot-VA [1] - 该模型首次提出自回归视频-动作世界建模框架 [1] - 模型将大规模视频生成模型的能力与机器人控制相融合 [1] - 模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列 [1] - 该技术旨在使机器人能够像人一样“边推演、边行动” [1] 技术突破 - LingBot-VA模型的核心是自回归视频-动作世界建模框架,这是一项首次提出的技术 [1] - 该框架实现了大规模视频生成能力与机器人控制任务的融合 [1] - 模型具备同时进行世界状态预测和动作序列生成的能力 [1]
NextX系列:颠覆性技术周报第2期(2025.1.02-2026.01.16):滑铁卢大学提出“加密量子比特克隆”协议,在不违反不可克隆定理的前提下实现量子态可复制性
国泰海通证券· 2026-01-19 10:55
报告行业投资评级 - 报告未明确给出整体行业投资评级 [1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39][40][41][42][43][44][45][46][47][48][49][50][51][52][54][55][56][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][76][77][78][80][81][82][83][84][85][86][87][89] 报告核心观点 - 报告核心为跟踪科技产业动态,涵盖一级市场融资、二级市场表现、企业上市/IPO进展以及前沿技术突破,旨在提供全面的产业观察 [1][2][3][4][6][8][9] - 报告显示科技产业融资活跃,先进制造、人工智能是主要投资方向 [1][11] - 二级市场科技子板块表现强劲,半导体、人工智能等指数领涨且估值提升 [2][31][32][33][35][36][37] - 多家科技公司于中国香港完成上市或递交IPO申请,显示资本市场对半导体、AI等硬科技企业的青睐 [2][6][14][17][20][23][25][28] - 前沿技术领域在先进半导体、人工智能与量子科技等方面取得多项突破性进展,为产业长期发展注入新动力 [3][4][38][42][44][48][52][54][61][66][72][77][80][81][83] 上周科技产业融资概况 - 2026年1月1日至1月16日期间,国内外科技产业共发生296起融资事件 [1][11] - 其中,国内融资事件248起,国外融资事件48起 [1][11] - 国内市场中,先进制造、人工智能、企业服务行业的融资事件数位列前三,分别为137起、63起和25起 [1][11] 上周科技企业上市、IPO速递 - **上市情况**:上周有4家科技公司在中国香港主板挂牌上市 [6][9] - 兆易创新(03986.HK)于2026年1月13日上市,是一家多元芯片集成电路设计公司,2024年NOR Flash全球市场份额18.5%,排名第二 [14][15] - 豪威集团(00501.HK)于2026年1月12日上市,是一家Fabless半导体设计公司,2024年图像传感器解决方案全球市场份额13.7%,排名第三 [17][18] - MiniMax(00100.HK)于2026年1月9日上市,是一家全球化AI大模型公司,2024年营业收入为3052.3万美元 [20][22] - 天数智芯(09903.HK)于2026年1月8日上市,提供通用GPU产品及AI算力解决方案,2024年营业收入为5.40亿元人民币 [23][24] - **IPO情况**:上周有2家科技公司向港交所递交招股书 [2][9] - 埃斯顿拟上市,是中国工业机器人解决方案市场领先企业,2024年全球市场份额1.7% [25][26] - 芯迈半导体拟上市,是一家采用Fab-Lite IDM模式的功率半导体公司,2024年营业收入为15.74亿元人民币 [28][30] 上周科技产业二级市场表现跟踪 - **大盘指数**:上周表现分化,上证指数全周下跌0.45%报4102点,深证成指上涨1.14%报14281点,创业板指上涨1.00%报3361点 [2][31] - **科技子行业涨跌幅**:半导体指数/汽车电子指数/人工智能指数/元宇宙指数周涨幅分别为4.92%/1.41%/2.50%/3.06%,均跑赢万得全A指数(周涨0.49%)[2][31][32] - **换手率**:上周半导体指数和人工智能指数换手率较高,分别为24.8%和24.8% [2][32][34] - **估值水平**: - PE估值:截至2026年1月16日,半导体/汽车电子/人工智能/元宇宙指数PE分别为170.01/41.21/84.68/56.42倍,较前一周环比上涨3.6%/1.9%/2.2%/2.5% [33][35] - PB估值:截至同期,上述指数PB分别为7.63/4.54/8.18/6.06倍,较前一周环比上涨2.9%/1.9%/1.4%/2.4% [36][37] NextX:前沿颠覆技术与创新动态追踪 - **先进半导体板块**: - 西安电子科技大学团队实现氮化铝“离子注入诱导成核”,将界面热阻降至传统结构的三分之一,基于该技术制备的氮化镓微波功率器件输出功率密度国际纪录提升30%-40% [38][39][41] - Wolfspeed成功制造单晶300mm碳化硅晶圆,标志着重要的技术里程碑,旨在赋能AI基础设施、AR/VR等下一代平台 [42][43] - 清华大学李星辉团队在分焦面超像素阵列光刻制造领域取得进展,为中红外偏振成像系统核心器件制备提供新方案 [44][47] - 德国研究团队通过金属调制外延模式改善立方相InGaN外延质量,验证了其在高铟含量红光发射领域的潜力 [48][51] - **人工智能与物理AI板块**: - 清华团队研发出AI驱动的超高通量药物虚拟筛选平台DrugCLIP,筛选100万个候选分子仅需0.02秒,日处理能力达31万亿次,较传统方法提升百万倍,并首次完成人类基因组规模虚拟筛选 [54][55][60] - 复旦大学发布AgentDevel,将LLM智能体迭代升级过程外部化为系统化的版本演进工程管线,强调非回归验证与可审计性 [61][65] - Wow-wo-val提出具身世界模型“图灵测试”评估框架,揭示当前模型在长时程规划(平均得分仅17.27)和物理一致性(最佳模型得分68.02)等方面存在显著能力缺口,且生成视频的真实世界可执行性普遍较低 [66][68][69] - **量子科技板块**: - 哥伦比亚大学团队提出基于超表面的光学镊阵列方案,可生成包含36万个陷阱位点的大规模阵列,为构建超过10万个量子比特的平台铺路 [72][73][74][76] - 滑铁卢大学提出“加密量子比特克隆”协议,理论上允许对经过特定加密变换的量子态进行克隆,而不违反不可克隆定理 [77][78] - Weizmann团队在双层石墨烯中观测到偶分母分数量子霍尔态的Aharonov–Bohm干涉,为非阿贝尔任意子的研究提供关键实验线索 [80][81] - 索邦大学团队提出“有界经典通信下的图态自测”新框架,拓展了量子状态认证的器件无关边界,适用于更现实的量子网络场景 [83][84][86]
欢迎具身世界模型&数采相关方向的大佬加入我们!
具身智能之心· 2025-11-05 17:00
合作招募背景 - 行业对具身世界模型、机器人运控、数据采集相关领域咨询需求旺盛[2] - 相关方向存在较高行业门槛但具备显著价值[2] - 公司旨在与领域专家合作研发课程或实战项目以提供行业见解[2] 合作内容与要求 - 合作聚焦于具身世界模型、运控、数据采集相关课程设计与制作[3] - 期望合作者至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验[3] - 合作形式灵活可兼职并提供高于行业水平的薪资与资源共享[5]
招募世界模型&人形运控&数采相关的合作伙伴!
具身智能之心· 2025-11-02 12:00
合作招募背景 - 后台收到大量关于具身世界模型、机器人运控、数采的咨询 表明这些是行业内有价值但存在门槛的方向 [2] - 公司期望与领域专家合作研发课程或实战项目 为从业者提供更多见解 [2] 合作内容与形式 - 合作聚焦于具身世界模型、运控、数采相关的课程设计与PPT制作 [3] - 合作形式灵活 可兼职 并提供高于行业水平的薪资和资源共享 [6] 合作伙伴要求 - 期望合作伙伴正在从事具身领域研究 并至少发表一篇CCF-A级别会议论文或拥有1年以上工业界经验 [4]