Genie3
搜索文档
站在内容创作者与机器人的交界处:聊聊3D数字人的进化
36氪· 2025-10-29 19:24
3D数字人技术演进 - 3D数字人技术已从表情僵硬、预设脚本运行的阶段,演进至能够根据指令实时生成语音、表情和协调肢体动作,且成本变得可被接受 [1] - 该技术最初源于机器人领域,计算机图形学与机器人学之间存在一道打通虚拟与现实的“旋转门”,学者们几十年来在此领域寻求突破 [1] - 进化后的数字人不仅活跃于直播间和客服中心,未来还将在3A级游戏和影视工业领域大展拳脚 [1] 与2D文生视频技术的对比 - Sora2作为文生2D视频技术,生成长度受10秒限制,且在物理一致性和精细控制人物动作、表情方面存在瑕疵 [2][3] - 3D数字人技术是文生3D,可在VR/AR环境中360度展示,实现精准控制动作和表情,核心区别在于结构化信息与像素层面的差异 [5][7] - 3D数字人描述动作表情仅需几百个参数,而文生视频缺乏结构化信息导致推理和生产成本非常高,3D技术的成本可能仅为2D语音合成的几十分之一 [7] 魔珐科技的技术方案与产品 - 公司构建了“文生3D多模态大模型”,包含从文本生成语音、表情、动作、手势参数的端模型,以及利用AI进行渲染和解算以降低成本的流程 [8][11] - 该技术方案支持端到端实时互动,端到端延时要求小于2秒或1.5秒,并可在低成本终端芯片(如瑞芯微RK3566,约几百人民币)上运行 [5][8] - 公司已推出“星云平台”产品,并于10月发布文生3D多模态模型,目前有几百个B端企业客户在测试,部分已付费,公司从3D数字人公司转变为平台公司 [12][13] 成本突破与行业影响 - 通过AI技术完成渲染和解算,不再依赖传统渲染引擎和昂贵显卡,单路数字人服务成本从半年前需要一张显卡(约两三万人民币)大幅降低 [34][36][37] - 在特定应用场景下,AI渲染质量与Unreal等传统游戏引擎渲染效果基本无差异,通过并列对比无人能看出区别 [39] - 该技术若普及,可能降低3A级游戏对云端显卡或终端高算力的依赖,使游戏无处不在,并大幅降低元宇宙的参与成本 [38] 3D数据积累与行业应用路径 - 公司积累了1000多个小时的高质量3D动画数据,一秒钟成本至少1000人民币左右,高质量数据是训练模型的核心要素 [24][25] - 行业应用路径规划为先运用于日常生活交互、服务、陪伴场景,再到游戏,最后是好莱坞,因好莱坞级高质量数据制作难度极高 [33] - 影视动画和游戏公司拥有高质量3D数据但缺乏AI能力,而AI公司算法强但缺乏数据,两个行业目前缺乏交叉 [20][21][22] 与机器人领域的协同与挑战 - 3D数字人技术可驱动机器人,实现实时语音、动作和手势,公司生成的动作数据包含脸部、手部和腿部的完整动作 [42][44] - 机器人领域面临运动学(动作规划)和动力学(力的控制)的双重挑战,泛化能力(如适应不同楼梯参数)是当前主要难题 [45][48] - 行业研究方式正从白盒模型(显式计算受力点)转向黑盒模型(端到端数据驱动),长期有希望但短期挑战很多,完全解决或需10年 [62][63][64][57] 技术落地的关键挑战 - 数字人规模化落地需翻越质量、延迟、成本“三座大山”,并支持多终端、多操作系统、不同芯片算力的并发需求 [41] - 质量提升依赖于大模型能力,包括从文本生成带情绪的语音、匹配的唇形和动作,以及高质量训练数据 [41] - 在机器人领域,即使动作数据可用,现实世界的动力学控制(如抓取物体的力反馈)和复杂环境的泛化仍是巨大挑战 [53][54]
AI行情启动:这些细分赛道值得关注
每日经济新闻· 2025-10-23 09:39
AI模型发展 - 全球AI发展显著加速,尤其在国内及北美,GPT-5已发布,性能有明显提升 [1] - GPT-5的token价格迅速下降,性价比疾速提高,本质源于算力硬件及资源的支持 [1] - 海外及国内发布许多先进模型,如谷歌DeepMind发布世界模型Genie3,生成内容能保持良好一致性并更好理解物理规律 [1] - 基础模型如文生图、文生视频相关模型发展较快,例如Sora2引起广泛关注 [1] 硬件驱动业绩 - 各厂商业绩成长动能主要由硬件驱动,英伟达新一代Blackwell架构产品开始快速放量 [2] - 英伟达GB200的NVL72机架超大规模客户周均部署量约1000台,相当于周度GPU销量达7万多卡 [2] - 每张GPU卡价格达几万美金,Blackwell是英伟达史上爬坡放量最快的产品 [2] - GPU快速放量带动A股光模块、PCB等配套产业链公司,这些公司在全球范围内具竞争力且份额较高 [2] - 相关A股公司业绩成长较快,未来业绩增速或有较好持续性,二季报及三季报值得期待 [2] 投资机会环节 - 已明确进入业绩高速增长的赛道主要是光模块、PCB及服务器ODM,许多公司为全球业内龙头厂商 [3] - 计算芯片如英伟达GPU维持较快迭代速度,架构基本两年一变,产品一年一变,每次迭代ASP增长较明显 [3] - 新兴领域如液冷中的电子布、光纤、铜连接等赛道均较具投资潜力 [3] - 指数化投资是更优选择,海外算力可关注通信ETF,国产算力可布局科创芯片ETF、半导体设备ETF [3]
锦秋基金领投企业Manifold AI流形空间连获两轮共亿元融资,打造下一代具身智能世界模型|Jinqiu Spotlight
锦秋集· 2025-10-20 20:18
投资事件 - 锦秋基金已完成对Manifold AI(流形空间)的投资 [2] - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [3] - Manifold AI近期的天使轮融资由锦秋基金领投,同创伟业、英诺天使基金跟投,种子轮由英诺天使基金领投、水木清华校友种子基金跟投,两轮融资共亿元,资金将用于下一代具身世界模型的训练与场景落地 [4] 公司技术与定位 - Manifold AI聚焦世界模型与具身智能,原创的具身世界模型技术旨在推动机器人大脑的规模化落地 [6] - 公司提出WorldScape具身基座世界模型方案,具备Reasoning-Dreaming-Acting三位一体能力,利用海量第一人称视角视频数据进行预训练,有望实现物理空间智能涌现 [10] - 预训练模型能力的提升使得绑定本体的动作映射只需极少量In Context Learning数据即可实现,大幅降低部署成本 [10] - 其技术孵化自清华大学电子系未来智能实验室,是世界范围内首个全域布局室外、室内、空域具身世界模型的团队,相关工作DriveScape、RoboScape、AirScape已发表于CVPR2025、NeurIPS2025、ACM MM2025等顶级会议 [10] - Manifold AI已率先接入NVIDIA Jetson Thor开发者套件用于具身世界模型的本体部署 [12] 行业背景与趋势 - 通用机器人面临本体多、数据少、应用分散的落地困局,基于视觉-语言-动作模型的方案存在预训练精度低、需大量本体数据进行模仿学习的问题 [6] - 海外如Tesla Optimus、Figure AI团队已转向使用海量第一人称视角视频数据的技术路线,从第一性原理出发模拟人类学习过程 [6] - 世界模型技术被视为本质解法,可使互联网上所有第一人称视角视频数据成为机器人学习素材,达到类GPT预训练范式所需规模 [7] - 近期行业进展包括OpenAI发布Sora2视频生成模型周活跃用户达8亿,Google发布Genie3世界模型将物理一致上下文视频窗口拉长至分钟级别,李飞飞World Labs发布RTFM世界模型实现单图实时生成可持久化交互3D空间,NVIDIA Cosmos和Meta V-JEPA2世界模型也在具身场景取得突破 [7] - 世界模型路线能撬动更多网络视频和人类训练数据,具有更大规模化潜力,其时空预测能力驱动交互更符合人类物理直觉 [16] 团队背景 - 创始人兼CEO武伟博士为前商汤科技高管,2015年加入商汤初创,有数百人团队管理经验,曾主导商汤开悟世界模型的研发和落地 [13] - 联合发起人包括清华大学教授、教育部长江学者,在AI模拟和世界模型方向早期整体布局,发表过包括十余篇Nature子刊在内的数百篇学术论文 [15] - 另一位联合发起人为清华大学信息学院助理教授,15岁考入清华,多次入选全球前2%顶尖科学家 [15] - 核心团队成员毕业于清华、北大、上交、港中大、UCLA等高校,曾在快手、Momenta、商汤等企业构建过超千万级用户的AI产品,具备机器人与大模型双重背景 [12] - 团队融合智驾产业落地经验和清华前沿实验室技术资源,是国内探索世界模型方向的先锋 [16]
“AI教母”,公布最新世界模型
财联社· 2025-10-17 20:28
世界模型RTFM的技术突破 - 李飞飞团队发布全新世界模型RTFM,能够实时生成交互式三维世界[2] - 模型设计围绕效率、可扩展性和持久性三大原则,仅需单块H100 GPU即可渲染持久一致的3D世界[2] - 实现4K+60FPS交互式视频流,传统架构需每秒生成超过十万个token,相当于一本《弗兰肯斯坦》的文本量,当前算力下经济上不可行[2] AI算力成本与需求趋势 - 降低算力成本成为硬件厂商重要议程,OpenAI与博通战略合作部署10吉瓦AI加速器,形成英伟达、AMD、博通多元算力体系以倒逼成本下降[3] - 尽管模型效率提升,但算力总需求预期未减,存在“杰文斯悖论”,即效率提升反而增加总消耗量,例如DeepSeek R1性能增强但算力需求持续增长[4] - 预计针对更大推理预算的更大型模型将继续改进,未来算力需求增长预期稳固[3] 世界模型的行业进展与意义 - World Labs在9月发布世界生成模型Marble,可通过单张图片或文字生成3D世界,相比前代实现更优几何结构和更多样化风格[4] - 世界模型的意义在于不仅能理解推理文字信息,还能理解推理物理世界的运作规律[4] - 行业公司积极布局,xAI从英伟达挖来专家,Meta、谷歌加注世界模型,国内宇树、智元等机器人厂商也已开源其世界模型[4] 算力基础设施的估值逻辑 - 算力更便宜易得时,开发者会将更复杂模型系统作为新基准,提升参数量、上下文与并行度[5] - 模型架构迭代可能减小单次推理训练算力,但如Genie3等生成视频的世界模型需跨数量级算力提升才能满足[5] - AI算力更高的天花板和更好的竞争格局将支撑其相对4G/5G的更高估值框架和更强Beta[5]
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 11:32
核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合,行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用,尤其是在模型训练、测试和安全验证方面,而世界模型作为新兴方向,在长期规划和数据生成方面展现出潜力,但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全,存在视觉细节(如物体摩擦力、光影效果)和物理细节还原不足的问题,导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开,包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例,不同光源位置会形成不同阴影,可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域,仿真测试已被验证更快速、省时省力且安全,训练用真机更务实,测试用仿真更合适是核心观点之一 [19] - 从学术角度看,若真机数据能极大丰富,同等数量下其训练效果优于仿真数据,但现实是具身智能领域真实数据体量远不及自动驾驶,且机器人本体不易统一,行业期待高,导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,没有机构会训完模型不做仿真测试就直接上真机,可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大,若仿真器构建良好,可通过大规模并行训练让模型学习到真实数据中难获取的场景(如物体被碰倒后如何处理) [24] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域的显著价值,能降低授课与学习门槛 [26] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在核心问题待解决,如“小世界模型”路径是否可行(即能否基于其直接生成轨迹或策略),以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念,与过往相关模型概念相通,该领域研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向,可聚焦世界模型中物理规律的相关问题,在有限计算资源下开展尝试 [30] - 在未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward,因为action和observation已有较好发展,而操作领域仍处于混沌状态,适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好,但在面向机器人等场景时,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力,但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性,这不仅涉及单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂,但结合出色的底层能力实现了好效果,比设计复杂模型更令人震惊,目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法,而在于数据和硬件,波士顿动力的硬件技术方案与教育界常用方案差异显著,其高度拟人化设计代表了正确发展方向,但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化,“避免阻塞”这一问题即便有专门研究,开源方案仍有很大改进空间 [37] - 运动控制(运控)水平的差异是表现差异的重要原因,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [38][39]
Sim,Real还是World Model?具身智能数据的“困境”与解法
具身智能之心· 2025-10-01 20:48
文章核心观点 - 具身智能领域正面临数据来源的根本性选择:是依赖仿真的效率、真实数据的真实性,还是寄希望于新兴的世界模型技术来弥合差距 [2] - 仿真数据与真实数据各有优劣,当前行业可能处于并将长期处于依赖仿真数据的阶段,但真实数据在特定场景下不可或缺 [14][15][20] - 世界模型(如Genie 3)被视为未来重要方向,但其在奖励机制设计、高维度动作生成等方面仍面临挑战,且计算资源限制其发展 [21][22][23][24][25] 对Sim-to-Real Gap的理解 - Sim-to-Real gap的核心是仿真对真实世界模拟不完全,存在视觉与物理细节还原不足的问题,例如物体的摩擦力、光影效果等差异 [3] - 该差距导致模型泛化能力弱,仅适配特定场景,缩小差距需围绕数据优化,包括结合模型需求设计虚拟与真实数据配比 [3] - 阴影问题可作为判断模型对真实世界理解程度的有效依据,例如通过观察模型能否正确利用阴影信息来停止操作 [3] 仿真数据与真实数据的价值与应用 - 真实数据在同等数量下训练效果优于仿真数据,但具身智能领域真实数据体量远不及自动驾驶,存在巨大缺口 [15] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,可避免真机实验中烧电机、损坏关节等难以估量的损失 [15] - 仿真在强化学习规模化上潜力巨大,良好构建的仿真器可通过大规模并行训练让模型学习真实数据中难获取的场景 [18] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域可显著降低学习门槛 [21] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [20] 世界模型的研究现状与挑战 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在“小世界模型”路径是否可行以及奖励设计与下游任务衔接两大核心问题 [21][22] - Genie 3能够从文本生成可交互的动态环境,其核心优势是将“动作”与“观测”良好结合,但面向机器人场景时,当前动作维度(如六维、七维)不足 [24][25] - 未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward(奖励机制),因为action和observation已有较好发展 [24] - 世界模型研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题,这类研究更易出成果 [22] - 可引入力、触觉等新模态来丰富世界模型,聚焦其物理规律相关问题 [23] 技术案例分析与发展方向 - RoboTwin项目展示了数据配比的重要性:1.0版本服务小模型,虚拟与真实数据配比约300:20;2.0版本服务大模型,配比达上千:几十 [7] - 在自动驾驶领域,仿真测试已被验证更快速、省时省力且安全,大量安全性测试必然依赖仿真 [14] - 数字人技术中的Sim-to-Real应用是一大突破,可实现输入任意一句话指定表情,让数字人实时展示相应脸部动作 [11] - 波士顿动力机器人的“丝滑”表现得益于其出色的硬件技术方案、运动控制(运控)水平以及经过大量调整优化的推理架构 [26][28][30][31][32] - 传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [32]
1000亿美元重磅投资!通信ETF(515880)开盘大涨超4%,光模块占比50%
搜狐财经· 2025-09-23 10:07
英伟达与OpenAI的战略合作 - 芯片制造商英伟达将向OpenAI投资最高1000亿美元,并为其提供数据中心芯片 [1][4] - 协议涉及两笔交易,OpenAI以现金购买英伟达芯片,英伟达通过投资获得OpenAI非控股股份,首批100亿美元投资在芯片采购协议最终确定后启动 [4] - 双方计划为OpenAI人工智能基础设施部署至少10吉瓦算力的英伟达芯片,相当于400-500万块GPU,等于英伟达2025年全年总出货量,首个部署阶段预计2026年下半年投入使用 [4] 全球AI行业趋势与资本开支 - 2025年第二季度,北美四大云厂商资本开支总计958亿美元,同比增长64%,谷歌和Meta上调了全年资本开支指引 [6] - AI商业模式已经跑通,云厂商业绩高速增长反哺资本开支扩大,算力仍供不应求,谷歌云2025年第二季度收入136亿美元,同比增长32% [8][9] - 英伟达预测到2030年全球人工智能基础设施支出将达到3-4万亿美元,目前仍有数倍增长空间 [9] 通信ETF(515880)市场表现 - 通信ETF年内涨幅超105%,居A股ETF涨幅第一,截至9月22日规模超117亿元,为通信行业中规模最大的ETF [3][11] - 该ETF投资组合中“光模块+服务器+铜连接+光纤”占比超过77%,其中光模块单独占比50% [11] - 在英伟达投资OpenAI消息影响下,光模块CPO概念开盘拉升暴涨,通信ETF大涨超4% [1]
谷歌为什么又行了 ?
36氪· 2025-09-07 07:40
苹果与谷歌潜在AI合作 - 苹果考虑使用谷歌Gemini为改版后Siri提供支持 预计2026年发布定制版LLM [1] - 合作将使Gemini技术覆盖数亿iPhone用户 为谷歌开辟新商业化路径包括API授权和订阅服务 [1] - 合作延续双方搜索业务关系 使iOS生态首次接入大模型 为用户提供领先技术体验 [1] Gemini技术进展与性能表现 - Gemini在多项排名中处于第一梯队 Gemini-2 5-pro以1456分位列LLM Arena榜首 [2][3] - 多模态性能领先 原生多模态模型在视觉和文本生成评分中排名第一 [3][4] - 编程能力突出 Gemini 2 5 pro在AI IQ测试中智商达137 展现高阶智慧解决问题能力 [10] 用户增长与市场地位 - Gemini网站流量达ChatGPT的12% 移动端活跃用户数为ChatGPT一半 [5] - 网站访问量从2月2 84亿次增长至7月7亿次 而ChatGPT为57 2亿次 [6] - 2025年7月月活用户达4 5亿 较5月4亿增长12 5% [7] - 谷歌在前50名AI网站中占据四席 包括AI Studio NotebookLM和Google Labs [7] 多模态产品创新 - 图像生成模型Nano Banana(Gemini 2 5 Flash Image)在文本生成和图像编辑评分中均排名第一 [13][17] - 视频生成模型Veo3实现高保真音画同步 成为专业制作工具 [19][21] - 世界模型Genie3生成720p可交互3D环境 支持长达数分钟模拟 [23][24] 算力与基础设施优势 - 谷歌TPU集群已大规模部署 专为AI计算设计 能耗效率超英伟达GPU [27][28] - 自研TPU算力出现富余 开始向第三方云供应商销售 [29] - 算力自主保障多模型研发 支撑Gemini推理需求及视频图像模型训练 [30] 数据与生态优势 - 搜索和YouTube积累海量多模态数据 提供独特训练资源 [30] - Chrome和安卓生态助力AI能力快速触达C端用户 优化服务体验 [31] - 用户行为数据为模型迭代提供依据 例如Nano Banana成功捕捉用户需求 [31] 人才战略与组织调整 - 吸引顶尖人才如Sora开发主管Tim Brooks加入 负责世界模型开发 [32] - 为核心人才提供2000万美元年薪 并保障算力和数据资源 [34] - DeepMind与Google Brain合并 统一AI战略 加速应用创新 [35] 研发策略调整 - 减少论文发表 优先保护竞争优势成果 避免技术泄露 [37] - 聚焦产品化创新 如Nano Banana等实际应用 [39]
特斯拉Optimus:世界模型会终结一切
自动驾驶之心· 2025-09-04 07:33
特斯拉Optimus技术演进路径 - 特斯拉Optimus大脑技术方案已从模仿学习转向视频学习,并计划最终采用世界模型方案[5] - 模仿学习虽实现端到端控制,但存在数据泛化性问题[6] - 视频学习解决数据来源多样性问题,但无法解决规模和成本问题[6] - 世界模型作为终极方案可同时解决数据多样性、规模和成本问题,并为机器人提供物理世界知识[6] 世界模型技术特性 - 世界模型是拥有大规模真实世界物理知识的模型,其内部所有行为都符合物理规律[6] - 与手动编写规则的传统模拟器不同,世界模型通过海量真实世界视频自主学习物理规律[6] - 谷歌Genie3创造近似3D物理世界,支持用户交互和创造,与2D固定视角的视频生成模型有本质区别[9][11] - Genie3生成的内容符合物理规律且可进行强交互,非常逼近真实场景[11] 世界模型在机器人领域的应用 - 首先使用Optimus执行任务的少量视频对通用视频生成模型进行微调,使模型理解机器人自身的物理特性[12] - 模型理解后可接受自然语言指令生成海量逼真模拟视频[14] - 通过逆向动力学模型分析成功视频,反解出电机控制指令(伪动作)[14] - 将视频与伪动作配对形成海量数据对,用于高效训练主控AI[14] - 该方法使机器人能在虚拟世界进行零成本、零风险的试错学习,特别适用于处理罕见边缘案例[14][16] - 英伟达技术显示该方法使人形机器人从1个现实任务扩展到22种新行为,未知环境任务成功率从0%提升至40%以上[16] 行业技术发展现状 - 目前自动驾驶行业大多数企业尚未实现端到端,仍采用感知-决策-控制分层设计[17] - 国内人形机器人企业仍处于花费大量资金收集数据进行模仿学习的阶段[17] - 特斯拉Optimus从模仿学习迁移到视频学习花费数年时间,预计还需数年才能实现世界模型方案[17]
直播分享!“具身数据困境”:仿真技术、真实数据与世界模型的碰撞交融
具身智能之心· 2025-08-30 00:03
行业技术路径 - 具身智能发展主要围绕仿真技术、真实数据与世界模型三大路径展开 这些路径既存在竞争又相互融合 [3] - 物理仿真技术已进入深水区 真实数据到仿真的转换技术(real2sim)正推动仿真路线发展 [11] - 业界构建了超大规模训练场Agibot World 包含百万真机与千万仿真数据集 系统研究具imbing智能的Scaling Law方法论 [4] 核心技术突破 - 端到端自动驾驶方案UniAD获IEEE CVPR 2023最佳论文奖 其技术方案被特斯拉2023年推出的FSD采用 [4] - 开发全球首个开源模块化真实感自动驾驶仿真器MARS 并获得CICAI 2023最佳论文Runner-up奖项 [5] - 神经渲染方法SlimmeRF实现渲染阶段精度与速度的可调节 获得3DV 2024最佳论文奖 [5] - Open X-Embodiment项目获得ICRA 2024最佳论文奖 CAST项目获得SIGGRAPH 2025最佳论文奖 [7] 数据争议与解决方案 - 针对真实数据不可替代性的争论 行业探讨这是策略选择问题还是AI演进必经之路 [3][11] - Genie3世界模型的问世引发行业关注 世界引擎可能成为解决具身智能数据问题的终极方案 [11] - 俯视图感知方法BEVFormer成为业界广泛使用的纯视觉检测基准 入选2022年百强影响力AI论文榜单 [4] 学术与产业贡献 - 研究团队在CVPR/ICCV/ECCV/SIGGRAPH/NeurIPS/ICLR等顶级会议发表50余篇论文 多次获得最佳论文奖项 [5][7] - 学术成果获得多项荣誉包括2024年中国吴文俊人工智能青年科技奖 香港博士政府奖学金等 [4][7] - 构建的具身智能训练场包含百万级真机与千万级仿真数据集 为行业提供大规模训练基础设施 [4]