世界模型 - 财报，业绩电话会，研报，新闻 - Reportify

世界模型

搜索文档

DeepMind独家访谈实录，解密Genie 3世界模型，将颠覆游戏与机器人行业未来

36氪· 2025-08-06 14:14

核心技术突破 - 谷歌DeepMind研发的Genie 3 AI技术可通过文本提示在约3秒内生成720p分辨率、可交互且环境一致的3D虚拟世界 [1][5] - 该技术融合生成式视频模型、游戏引擎和模拟器特性，实现实时交互及长时预测能力，环境一致性通过大规模训练自然涌现 [2][5][12] - 相比前代Genie 2的360p分辨率和20秒生成时长，Genie 3将分辨率提升至720p并延长交互时间至数分钟，错误率显著降低 [3][6][11] 技术演进路径 - Genie 1基于3万小时2D游戏录像训练，具备时空视频标记器和无监督动作学习能力，发现8种离散动作并展现2.5D视差效果 [2][3] - Genie 2实现3D模拟能力，支持烟雾、火焰、水流等逼真光照效果，并具备物体记忆功能 [3][11] - 技术架构从图像提示升级为文本提示输入，增加场景多样性并支持可提示的世界事件（如添加滑雪者或鹿群） [5][16] 行业应用前景 - 为机器人和自动驾驶训练提供高保真模拟环境，可安全模拟罕见事件（如无人机避障、行人突然穿行） [5][15][20] - 推动娱乐产业变革，支持生成沉浸式VR体验和新型交互娱乐模式，潜在价值达万亿美元级 [1][7][17] - 替代传统游戏引擎部分功能，实现类似Unreal Engine 5.6的实时动态图形生成，但当前仍存在计算硬件依赖（TPU网络）和生成局限性 [7][12][19] 技术实现特点 - 采用扩散模型架构（如VO融合），逐帧生成像素并保持跨帧一致性，无需显式3D编程 [5][12][13] - 训练数据可能包含YouTube海量视频，模型通过分析帧间变化推断物理规则和动作空间 [2][8][15] - 目前仅支持单代理交互，多代理系统正在开发中，智能体行为通过模型权重嵌入实现 [6][18][19] 发展现状与规划 - 当前为研究原型，未开放公众使用，出于安全考虑将通过测试计划逐步部署 [7] - 未来方向包括多智能体模拟、与语言模型（如Gemini）结合，以及通过外循环增强系统开放性 [10][18][19] - 计算需求较高，依赖TPU网络运行，但演示显示响应速度达3秒内，具备实时交互能力 [5][8][19]

生成式交互环境

Artificial Intelligence

生成式交互环境

Artificial Intelligence

OpenAI、谷歌等深夜更新多款模型展示开源、智能体、世界模型进展

第一财经· 2025-08-06 12:59

大模型厂商新品发布 - AI创业公司Anthropic发布Claude Opus 4 1 称该模型是Opus 4在代理任务现实世界编码和推理方面的升级版 [1] - 谷歌推出新一代世界模型Genie 3 这是公司第一个支持实时交互的世界模型 [1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两个推理模型这是OpenAI时隔六年再次开源模型 [1] OpenAI开源策略转变 - OpenAI开源的gpt-oss-120b参数量为1170亿采用MoE架构激活参数量51亿 [2] - gpt-oss-20b参数量为210亿同样采用MoE架构激活参数量36亿 [2] - gpt-oss-120b在竞赛编码工具调用基准测试中的得分接近或超过闭源的o4-mini模型 [2] - gpt-oss-20b在基准测试中的分数与o3-mini相当或超过o3-mini [2] - 新模型可在电脑手机等端侧设备上本地部署 gpt-oss-120b可在单张80GB容量的GPU上运行 gpt-oss-20b可在16GB内存的消费级设备上运行 [2] Anthropic产品策略调整 - Anthropic决定更频繁地推出产品渐进式更新而非只专注于重大版本更新 [3] - Claude Opus 4 1在深入研究数据分析代理搜索方面的能力较前一代有所提升 [3] - 新产品擅长处理复杂的多步骤问题被定位为更有效的AI智能体 [3] - 在SWE-bench Verify基准测试中 Claude Opus 4 1得分74 5% 超过Opus 4的72 5% [4] - 在Terminal-Bench GPQA Diamond MMMLU基准测试中的得分分别为43 3% 80 9% 89 5% 超过Opus 4的39 2% 79 6% 88 8% [4] 谷歌世界模型进展 - 谷歌推出通用世界模型Genie 3 是公司第一个允许进行实时交互的世界模型 [5] - Genie 3可以生成多样化的交互环境模拟水光等自然现象生成包含动物植物的生态系统创造动画角色并模拟复杂环境下各种元素的相互作用 [5] - Genie 3可以以每秒24帧的速度进行导航在720p分辨率下保持长达几分钟的画面一致性视觉记忆可追溯至一分钟前 [5] - Genie 3可生成长达几分钟的画面一致性而Genie 2只能生成8秒 [6] - Genie 3可模拟灯光节期间在水面上行驶的摩托艇效果十分真实 [6]

Claude Opus 4.1

Claude Opus 4.1

OpenAI、谷歌等深夜更新多款模型，展示开源、智能体、世界模型进展

第一财经· 2025-08-06 12:49

OpenAI产品策略变化 - OpenAI时隔六年再次开源模型，推出gpt-oss-120b和gpt-oss-20b两个推理模型，参数量分别为1170亿和210亿，均采用MoE架构 [1][2] - 开源策略转变源于DeepSeek引领的开源趋势，CEO表示推出强大开源模型"非常重要"，这两款模型是耗资数十亿美元的研究成果 [1] - gpt-oss-120b在竞赛编码、工具调用基准测试中接近或超过闭源o4-mini，gpt-oss-20b与o3-mini相当或更优，性能属开源模型第一梯队 [2] - 新模型支持端侧设备本地部署，gpt-oss-120b可在单张80GB GPU运行，gpt-oss-20b可部署在16GB内存消费级设备甚至手机 [2] Anthropic产品策略变化 - 公司改变以往专注重大版本更新的策略，转向更频繁推出渐进式更新，此次发布Claude Opus 4.1并计划未来几周推出更多更新 [3] - Claude Opus 4.1在代理任务、现实世界编码和推理方面升级，擅长处理复杂多步骤问题，定位为更有效的AI智能体 [1][3] - 在SWE-bench Verify测试中得分74.5%超过前代72.5%，Terminal-Bench、GPQA Diamond、MMMLU测试分别达43.3%、80.9%、89.5%均超前代 [4] - 用户反馈显示代码修改精准度和调试效率明显改善 [4] 谷歌世界模型进展 - 推出首个支持实时交互的通用世界模型Genie 3，被视为迈向AGI的关键垫脚石 [5] - 可生成多样化交互环境，模拟水、光等自然现象及生态系统，动画角色和复杂元素相互作用，画面一致性达几分钟 [5] - 相比Genie 2的8秒画面一致性，Genie 3能生成长达几分钟的720p画面，视觉记忆可追溯一分钟前 [5][6] - 演示显示可模拟摩托艇撞击效果、生成推进视角的教室场景等高度逼真交互 [6] - 仍存在动作空间有限、多智能体交互模拟困难、交互时长不足数小时等局限 [9] 行业技术趋势 - 大模型能力持续升级，通过开源端侧部署模型、推进智能体技术、实现世界模型交互等方式提升可用性 [9]

Claude Opus 4.1

Claude Opus 4.1

震撼，世界模型第一次超真实地模拟了真实世界：谷歌Genie 3昨晚抢了OpenAI风头

36氪· 2025-08-06 11:17

谷歌DeepMind Genie 3世界模型发布 - 公司宣布推出第三代Genie世界模型，可通过单个文本提示词创建交互式、可玩的环境，支持生成从逼真风景到奇幻境界的多样化场景[1][2] - 模型在720p分辨率下实现每秒24帧实时导航，保持数分钟一致性，显著优于前代Genie 2和同类产品[2][3] 技术参数对比 - 分辨率：Genie 3达720p，超越GameNGen(320p)和Genie 2(360p)，但低于Veo(最高4K)[3] - 交互视界：Genie 3达数分钟，远超GameNGen(几秒)、Genie 2(10-20秒)和Veo(8秒)[3] - 实时性：Genie 3实现实时响应，而Genie 2存在延迟[3] - 通用性：Genie 3适用于通用领域，优于游戏专用的GameNGen[4] 核心技术突破 - 实现实时响应和长时间一致性，模型需每秒多次计算以处理用户输入并维持场景连贯性[7] - 具备视觉记忆能力，可回溯一分钟前的画面状态，解决自回归生成误差累积问题[7] - 通过"涌现能力"实现二维图像的动态一致性，区别于NeRF等三维生成方法[8] 创新功能 - 支持"可提示的世界事件"，可通过文本改变已生成世界的天气、物体等要素[9][11] - 能模拟自然现象、生态系统、动画场景及历史背景，突破地理时间限制[10] - 为智能体训练提供虚拟环境，如DeepMind已将SIMA智能体接入Genie 3世界进行测试[12] 应用前景 - 预计将为教育、培训领域创造新机会，如历史场景重现等教学应用[12] - 可能推动AI研究和生成式媒体发展，公司计划扩大测试范围[12] - 从2018年GQN到Genie 3，世界模型技术实现显著进化[13] 当前局限性 - 动作空间有限，agent直接执行的动作范围受限制[16] - 多agent交互模拟仍具挑战性，真实地理位置还原精度不足[16] - 文本渲染依赖输入描述，连续交互时间目前仅限数分钟[16]

六年来首次！OpenAI发布两款开放权重AI推理模型！奥尔特曼称其为“全球最佳开放模型”

每日经济新闻· 2025-08-06 06:57

OpenAI开源模型发布 - OpenAI宣布推出两款开放权重AI推理模型GPT-OSS-120b（1170亿参数）和GPT-OSS-20b（210亿参数）[1][3] - 大模型GPT-OSS-120b可由单个英伟达专业数据中心GPU驱动小模型GPT-OSS-20b能在16GB内存消费级笔记本运行[3] - 模型采用Apache 2.0许可证企业商用无需付费或获得许可[5] - 这是OpenAI六年来首次推出开放权重模型标志战略转向重要节点[6] 模型技术细节 - 采用专家混合(MoE)架构Transformer 减少活跃参数数量[6] - GPT-OSS-120b每个token激活5.1亿参数 GPT-OSS-20b激活3.6亿参数[6] - 支持高达128k上下文长度使用交替密集和局部带状稀疏注意力模式[6] - 大模型需要至少60GB显存小模型需要16GB显存适配高端消费GPU和苹果芯片Mac[7] 模型性能表现 - GPT-OSS-120b在核心推理基准测试接近OpenAI o4-mini表现[7] - 在Codeforces、MMLU、HLE、TauBench等测试优于o3-mini 匹敌甚至超越o4-mini[7] - 在HealthBench和AIME竞赛数学表现超过o4-mini[7] - GPT-OSS-20b在同类评估中匹敌甚至超越o3-mini[7] - 两款模型在PersonQA基准测试中幻觉率分别为49%和53% 高于o4-mini的36%[11] 行业合作与竞争 - 亚马逊将在Bedrock和SageMaker平台提供OpenAI开放模型系首次合作[6] - OpenAI与英伟达、AMD、Cerebras和Groq等芯片商合作确保跨芯片兼容性[12] - 谷歌DeepMind同期推出第三代世界模型Genie 3 可生成720p实时交互环境[13] - Genie 3与通用智能体SIMA结合测试为具身智能体提供训练场[14] 战略背景 - 公司承认此前在开源技术方面"站在历史错误一边" 此次发布受市场竞争压力驱动[5][12] - 模型经过广泛安全测试过滤CBRN有害数据恶意微调无法达到高能力阈值[12] - 公司预告本周将有"重大更新" 市场预期可能是GPT-5发布[12]

开放权重AI推理模型

开放权重AI推理模型

小马智行（PONY）：革新交通运输，Robotaxi驶向未来

东吴证券· 2025-08-05 21:30

投资评级 - 首次覆盖给予"买入"评级 [1] 核心观点 - 小马智行作为Robotaxi技术领跑者有望受益于政策完善技术突破和产业链降本单位经济模型转正后有望快速规模化实现扭亏 [9] - 公司技术底蕴深厚立足北上广深一线核心城市与出行巨头Uber等合作伙伴积极开拓海外市场发展潜力大 [9] - 预计2025-2027年营业总收入分别为0 78 1 05 3 42亿美元当前市值对应PS分别为59 7 44 2 13 5倍 [9] 财务数据 - 2023A-2027E营业总收入预测(百万美元): 71 90 75 03 77 58 104 91 342 42 [1] - 2023A-2027E归母净利润预测(百万美元): (124 81) (274 12) (225 28) (206 22) (65 32) [1] - 2024年毛利率15 2% 较2021年77 7%显著下降主要因低毛利率自动驾驶卡车物流营收占比提高 [32] - 2024年研发费用同比+95 7%至2 40亿美元主要因第七代车型开发推进 [32] 技术优势 - 应用"世界模型"技术近六年 PonyWorld已生成超百亿公里测试数据 [9] - 安全冗余系统具备超20项功能安全冗余机制超1000项实时检测设计车队安全性达人类驾驶水平10倍以上 [9] - 第七代自动驾驶系统BOM成本较上一代降低70% 其中车载计算单元/激光雷达成本降幅达80%/68% [9] 商业化进展 - 商业化运营区域总面积突破2000平方公里单车日均订单量超15单 [9] - Robotaxi车队累计超50万小时全场景全天候全无人安全运营 [9] - 计划2025年底前将车队规模扩展至千辆 [9] - 自动驾驶卡车累计路测里程超600万公里货物运输量达9 4亿吨公里 [9] 战略合作 - 国内与如祺出行支付宝高德打车腾讯云等平台合作 [9] - 海外持有美国韩国卢森堡等国Robotaxi牌照 2025年下半年将在中东接入Uber平台 [9] - 与丰田广汽北汽等车企合作推动L4级无人驾驶车型量产 [14] 行业前景 - 随自动驾驶套件量产降本 Robotaxi BOM成本下探30万元量级 [9] - 政策支持安全性提升与硬件降本有望助力Robotaxi迈过商业化拐点触达千亿级市场空间 [9] - 乐观预计Robotaxi占B端共享出行比例有望提升至36% 市场空间触达2000亿元 [62]

小马智行(US:PONY)

自动驾驶技术

自动驾驶技术

Scaling Law再遭质疑：“退化式AI”竟成终局？

虎嗅· 2025-08-04 20:14

大模型扩展的局限性 - 当前大模型行业依赖暴力数据扩展追求性能提升，但面临收益递减甚至负回报的困境 [1][2] - 学者警告 scaling law 在改善大语言模型预测不确定性方面存在严重缺陷，难以达到科学探究的可靠性标准 [2] - 这种扩展路径可能导致"退化式 AI"，即灾难性积累错误与不准确性 [4] 核心机制缺陷 - 大语言模型从高斯输入分布生成非高斯输出分布的机制是错误积累的根本原因 [5] - 极低的扩展指数导致性能提升幅度有限，例如 GPT-4.5 参数量达 5-10 万亿但科学领域无实质进展 [11][12][14] - Llama 4 Behemoth 参数量达 2 万亿但性能未达预期规模水平 [13] 扩展壁垒与准确性困局 - 扩展指数符号变化预示"壁垒"出现，超过阈值后准确性可能显著下降 [16] - 即使同质训练场景中准确性问题也经常出现，异构情境下泛化能力不足 [18][19][21] - 数字系统舍入误差随复杂性增加而明显，影响模型可靠性 [20] 替代方案尝试 - 行业尝试通过大型推理模型和 Agentic AI 提高输出可信度，但缺乏严谨科学评估标准 [25] - 思维链策略模拟人类推理，但可持续性路径仍不明朗 [26][27] - AlphaEvolve 利用大语言模型生成代码变体，用进化算法替代强化学习 [28] 退化风险与解决路径 - 使用合成数据训练的大语言模型更容易发生退化式 AI [29] - 小扩展指数引发非高斯波动，导致不确定性韧性和信息灾难 [30] - 数据增加有时反而减少信息量，如存在冲突数据或恶意注入错误信息 [31] - 构建"世界模型"可从数据中识别真实相关性，避免盲目规模扩张 [34]

Llama 4 Behemoth

Llama 4 Behemoth

AI大潮下的具身和人形，中国在跟跑还是并跑？

观察者网· 2025-08-03 13:35

具身智能与人形机器人发展现状 - 具身智能被视为通往AGI的必经之路特斯拉Optimus和波士顿动力Atlas的进展引发全球关注 [1] - 中国在具身智能领域已从"跟跑"转向与美国"并跑"甚至寻求"弯道超车" [1] - 行业讨论焦点集中在电机供应链强化学习算法落地场景与资本路径 [1] 美的集团机器人战略布局 - 2016年起通过收购库卡等企业布局To B业务形成四大板块：楼宇科技工业技术机器人与自动化新兴AI业务 [3][4] - 人形机器人业务2023年启动规划 2024年加速发展依托电机减速机等核心零部件技术积累 [4] - 库卡机器人主要服务汽车制造(60%) 3C(20%) 船舶/航空(15%)等工业领域 [4] 格灵深瞳技术路线 - 中国首家科创板AI上市公司深耕计算机视觉12年覆盖金融安防智慧体育等场景 [5] - 推出视觉基础大模型MVT 1.5版本实现图像到视觉token的转换 [5][32] - 探索视频模型技术提升机器人对动态场景的理解能力 [36] 人形机器人技术演进 - 关节数量从传统200+缩减至现代40个(全身30个) 强化学习使复杂控制成为可能 [8][9] - 技术路线从液压传动(波士顿动力)转向电动传动(中国供应链优势) [12] - 控制方式从rule-base转向learning-base 提升任务泛化能力 [11][12] 形态路线争议 - 双足形态：适合动态复杂场景(工厂阶梯火星移民) 具备动力学平衡优势 [16][18] - 轮式形态：平坦场景效率更高(家庭标准工厂) 安全性更优 [13][15] - 混合形态：智元推出可折叠轮足机器人尝试平衡效率与适应性 [20] 灵巧手发展路径 - 五指灵巧手：符合人机交互直觉数据采集便利但成本高达数万元 [22][25] - 两指夹爪：满足70%基础任务成本优势明显成为当前主流方案 [25][26] - 美的认为通用人形机器人必须配备五指手工业场景则倾向专用末端 [22][23] 技术概念解析 - 具身智能：实现感知-决策-执行的完整闭环需与物理世界持续交互 [30][33] - World Model：物理世界的数字重建面临数据采集成本高难题 [40] - 强化学习：具身智能必备组件但reward函数设计仍是关键挑战 [42][46] 中美产业对比 - 中国优势：机电产业链成熟(占全球人形机器人专利40%) 人才储备充足政策支持力度大 [63][64] - 美国优势：AI基础研究领先人力成本推动场景落地更快 [63][66] - 硬件创新中国占优(蔚小理等) 软件创新美国领先全球市场成为共同目标 [66] 商业化落地展望 - 工业场景优先：上汽计划引入500台人形机器人分阶段实现自动化 [9][60] - 家庭场景需突破：安全标准隐私保护个性化交互等核心问题 [61] - 数据采集瓶颈：需建立类似特斯拉FSD的规模化数据获取机制 [57]

通用人工智能

大语言模型

多模态模型

通用人工智能

大语言模型

多模态模型

赛道Hyper | 小鹏机器人中心成立智能拟态部

华尔街见闻· 2025-08-03 11:44

公司动态 - 小鹏机器人中心新成立智能拟态部，聚焦机器人多模态领域，研究方向包括具身智能原生多模态大模型、世界模型、空间智能等前沿技术[1] - 部门由葛艺潇掌舵，其曾担任腾讯ARC Lab技术专家，28岁晋升为腾讯T12技术专家级，在多模态领域有突出成就[2] - 目前部门仅有3名成员，但已开启社招、校招和实习招聘，招聘岗位为"研究科学家（多模态方向）"[2] 研究方向 - 具身智能原生多模态大模型：致力于赋予机器人全方位感知与交互能力，使机器人能同步处理视觉、听觉、触觉等多元感知信息[4] - 世界模型：旨在让机器人通过观察与交互深度理解世界运作规律，提升面对环境变化或新任务时的灵活性[6] - 空间智能：聚焦机器人对三维空间信息的精准理解与高效运用，提升在物流仓储、建筑施工等场景中的操作能力[7] 技术应用场景 - 家庭服务场景：机器人可精准识别语音指令、手部动作，感知周围环境障碍物，完成收拾房间、照顾老人等复杂任务[5] - 工业生产场景：机器人能综合视觉识别零部件形状与位置、触觉感知装配力度，实现高效精准的产品组装[5] - 物流仓储场景：机器人可依据世界模型理解货物存储规则，在货物摆放位置改变时迅速规划新搬运路径[6] - 建筑施工场景：机器人可识别建筑材料位置，规划吊运路线，精准完成材料运输[9] 战略布局 - 小鹏汽车董事长何小鹏透露公司已在人形机器人产业深耕5年，未来可能还需投入20年，计划投入500亿至上千亿元[10] - 计划2026年量产面向工业场景的L3级人形机器人，实现手、脚、眼、脑全向协同能力[10] - 将在第五代机器人上部署图灵芯片，大幅提升机器人端侧算力，复用小鹏物理世界基座模型的VLA架构[10] 技术挑战 - 算法优化：需要突破现有算法局限，开发能高效处理多模态数据、实现精准预测与决策的新算法[12] - 算力支持：面对海量数据处理与复杂模型运算需求，当前算力水平不足，需提升硬件性能与优化计算架构[12] - 数据质量：获取高质量、多样化且标注精准的数据面临诸多困难，如数据采集成本高、标注准确性难以保证等[12] 行业竞争 - 机器人领域技术路线竞争激烈，各大企业与科研机构纷纷布局[13] - 小鹏以多模态为切入点，避开部分与巨头的正面交锋，但该技术路径的可行性尚未得到充分验证[13] - 若在多模态技术上取得突破，可能重塑行业格局，推动机器人行业向更智能、更高效方向发展[14]

多模态技术

人形机器人

多模态技术

人形机器人

智元机器人罗剑岚老师专访！具身智能的数采、仿真、场景与工程化~

自动驾驶之心· 2025-08-02 00:03

具身智能数据讨论 - 公司与多家传感器供应商合作，重点研发视觉触觉与高密度传感器，并构建跨平台数据采集API以实现标准化数据输入[2] - 机器人应用需达到95%成功率才能满足家庭场景需求，当前性能优化是主要门槛[2] - 仿真数据用于模型迭代但大模型训练100%使用真机真实数据，仿真流水线在扩展性上存在瓶颈[2][3] - 合成数据仅用于工程迭代与模型调试，发布与部署阶段完全依赖真实场景数据[3][4] - 真实数据成本核心在于缺乏标准化机制，公司尝试通过远程摇操、自动部署机器人等方式建立自动化数据采集闭环[6] - 机器人数据瓶颈与自动驾驶不同，需解决数据稀缺、性能优化及工程伦理等多方面挑战[7] 具身大模型评估 - 行业缺乏通用benchmark，公司计划搭建统一真机测试场供不同模型评估[8][9] - 评估维度包括具身技术路线与性能表现，当前从Demo炫技转向产业闭环但仍面临工程复杂性等挑战[9] - 公司世界模型基于统一平台，能生成视频、评测模型并训练策略，处理复杂场景能力较强[10] - VLA路线需结合大模型与优化策略，机器人执行要求远高于ChatGPT的50%-60%准确率[11] - 中美差异：美国重算法创新与开源生态，中国在工程集成与规模部署上更具优势[12] 遥操作vs自主决策 - 自主决策需机器人理解世界、生成策略并执行任务，关键技术门槛在于多模态信息融合与高成功率[13][14] - 当前"失控"问题源于软件设计不完善而非机器人意识，公司通过模拟测试与安全机制确保安全[14] - 数据积累路径从垂直场景逐步过渡到通用场景，无法直接实现通用能力[15] 具身智能应用场景与落地 - 场景部署流程分为任务建模、场景迁移、场景适配与安全验证四步，强调软硬件协同与人机安全[17][18] - 工业结构化环境更易落地，需满足近乎100%的性能要求，家庭场景因复杂性长期市场更大[20][21] - 工业场景中VLA需结合大模型与优化策略，相比传统方案具备更强泛化能力与更低调试成本[23] - 人形机器人技术路线未收敛，公司同时依赖外部厂商与自研技术探索模块化标准[23] - 家庭环境异质性带来工程挑战，需通过垂直场景数据积累逐步演化通用能力[23] - 执行速度慢源于模仿学习局限，需引入专门优化训练而非仅模仿原始操作[24] 具身未来展望 - 追求DeepSeek moment即高成功率+泛化能力+速度的统一提升，而非ChatGPT式低成功率泛化[26] - 数据驱动成为科学范式，通过大规模数据与统计验证建立结论[27] - 未来架构可能超越Transformer，类脑架构更贴近生物大脑处理模型[28] - 传感器选择关键在"对的传感器"而非数量，方法论与算法架构更重要[28] 具身软硬件协同 - 公司构建平台化操作系统（类似"机器人Android"）为硬件与传感器提供统一接口[30] - 行业需开放合作共建生态，单靠操作系统无法推动性能级模型创新[31][32]

多模态大模型

平台化操作系统

多模态大模型

平台化操作系统