Scaling Law
搜索文档
中金:具身智能走向数据驱动 高价值信息量成具身智能竞争核心
智通财经网· 2025-11-17 09:37
具身智能算法架构 - 分层控制是基础架构范式,以两级结构实现工程化,短期分层架构因工程可控性仍是主流 [1] - VLA范式以视觉语言模型为基础强化泛化与交互能力,是当前活跃研究方向,在复杂任务和人机交互中展现潜力 [1] - 世界模型通过环境建模与未来预测提供物理约束,处于科研主导阶段,因具备跨设备迁移能力被视为长期方向 [1] 具身智能数据策略 - 机器人数据涵盖多模态,产业找寻低数据成本获取与高数据效率应用路径 [2] - 数据获取端包括真机、视频第一人称或第三人称、仿真等路线 [2] - 数据安全为不容忽视的底线,人形机器人厂商面临权限隔离、数据加密体系、跨境传输政策等多方挑战 [2] - 异构训练通过模块化Transformer架构,跨机器人本体共享算法模型,打破传统“同构闭环”仅能在同类型硬件上复现策略的限制 [2] 具身智能热点议题 - 机器人Scaling Law与离身智能不同,尚未迎来爆发式突破,真实数据产能不足、Sim2Real迁移等为制约因素 [3] - 具身机器人缺乏公认量化框架,面临场景多样性、任务转化等难题,斯坦福李飞飞团队发布具身智能评测BEHAVIOR-1K推动评测标准化 [3] - 物理AI融合物理知识与AI模型,已走向机器人操作应用 [3]
中国曾经也有一家“OpenAI”
虎嗅APP· 2025-11-16 17:08
智源研究院的战略定位与模式 - 智源研究院是一家非营利性研究机构,拒绝成立商业化子公司,坚持其非营利的纯粹性[5][14][16] - 该机构通过“成果孵化”模式支持内部人才创业,并提供学术与资源支持,已孵化出智谱AI和月之暗面等公司,二者估值均达约300亿元人民币[5][13] - 智源形成了“科研—孵化—成果转化”的闭环体系,通过早期孵化和后期股权退出获得造血能力,以维持研究的长期独立性[15] 研究方向从“悟道”到“悟界”的转变 - 智源的研究重点已从大语言模型(“悟道”系列)转向多模态模型(“悟界”系列),因大语言模型技术路径已收敛,而多模态路线尚未确定[5][6] - 2024年10月发布了EMU3.5世界模型,该模型具备Scaling范式的潜力,但尚未达到真正的“Aha Moment”,因此版本号为3.5而非4[7][8][25] - EMU3.5的参数量约为三百多亿,相当于语言模型GPT-3.5之前的水平,接近多模态领域的“ChatGPT时刻”[25] 多模态模型的技术路径与核心理念 - 多模态模型EMU3.5模拟人类智能构建过程,主张智能应通过视觉、听觉等多模态感知长期学习而来,而非从文本开始[21][24] - 模型使用海量视频数据训练,在视觉、语言、时间、空间等多维度联合学习,实验显示随着数据量增加,多模态理解能力显著提升[23][24] - 当前EMU3.5仅使用不到全网1%的视频数据,参数量远未达上限,若算力和资源增加十倍,有望训练出下一代模型[25][26] Scaling范式的进展与挑战 - EMU3.5已展现出明确的Scaling趋势,即数据量、参数量与性能之间存在正相关,但尚未形式化为可定量关系的Scaling Law[27][28][29] - 从EMU3到EMU3.5的研发周期约一年,期间重点解决了自回归架构误差累积、视觉token表达方式等核心技术问题[31] - 多模态模型的Scaling范式已被验证可行,但后续更大规模的数据和算力投入更适合企业或资本推动[26] 人才组织与文化吸引力 - 高人才密度组织的共性是使命愿景驱动和价值观一致,早期OpenAI和智源均靠此凝聚顶尖研究者[11][12] - 智源能吸引放弃大厂高薪的研究员,因其提供长期科研价值的工作环境,筛掉只追求物质回报的人,留下技术信仰者[12][13] - 机构鼓励科研人员自由流动、创业或去企业,只要延续其技术路线,这种开放性被视为保持机构生命力的关键[18]
本体无关:Generalist 27万小时要掀真机采集场桌子
36氪· 2025-11-14 08:17
行业核心观点 - 数据竞赛的关键分水岭在于是否回归数据采集的“第一性原理”,即追求可复用、可扩展、可演进的规模化数据流,而非数据方案的路线之争 [1] - 传统执着于单一本体、高成本标注的真机遥操模式难以支撑Scaling Law所需的数据洪流,背离了智能泛化的基本逻辑 [1][24] - Generalist AI的突破重写了具身智能时代的数据法则:打破本体依赖,建立可复用、可扩展的数据飞轮是迎接Scaling Law时代的关键 [25] 具身智能领域的Scaling Law验证 - 2025年11月4日,Generalist AI发布GEN-0具身基础模型,在27万小时人类操作视频数据上完成训练,首次在机器人领域验证了Scaling Law的存在,被业内誉为具身智能的“ChatGPT时刻” [1] - 27万小时的数据量远超目前公开的所有本体机器人数据集,且数据量仍以每周1万小时的速度增长 [3] - Generalist采用了UMI(通用操作接口)方案,使数据采集设备与机器人本体解耦,可在全球数千个家庭、仓库、工作场所灵活部署,实现了真正的规模化数据采集 [12] 真机遥操数据的瓶颈 - 真机遥操数据采集本质是受限于物理世界的线性积累过程,其缓慢的积累速度无法满足Scaling Laws对数据规模的指数级需求 [3] - 典型模式是围绕特定机器人硬件建立线下数据工场,由操作员遥操作真实机器人进行任务演示,其增长严重依赖“堆人头”和实机运行,是线性的 [3] - 物理硬件的“锚定效应”使得数据采集体系刚性且笨重,无法实现灵活、快速的规模化扩展,数据积累速度被硬件能力和可用性锁死 [4] - 真机遥操数据虽质量高,但难以跨形态部署,当机器人本体迭代或需求变化时,此前数据资产难以复用,形成“卖本体”驱动的数据采集模式 [12] - 数据采集消耗大量人力物力,大部分采集员为兼职或外包,影响数据质量,且难以触碰Scaling Law [12] 具身机器人落地的核心需求 - 产业核心命题是倾听具身机器人的“真实需求”,其价值实现核心在于“用起来”的深层逻辑,即场景应用必须同时满足刚需性、长效性与规模经济性的三重诉求 [5] - 真正落地方向是成为人类劳动的“协同伙伴”,将人类从重复性、低价值、高危、高负荷作业中解脱,深度融入工厂生产、商业服务、特种作业等核心产业场景 [5] - 产业落地要求具身机器人跳出“动作复刻”的桎梏,深度理解物理世界的内在肌理与动态运行轨迹,不仅要“会做”,更要“懂做” [6] - 长效落地产业场景的核心难点集中于触觉反馈、力控精度、环境感知等精细化交互能力,而非宏观动作 [6] 精细化交互数据的挑战与价值 - 李飞飞指出,开发机器人的核心挑战是缺乏适用于各种具身形式的训练数据,机器人需要掌握更精细的物理交互数据 [8] - 足量且高质量的精细化数据是具身机器人精准执行任务的“养分”,这部分人类难以言说的数据成为制约其规模应用的重要痛点 [8] - 精细化能力缺失导致诸多“落地试错案例”,如拧瓶盖时压扁水瓶、搭积木时碰倒整排、工业装配中出现零件压损或错位等 [9] - 产业的真正拐点,必将始于在核心能力培育所需的数据供给上取得根本性突破 [9] 数据金字塔与仿真合成数据的潜力 - 行业公认的数据金字塔分为三层:底层是互联网海量公开数据及人类操作视频数据,中间层为仿真合成数据,塔尖是价值密度最高的真机遥操数据 [10] - 仿真合成数据展现出触碰Scaling Law的潜力,且在经济效率上更具优势,同一套仿真场景资产可以适配不同形态的机器人进行训练 [14] - 仿真数据可在虚拟环境中快速生成海量、多样化训练数据,在成本控制和部署灵活性上具有独特优势,能填补预训练数据集的巨大缺口 [16] - 仿真环境可精准模拟触觉反馈、力控阈值等真机实测中难以捕捉的精细化参数,同时通过调整场景变量生成具备场景泛化性的数据 [16] 仿真合成数据的商业实践与技术进展 - 银河通用坚持以仿真技术为核心研发路径,成功推出“银河太空舱”并全国大面积落地,证明了仿真路线在商业转化上的巨大潜力 [17] - 李飞飞强调不会低估高质量合成数据的力量,它们在训练过程的关键步骤中补充了互联网规模的数据 [18] - 光轮智能与NVIDIA合作开发电缆仿真解决方案,能够处理“可变形体+刚体”双重物理属性,为机器人操作线缆等复杂任务提供高保真数据 [20] - 光轮智能建立完整基准测试流程,确保仿真数据有效性,其目标不是“数字孪生”而是生成具有多样性和代表性的“数字同类体” [22] - 光轮通过标准化流程将现有数字资产快速转化为仿真就绪资产,如一个冰箱模型转化时间可缩短至约20分钟,支持单GPU并行运行成百上千个环境 [22] - 光轮智能已实现破亿营收,客户覆盖DeepMind、斯坦福、Figure、阿里、字节等顶尖企业与机构,验证了仿真合成数据的规模化市场价值 [23]
2026年A股策略展望:“小登”月时代,牛途仍在
国信证券· 2025-11-13 20:03
核心观点 - 始于2024年“924”行情的牛市尚未结束,当前正进入以基本面为驱动力的第二阶段 [1] - 全年维度看,科技是核心主线,演绎路径从算力转向应用 [1] - 牛市中期存在风格轮动,可阶段性关注前期滞涨的地产、券商、白酒消费板块,红利资产仍具底仓配置价值 [1] 牛市阶段与驱动力 - 完整牛市分为孕育期、爆发期和疯狂期三个阶段,当前市场处于与1999年“519”行情相似的爆发期 [11] - 市场驱动力已从政策预期和估值修复的第一阶段,转向基本面和估值双击的第二阶段 [11] - 企业基本面呈现改善迹象,全A非金融ROE预期小幅上修,中报ROE企稳,三季报向上,利润率与周转率开启修复 [19] - 全A合同负债同比已连续修复一年,预计2026年部分行业将进行有序补库扩产,驱动盈利韧性继续向上 [19] 市场估值与结构 - 当前市场估值结构健康,未出现整体过热,5倍以上PB个股不足18%,远低于2015年6月时近六成的占比 [21] - 当前三年PB 75%分位数个股占比约为50%,显著低于2015年向上冲破4000点和向下跌回4000点时的80%+水平 [21] - 市场分化显著,“小登资产”(代表新兴科技)表现碾压“老登资产”(代表传统行业),2025年以来“小登股”组合上涨189%,“老登股”仅上涨2% [30] 流动性环境 - 国内微观流动性有支撑,“存款搬家”趋势延续,新增个人存款与新增M2的比值在2025年9月已回落至0.58 [35] - 随着高息环境下的中长期定存、大额存单陆续到期,部分资金可能重新配置于收益率更高的资产,加速“存款搬家”进程 [35] - 入市意愿指标温和回升,2025年1-9月新增开户数均值维持在224万户左右,三大炒股APP下载量之和在2025年10月为97.07万,仅为2024年10月高点(303.77万)的32% [39] - 海外方面,美国中期选举存在变数,预防式降息下半场有望驱动全球资金流向新兴市场风险资产 [1] 科技主线的产业逻辑 - 历史上每轮牛市均有明确主线,本轮为科技,由AI产业浪潮驱动,15只千亿科技标的贡献全A 10%的涨幅 [2] - 中美两国引领AI产业发展,呈现美国“深度优先”、中国“广度优先”的特征,中国在AI领域论文总量领先,美国则在“高影响力”研究方面领先 [68] - 中国科技型企业成立平均年限仅为美国一半,多数处于成长期,利润率提升空间充足,SPX成份股中前100家市值最大的美国科技股整体ROE为25.8%,比非科技股高近一倍 [68] - “十五五”规划开局年,政策聚焦培育壮大新兴产业和未来产业,科技自立中长期逻辑明确 [79] 科技趋势:从算力到应用 - Scaling Law持续印证算力需求,谷歌月token处理量从5月的480万亿翻倍至9月的超过1300万亿个 [89] - 大厂资本开支指引乐观,Google、Meta在2025年10月进一步上调资本开支,全年指引分别达到910-930亿美元和700-720亿美元 [90] - 产业重心从训练转向推理,AI Agent成为新驱动,预计2030年AI Agent市场规模将增长至471亿美元,为2024年的近十倍 [89] - 2025年上半年,全球生成式AI应用下载量接近17亿次,API收入高达19亿美元,用户日均会话数达到7.8次,较2024年增长37% [96] 五大AI应用投资机遇 - **AI眼镜**:预计2026年全球销量突破1000万副,至2029年全球市场规模突破1000亿元,有望复刻TWS发展轨迹 [98] - **机器人**:Figure发布新一代人形机器人Figure 03,具身智能迎来“GPT-2”时刻,国内具备成本优势的供应商有望受益 [108] - **智能驾驶**:中国智能汽车渗透率上升至57%+,L2及以上级别智驾在10万以下车型中实现突破,大模型在智驾领域应用空间广阔 [113] - **AI编程**:AI编程工具ARR在2025年加速明显,以“Agent”为基准的开发模式兴起,“人人皆可码”愿景可期 [120] - **AI+生命科学**:AI智能体可优化约75%-85%的现有生命科学工作流程,预计未来3-5年内为制药企业带来5%-13%的收入增长,并提升EBITDA 3.4-5.4个百分点 [124] 主线之外的配置机会 - 牛市中期往往出现风格轮动,可阶段性关注白酒(低估值、高股息)、券商(成交放量、业绩高增)、地产(股价领先基本面)等前期滞涨板块 [2] - 上述板块筹码拥挤度较低,地产券商主动偏股基金低配,白酒超配不足1.2个百分点 [133] - 红利资产具备穿越熊牛周期的属性,在金融资产荒背景下,其股息率能跑赢存量房贷利率,是居民“风险厌恶仓位”的重要出口 [137][142] - 长期看,红利资产夏普比率大于0.6,年度胜率超75%,在全A涨幅20%以下的年份胜率接近九成,长期回报不依赖估值扩张 [137][142]
2026年A股策略展望:“小登”时代,牛途仍在
国信证券· 2025-11-13 17:23
核心观点 - 始于2024年“924”行情的牛市尚未结束,当前已进入以基本面为驱动力的第二阶段 [1] - 2026年全年维度,科技是核心主线,投资演绎路径将从算力转向应用 [1] - 牛市中期存在风格轮动,可阶段性关注前期滞涨的地产、券商、白酒消费板块,红利资产在金融资产荒背景下仍具底仓配置价值 [1][2] 牛市阶段与驱动力分析 - 完整牛市包含孕育期、爆发期和疯狂期三阶段,本轮牛市与1999年“519”行情相似,目前处于爆发期 [1][11] - 市场驱动力已从政策预期和估值修复的第一阶段,转向基本面和估值双击的第二阶段 [11] - 上市企业ROE稳步回升,合同负债同比已连续修复一年,盈利预期持续上修 [1][19] - 当前市场估值结构健康,未出现整体过热,5倍以上PB个股不足18%,远低于2015年同期的近六成水平 [21] 市场结构与流动性 - 市场结构性分化显著,“小登资产”(科技成长)表现碾压“老登资产”(传统行业),2025年以来“小登股”组合上涨189%,“老登股”仅上涨2% [30] - 微观流动性仍有支撑:国内“存款搬家”趋势延续,新增个人存款与新增M2比值在2025年9月已回落至0.58;海外美联储预防式降息下半场有望驱动全球资金流向新兴市场风险资产 [1][35][47] - 入市意愿指标温和回升但远未达峰值,2025年1-9月新增开户数均值维持在224万户左右,三大炒股APP下载量之和仅为2024年10月高点的32% [39] 科技主线的产业逻辑与机遇 - 历史上每轮牛市均有明确主线,本轮为AI浪潮驱动的科技主线,“924”以来15只千亿科技标的贡献全A 10%涨幅 [2][57] - 中美两国引领AI产业,中国侧重应用广度,美国侧重技术深度,中国三分之一以上的硬科技企业仍处于成长期,利润率提升空间充足 [2][68] - 产业大趋势明确,Scaling Law持续印证,谷歌月token处理量从5月的480万亿翻倍至9月的超过1300万亿个,大厂资本开支指引乐观 [87][90] - 投资重点从算力转向应用,重点关注五大方向:AI眼镜(预计2029年全球市场规模突破1000亿元)、机器人、智能驾驶(中国L2及以上渗透率已达57%+)、AI编程、AI+生命科学(预计为制药企业带来5%-13%收入增长) [87][98][108][113][120][124] 阶段性配置机会与红利资产 - 借鉴历史,牛市中期市场风格或出现再平衡,可阶段性关注白酒(股息率一度重回4%+)、券商(受益成交放量,Q2、Q3业绩持续修复)、地产(股价领先基本面,估值低) [2][128][133] - 红利资产具备穿越牛熊的属性,长期风险收益比占优,夏普率大于0.6,在金融资产荒背景下,其股息率跑赢存量房贷利率,是居民“风险厌恶仓位”的重要出口 [137][142] - 红利资产相对成长风格,长期回报更依赖盈利贡献而非估值扩张,配置上讲求“久久为功” [142]
宇宙尺度压缩:Scaling Law的边界,柏拉图表征收敛于物质和信息交汇,解决P与NP问题,Simulation假说……
AI科技大本营· 2025-11-13 13:59
科学多任务学习的突破 - 超对称公司在BigBang-Proton项目中成功实现了跨尺度、跨结构的科学多任务学习,验证了高度异质的数据集(如夸克衰变、材料结构、DNA序列、股价等)可以在正确的表征和架构上收敛[1][4] - 该进展突破了传统观点,即认为多学科数据差异过大无法一起训练,预示了跨学科数据在高维潜在空间中可产生迁移学习,为将宇宙视为统一实体进行训练扫清了障碍[2][4] - 公司将算术运算能力作为科学多任务学习的核心,因为实验结果主要呈数值形式,这一科研范式融合了还原论和涌现论[4] Scaling Law的扩展与柏拉图表征 - BigBang-Proton的预训练能够平滑收敛,表明大语言模型的Scaling Law可超越语言范畴,延伸至物理世界[5] - 研究引用了柏拉图表征假说,认为不同AI模型的表征空间会收敛到一个对现实映射的相近统计结果,而物质世界构成了这一理想化现实[6] - 公司提出预训练的极限是宇宙本身的极限,在整个宇宙历史和人类文明数据上预训练的单一模型将收敛到大爆炸时刻的基本物理定律及信息与物质的交汇点[7] 宇宙尺度压缩的构想与理论基础 - 公司提出宇宙尺度压缩构想,旨在将宇宙作为一个完整整体进行预训练,其收敛目标为基本物理定律[1][9] - 理论指出,在人类文明完整数据上训练的模型倾向于收敛到基本自然定律,而在宇宙演化数据上训练的模型倾向于收敛到基本物理定律[9] - 热力学熵与信息熵的相互转换以及流形假设为理解跨领域表征迁移提供了框架,宇宙尺度预训练中的低维结构可能收敛到基本的宇宙流形,并与全息原理一致[10][14] 物理前沿理论与技术实践 - 理论基础包括约翰·惠勒的"It from Bit"、贝肯斯坦边界和全息原理,指出在普朗克尺度下时空维度可能减缩,物质与信息可互相转换[15] - 宇宙尺度压缩是对"计算宇宙"和"模拟假说"的一次实践,通过自回归LLM对物质世界进行压缩,为模拟戴森球或近地轨道工业等远期目标提供了可行性[16] - 根据计算,宇宙最多可容纳约10^90比特的信息,在施加完整物理定律约束后,条件柯尔莫哥洛夫复杂度会急剧降低,LLM预训练扩展至宇宙尺度可能匹配宇宙的复杂性[19][20][21][23][24] 技术路径与潜在应用 - 宇宙尺度压缩计划包括建立统一的时空框架、整合所有科学理论和实验数据、以及从重子组分中重建地球和人类文明[25] - BigBang-Proton的创新方法论为此提供了支持,包括二进制块编码、理论-实验学习范式和Monte Carlo Attention机制,后者可提供与宇宙中重子数量相当的上下文长度[25] - 公司提出假设,仅通过"下一个词预测"即可从微观粒子尺度重建宇宙中的任何物理结构,并计划在单一BigBang模型中模拟大爆炸核合成、量子材料、虚拟细胞系统乃至机器人技术和飞机等复杂物理结构[28] - 该方法有望将具身智能的高精度环境与决策能力整合在同一隐空间,并可从原子尺度加速复杂装备(如飞机、汽车)的设计、生产和迭代[28]
「紫荆智康」获近亿元天使轮融资,加速AI医院系统开发及落地 | 早起看早期
36氪· 2025-11-11 08:10
公司概况与融资信息 - 紫荆智康于2024年9月由清华大学智能产业研究院孵化成立,由清华大学计算机系教授刘洋发起 [2] - 公司近期完成近亿元天使轮融资,由星连资本领投,英诺天使和尚势资本跟投,资金将主要用于紫荆AI医院系统的研发、迭代与升级 [2] - 公司此前曾获得清智资本的种子轮投资 [2] 核心技术:AI医院系统 - 公司核心产品为紫荆AI医院系统,其核心逻辑是通过模拟真实医院的设施和流程,构建超拟人、广分布、多样化的AI患者,以解决训练数据需求 [2] - 系统旨在开发具备自我进化功能的AI医生,为用户提供便捷、低廉、优质的医疗服务,并构建诊前、诊中、诊后的全周期健康管理闭环 [2] - 公司通过“大模型+医学知识库+少量病例库样例”的方式,利用多步逆采样技术自动合成病例,并将合成病例转化为AI虚拟患者 [3] - 目前已构建超50万个AI患者,覆盖不同国家、年龄段与疾病类型,作为训练AI医生的重要补充路径 [3] - 公司设计了特定的记忆与反思算法机制,使AI医生能在问诊闭环中积累“经验”,实现“自进化”能力 [5] - 实验表明,AI医生的能力进化曲线符合规模定律,诊治的AI患者数量越多,能力越强 [5] - 公司研制的42位AI医生在国际权威MedQA数据集上的准确率超过96%,已超过人类医生平均水平 [5] 产品功能与进展 - 紫荆AI医院系统已于2025年6月30日发布,并于2025年8月在清华大学医院全科、呼吸内科等科室开展线下门诊功能内部测试 [6] - 系统设置了患者端APP、医生端工作站和医院系统三个端口,以实现全周期闭环管理 [5] - 诊前功能包括线上挂号和AI机器人智能预问诊、生成结构化病历 [5] - 诊中功能为医生提供结构化病历以节省时间,AI医生会给出检查、诊断等建议 [5] - 诊后功能包括健康档案管理、AI健康咨询、体检报告解读和基于时间线的健康建议 [5] - 公司计划于2025年底开展系统公开测试,测试范围将从北京扩展至全国更多城市,涵盖不同等级、体量的医院及更多科室和场景 [4][6] 行业背景与政策环境 - AI赋能医疗领域长期面临数据资产合规性、产品商业化落地等痛点 [2] - 2025年10月,国家卫健委等五部门印发促进“人工智能+医疗卫生”应用发展的实施意见,紫荆AI医院系统与该文件精神高度契合 [6]
史上规模最庞大、最多元的真实世界操作数据集!具身领域的Scaling Law来了~
具身智能之心· 2025-11-09 22:08
文章核心观点 - GEN-0是一种新型具身基础模型,专为直接基于高保真原始物理交互进行多模态训练构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] 模型架构与核心特性 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性"谐波推理"使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化能力与扩展定律 - 在机器人领域海量数据环境中,观察到70亿参数临界点出现相变,较小模型呈现固化态势,而更大模型持续提升 [6][11] - GEN-0已扩展至100亿+参数规模,并展现出用越来越少训后数据快速适应新任务的能力 [6] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][17] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [18][20] 关键性能发现 - 70亿以上参数模型能够内化大规模机器人预训练数据,仅需数千步微调即可将知识迁移至下游任务 [15] - 60亿参数模型开始从预训练中获益,展现出强大的多任务处理能力 [15] - 10亿参数模型在预训练阶段难以消化复杂多元的感觉运动数据,模型权重随时间推移逐渐丧失吸收新信息的能力 [15] 数据规模与基础设施 - GEN-0基于超27万小时真实世界异构操控数据进行预训练 [6][22] - 数据集正以每周1万小时的速度持续扩张且不断加速,由覆盖全球的硬件网络及数千台数据采集设备与机器人共同驱动 [6][22] - 公司正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [24]
BigBang-Proton: 自回归基座模型统一语言、科学和物质世界
36氪· 2025-11-06 18:58
文章核心观点 - 超对称公司发布的新版基座模型 BigBang-Proton 挑战了以 OpenAI 为代表的主流 AGI 技术路线,其成果表明大语言模型(LLM)可以通过统一预训练和推理直接执行如 Alphafold 等横跨微观到宏观的专业科学任务 [1] - 公司提出物质结构学习是实现 AGI 的必备要素,并基于 BigBang-Proton 的实验结果,提出了“宇宙尺度压缩”的构想,认为 LLM 的预训练边界将扩展至全宇宙 [4][5][80] 技术路线与行业观点 - 当前主流 AGI 技术路线(如 GPT-5 和 DeepSeek R1 的长程思维链)在理解真实物质结构上遭遇完全失败,说明仅依赖长程思维链不可能实现 AGI [2] - 与主流通用 LLM 依赖互联网自然语言数据或世界模型从图像入手的路线不同,超对称公司提出了第三种路线:从物质结构学习入手,让 LLM 的预训练进入物质世界,构建超长上下文的世界模型 [4] - 公司认为 LLM 预训练会一直扩展到全宇宙,其终极目标是将全宇宙的信息转为超长序列压缩到一个单一基座上,成为所有 AI 分支任务的基座 [5] BigBang-Proton 的根本性创新 - **创新一:二进制块编码**:彻底抛弃传统的分词器(如 BPE),将所有输入(文本、代码、科学数据)统一视为最原始的二进制序列进行处理,解决了主流 LLM 因 BPE 导致的数值分析缺陷 [7][9][11] - **创新二:理论-实验学习范式**:建立混合表示,将数值型实验数据直接与文本描述对齐,类似于为科学实验数据配“理论描述标题”,覆盖90%以上的实验科研任务 [12][15][17] - **创新三:蒙特卡罗注意力机制**:替代传统 Transformer 注意力机制,通过分块代表交流机制,使模型的有效上下文长度随注意力层数指数级增长,20层即可实现 10^30 字节的上下文容量 [16][19][20] 模型性能表现 - **算术运算**:在50位数加法、减法和乘法上,BigBang-Proton 准确率分别为100%、98%和90%,远高于 DeepSeek-R1(19.23%、11.63%、9.68%)和 ChatGPT-o1(3.85%、6.98%、3.23%)[31][35] - **粒子喷注分类**:在11类分类任务中达到51.29%的准确率,与专用SOTA模型(Particle Transformer 的56.69%)差距仅4-5%,而主流通用LLMs(如GPT-5为16.4%)表现接近随机猜测水平 [40][42][44] - **材料原子间势能模拟**:在形成能预测任务中平均绝对误差为0.043 eV/atom,在Matbench榜单排名第11位,优于部分专用机器学习方法,而主流LLMs(如GPT-5 MAE为29.279 eV)误差巨大不可用 [46][52][55] - **湖泊水质预测**:在叶绿素-a浓度预测中实现0.58 μg/L的MAE和0.098的MAPE,达到与行业领先机器学习时序预测模型竞争的水平 [56][57][59] - **DNA/RNA/蛋白质联合建模**:以1.5B参数和Evo模型三分之一的训练数据量,在基因序列预测困惑度(PPL=2.8)和多个下游任务(如预测突变对蛋白质功能影响,斯皮尔曼相关系数0.785)上全面超过SOTA生物基座模型Evo [61][67][72] 行业影响与应用前景 - 公司正与中国高能物理所、合肥科学岛强磁场中心、南京大学、上海交大等机构合作,将BigBang-Proton应用于粒子对撞、核聚变装置诊断、高温超导原理攻关、高熵材料开发等前沿科学领域 [84] - 模型在虚拟细胞建模、地球系统压缩以及复现飞机、汽车等复杂人造物质结构方面展现出潜力,为具身智能和生产制造快速迭代提供了全新的技术基础 [85]
具身智能一步踏入Scaling Law!10B+基础模型,27万小时真实数据
机器之心· 2025-11-05 14:30
GEN-0模型核心特性 - 专为在高保真度原始物理交互数据上进行多模态训练而构建,参数量可达100亿以上[3] - 原生设计旨在捕捉人类水平的反应和物理常识[4] - 具备核心特性“和谐推理”,使模型能无缝地同时“思考”和“行动”[5] - 架构通过设计使其适用于不同的机器人,已在6自由度、7自由度和16+自由度的半人形机器人上成功测试[6] 超越智能阈值与相变现象 - 在70亿参数规模上观察到“相变”,较小模型出现“固化”现象,而较大模型持续改进[6] - 10亿参数模型在预训练期间难以吸收复杂数据,模型权重无法吸收新信息[11] - 60亿参数模型开始从预训练中受益,显示出强大的多任务能力[11] - 70亿以上参数模型能够内化大规模预训练数据,仅需几千步后训练就能迁移到下游任务[11] - 物理世界中的智能在算力方面可能有更高的激活阈值[14] 机器人模型的Scaling Law - 模型展现出强大的Scaling Law,更多预训练数据和算力可持续提高下游任务性能[6] - 预训练数据规模与下游后训练性能之间存在很强的幂律关系[16] - 在预训练数据集不同子集上训练的模型,在16个不同任务集上进行后训练,更多预训练提高了所有任务的下游模型性能[17] - Scaling Law可用于预测达到特定性能水平所需的预训练数据量[18] 数据规模与基础设施 - 预训练数据集包含超过27万小时的真实世界多样化操作数据[6] - 机器人数据运营每周能提供超过1万小时的新数据,并且仍在加速[23] - 构建了定制硬件、数据加载器和网络基础设施,以支持全球数据收集站点的上行带宽[31] - 使用前沿视频基础模型的数据加载技术,每训练一天就能吸收685年的真实世界操作经验[31] 预训练数据科学 - 数据质量和多样性比纯粹的数量更重要,精心构建的数据混合可带来不同特性的预训练模型[33] - 同时具有低预测误差和低逆KL散度的模型在后训练监督微调时表现更好[33] - 拥有多种规模化数据收集策略,可进行A/B测试以确定对预训练提升最大的数据[33] 行业影响与能力展示 - GEN-0标志着一个新时代的开始,具身基础模型能力可通过真实世界物理交互数据进行可预测扩展[8] - 模型成功完成长周期灵巧任务,如组装相机套件,涉及多个步骤且在单一“和谐推理”流程中完成[8] - 公司正在构建有史以来最大、最多样化的真实世界操作数据集,涵盖家庭、仓库、工厂等多种环境[28]