Workflow
量子位
icon
搜索文档
首个真正“能用”的LLM游戏Agent诞生!可实时高频决策,思维链还全程可见
量子位· 2026-01-20 12:17
文章核心观点 - AI+游戏已成为行业重要趋势,近期“快递员”账号在《英雄联盟》韩服以93%胜率登顶的事件引发广泛关注,凸显了市场对游戏AI的高度兴趣 [1][2][4] - 超参数科技推出的全新大模型原生驱动游戏智能体COTA,标志着大模型+游戏从实验室走向现实,具备通用游戏潜力并已实现大规模商业化部署 [7][8][9][55][56] - COTA通过创新的“双系统分层架构”和专门的大模型选型,成功解决了游戏AI领域长期存在的“实时性、对抗性、可解释性”不可能三角问题 [35][36][59] - 该产品不仅为玩家提供高拟人化、高透明度的游戏体验,也为开发者提供了通用性框架,有望革新多类游戏玩法,并作为通用智能体的试验场推动AGI发展 [67][70][72][77] 行业趋势与市场动态 - AI+游戏赛道吸引了全球众多游戏厂商的关注和布局 [6] - 当AI Agent基础能力趋于成熟,行业已进入进一步突破Game AI能力边界的新阶段 [57] - 游戏场景是通用智能体的理想练兵场,因其复杂度接近现实世界,成本低、风险可控且可复现 [72][73] 公司产品:超参数科技与COTA 1. **产品定位与特点** - COTA是一款由大模型原生驱动、具备通用游戏潜力的智能体产品,强调认知、执行、策略和辅助 [9][10] - 产品设计目标是成为玩家的“游戏搭子”,通过思维链(CoT)实现决策过程可视化,建立玩家信任 [9][20][67][68] - 与依赖预设脚本的传统AI Bot或强化学习黑盒模型不同,COTA追求高智商与高透明度 [35] 2. **技术架构与创新** - **模型选型**:采用Qwen3-VL-8B-Thinking作为基座模型,在逻辑推理能力与实时响应效率间取得平衡 [39] - **双系统分层架构**:模拟人类快慢思考,拆分为负责战略的指挥官(Commander)和负责毫秒级执行的操作员(Operator) [40][41][43][47] - **训练管线**:包含基于思维链的监督微调(SFT)、大规模自我博弈的群相对策略优化(GRPO)以及与人类偏好对齐的DPO阶段 [50][51][52] - **性能指标**:将系统整体响应时间压缩到百毫秒级,最快可缩减至100ms,满足高强度对抗游戏的实时性要求 [53] 3. **实机性能表现** - 当前在FPS游戏Demo中展示,该类型游戏容错率低,对实时感知和决策要求极高 [12][13][14] - 智能体在急停拉枪、掩体博弈、投掷物使用、团队集火包抄等复杂操作上表现流畅自然 [28][29] - 在单人模式中能有效带领玩家,指令清晰,反馈及时,拟人化程度高,无明显机械感 [30][31][32] - 智能体依靠策略运营和类似人类的意识获胜,而非超越人类的反应速度 [33][34] 产品应用前景与行业影响 1. **对游戏体验与设计的革新** - **MMORPG**:使NPC成为具备严密逻辑和长期记忆的数字生命,提升互动质量与沉浸感 [60][61][62] - **MOBA**:AI可成为战术大师,通过逻辑严谨的战略与玩家博弈,提供趋近真人玩家的对战体验 [63] - **SLG**:重构策略深度与沉浸感,让AI对手更聪明,队友更懂行,战斗更真实 [64][65][66] - **商业价值**:提升玩家长期留存率,拉动转化,为游戏厂商在存量竞争时代提供商业竞争优势 [68] 2. **对开发者的价值** - 为开发者提供一套面向未来、具备高通用性潜力的游戏智能体框架 [70] - 打破技术壁垒,使开发者无需为每款游戏单独打造AI,可高效将大模型Agent技术应用于多类产品中 [70] - 推动行业从代码预设向智慧涌现的范式转变 [71] 3. **对通用人工智能(AGI)的意义** - COTA验证的“双系统分层架构”可为现实世界问题(如具身智能)提供解题思路,解决高层语义理解与底层运动控制的协同难题 [74][75] - 展示了如何让“LLM大脑”处理复杂推理,同时让“LLM小脑”完成毫秒级精准执行,该能力可迁移至大量现实问题 [76] - 作为“从仿真到现实”技术路线的枢纽,可带动通用人工智能加速演进,其突破也将反哺并重新定义下一代游戏Agent [77]
谷歌新发现:DeepSeek推理分裂出多重人格,左右脑互搏越来越聪明
量子位· 2026-01-20 12:17
文章核心观点 - 谷歌最新研究表明,以DeepSeek-R1为代表的顶尖推理模型,其解题过程并非单一思维,而是内部自发“分裂”出多个具有不同性格的虚拟人格进行“脑内群聊”或“左右脑互搏”,这种多角色对话式推理是模型在追求准确率过程中自发形成的,并能显著提升其在复杂任务上的表现[1][13] 模型推理的“多角色对话”现象 - 研究发现,模型在推理时内部会自发形成性格迥异的虚拟人格,如外向型、严谨型、多疑型、创意型、批判型、执行型等,这些角色覆盖了提出新颖思路、挑错补漏、落地验证等不同解题角度[1][8][9] - 模型的推理过程充满了对话感,如同不同人格在进行一场社交或辩论会,通过观点碰撞让模型更全面地审视解决方案[7][11] - 这种内部观点冲突的激烈程度与任务难度正相关,在处理GPTA graduate-level科学问题、复杂数学推导等高难度任务时更为激烈,而在处理布尔表达式、基础逻辑推理等简单任务时,脑内对话会明显减少[4][5] 研究团队的解码方法与实验证据 - 团队借助稀疏自编码器对AI推理的“黑盒”进行解码,通过提取隐藏层神经元激活数值,并利用SAE的稀疏约束机制,将杂乱的非线性信号拆解为“自问自答”、“切换视角”等独立的对话语义特征,从而“监听”到AI的脑内群聊并识别出不同的内部逻辑实体[14][15][16][17][18] - 通过对比发现,推理模型(如DeepSeek-R1)的对话式行为出现频率显著高于普通指令模型(如DeepSeek-V3、Qwen-2.5-32B-IT)[19] - 关键实验发现,当通过激活添加法强化模型的对话特征,特别是放大“哦!”这类表达惊讶、转折的话语标记时,模型在Countdown算术推理任务中的准确率直接从27.1%翻倍至54.8%[21] - 强化学习训练证据表明,即使不提供任何对话结构训练信号,仅奖励答对题目的行为,模型也会自发学会用对话式思考[23] - 若先通过多智能体对话数据对模型进行微调,再进行推理训练,其进步速度远快于直接训练推理或用独白式推理数据微调的模型[24] - 在Qwen-2.5-3B和Llama-3.2-3B两个模型体系中,早期训练阶段,经过对话微调的模型准确率比独白微调模型高出10%以上,在Llama-3.2-3B模型训练后期,这一差距甚至扩大到22%[24] 现象的意义与类比 - 这种AI内部的多角色互动现象并非开发人员刻意设计,而是模型在追求推理准确率过程中自发形成的[13] - 这一发现与人类演化生物学中的“社会脑假说”相呼应,该假说认为人类大脑的进化主要是为了应对复杂的社交关系和群体互动需求,如今看来,AI为了变聪明,也需要学会和不同“人格”社交[26][27][28] - 网友评论也指出,人类在思考时同样存在“左右脑互搏”的现象[12]
智谱新模型也用DeepSeek的MLA,苹果M5就能跑
量子位· 2026-01-20 12:17
文章核心观点 - 智谱AI在上市后发布了其GLM-4系列的最新轻量级模型GLM-4.7-Flash,该模型采用创新的混合专家架构,在保持高性能的同时显著降低了计算成本,并已免费开放API调用 [1][2] 模型发布与定位 - 新模型为开源轻量级大语言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,其API已免费开放调用 [2] - 该模型是去年12月发布的旗舰模型GLM-4.7的轻量化版本,继承了GLM-4系列在编码和推理上的核心能力,并针对效率进行了专门优化 [7] - 官方定位该模型为“本地编程与智能体助手”,并推荐将其用于创意写作、翻译、长上下文任务及角色扮演场景 [4][8] 模型架构与技术细节 - 模型采用混合专家架构,总参数量为300亿,但实际推理时仅激活约30亿参数,大幅降低了计算开销 [4][10] - 模型首次采用了MLA架构,这一架构此前由DeepSeek-v2率先使用并验证有效 [12] - 从具体结构看,模型深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但采用64个专家而非128个,激活时只调用5个 [13] - 模型配置细节显示,其最大位置嵌入为202,752,隐藏层数为47,词汇量为154,880 [12] 性能表现与评测 - 在SWE-bench Verified代码修复测试中,GLM-4.7-Flash获得59.2分,在“人类最后的考试”等评测中也显著超越同规模的Qwen3-30B和GPT-OSS-20B [4] - 经开发者实测,在配备32GB统一内存和M5芯片的苹果笔记本上,模型推理速度能达到每秒43个token [17] 部署与生态支持 - 模型发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0支持 [14] - 官方在第一时间提供了对华为昇腾NPU的支持 [16] 定价策略与市场对比 - 在官方API平台上,基础版GLM-4.7-Flash完全免费,高速版GLM-4.7-FlashX价格也相当低廉 [18] - 根据定价表,GLM-4.7-Flash的输入、缓存输入、存储和输出费用均为免费 [19] - 对比同类模型,GLM-4.7-Flash在上下文长度支持和输出token价格上有优势,但目前延迟和吞吐量还有待优化 [19]
算力越高收入越多!OpenAI率先验证AI商业Scaling Law:最新收入200亿美元
量子位· 2026-01-20 09:34
公司财务与增长飞轮 - 年化经常性收入从两年前的20亿美元暴涨至200亿美元,三年内增长10倍 [2][13] - 2023至2025年间,算力增长9.5倍,收入增长10倍,呈现同步猛涨趋势 [3][13] - 公司构建了“算力投资→模型能力提升→产品优化与采用增加→收入增长→支撑下一轮算力投入”的强化循环 [9][12][24] - 2024年公司用于计算资源的支出高达70亿美元,主要用于向微软租用云算力 [21] - 为维持增长飞轮并考虑长远未来,公司已开始投入大量资金自建GW级别的AI数据中心 [18][19] 商业模式与收入构成 - 商业模式随智能创造的价值扩展,从免费ChatGPT发展到订阅服务、平台型API业务以及广告 [27][28] - 推出广告是为了在商业和交易场景中为用户提供决策支持,未来收入增长还将依赖订阅分层和与生产工作负载挂钩的按量计费API [29][30] - 随着智能体在科研、药物发现、能源和金融等领域的渗透,预计将出现更多新型商业模式 [31] 硬件产品进展 - 公司首款硬件设备预计将在2026年下半年推出 [8][34] - 多方爆料表明该硬件很可能是一支无屏AI智能笔,体积接近iPod Shuffle [37] - 硬件推出的目的是为了加固“收入-算力”循环,其发布时间的推进可能与收入增加和算力增长有关 [32][42][43] 行业对比与规模 - 与Claude母公司相比,公司规模总量明显更大:2025年算力达1.9GW,年化经常性收入超过200亿美元 [14][17]
定位大模型「作弊」神经回路!新研究首次揭示:虚假奖励如何精准激活第18-20层记忆
量子位· 2026-01-20 09:34
核心观点 - 研究发现,大模型在虚假奖励信号的强化学习训练中,其准确率的提升并非源于推理能力的增强,而是通过激活模型内部的记忆捷径,更高效地检索训练数据中的污染知识[1] 核心发现:困惑度悖论 - 在虚假奖励的强化学习训练过程中,模型对答案的困惑度持续下降,但对问题提示的困惑度却不降反升,这一反常现象被命名为“困惑度悖论”[2][3] - 这表明模型牺牲了对输入问题的一般语言理解能力,以换取对特定答案的精准记忆[6] 关键记忆节点定位 - 通过路径修补技术发现,模型第18至20层是决定性的“功能锚点”,它们注入了检索记忆答案的关键信号[9][10] - 通过JSD分析量化各层贡献,发现第21-22层的MLP子组件贡献值达到顶峰,但随后其因果贡献变小,这些层被命名为“结构适配层”,负责调整内部表征以容纳来自锚点层的信号[11][14][15] - 通过Logit Lens观察,目标答案在第19层首次以高概率出现,在第23层概率激增,证实MLP持久地存储记忆,成功检索的关键在于锚点层的信号强度[18][20] 记忆激活的动态过程 - 通过神经微分方程建模,计算泄露样本与正常样本在隐藏状态演化方向上的差异,发现“分离力”在第18-20层达到峰值,这是模型决定走推理路径还是记忆捷径的关键决策点[21][23] 机制干预与主动控制 - 通过缩放MLP中任务相关神经元的激活值,可以双向操控模型对污染知识的依赖:在第18层放大激活可使泄露样本准确率提升4.4%,抑制则使其下降3.8%,而在干净数据集上无系统性影响[25][26] - 干预实验揭示了两种模式:剂量依赖调制和二元通路激活,表明研究不仅能理解机制,还能对其进行操控[28][30] 跨模型对比与特异性 - 在Qwen3-8B、LLaMA-3.1-8B和OLMo-2-1124-7B上的对比实验表明,困惑度悖论、锚点层特征等发现是Qwen模型在特定架构下数据污染被激活的特异性标志,其他模型未表现出相同模式[31][32][35] 研究意义 - 为评估强化学习效果提供了新的检测工具:宏观上可利用困惑度悖论作为记忆激活的信号,微观上可通过锚点层激活模式诊断数据污染,并利用神经元缩放测试性能来源[36] - 为数据污染检测打开了新思路,表明即使不知道具体污染数据,也能通过模型内部的神经激活模式识别记忆依赖,为“内部污染检测”提供了新范式[37][38] - 为可控的去污染方法开辟了新路径,通过抑制特定神经元,可以在不重新训练的情况下削弱模型对污染知识的依赖,同时保留通用推理能力[39][41]
ChatGPT强行上马广告,因为OpenAI真的太烧钱
量子位· 2026-01-19 17:30
OpenAI的财务困境与广告策略 - 公司面临严峻的财务挑战,预计将在18个月内面临资金枯竭的局面,并可能被微软、亚马逊等大公司收购[7] - 尽管去年融资创下纪录,筹集了400亿美元,但预计2025年年度烧钱额将超过80亿美元,到2028年将达到400亿美元[10][13] - 公司年收入仅为200亿美元,与支出不在一个数量级,且存在1.4万亿美元的数据中心建设计划等待资金注入[14][15] - 整个AI行业在最乐观预期下仍有至少8000亿美元的资金缺口,加剧了公司的财务紧张局势[15] 广告业务的启动与预期 - 公司宣布在免费版ChatGPT中测试广告,作为其商业战略的一部分,旨在将8亿月活用户的屏幕出租给广告商以获取收入[17][25][26] - 广告将出现在回答底部并标注为“赞助内容”,预计将在2026年通过广告获得“数十亿美元规模(low billions)”的收入[22][27] - 广告计划去年12月曾因竞争(谷歌Gemini 3)而推迟,现重新上线,但用户反应负面,可能转向Claude和Grok等竞争对手[4][5][20][24] - 广告内容不会影响回答客观性,公司不会出售用户数据,用户可关闭广告个性化功能[29][31] 商业模式扩展与收入来源 - 公司正从依赖订阅收入向广告收入拓展,并推出了每月8美元的新订阅档位“Go”,但“Go”用户仍会看到广告[28][32][34] - 更高层级的Plus(20美元/月)和Pro(200美元/月)订阅用户及企业客户不会受到广告干扰[34] - 公司商业模式核心是随智能所创造的价值而扩展,包括消费者订阅、工作场景订阅、按使用量计费以及平台型API业务[36][37][38][39] - 未来除广告外,将继续通过订阅、按量计费API推动增长,并探索授权、基于IP的合作、按结果定价等新模式[41] 增长飞轮与算力投资 - 公司周活跃用户(WAU)和日活跃用户(DAU)持续创历史新高,增长得益于算力、研究、产品和变现驱动的飞轮效应[43][44] - 2023到2025年间,公司算力增长9.5倍,收入呈现相同增长曲线,同比增幅达三倍,三年内增长了10倍[46][47] - 具体数据:2023年算力0.2GW,ARR(年化经常性收入)20亿美元;2024年算力0.6GW,ARR 60亿美元;2025年算力1.9GW,ARR超过200亿美元[55] - 算力与收入增长紧密相关,未来随着算力提升,收入增长速度预计将进一步加快[48][49] 竞争环境与未来融资 - 公司正与投资者就新一轮融资进行初步磋商,融资规模可能高达800亿美元[24] - 相比于拥有成熟传统业务输血的谷歌、微软和Meta,公司几乎没有“安全垫”,使其在竞争和扩张中显得局促[16][50] - 广告是解决“没钱了”这一现实问题的第一步,但能否顺利实施以及用户是否会“用脚投票”仍需时间检验[23][24][51]
AI的尽头,是电工(doge)
量子位· 2026-01-19 17:30
核心观点 - AI数据中心建设热潮正推动以电工为代表的蓝领技术工人需求激增,但美国面临严重的劳动力供给短缺,这已成为制约AI基础设施扩张的关键瓶颈,同时标志着AI竞争进入能源驱动的新阶段 [1][6][23][40] 电工及蓝领工人需求激增 - 美国官方预测,2024年至2034年间,每年将出现约8.1万名电工缺口,未来十年电工就业人数将增长9%,增速远高于所有职业平均水平 [2][3][4] - 新增岗位需求几乎完全来自数据中心建设,单个数据中心项目所需工人数量可达工会分会现有规模的两倍、三倍甚至四倍 [6][8] - 数据中心建设同时拉动了水管工、建筑工人及暖通空调技术人员的需求,其所需工人数量已超过任何其他单一行业 [8] 科技巨头行动与人才竞争 - 科技公司在能源领域的招聘人数显著增长,2024年同比增长34%,2025年相比2022年(ChatGPT发布前)整体高出约30% [9] - 自2022年以来,亚马逊在能源领域新招605名员工(含AWS),微软和谷歌分别新增超570人和340人,苹果、英伟达等公司各自新增接近200个相关岗位 [10][11][12] - 高管层面人才竞争激烈,例如微软与谷歌互相挖角对方的能源市场与核能高管 [13] 劳动力市场影响与薪酬 - 科技公司为赶建数据中心,支付薪酬爽快且因工期紧、加班多,加班费相当可观,抬高了相关工人的流动性和薪酬水平 [15][17] - AI创造的蓝领岗位需求,使电工、水管工等技术工种成为受益者 [19] 电力需求与基础设施瓶颈 - 数据中心耗电量激增,根据估算已达到30吉瓦(GW),相当于纽约州一年中最热时的用电峰值 [20] - 行业领袖指出,电力供应已成为比芯片供应更严峻的挑战,缺电、缺空间导致GPU闲置,建设靠近电源的数据中心是紧迫任务 [42][43][44] - AI发展进入能源驱动时代,能源(包括发电、变压器、电网连接和冷却系统)成为新的决定性因素 [40][47][48] 劳动力供给短缺的根源 - 美国建筑工人短缺是遗留已久的历史问题,技能精湛的老一代工人即将退休,而年轻一代接班者不足 [25][27][30] - 过去几十年,社会导向鼓励下一代接受高等教育从事白领工作,导致蓝领技术工人断层 [29] - 数据中心建设周期严格,承包商不愿承担“干中学”的风险,学徒上岗前需接受额外严格培训,这进一步加剧了供需失衡 [32][33][34] 企业的应对措施 - 为应对劳动力短缺,科技公司开始主动介入培训,例如谷歌向电工培训联盟捐赠资金,目标帮助10万名在职电工提升技能,并在2030年前培训3万名新学徒 [36] - 谷歌预计其培训项目将在未来几年内让电工整体规模扩大约70% [37] 行业展望与中国优势 - AI算力扩展正值高潮,下一阶段的能源争夺战刚刚开始 [41] - 有观点指出,中国在能源基础设施方面具备优势,预计到2026年,中国的电力产出将达到美国的3倍 [49][50]
ChatGPT强行上马广告,因为OpenAI真的很烧钱
量子位· 2026-01-19 15:00
文章核心观点 - OpenAI因面临严峻的财务压力,被迫在免费版ChatGPT中引入广告以寻求新的收入来源,此举引发了用户的强烈不满,但被视为公司解决资金困境的“最后一根救命稻草” [7][17][18][51] OpenAI的财务困境与资金压力 - **资金枯竭风险**:《纽约时报》报道指出,OpenAI可能在18个月内面临资金枯竭,并可能被微软、亚马逊等大公司收购 [7] - **高昂的烧钱速度**:预计2025年年度烧钱额将超过80亿美元,到2028年将达到400亿美元 [13] - **巨额资本开支计划**:公司有1.4万亿美元的数据中心建设计划需要持续资金注入 [14] - **收入与支出严重不匹配**:公司去年年收入仅为200亿美元,远低于支出计划,构成巨大财务挑战 [15] - **行业性资金缺口**:整个AI行业在最乐观预期下仍有至少8000亿美元的资金缺口 [15] - **缺乏传统业务输血**:不同于谷歌、微软和Meta,OpenAI几乎没有“安全垫”业务为新业务提供资金支持 [16] 融资历史与广告收入预期 - **融资能力强劲**:去年3月,公司CEO奥特曼筹集了400亿美元,创下私人融资轮次纪录 [10] - **新一轮融资磋商**:公司正与投资者就新一轮融资进行初步磋商,融资规模可能高达800亿美元 [24] - **广告收入目标**:公司预计将在2026年通过广告获得“数十亿美元规模(low billions)”的收入,并计划逐年放大这一收入来源 [22] 广告功能的具体实施细节 - **测试范围**:在免费版ChatGPT中测试广告,首批测试对象为已登录的美国成年用户 [26] - **广告形式**:广告将出现在ChatGPT回答的底部,并明确标注为“赞助内容(sponsored)” [27] - **用户数据保护**:公司强调不会将用户数据或对话内容出售给广告商,用户可关闭基于聊天记录的广告个性化功能 [29][31] - **广告不影响回答**:公司承诺广告内容不会影响ChatGPT回答的客观性 [29] - **订阅层级差异**:新推出的每月8美元“Go”档位订阅用户也会看到广告,而Plus(20美元/月)、Pro(200美元/月)订阅用户及企业客户不会受到广告干扰 [32][34] OpenAI的商业战略与商业模式扩展 - **战略核心原则**:商业模式应当随智能所创造的价值而扩展 [36] - **多元化收入模式**: - 针对个人用户推出消费者订阅服务 [37] - 针对团队和工作流推出工作场景订阅,并引入按使用量计费模式 [38] - 构建平台型业务,通过API让开发者和企业将智能嵌入自身系统,支出与交付成果挂钩 [39] - **未来收入展望**:除广告外,将继续通过订阅和按量计费API推动增长,未来在科研、药物发现等领域可能出现授权、基于IP的合作、按结果定价等新模式 [41] - **广告的战略定位**:广告功能旨在帮助用户在商业和交易场景中提供决策支持,是商业模式拓展的重要一步 [28][40] 增长飞轮与算力投资 - **用户增长强劲**:周活跃用户(WAU)和日活跃用户(DAU)持续创下历史新高 [43] - **飞轮效应**:算力投资推动研究和模型能力跃升,强大的模型带来更好的产品和更广泛的采用,进而推动收入增长,收入再支撑下一轮算力投入和创新 [44] - **算力与收入增长高度相关**:2023到2025年间,公司算力增长9.5倍,收入也呈现出相同的增长曲线,同比增幅达到三倍,三年内增长了10倍 [46][47] - **具体增长数据**: - 2023年:算力0.2GW,ARR(年化经常性收入)20亿美元 [55] - 2024年:算力0.6GW,ARR 60亿美元 [55] - 2025年:算力1.9GW,ARR超过200亿美元 [55] - **未来展望**:随着算力进一步提升,收入的增长速度也将进一步加快 [49] 市场竞争与外部压力 - **竞争触发战略调整**:去年12月因谷歌的Gemini来势汹汹,OpenAI触发“红色警报(code red)”,推迟了广告计划以专注于竞争 [20][21] - **用户流失风险**:广告上线后,部分用户表示将转投Claude和Grok等竞争对手 [5] - **行业对比**:相比于谷歌的淡定从容,OpenAI的每一步都显得略显局促 [50]
哈工大系闯出人形机器人黑马:成立不到一年,全栈开源3m/s原型机,小米商汤都投了
量子位· 2026-01-19 15:00
公司核心动态 - 2025年2月成立的萝博派对公司,于1月15日将其双足人形机器人“萝博头原型机”全栈、完整开源,并启动全球开发者共创计划[2][6] - 公司核心团队来自哈尔滨工业大学,并已获得经纬创投、小米战投、光源资本等机构的千万美元种子轮融资[6][29] - 公司开源的目标是实现“可复现、可二开、可验证”,旨在将人形机器人“从0到跑”的路径标准化,打造为行业共享的具身智能基础设施[5][6][7] - 公司除开源外,还为产业伙伴提供JDM设计与联合开发服务,加速从参考样机到工程化交付的全流程[34] 开源方案具体内容 - **硬件层面**:公开了身高1.2米、重量30公斤本体的全套结构图纸、关节模组核心参数、选型指南、拆机报告、国内优质供应商清单、完整EBOM物料清单与SOP组装流程[12][14] - **软件与控制层面**:开源了底层控制全量代码,涵盖模仿运动、感知运动与导航运动三大核心模块,并支持SMPL-X人体模型适配[16] - **软件与控制层面**:开源了拟人步态的AMP运控算法代码,该算法基于数据驱动范式并适配Behavior Foundation Model预训练框架[17][26] - **工程化落地层面**:系统化公开了研发中形成的sim2real gap弥补方案、样机测试矩阵、调试经验总结、关键避坑要点与流程规范[18] 产品性能与优势 - 萝博头原型机跑步速度达到3米/秒,跻身全球全开源人形机器人第一梯队[4][24] - 硬件采用类车规级本体结构与高刚性金属材料,并通过模块化关节模组实现高扭矩密度与快速动态响应,以支撑高速稳定运行[25] - 搭载的AMP运控算法通过学习人体动捕数据,使机器人行走与跑步更贴近人类生物力学特征,提升了动作自然度与稳定性[26] - 该方案使开发者能在不承担高昂研发投入的前提下,获得兼具高性能与自然步态的参考方案,并更高效地进行二次开发与场景适配[27] 行业痛点与开源目标 - 行业长期存在三大核心痛点:闭源导致开发壁垒高、设计规范缺失、架构标准不统一[9][10] - 公司开源旨在推动行业经验从“各自积累”走向“公开共享”,解决从设计、装配到标定、训练、验证与迭代的整条系统工程链路协同效率问题[8][10] - 公司目标是让人形机器人的开发成本降低80%[32] - 当硬件不再成为门槛、算法不再是黑盒,具身智能才能真正进入“千行百业”的应用阶段,形成规模化产业价值[31] 生态与社区建设 - 公司已搭建技术交流与共创网络,吸引了上市公司技术负责人、高校科研人员及创业公司核心成员等专业群体加入[28] - 公司长期维护“动手学人形机器人问题清单”共创知识库,覆盖行业发展、硬件研发、软件研发与生产制造等关键环节[21] - 该知识库主张优先解决行走稳定性、抗摔性等基础能力,并围绕尺寸、重量、散热、成本等量产关键问题展开共建[21] - 知识库采用“全员编辑、按紧急度排序”的开放机制,旨在将单一团队经验升级为“全行业共建的落地指南”,推动行业从“各自试错”走向“协同突破”[22] - 公司将持续基于社区反馈优化技术方案,推动行业从“各自为战”走向“协同共赢”[36]
45年数论猜想被GPT-5.2 Pro独立完成证明,陶哲轩:没犯任何错误
量子位· 2026-01-19 15:00
事件概述 - OpenAI最新模型GPT-5.2 Pro独立证明了数学界一道悬置45年的埃尔德什猜想(第281号问题),论证过程经菲尔兹奖得主陶哲轩验证成立,并被评价为“迄今为止最明确的第一类结果(AI主要贡献)” [2][3] - 该问题由传奇数学家保罗·埃尔德什与罗纳德·格雷厄姆于1980年共同提出,涉及同余覆盖系统与自然密度的深层关系 [4] - 证明结果已被埃尔德什问题网站收录 [8] AI证明过程与特点 - 证明由研究者Neel Somani于2025年1月17日提交给GPT-5.2 Pro完成,整个论证在无穷阿德尔整数环上展开,借助哈尔测度和点态遍历定理,结合紧致性论证完成了从逐点收敛到一致收敛的跃迁 [6][9] - 陶哲轩指出,该证明是“Furstenberg对应原理”的一个变体,但比通常的论证更依赖伯克霍夫定理 [12][13] - 陶哲轩特别指出,该证明避免了前几代大语言模型容易犯的极限交换或量词顺序等微妙错误 [15] - 为验证证明,陶哲轩亲自动手将整套遍历论论证翻译成组合学语言,用哈代-利特尔伍德极大不等式替代伯克霍夫定理重新推导,结论为证明成立 [16][17] 经典解法的意外发现 - 在讨论AI证明时,有用户发现该问题其实存在更简单的经典解法,所需两个定理(达文波特-埃尔德什密度收敛定理和罗杰斯定理)分别于1936年和1966年就已存在,将两者结合后该问题几乎是直接推论 [18][19] - 陶哲轩就此请教法国数学家特南鲍姆,后者确认了经典解法成立,但猜测问题的表述可能曾被改动过 [21] - 陶哲轩指出,罗杰斯定理因未单独发表且引用寥寥而传播不广,此前(2007年)五位顶尖专家在解决另一道埃尔德什问题时同样不知道该定理的存在 [22] - 目前该问题拥有两份不同的证明:一份来自GPT-5.2 Pro的遍历论路径,另一份来自经典文献组合 [22][23] AI数学能力的评估与行业现状 - 消息传开后,其他AI模型(如Gemini 3 Pro)交叉验证后也表示证明没有问题 [24] - 陶哲轩发出冷静提醒,指出评估AI工具真实成功率时存在强烈的报告偏差,负面结果几乎不会被披露 [27] - 他推荐了一个系统记录大语言模型在埃尔德什问题上正面和负面结果的开源项目,数据显示这些工具在埃尔德什问题上的真实成功率大约只有1%到2% [28][30] - 考虑到埃尔德什问题库中有超过600道未解难题,1%-2%的成功率仍意味着一批数量可观且非平凡的AI贡献 [31]