深度强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

深度强化学习

搜索文档

Nature封面：机器人乒乓球干翻人类职业选手

量子位· 2026-04-23 13:12

henry 发自凹非寺量子位 | 公众号 QbitAI 要说也真够逗的，索尼的机器人又开始找画面了。搭了个乒乓球台子，直接找职业选手开干。一台8自由度的机械臂，对战日本elite级选手5场3胜2负。后面半年，陆续打赢了几位日本职业选手，包括2019年美国公开赛女单亚军平真由香（GPT说相当于国内省队主力），以及WTT世界排名第 25位的木原美悠。它打起来画面大概是这样的。背后研究嘛，Nature也相当赏脸，直接给了个封面。虽说伯克利去年就能让宇树G1和人类连拍106板了，港大Smash也能让G1在室外打乒乓球。不过这里得老实说一句，HITTER和SMASH都不处理球的旋转，打的是陪练配合的平球，真扛不住职业选手那种旋转。Ace正经实打的，这个硬功夫人家确实做到了。部分对战视频如下：（完整幕后比赛视频可参考： https://www.youtube.com/watch?v=FrGq8ltb-_E）这场球是怎么打的对职业选手0胜2负，7局里抢下1局。还算不错。论文提交之后，索尼没停手。规则全按国际乒联（ITTF）标准来，先到11分赢，场地都是正规比赛场地。对手则分两档。第一档 ...

索尼集团(US:SONY)

深度强化学习

深度强化学习

入职Meta的吴翼，清华叉院官网已撤其教职信息

是说芯语· 2026-04-13 15:00

吴翼职业变动与背景 - 吴翼可能已不再担任清华大学交叉信息研究院的教职，其名字已从该院官网人员队伍页面消失[1][2][3] - 吴翼已正式加盟Meta的超级智能实验室，该实验室是Meta于2023年7月成立的核心AI业务单元，聚焦打造超越人类能力的通用智能系统[5][6] - 此次加盟由Meta首席执行官扎克伯格亲自出面挖人，吴翼将直接参与Meta在超级智能及多智能体系统的前沿攻坚[7][8] 吴翼的教育与职业经历 - 吴翼是1992年出生的IOI银牌得主，被保送至清华大学交叉信息研究院姚班，师从图灵奖得主姚期智[13][14] - 他在加州大学伯克利分校获得人工智能博士学位，师从Stuart Russell，研究方向包括多智能体系统、深度强化学习等[15][21] - 截至当前，吴翼累计在ICML、NeurIPS、ICLR等顶级会议发表论文40余篇，其主导提出的MADDPG、MAPPO等多智能体强化学习算法是该领域的重要工作[18][19] - 他的职业经历包括在Meta、MSRA实习，在OpenAI担任4个月的访问研究员，以及回国后在清华大学担任助理教授并在上海期智研究院担任首席研究员[15][20][22][25] 清华叉院的产学研模式 - 清华大学交叉信息研究院允许教职人员同时在产业界任职，与吴翼同称为“伯克利归国四子”的另外三位助理教授均在具身智能赛道创业[28][30] - 图灵奖得主姚期智的嫡传弟子楼天城既是小马智行联合创始人兼CTO，也是清华叉院的兼职教师之一[32] - 这种模式是清华叉院因应AI领域产学研特性的灵活体现，旨在培养复合型人才[32] 吴翼的近期职业活动 - 2023年，吴翼创办了聚焦AI方向的边塞科技，该公司于2024年11月下旬被蚂蚁集团收购，团队整体并入蚂蚁生态但保持独立[26] - 收购后，吴翼同时担任蚂蚁集团强化智能实验室首席科学家与边塞科技负责人，并保留清华叉院与上海期智研究院的职务[26] - 目前清华叉院的招聘信息显示，教职人员工作地点要求在北京，而Meta在中国无研发办公室，这可能是吴翼教职变动的原因之一[10][11]

Meta Platforms(US:META)

Artificial Intelligence

多智能体系统

深度强化学习

通用智能体

Artificial Intelligence

Artificial Intelligence

多智能体系统

深度强化学习

通用智能体

Artificial Intelligence

Physical Intelligence：机器人需要一个“个人电脑时刻”

海外独角兽· 2026-04-03 20:05

行业技术进展与公司核心观点 - Generalist AI发布的GEN-1模型在特定任务上将成功率从平均64%提升至99%，速度约为之前SOTA的3倍，且每项任务仅需约1小时机器人数据，证明了机器人无需海量专用数据即可达到生产级可靠性，并验证了机器人领域的Scaling Law [2] - Physical Intelligence（π）公司由前Google DeepMind研究员与UC Berkeley学者联合创立，已完成超10亿美元融资，据报正洽谈新一轮约10亿美元融资，估值有望超过110亿美元 [2] - 公司的核心赌注是开发一个能控制几乎任何物理系统完成任何任务的通用机器人基础模型，类比于能完成任何语言任务的语言模型 [3] 通用模型与专用模型的比较 - 公司的核心假设是，以完全通用的方式构建机器人基础模型，长期来看比针对狭窄应用场景做专门优化更容易，这与语言模型的发展历史经验一致 [5] - 通用模型可以利用远比单一任务更广泛的数据源，尤其是弱标注数据，从而学习关于世界的通用知识，并在此基础上高效构建各种应用 [5] - 在机器人领域，通过汇聚来自不同任务、应用和机器人的数据，可以训练出真正理解物理交互的通用模型，这类似于人类依靠物理理解快速掌握新技能的方式 [6] 泛化能力与演示意义 - 泛化的重点不在于完成炫酷的特定任务，而在于机器人能在任何场景下完成普通人能做的普通任务 [4][6] - 公司去年四月发布的清理厨房演示，其关键意义在于机器人被放入一个从未见过的家庭环境中执行任务，且未在该场景下进行过专门训练，这体现了技术的前沿进展 [7] 通用基础模型的潜在影响 - 一个通用的具身基础模型若实现，将释放人们在构建机器人时的想象力，类似于个人电脑让无数人能够拼凑出各种应用，可能引发机器人应用层面的寒武纪大爆发 [10] - 机器人应被视为一套可组合的工具平台，人们可以在其上构建形态各异的应用程序，关键在于针对具体场景找到最合适的方案，而非统一形态 [10][11] - 拥有一个可靠的底层基础模型平台，将大幅降低尝试各种机器人想法的门槛，人们只需进行微调或适配即可 [10] 机器人形态与通用智能 - 人形机器人只是未来众多机器人形态之一，不同类型的机器人面临的智能挑战非常相似，不应在特定身体形态下解决智能问题 [11] - 一个通用的机器人基础模型可以适配到从推土机、人形机器人到桌面机械臂的整个谱系，物理交互的基本原理在所有系统中是通用的 [12] - 真正的通用物理智能能实现仅靠人形机器人智能做不到的事，例如制造非常庞大或微小（如进入人体内部）的机器人，以及在医疗手术等场景中突破对人类实时操控的依赖 [12] 物理智能的本质与工具使用 - “物理智能”被类比为人类学会骑自行车瞬间的领悟感 [13] - 神经科学研究表明，当猴子使用工具时，大脑中感知手部位置的神经元参照点会转移到工具末端，说明“工具是身体的延伸”是一种真实的生理机制 [15] - 因此，优秀的物理智能基础模型应该是“形态不可知”的，能够适应并操控它所接管的任何“身体”和工具，这本质上是同一个能力在不同载体上的表现 [15] 研究历史与技术演进 - 用端到端方式控制机器人是古老想法，最早的端到端学习自动驾驶系统ALVINN诞生于1980年代 [16] - 机器人学习的传统困难在于需要系统同时满足处理目标场景、训练成本可控、用常识处理长尾场景以及快速稳定可靠等多重条件 [19] - 过去几年最大的变化是系统需要处理不寻常场景，这依赖于从其他来源获取知识并应用到新情境，而多模态大语言模型为获取常识提供了可行路径 [19][20] - 多模态大语言模型被引入并适配到机器人控制中，从而为系统注入常识，是近期的一个重要突破 [21] 公司技术路径：VLA模型与结合生成式AI与强化学习 - 公司搭建了名为Vision-Language-Action的基础架构，这是一个经过改造用于机器人控制的大语言模型，训练分为三个阶段：文本数据训练语言能力、互联网图像数据适配获得视觉理解、多样化机器人数据适配学会将感知转化为动作 [24] - 公司研究沿两条线展开：一是让模型用常识处理不寻常场景，核心方法是利用“思维链”进行任务推理，以激活预训练中获得的世界知识 [26][27]；二是让模型通过强化学习持续改进自身表现，例如在制作意式浓缩咖啡的演示中通过反复练习优化操作 [27] - 公司希望攻克的最大挑战是将生成式AI积累的海量知识与能超越人类水平的深度强化学习结合起来 [23][24] 数据策略与传感器使用 - 公司认为可以用比想象中更少的传感器完成任务，其演示机器人平台只使用了三个摄像头（两个在手腕，一个在底座），未配备触觉或力传感器 [28] - 手腕摄像头可被视为变相的触觉传感器，因为通过图像可以观察到接触物体时产生的局部形变 [28] - 对于训练通用具身AI所需的数据量尚无定论，但关键不在于精确估算，而在于让系统尽快具备实用能力并投入真实世界，在运行中持续收集数据并改进，类似于特斯拉面临数据过多而非不足的情况 [28][29] 技术能力现状：进展与挑战 - 公司在灵巧操作方面取得的进展远超预期，系统能做出非常精巧灵活的动作 [30] - 模型展现出跨具身形态的泛化能力，同一模型可在自由度完全不同的其他机器人上工作，仅需收集一些数据并微调，而模型架构本身无需修改 [30] - 当前真正的难点在于那些数据难以收集、需要更多常识、跨层级推理以及融合不同来源知识的任务 [32] - 瓶颈已从物理层面完成动作，转向正确理解场景并选择合适行动，而这一层能力可以通过语言形式的监督来有效改进 [33][34] 落地挑战与长尾问题 - 机器人进入家庭场景的最大技术风险在于需要应对的情况范围过于广泛，系统必须在几乎所有情况下都给出合理响应 [35] - 最大的落地障碍可能不完全在于核心技术，而在于技术与人交互存在的“长尾”问题，即社会是否愿意接受一个尚不完美的机器人及其带来的风险，这在不同场景适用性不同 [34] 方法论核心与通用性 - 公司方法论的核心是让系统具备“通用性”，尤其是在“如何被持续改进”这件事上的通用性，基于学习的系统比手工设计控制器更通用，而能从自身经验中自主学习的系统则通用性更强 [36] - 大多数技术选择都围绕实现这种逐级增强的通用性，尤其是改进机制本身的通用性这一目标展开 [36] 数据来源路线分歧与演示策略 - 机器人领域一个关键且未充分解决的问题是不同数据来源之间的路线分歧，特别是真实世界数据与仿真数据之间的取舍 [36] - 人形机器人完成复杂动作的视频往往依赖仿真技术路线，而机器人操作领域表现较好的方法则依赖大量真实世界数据并结合大型基础模型，这种差异值得思考 [37] - 公司的演示策略是在确保有用的前提下尽可能做到“酷”，选择最具挑战性、能推动通用模型发展的任务进行压力测试，而这些任务在视觉上往往也最“酷” [37][38] 能力测试与超越人类的潜力 - 公司进行了一次非正式的“机器人奥运会”测试，尝试完成一系列对人类简单但对机器人困难的任务，几乎全部完成，体现了通用系统在不做大量专门工程下接入新任务的价值 [40][42] - 机器可以在某些维度超越人类物理能力，例如在插线缆等任务中，机器人可以通过消除人类因信息处理带宽瓶颈导致的停顿，以更快、更高效的方式完成任务 [42] - 通用AI工具可以降低机器人形态创新的门槛，允许人们在车库组装新机器人并加载基础模型开始任务，从而释放创造力，类似于个人电脑的发展 [43][44] 社区争议与发展动力 - 当前机器人社区最大的争议在于是否应该采用端到端学习，但从长期看，如果目标是实现通用性和自我改进，依赖数据驱动的学习将是不可避免的方向 [45][46] - 推动领域进展的不仅是少数关键人物和成功案例，大量研究者的探索、试错甚至失败尝试都在引导领域走向正确方向 [50] - 硬件成本显著下降推动了行业发展，例如十年前价格约40万美元的PR2机器人，现在平台使用的机械臂成本可能只有当年的十分之一左右 [58] 未来展望与不确定性 - 公司认为最大的变量是时间线，技术存在“冷启动”问题，需要先达到关键的实用门槛才能进入加速发展阶段，但此前的触发时点难以预测 [60] - 当前核心攻关方向之一是更好地理解中间层推理，即如何构建和组织常识知识的内部表征，这可能与大语言模型以语言为中心的方式不同 [60][61] - 在机器人研究者中，公司创始人处于乐观一端；但在机器人创业者中，则处于悲观一端，因为机器人领域历史悠久但成功案例不多，仍然有大量问题尚未解决 [61]

Physical Intelligence

深度强化学习

Moravec's Paradox

Physical Intelligence

深度强化学习

Moravec's Paradox

羊毛党大军，狂薅模型Token；明星AI公司，上市却现离职潮；华东大厂AI基建华南遇阻丨AI 情报局 VOL.2

雷峰网· 2026-03-26 12:11

海外大模型与云服务“薅羊毛”产业链 - **核心观点**：由于海外大模型调用成本高昂，催生出一条通过虚拟卡、滥用促销套餐等方式“薅羊毛”的灰色产业链，导致模型厂商和云服务商面临坏账和资源滥用风险[2][3] - **针对模型厂商的“薅羊毛”方式**：灰黑产团队通过虚拟卡、盗刷卡等绑定OpenAI、Anthropic等平台账号，获取API权限后疯狂调用并转卖算力，最终留下坏账[3] - **滥用“无限量套餐”进行套利**：部分用户购买大模型厂商为获客推出的“Token无限包”后，将其封装成二级API平台，以每人几百元的价格分销，赚取数倍剪刀差[3] - **瞄准云厂商新用户奖励**：羊毛党批量注册Google Cloud等账号，利用“充值10美元赠送300美元算力”的促销，整合成资源池并自动切换，以极低成本撬动数百倍算力资源用于转售或自用[4] 具身智能行业公司动态与治理挑战 - **明星公司A高层内讧与团队分裂**：具身智能公司A因创始人无法服众，初创团队分崩离析，原技术合伙人离职创立竞对公司B并已完成多轮融资[5] - **创始人背景与行业人才流动**：公司A创始人甲原为头部消费电子企业C的高管，其离职创业是C司同期高管离职潮的一部分，C司因此被称为机器人界“黄埔军校”[6] - **具身智能整机厂E的强势合作要求**：头部整机厂E在挑选核心零部件供应商时，要求合作方交出详细的供应商名单以供审核，引发供货商对核心信息泄露的顾虑[8] - **公司E的市场地位**：公司E在2025年的出货量虽不算亮眼，但凭借工业级定位和较高单价，在具身智能商业化领域属于第一阵营[9] AI公司上市前员工离职潮 - **明星AI公司上市前夕遭遇离职潮**：某上海明星AI公司在冲击上市的最后阶段，于去年三、四季度出现算法人员离职潮[6] - **离职原因一：期权激励吸引力不足**：员工期权归属期长达六年，且第一年仅归属10%，显著高于行业平均水平，对人才吸引力不高[6] - **离职原因二：公司技术战略保守**：公司资源受限，技术策略优先保障“跟随”和“对齐”他人，而非前沿探索，导致有理想的算法人员离职[7] AI技术与产品市场进展 - **北京云AI视频生成模型2.0 API初步开放**：该模型API已初步对国内大客户开放，客户反馈效果惊艳，但仅限承诺消费1000万以上或预付费200万以上的客户试用[8] - **国产AI芯片进入大厂采购名单**：寒武纪、海光、壁仞三家国产AI芯片上市公司进入某华东互联网公司采购名单，据传单家采购量超数万张或订单金额高达数十亿人民币[10] - **国产芯片采购条件**：获得采购的一个前提条件是国产卡需有明确的客户，大厂采购后为这些明确客户提供国产算力[10] 机器人技术突破与人才争夺 - **深度强化学习推动机器人步态突破**：一位上海交大学生通过B站视频证明，利用深度强化学习（RL）可在普通国产硬件上实现丝滑、鲁棒的自然步态，颠覆了行业对顶配硬件的迷信[10] - **宇树科技高薪挖角引发行业转向**：宇树科技创始人王兴兴以年薪百万成功挖走该技术大神，此举不仅增强了宇树的技术实力，更引发全行业从传统MPC方案向强化学习的技术大转向[10][11] 行业轶事与投资趣闻 - **风投女王背调中的“爱马仕”测试**：一位风投女王在对一家百亿美金估值的具身智能独角兽进行背调时，用其价值六位数的爱马仕上衣测试机器人叠衣功能，结果机械臂未能完成折叠并险些扯坏衣服[11][12] - **投资结果**：该风投女王最终没有投资这家独角兽公司，但无法确定是否与此测试插曲直接相关[13] 地方政策与AI基建项目 - **华东大厂华南算力项目遇阻**：某华东大厂计划在华南某地扩建6000P算力项目，但因被问及产值落地、税收留存及市场计划时回答不佳，面临被否风险[9] - **项目遇阻的历史原因**：该大厂多年前在当地的首个数据中心占用了当地2/3的能耗指标，但其云业务税收结算在外地总部，导致百万级税收未留存本地，给当地留下不良印象[9]

深度强化学习

深度强化学习

ICLR 2026 Oral｜中科院团队提出新框架「SparseRL」，深度强化学习可自动生成高性能CUDA代码

机器之心· 2026-03-25 15:01

SparseRL 框架的核心创新 - 中科院计算所团队提出名为 SparseRL 的新框架，首次将深度强化学习引入稀疏 CUDA 代码生成任务，旨在让 AI 根据稀疏矩阵结构自动生成最优的 CUDA 实现代码[2] - 框架将预训练语言模型作为策略网络，将生成 token 视为动作，以代码编译结果和执行时间作为奖励信号[12] - 框架采用三阶段训练流程：在大量 CUDA 代码语料上进行预训练；用“稀疏矩阵-正确代码”配对数据进行监督微调；引入深度强化学习，以编译正确性和执行效率为奖励进行优化[18] 技术实现的关键组件 - 设计了正弦位置嵌入技术，对稀疏矩阵的非零元素行列索引分别进行正弦/余弦编码，使模型能捕捉二维坐标间的空间关系，理解矩阵结构[13] - 设计了层级奖励函数，同时考虑正确性奖励（确保代码能编译、结果正确）和效率奖励（优化执行速度），遵循先保证“对”再追求“快”的逻辑[14] - 消融实验证明，去掉强化学习阶段后性能显著下降，去掉正弦嵌入后模型编译率下降，仅用正确性奖励则代码执行速度不足，验证了各核心组件的必要性[20] 实验性能与效果评估 - 在经典的稀疏矩阵-向量乘法任务上，相比传统监督学习方法，该方法使编译成功率提升 20%，平均代码执行速度提升 30%[3][16] - 在稀疏矩阵-向量乘法和稀疏矩阵-稠密矩阵乘法两个任务上验证有效，模型能根据不同的稀疏结构自动选择不同的代码策略，在对角型、带状型、随机稀疏型等多种矩阵上均有优势[16] - 部分场景下生成的代码性能接近或超越了手工调优的水平[16] 研究背景与问题挑战 - 稀疏矩阵在大型语言模型推理、图神经网络、科学计算中无处不在，但其非零元素分布不规则，导致最优的 CUDA 代码实现取决于仅在运行时可知的具体矩阵结构[5] - 不存在一种“万能”的高性能实现能应对所有稀疏矩阵，工程师需针对不同稀疏模式手动调优，过程耗时且依赖经验[6] - 现有 AI 代码生成方法存在三大局限：传统监督学习只关心代码正确性不关心执行速度；执行效率指标不可微，无法通过传统反向传播优化；稀疏矩阵输入与 CUDA 代码间存在巨大语义鸿沟[17] 研究意义与未来展望 - 该研究代表了一种范式转变，将代码生成的目标从“生成能运行的代码”转向“生成高性能代码”[22] - 对于高性能计算工程师和 AI 基础设施开发者而言，展示了让 AI 处理繁琐性能优化工作的新可能，使人类能聚焦于更高层次的设计[22] - 未来计划将方法扩展到多 GPU 分布式稀疏计算，探索与传统自动调优技术的结合，支持更多类型的稀疏算子，并研究如何降低强化学习训练成本[22] 研究成果与作者信息 - 该项研究成果已入选 ICLR 2026 的口头报告[4] - 论文共同一作为中国科学院计算技术研究所博士生王耀宇，主要研究方向为深度学习编译优化与高性能计算[24] - 通讯作者为中国科学院计算技术研究所研究员谭光明，主要从事高性能计算、GPU 编译优化与深度学习系统研究，在相关领域取得多项重要成果[24]

深度强化学习

稀疏CUDA代码生成

深度强化学习

稀疏CUDA代码生成

他们在实验室里“过大年”

新浪财经· 2026-02-24 05:43

公司技术突破 - 天津大学具身团队自主研发的具身基座模型R1.5版正式亮相，搭载于多种型号机器人上[1] - 模型采用“大脑+小脑”分工架构：“大脑”是多模态大模型，负责理解指令、拆解任务、规划路径；“小脑”是基于强化学习的决策控制模块，负责具体动作的精准执行[1] - 搭载新模型的机器人能完成扫地、做奶茶、擦花瓶、给手机充电、冲咖啡、打包礼盒等任务，并能实现“零样本适应”，应对从未见过的场景[2] 技术应用与展示 - 团队通过“文工交叉”模式，邀请新媒体专业团队协助，将枯燥的代码算法通过场景化视频生动呈现，以展示科研成果[2] - 演示视频生动展示了机器人整理房间、递奶茶、打包礼盒等未来智能生活场景[2] - 团队在春节假期集中进行算法集成，旨在呈现出达到国内外领先水平的智能能力[2] 行业认可与影响 - 该实验室凭借“基于强化学习的智能决策关键技术及应用”项目，荣获2025年度中国图象图形学学会科技进步奖一等奖[2] - 团队致力于让人工智能技术从实验室走向千家万户，推动未来智能生活的发展[3]

深度强化学习

搭载具身基座模型R1.5版的机器人

具身基座模型R1.5版

深度强化学习

搭载具身基座模型R1.5版的机器人

具身基座模型R1.5版

98年清华博士辍学造机器人，一个月融了小5亿

36氪· 2025-11-26 18:42

融资情况 - 北京人形机器人企业松延动力完成近2亿元Pre-B+轮融资，由中金资本领投，允泰资本、厚为资本跟投 [1] - 融资将用于技术创新与研发投入、拓宽高价值应用场景生态合作、打通从研发到大规模量产交付的通路 [1] - 继10月26日完成由方广资本领投的近3亿元Pre-B轮融资后，两次融资间隔不足一月，总融资金额近5亿元，年内累计完成五轮融资 [1] 产品战略与定位 - 发布首款定价在万元内的高性能人形机器人"Bumi小布米"，售价9998元，主要面向科技爱好者和学编程的青少年 [1][4] - 产品定位为错位竞争，通过将价格从几万元拉至几千元，开拓新客群而非在现有市场内卷，目标是将蛋糕做大 [5] - 产品线覆盖B端和C端，小布米一脚踏B端（教育机构、赛事合作）、一脚踏C端（面向有7~13岁小孩的家庭消费者），同时公司也有针对高端科研场景、售价69900元及十几万的EDU版机器人 [11][12] - 与"编程猫"达成战略合作，共同打造"人形机器人编程教育实验室"，以教育场景为切入点向准消费级市场渗透 [1][25] 成本控制与商业模式 - 公司认为消费电子产品80%的成本由设计决定，20%由产量决定，通过一把手工程推动成本优化 [6] - 降本方法包括要求结构工程师在设计阶段针对开模进行设计、材料选型采用复合材料以降低整体成本、推动供应链垂直整合 [6] - 目前销售渠道独家集中在京东，因京东对具身智能、机器人产品扶持政策力度最大，营销ROI超级高，尤其是在京东投放比一般消费电子、家电的ROI高很多 [23][24] - 财务模型健康，投流ROI夸张，预计销量达到1万台以上能覆盖研发成本，实现相对健康的净利 [23] 行业竞争与市场认知 - 公司欣赏宇树科技，认为其坚持多年等到了行业爆发，但双方场景完全不一样，宇树主要聚焦科研领域 [16][19] - 公司认为自身通过认知时间差做先行者，快速构建马太效应，利用飞轮效应形成壁垒：卖得越多，成本越低、品牌曝光越多，销量再涨 [15] - 行业存在"创新者的窘境"，即已占据一定生态位的企业不愿放弃现有安稳去赌不确定的未来，这为公司提供了差异化竞争机会 [22] - 公司判断向C端渗透的时机基于自身能力维度，包括订单基础、供应链议价能力等，而非单纯看行业时机 [12] 创始人认知与公司发展 - 创始人从技术导向转向市场连接意识觉醒，认识到产品与市场连接的重要性，包括营销、宣传、影响投资人决策等 [2][38][39] - 公司发展转折点来自创始人认知提升，从"闷头搞技术"到重视市场连接，而非单纯依赖外部事件如机器人马拉松比赛 [38] - 公司前两年关键词是"生存"和"活着"，今年目标是"留在牌桌上"，通过高性价比机器人战略打开局面 [38] - 创始人自我评价为不及格创业者，认为组织建设尚未达标，但认知上从自傲转向谦逊，意识到自身不足是最大进步 [43][44]

机器人(SZ:300024)

人形机器人

深度强化学习

E1和N2机器人

人形机器人

深度强化学习

E1和N2机器人

人类战队迎来最强AI挑战者？马斯克宣布Grok 5 迎战《英雄联盟》最强人类

搜狐财经· 2025-11-26 18:17

公司AI模型发展规划 - 埃隆・马斯克宣布公司旗下AI大模型Grok 5将于2026年挑战《英雄联盟》顶级人类战队 [1] - Grok 5计划提前发布，现调整至2026年推出，其参数规模达6万亿个，是当前Grok 3和Grok 4的两倍 [4] - 马斯克直言Grok 5将在各项指标中遥遥领先，毫无疑问成为全球最智能的人工智能 [4] 技术验证目标与赛事细节 - Grok 5的核心设计目标是通过阅读说明和实验玩转任意游戏，此次跨界挑战旨在验证其通用人工智能能力 [3] - 赛事限制条件包括仅通过摄像头观看显示器，视野范围不超过正常视力水平，以及响应延迟与点击率严格匹配人类极限 [3] - 谷歌DeepMind研究主管提议新增《星际争霸》对战项目，马斯克予以回应，为赛事扩容留下可能 [3] 行业技术测试背景与意义 - 《星际争霸》和《英雄联盟》等即时战略游戏已成为AI能力测试的重要场景 [5] - 成熟AI可通过深度强化学习实现高精度操作与战术决策，但在长期战略规划和突发情况应对上仍与人类选手存在差距 [5] - Grok 5与顶级人类战队的公平对决，有望成为AI发展史上的重要里程碑 [5]

通用人工智能

深度强化学习

《英雄联盟》

《星际争霸》

通用人工智能

深度强化学习

《英雄联盟》

《星际争霸》

首个AI控制器完成卫星在轨姿态调整验证

科技日报· 2025-11-14 08:20

技术突破 - 全球首个人工智能在轨卫星姿态控制器在InnoCube纳米卫星上完成验证，标志着航天系统自主化的关键进展 [1] - AI控制器在9分钟的卫星过境期间执行了完整的姿态机动操作，通过控制反作用轮精准调整卫星姿态并保持稳定控制 [1] - 技术核心采用深度强化学习，神经网络在模拟环境中自主学习控制策略，而非依赖传统固定算法 [1] 技术优势 - 创新方案将耗时数月的参数调试过程自动化，使控制器能自主适应实际环境变化，摆脱人工校准束缚 [1] - 采用无线卫星总线SKITH，以无线数据传输取代传统布线，为控制器减重并减少潜在故障源 [2] - 经过地面高保真模拟训练的AI控制器在真实太空环境中表现出色 [1] 应用前景 - 该验证为深空探测开辟新前景，智能自主控制系统将成为通信延迟的行星际或深空任务中航天器生存的关键 [2] - 最新进展表明行业正在迎来卫星控制的新时代 [2] - InnoCube是创新空间技术的平台，助力科学家直接在轨道上测试新概念 [2]

深度强化学习

AI在轨卫星姿态控制器

无线卫星总线SKITH

深度强化学习

AI在轨卫星姿态控制器

无线卫星总线SKITH

AI 赋能资产配置（十九）：机构 AI+投资的实战创新之路

国信证券· 2025-10-29 15:16

核心观点 - 大语言模型正将海量非结构化文本转化为可量化的Alpha因子，从根本上拓展了传统投研的信息边界[1] - 从大语言模型的信号提取、深度强化学习的动态决策到图神经网络的风险建模，AI赋能资产配置的全链条技术栈已具备现实基础[1] - AI正从辅助工具转向决策中枢，推动资产配置从静态优化迈向动态智能演进，重塑买方的投研与执行逻辑[1] - 头部机构的竞争已升维至“AI原生”战略，其核心是构建专有、可信且能驾驭复杂系统的AI核心技术栈[2] - 对国内资管机构而言，破局之道在于战略重构与组织变革，走差异化、聚焦式的技术落地路径[3] AI技术对资产配置范式的重塑大语言模型的应用与挑战 - 大语言模型凭借自注意力机制能够精准捕捉词汇在句子中的复杂关系与上下文含义，实现更精准的金融情绪判断，将投资分析从数字领域拓展至语义领域[11][12] - 金融专用大语言模型的开发遵循预训练加微调的两步范式，业界已开发出BloombergGPT（500亿参数）、FinGPT、FinBERT与FinLlama等专用模型[13] - 大语言模型可直接为算法交易系统提供情绪信号，并实现7×24小时不间断监控全球信息流以识别潜在风险早期信号[14] - 大语言模型应用面临数据偏见与模型幻觉、高昂计算成本、可解释性难题等挑战，金融专用大语言模型的竞争正演变为围绕专有数据与微调专业知识的军备竞赛[15][16] 深度强化学习的革新价值 - 深度强化学习采用“智能代理”与“环境”交互的学习范式，目标是在长期内实现最优回报的决策策略，而非一次性精准预测[17][18] - 主流深度强化学习算法包括演员-评论家方法、近端策略优化和深度确定性策略梯度，其中深度确定性策略梯度专为连续行动空间设计，非常适合投资组合管理任务[19][20] - 深度强化学习面临数据依赖与过拟合风险、市场周期适应性难题、高昂计算成本以及现实世界约束整合等发展瓶颈[21][22] 图神经网络的风险建模能力 - 图神经网络将整个金融系统抽象为网络，其中“节点”代表金融机构，“边”代表它们之间的相互关联，能够捕捉风险通过网络进行“传染”的动态过程[23] - 图神经网络通过“消息传递”机制让每个节点聚合其邻居节点信息，从而感知其在网络中的局部和全局环境，为监管部门提供强大的压力测试模拟工具[24][25] - 图神经网络可帮助投资者识别高度关联的“公司集群”，构建更有效的投资组合对冲策略，实现对整个“社区”风险的对冲[26] 头部资管机构的AI实践贝莱德的AlphaAgents系统 - AlphaAgents系统通过模拟人类投资委员会的“协作与辩论”机制，设立基本面分析、情绪分析和估值分析三个具有明确角色分工的AI智能体[30][31] - 系统选择GPT-4o作为核心模型，在事实分析基础上进入对抗性辩论与共识辩论环节，通过多轮讨论直至所有智能体达成一致共识[31][33] - 回测实验显示，在风险中性策略下，多代理投资组合的累计回报和夏普比率显著优于所有单代理组合及市场基准，而在风险规避策略下成功实现了规避下行风险的策略目标[34][35] - AlphaAgents代表了人机协作模式的根本性升级，其多智能体辩论机制提高了分析严谨性并减少AI幻觉问题，为AI决策的可解释性提供重要支撑[39] 摩根大通的AI原生战略 - 摩根大通每年在AI上投入20亿美元，2025年技术预算高达180亿美元，其中AI是核心部分，通过设立专门AI研究部门系统性地推进金融AI基础研究[42][43] - 2024至2025年间，摩根大通AI部门共发表140篇出版物，包括15篇期刊论文和63篇会议论文，其中8篇发表于AAAI顶级会议[44] - 摩根大通的AI战略围绕三大支柱：构建专有可信的AI核心技术、通过模拟与自动化决策掌控复杂系统、从物理与另类数据中创造信息优势[45][53][58] - 在可信AI领域，摩根大通研究在不直接接触敏感数据前提下实现模型公平性的方法，以及开发具备数学上可证明隐私保护能力的合成数据[46][47] 对国内资管机构的启示 - 国内资管机构应进行顶层设计并寻求差异化破局，成立跨部门AI战略委员会，制定符合公司特色的转型路线图，采取“聚焦突破”策略[63] - 技术实施层面应采取“三步走”策略：夯实数据基础、基于开源框架进行模型选择、确立“人机协同”原则将AI定位为投研团队的“智能副手”[64] - 必须打破传统部门壁垒，构建融合投资洞察、数据科学和工程实现的跨职能团队，采取“外部引进与内部培养”双轨制进行人才建设[65][66] - 需要建立覆盖模型全生命周期的治理框架，特别关注大语言模型的“幻觉”问题，前瞻性布局“可信AI”能力建设[67]

AI赋能资产配置

大语言模型

深度强化学习

图神经网络

AI赋能资产配置

大语言模型

深度强化学习

图神经网络