强化学习
搜索文档
清北天才扎堆的机器人赛道 ,杀出一个大专生
36氪· 2025-04-08 20:45
行业背景 - 人形机器人行业在2023年迎来爆发式增长,主要受大模型技术推动[3][23] - 高盛预测2035年仿人机器人市场规模将达1540亿美元[29] - 行业竞争加剧,特斯拉、小米、华为等科技巨头纷纷入局[29] 公司发展历程 - 宇树科技创始人王兴兴2016年创立公司,初期融资200万元[15] - 众擎机器人创始人赵同阳经历三次创业失败后,2023年成立新公司并完成近4亿元融资[3][24] - 两家公司均从四足机器人切入,最终转向人形机器人赛道[18][24] 产品与技术 - 宇树科技推出首款人形机器人H1售价9万美元,第二代G1定价9.9万元[24] - 众擎机器人推出SA01、SE01、PM01三款人形机器人产品[24] - 两家公司均采用"先做头脑简单、四肢发达"的技术路径[29] 市场表现 - 宇树科技产品登上2021年央视春晚,品牌知名度大幅提升[6][21] - 众擎机器人2024年完成Pre-A轮2亿元融资,由Stone Venture领投[3] - 宇树G1人形机器人预售首日订单超3000台[24] 创始人特质 - 两位创始人均非名校背景,早期融资困难[8][17] - 赵同阳擅长团队建设,提出"长板理论"聚集人才[25][26] - 王兴兴开创低成本电驱方案,技术路线受市场认可[11][24] 行业趋势 - 新一代创业者更注重强化学习技术应用[29] - 行业面临产品同质化挑战,差异化竞争成关键[29] - 人才争夺战激烈,头部公司高薪吸引顶尖人才[25][26]
速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升
Z Potentials· 2025-04-08 20:30
图片来源: DeepSeek DeepSeek 正与清华大学合作,致力于减少其 AI 模型所需的训练量,以降低运营成本, 开发自我进 化的 AI 模型。 DeepSeek 曾以一月份推出的低成本推理模型震动市场,现与高校研究人员联合发表论文,详述了一 种提升模型效率的强化学习新路径。研究人员写道,这种新方法旨在通过为更准确且易于理解的回答 提供奖励,帮助人工智能模型更好地遵循人类偏好。 强化学习在加速特定应用和领域内的 AI 任务方面已被证明有效,但将其扩展到更通用的场景一直充 满挑战——这正是 DeepSeek 团队试图通过其所谓的 " 自我原则批判调优 " 来解决的问题。 论文指出,该策略在多项基准测试中超越了现有方法和模型,结果显示能以更少的计算资源实现更优 性能。 DeepSeek 公司表示,将这些新模型命名为 DeepSeek-GRM (通用奖励建模的缩写),并将以开源形 式发布。 包括中国科技巨头阿里巴巴集团和美国旧金山的 OpenAI 在内的其他 AI 开发者,也正在开拓新领 域,致力于提升 AI 模型实时执行任务时的推理与自我优化能力。 Meta 于上周末发布了其最新 AI 模型系列 Llam ...
对话智元首席科学家:把具身智能过度类比大模型,是对它最大的误读
36氪· 2025-04-05 19:41
文章核心观点 - 具身智能赛道存在泡沫但也有发展前景,软硬件一体的全栈路线是未来趋势,当下是入局和突破的最佳时间点 [10][23][44] 行业现状 - 具身智能赛道一边有投资人逃离泡沫,一边被高额融资激活,腾讯首次押注具身智能领域的智元机器人,该公司成立仅1月完成3亿天使轮融资,几个月内估值达10亿美金,成为全球最快跻身独角兽的具身智能公司 [5] - 行业还未收敛到确定性技术方案,未出现引领型明星公司 [30] - 全球有500万台机器人被部署在真实世界,但都是盲的,靠绝对定位操作,做重复性编程和工作 [42] 泡沫看法 - 泡沫意味着关注度和资源,是提前下注,技术范式转移都会经历泡沫阶段,具身智能更复杂,需要更长时间技术积淀 [10] 大模型与具身智能关系 - 不能简单将具身智能与大模型范式划等号,大模型准确率在机器人身上不适用,用大模型周期类比具身智能低估了作业智能和行动智能的独特挑战 [12][13] 软硬件重要性及卡点 - 软件和硬件同等重要,目前软件和硬件都未收敛到点,行业对两者集成也无共识 [14] - 软件方面,大模型缺乏长时间memory,跨任务尝试、分层控制和实时反馈是难题,仿真、数据使用及RL应用都存在挑战 [15] - 硬件方面,高性能硬件平台成本高,传感器反馈不够精细,可靠性有提升空间,未来可能根据不同行业有相对标准化本体和方案 [16][17] 数据问题 - 数据问题像蛋生鸡、鸡生蛋难题,可先从封闭、半封闭空间部署机器人获取数据来改进系统 [18][20] - 自动驾驶早期也有数据匮乏争论,现在数据过多,具身智能公司掌握产品和生态、有能力部署机器人将有先发优势 [21] 全栈路线必要性 - 自动驾驶和无人机行业发展表明,软硬件一起迭代的全栈路线会笑到最后 [22][23] 智元公司情况 - 智元是中国头部具身智能公司中最高举高打的一家,发布首个通用具身基座大模型,与Pi达成合作,首席科学家是罗剑岚 [6] - 公司内部是扁平、高度协作团队,稚晖君、姚卯青和罗剑岚是平行互补关系,分别负责系统工程、战略方向和算法路线推动及外部技术生态融合 [25][26] - 选择与Pi合作是因理念契合,Pi是国际上做具身智能最好的公司之一 [27][28] - 公司采用生态打法,强调开放协同,帮助外部公司迭代并引入其能力到自身生态体系 [29] 自主决策与任务定义 - 机器人自主决策关键在于对不确定性的分析和建模,换成可执行动作链,其感知、预测、生成机制的泛化能力是关键技术 [31] - 长周期任务关注任务先后复杂依赖关系和泛化能力,复杂任务在manipulation上有未解决问题,如机器手接触外界的物理现象和多模态视觉输入下完成灵巧任务 [32] 机器人AGI相关 - 实现manipulation就是AGI,是比LLM更高级的智能 [34] - 最感兴趣的是让系统有更强自主学习和泛化能力,智元新成立的具身智能研究中心希望打通从基础科学到技术落地的链路 [36] 强化学习与入局优势 - 受大模型影响,强化学习在具身智能领域成潮流,不同背景的人入局视角不同 [37][38] - 大厂和消费电子公司入局是积极信号,它们在用户体验、产品化等方面有积累,创业公司优势在于对行业底层逻辑理解更垂直、精致,擅长智能,最终两个方向会聚合 [39][40] 行业周期与入局时机 - 具身智能已走过约十年探索期,现在进入机器人应用窗口期,特定场景有使用价值且有持续学习能力的机器人会提前到来,是入局和突破的最佳时间点 [41][42][44]
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
AI科技大本营· 2025-04-03 10:16
开源强化学习框架AReaL boba发布 - 蚂蚁与清华大学联合推出开源强化学习框架AReaL boba里程碑版本 致力于普惠AI开发社区 开放模型、代码、数据及实现细节 提供详细教程实现"人人可手搓顶尖大模型"愿景 [1] - 框架全面拥抱xAI公司高性能推理框架SGLang 通过工程优化使7B模型训练速度提升1.5倍 端到端训练性能提升73% [4] - 团队开源训练数据AReaL-boba-106k 监督微调仅用200条精选数据成功复现QwQ-32B在AIME 2024上的推理性能(78.8分 vs 原版78.9分) [10][15] 技术性能表现 - AReaL-boba-RL-7B在数学推理能力达同尺寸模型SOTA水平:AIME 2024得分61.9 AIME 2025得分48.3 超越基础模型及同类开源模型 [15] - 不同配置下训练时间对比显示模型性能优势:R1-Distill-Qwen-7B在GPQA-Diamond测试中耗时47.1小时 而AReaL-boba-RL-7B仅需47.6小时 [9] 未来发展计划 - 研发重点包括系统与算法优化 将引入基于编码问题的强化学习训练、异步生成与RL训练 探索视觉-语言模型强化学习 [11] - 计划完善32B规模模型训练方案 研发多任务RL算法 提升MoE模型稳定训练能力 保持每周更新频率 [11] 行业活动与专家分享 - 清华大学吴翼教授将在2025机器学习技术大会解读AReaL系统应对强化学习挑战的技术方案 包括降低训练门槛、提升效率等突破 [13][18] - 360智脑算法专家邹昊晟将分享Light-R1系列开源经验 该系列在14B模型实现GRPO强化学习显著提升 评测超越DeepSeek-R1-Distill-32B [22][24]
智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能
每日经济新闻· 2025-04-02 15:35
公司合作与技术发展 - 智元机器人与Physical Intelligence(Pi)达成合作伙伴关系,将在具身智能领域展开深度技术合作,重点关注动态环境下的长周期复杂任务 [1] - 罗剑岚加入智元机器人并全面领导具身智能研究中心,同时推进双方深度合作 [1] 机器人自主决策与智能等级 - 遥控与自主决策的核心差别在于机器人需具备感知、预测、行为生成的泛化能力,并建立Internal Model(世界模型)以预测未来和执行动作链 [1] - 机器人实现Manipulation(操控)的智能等级为7至8,远高于大语言模型(LLM)的3级 [1] 关键技术路径 - 强化学习和DeepSeek R1的推理能力是关键技术,但模仿学习不足,需结合世界模型预测环境变化 [1] - 核心挑战在于构建开放数据链的鲁棒策略,以及感知、预测、行为生成机制的泛化能力 [1] 数据收集与场景部署 - 人形机器人缺乏大规模应用场景数据,需通过部署产生数据循环(如1000台机器人在星巴克工作可快速积累数据) [1] - 机器人部署难度低于智能驾驶,可从封闭或半封闭空间开始,逐步生成数据 [1]
AI 写码一时爽,代码审查火葬场?GitHub Copilot 副总揭秘新瓶颈 | GTC 2025
AI科技大本营· 2025-03-31 14:55
AI在软件开发中的进展与挑战 - AI预计在24到36个月内达到人类水平的软件开发能力和自主性 [1][11] - AI代码生成工具正在改变软件开发方式,NVIDIA等公司积极探讨其对加速计算的影响 [4] - 强化学习在CUDA优化等明确目标的任务中具有潜力,但需解决计算成本问题 [9] CUDA与AI结合的实践 - NVIDIA开发Nsight Copilot和WarpDrive项目,分别用于识别CUDA性能瓶颈和自动化调优流程 [8] - 大规模代码库转换面临挑战,包括构建系统适配和跨文件依赖管理 [8][18] - CUDA优化需针对每代GPU架构调整,新硬件特性要求代码重构或算法重设计 [19] AI代码生成的技术瓶颈 - 低资源领域(如CUDA、Fortran)缺乏高质量训练数据,合成数据占比或提升至90% [16] - 验证生成代码的正确性在并发场景中尤为困难 [10] - 当前AI工具难以全局操作代码库,上下文窗口限制影响跨文件修改能力 [10][20] 行业应用与未来趋势 - GitHub Copilot探索跨文件编辑功能,聚焦安全改进等系统性变更 [10] - AI智能体将向自主执行多步骤任务演进,模拟人类开发者探索代码库的行为 [21] - 编程竞赛表现与真实开发能力存在差距,因后者需复杂上下文理解 [25] 评估与信任机制 - "黄金测试"标准包括代码重构、跨语言转换和串行代码并行化 [22][23] - 代码审查成为AI驱动开发的瓶颈,需平衡生成效率与质量验证 [13] - 模型对齐和可解释性研究是应对AI潜在欺骗行为的关键方向 [28]
中关村论坛周末机器人“总动员”!机器人ETF基金(562360)连续3个交易日获得资金净流入,午后V型大反弹
新浪财经· 2025-03-31 14:50
行业动态 - 2025中关村论坛年会展示多种机器人应用场景,包括咖啡制作、机械太极表演和双语导览 [1] - 机器人板块在A股市场表现强劲,机器人指数成份股普遍上涨,信捷电气、华辰装备涨幅超4%,快克智能、科远智慧、燕麦科技、三丰智能涨幅超1% [1] - 机器人ETF基金(562360)实时成交额突破3700万元 [1] 指数与产品 - 机器人ETF基金(562360)跟踪的中证机器人指数与万得人形机器人指数成份股重合度为63%,覆盖人形机器人及数字化车间、生产线系统集成商 [1] - 行业趋势包括人形机器人进入量产阶段和工业机器人迭代升级 [1] 技术与市场潜力 - 机器人行业受益于人工智能、机器学习等技术革新,人形机器人领域进展显著,例如Figure公司通过强化学习技术缩短开发周期并提升机器人运动能力与智能化水平 [2] - 消费电子巨头如vivo进入机器人领域,表明技术正渗透日常生活,预示未来市场潜力巨大 [2] 相关产品 - 机器人ETF基金(562360)为投资者提供机器人行业投资机会 [3]
与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need
晚点LatePost· 2025-03-28 20:12
AI技术突破与行业影响 - OpenAI的o1系列模型通过强化学习大幅提升模型推理能力,o3在GPQA测试中达到70多分,超越人类博士生水平[5][6] - DeepSeek R1开源模型以极低成本实现推理能力突破,引发全民讨论,其技术报告揭示强化学习路径的有效性[5][6] - o4-mini推理时间达数小时级别,模型能力提升呈现指数增长趋势[6] 开源生态与竞争格局 - DeepSeek开源策略促使腾讯元宝、百度文心等大厂接入其模型,微信搜索接入后DAU实现两位数增长[27][28] - 开源模型降低行业门槛,Monica等创业公司基于开源模型开发Agent产品Manus[3][20] - 闭源与开源路线并存,Kimi选择闭源但专注技术前沿,DeepSeek通过开源中立性获得生态合作优势[29][30] Agent产品形态演进 - 推理能力突破解锁Agent产品形态,包括只读型(如Deep Research)和读写型(如Operator)[9][17] - Agent核心能力包括推理、编程和工具使用,o3在SWE-Bench测试中达到70-80分,可处理70%-80%人类编程任务[10][12] - Manus展示自主工具使用能力,如调用邮件客户端与政府机构交互[18] 算力需求与芯片格局 - Agent普及将推动推理算力需求增长100-1000倍,当前ChatGPT Pro月费200美元仍亏损[33] - 英伟达GPU仍占90%以上市场份额,但国产芯片(如华为昇腾)开始针对特定模型优化[33][34] - 专用芯片(ASIC)发展取决于模型架构稳定性,若架构固化则ASIC效率优势将显现[35] 行业变革与社会影响 - AI能力超越人类的"李世石时刻"密集出现,如编程能力已超越99%人类[37] - Agent推动"Attention is not all you need"范式,实现资金向生产力的Scaling Law[13] - 技术普惠阶段尚未到来,当前仍处于精英为精英开发工具的阶段[38] 公司战略与技术路线 - DeepSeek专注模型基础能力,未跟风多模态或C端产品,团队以本土人才为主[7] - Kimi通过长文本处理与搜索结合实现差异化,近期砍掉视频生成等非核心业务[30][31] - 多模态技术当前对智能提升有限,语言仍是最高效的智能载体[22][39] 成本与商业化进展 - GPT-4 API成本较发布下降超90%,2025年预计再降90%[28] - Devin定价6-8美元/小时,低于美国加州16美元最低时薪,企业服务付费习惯促进商业化[25] - DeepSeek通过技术突破获得自然流量,数千万DAU零广告投入[7] 技术发展前沿 - 下一阶段突破需解决记忆机制(Memory)和持续学习(Online Learning)问题[18][19] - 科学发现成为新焦点,AI需具备假设生成与实验验证能力[26] - 语言模型可能超越人类语言形式,进化出更高效沟通方式[39]
抛弃 OpenAI 后,Figure 机器人“进化”:像人一样行走!
AI科技大本营· 2025-03-28 11:41
具身智能与机器人技术发展 - AI进入落地阶段,具身智能成为最佳载体[1] - Figure公司转向自主研发路线,发布机器人操作系统Helix并实现商业化应用[2] - Figure 02机器人已进驻物流工厂承担快递分拣任务[2] Figure 02机器人技术创新 - 采用纯强化学习算法实现人类般自然流畅行走[4] - 突破传统步态规划方法,使用端到端神经网络自主掌握行走技巧[5] - 构建高度逼真物理模拟环境,数千机器人并联运行学习自适应行走[5] - 完全通过强化学习训练,无人工步态设计或示教[6] - 采用域随机化与高频扭矩反馈控制解决Sim-to-Real迁移难题[6][9] - 实现零样本迁移,模拟训练策略可直接应用于实体机器人[6] 技术实现细节 - 域随机化:随机化机器人物理属性以适应真实世界差异[9] - 高频扭矩反馈控制:补偿执行器建模误差[9] - 通过奖励机制优化人类风格步态(脚跟着地、手臂摆动等)[6][10] - 策略具备适应不同地形、负载和外部干扰的能力[5][10] 行业发展趋势 - 摆脱外部技术依赖,自主研发成为机器人企业突围关键[8] - 构建自主可控软件平台与硬件设计优势相结合[8] - 开放生态建设与全球开发者协作是未来重要方向[8] - 具身智能面临感知能力增强、复杂任务执行等挑战[8]
人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
量子位· 2025-03-26 18:29
人形机器人技术进步 - 人形机器人独角兽Figure利用强化学习实现自然人形行走,步态更轻盈、速度更快[3][4] - 采用端到端神经网络训练,包含强化学习、模拟训练和Sim-to-Real三部分技术模块[8][9][10][11] - 通过GPU加速仿真在数小时内生成多年数据,并行模拟数千机器人应对多样化场景[14][15] 技术实现细节 - 强化学习策略结合人类行走轨迹奖励机制,优化速度跟踪、功耗及抗干扰能力[17] - 使用域随机化和kHz速率扭矩反馈控制解决"模拟到现实差距",实现零接触部署[18] - 技术已实现10台机器人同步同频行走,计划扩展至数千台规模[20][21] 行业动态与公司战略 - 创始人表示步态改进非首要任务,最终目标是商业化运送机器人[22] - 2024年海内外厂商密集布局人形机器人,vivo同日宣布成立机器人Lab[24] - 行业展示能力包括复杂运动如空翻、托马斯全旋等拟人化动作[28]