Workflow
强化学习
icon
搜索文档
抛弃 OpenAI 后,Figure 机器人“进化”:像人一样行走!
AI科技大本营· 2025-03-28 11:41
具身智能与机器人技术发展 - AI进入落地阶段,具身智能成为最佳载体[1] - Figure公司转向自主研发路线,发布机器人操作系统Helix并实现商业化应用[2] - Figure 02机器人已进驻物流工厂承担快递分拣任务[2] Figure 02机器人技术创新 - 采用纯强化学习算法实现人类般自然流畅行走[4] - 突破传统步态规划方法,使用端到端神经网络自主掌握行走技巧[5] - 构建高度逼真物理模拟环境,数千机器人并联运行学习自适应行走[5] - 完全通过强化学习训练,无人工步态设计或示教[6] - 采用域随机化与高频扭矩反馈控制解决Sim-to-Real迁移难题[6][9] - 实现零样本迁移,模拟训练策略可直接应用于实体机器人[6] 技术实现细节 - 域随机化:随机化机器人物理属性以适应真实世界差异[9] - 高频扭矩反馈控制:补偿执行器建模误差[9] - 通过奖励机制优化人类风格步态(脚跟着地、手臂摆动等)[6][10] - 策略具备适应不同地形、负载和外部干扰的能力[5][10] 行业发展趋势 - 摆脱外部技术依赖,自主研发成为机器人企业突围关键[8] - 构建自主可控软件平台与硬件设计优势相结合[8] - 开放生态建设与全球开发者协作是未来重要方向[8] - 具身智能面临感知能力增强、复杂任务执行等挑战[8]
人形机器人优雅漫步,强化学习新成果!独角兽Figure创始人:之前大家吐槽太猛
量子位· 2025-03-26 18:29
人形机器人技术进步 - 人形机器人独角兽Figure利用强化学习实现自然人形行走,步态更轻盈、速度更快[3][4] - 采用端到端神经网络训练,包含强化学习、模拟训练和Sim-to-Real三部分技术模块[8][9][10][11] - 通过GPU加速仿真在数小时内生成多年数据,并行模拟数千机器人应对多样化场景[14][15] 技术实现细节 - 强化学习策略结合人类行走轨迹奖励机制,优化速度跟踪、功耗及抗干扰能力[17] - 使用域随机化和kHz速率扭矩反馈控制解决"模拟到现实差距",实现零接触部署[18] - 技术已实现10台机器人同步同频行走,计划扩展至数千台规模[20][21] 行业动态与公司战略 - 创始人表示步态改进非首要任务,最终目标是商业化运送机器人[22] - 2024年海内外厂商密集布局人形机器人,vivo同日宣布成立机器人Lab[24] - 行业展示能力包括复杂运动如空翻、托马斯全旋等拟人化动作[28]
这些大专生,教出人形机器人
盐财经· 2025-03-25 18:39
文| 朱秋雨 赖丁萌(实习生) 编辑| 向由 值班编辑 | 宝珠 视觉 | 顾芗 中国人形机器人赛道最近"好消息"不断。 前有深圳的众擎机器人完成全球首例前空翻,后有杭州宇树科技机器人实现720度回旋踢。3月11日,前 华为天才少年"智晖君"创立的智元机器人,发布了人形机器人灵犀X2。在视频里,机器人不仅可以像人 一样走路、跑步,还能玩滑板车、骑自行车。 人们正通向"机器人养老"的美好愿景,而现在,一个新工种随着具身机器人的火爆而出现。在Boss直 聘、实习僧等求职APP上,一些公司正招聘学历要求大专以上,名叫"机器人数据采集员"的岗位。 在Boss直聘等求职APP上,一些公司正招聘"机器人数据采集员"的岗位 这份工作的主要内容包括:负责机器人数据采集工作、控制机器人正确移动、保护机器人处于安全状 态,等等。 除此以外,很多岗位还列出了对人的外形的要求,有的是,"不戴眼镜,没有高度近视";有的要求"男生 身高170-175,体重65公斤以内;女生160-168,体重55公斤内";还有的公司要求,"不能有小肚子,身 体协调性较好,细心、灵活、有控制力"。 这些岗位成功引起了众人的注意。人们不禁好奇:机器人的数据 ...
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
图片来源: a16z Z Highlights 在这段访谈中 a16z 合伙人 Guido Appenzeller 和 Marco Mascorro 一同揭开了 DeepSeek 的工作原理,并解释了推理模型时代对人工智能的意义。 开源透明,点燃推理革命 Guido Appenzeller: 大家好,今天我们将深入探讨 DeepSeek ,这个来自中国的全新高性能推理模型。 DeepSeek 在上个月引起了广泛关注,它在排行榜上 名列前茅,但也引发了一些担忧和困惑。 Marco Mascorro: 是的,这不太理想。 Guido Appenzeller: DeepSeek 的优点在于,他们开源了模型权重、技术细节以及构建这些模型的方法。这为我们理解推理模型的工作原理提供了宝贵的观 点,而且展望未来,几乎所有最先进的模型都将采用其中的一些技术。我们已经从 OpenAI 和 Google 的模型中看到了类似的结构,这对我们所需的计算 量、推理和训练所需的 GPU 算力都有着重大影响。这是我们对 DeepSeek 的分析,包括他们一直在构建的一些模型,如 DeepSeek Math, V3 和 V2 ,以及 现在的 ...
深度|MiniMax加速调整,收购AI视频创业公司,海螺ai正式改名,或是受DeepSeek影响最小的六小虎
Z Finance· 2025-03-14 19:39
文章核心观点 AI行业呈现加速整合态势,多家初创企业因融资困境或技术商业化瓶颈选择被收购,MiniMax收购鹿影科技是技术互补与市场扩张的战略选择,同时其自身也在进行内部调整,凭借技术优势与全球化战略在竞争中受冲击较小 [1][2][3] 分组1:MiniMax收购鹿影科技 - MiniMax将收购深圳AI视频生成创企鹿影科技,双方已敲定收购意向 [1] - 鹿影科技成立于2023年9月,专注开发以自研LCM视觉大模型为核心的AIGC工具与内容平台,核心产品为二次元动漫AI视频生成平台YoYo,主要面向二次元创作者市场 [1] - 鹿影科技CTO王超奇已退出团队加入xAI,或为公司寻求收购的关键原因 [2] - MiniMax收购鹿影科技核心动机是技术互补与市场扩张,可弥补其在长视频流畅度与细节控制上的不足,加速下一代Video - 02系列模型开发 [2] - 收购是国内AI公司应对行业竞争与资本压力的战略选择,鹿影技术积累为MiniMax对抗大厂提供技术弹药,且收购成本低,可节省数千万美元投入,加速其向“全栈式AI内容平台”转型,预示AI创企“技术并购潮”加速 [2] 分组2:国内AI创业公司被收购案例 - 边塞科技由吴翼于2023年3月创立,专注大语言模型与强化学习融合技术开发,获超千万美元融资,天使轮投后估值达8000万美元,运营1年多被蚂蚁集团以低于8000万美元价格收购,因技术商业化遇瓶颈,交易后公司独立运营,吴翼入职蚂蚁集团强化学习实验室任首席科学家 [3] - 波形智能由姜昱辰创立,专注垂直领域长文本生成技术,核心产品“蛙蛙写作”生成文本量超200亿字,完成两轮融资后被OPPO收购,团队核心成员入职OPPO,OPPO看中其技术对AI手机赋能潜力以完善安第斯大模型应用场景 [4] - Voyage AI由马腾宇创立,凭借技术成果成立1年以2.2亿美元估值被MongoDB收购 [4] 分组3:MiniMax内部调整 - 高管侧,联合创始人、副总裁魏伟近期离职,此前负责To B商业化及开放平台业务,这是继2024年9月产品负责人张前川转任顾问后再次出现高管变动 [5] - 产品侧,核心产品「海螺AI」更名为「MiniMax」,原域名转向专用于视频生成业务「海螺视频」,目前仅网页端更名,APP端保留原名,实验产品「万物追踪」正在调整 [5] - 更名与公司战略重心调整有关,一方面01系列开源模型技术突破需更直接品牌关联,另一方面全球化布局要求简化品牌认知,更名后将整合多模态技术能力,以“AI智能助手”定位深化C端与B端应用 [6] 分组4:MiniMax优势 - MiniMax多模态模型技术实力显著领先,01系列模型在文本、视觉和视频生成领域取得突破,长上下文处理能力和视频生成一致性追平甚至超越国际顶尖水平 [6] - MiniMax是六小虎中唯一在全球化市场取得显著成功的企业,旗下「Talkie」国内外市场表现亮眼,去年收入可能接近数千万美元,提供稳定现金流支撑 [7]
喝点VC|红杉对话OpenAI Deep Research团队:AI Agent将成为今年最具突破性技术,强化学习重新回归主流
Z Potentials· 2025-03-10 11:07
深度研究的核心技术 - 采用端到端强化学习方法针对复杂网页浏览和推理任务进行训练 显著提升智能体在开放环境下的决策能力 [4][10][24] - 基于OpenAI最先进推理模型o3的微调版本 结合浏览工具和Python计算工具增强信息处理能力 [24][25] - 通过"思维链摘要"机制动态调整搜索策略 相比传统搜索引擎具备更灵活的推理能力 [25][26] - 优化目标决定最终结果 直接针对用户需求进行端到端训练比人工拼接子系统更高效 [3][29] 产品功能与性能 - 将数小时的知识工作压缩至5-30分钟 在专业领域可覆盖90%以上核心信息 [6][17] - 支持多源信息整合与交叉验证 自动生成带参考文献的详尽报告 [6][19][32] - 具备表格化数据展示和图表生成能力 未来将拓展图片嵌入功能 [19] - 在模糊查询场景中主动澄清需求 通过交互优化提升回答精准度 [34] 应用场景 - 商业领域:市场研究、企业分析、代码开发等场景节省80%工作时间 [11][39][15] - 医疗领域:快速查找最新医学文献和临床试验 辅助诊断决策 [12][40] - 消费场景:高效完成购物比价、旅行规划等高价值决策 [18][41] - 教育领域:提供个性化学习路径和结构化知识报告 [21][43] 行业影响与发展趋势 - AI Agent将成为2025年最具突破性的技术方向 推动知识工作自动化 [50][51] - 强化学习因语言模型成熟而重新崛起 成为构建AGI的关键方法 [55][56][57] - 不会完全替代人类工作 而是提升1%-25%的工作效率 [38] - 咨询、医疗等依赖信息整合的行业将优先受到影响 [39] 未来规划 - 拓展私有数据搜索权限 增强复杂场景下的分析能力 [37] - 融入OpenAI的AGI路线图 实现更自然的跨工具操作 [33][37] - 优化模型可靠性机制 减少幻觉并提高引文权威性 [32] - 开发Plus版本降低使用门槛 探索新兴应用场景 [13]
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
技术趋势 - 硅谷巨头形成新共识:推理能力应作为大模型的核心组成部分而非附加功能,OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光:结合GPT-4.5基础模型与推理模型o3,采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈:Grok 3(10万张GPU训练)、GPT-4.5(10亿美元投入)、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式:无监督学习(GPT-3.5/4/4.5主导)与推理能力(o1/o3-mini推动),OpenAI计划分层服务用户[6] - 模型封装引发争议:斯坦福学者批评系统黑箱化导致底层机制不可解释[7],中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆:OpenAI版本支持多层级订阅(20/200美元/月),分析师评价其接近AGI水平,效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键:强化学习驱动的端到端训练优于人工编排规则,高质量数据集决定模型上限[14] - 应用局限显现:热门话题易受低质信息污染,冷门领域价值更高,无法获取未公开信息[13] - Manus提出Agent开发哲学:主张"less structure, more intelligence",重构AI浏览器、搜索等产品形态[13][15] - 投资人观点:推理/编程/工具使用能力突破临界点,催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增:阿里宣布三年3800亿元(530亿美元)投入,字节2025年资本开支达200亿美元,腾讯GPU采购大幅增长[17] - DeepSeek成关键变量:6710亿参数模型推动部署需求,完整版R1需80台H800(月成本500-600万)[17] - 算力需求矛盾显现:黄仁勋称下一代模型算力需求增长100倍[18],微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡:2月先涨17%后跌20%,中国收入占比降至15%(禁令前30%)[19][20] 投融资动态 - 并购市场活跃:3笔超1亿美元交易包括Voyage AI(2.2亿被MongoDB收购)、Humane(1.16亿被惠普收购)、Kinara(3.07亿被恩智浦收购)[21] - 基础设施领域火热:CoreWeave拟IPO募40亿(估值350亿),Together AI获3.05亿融资(估值33亿),Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化:Safe Superintelligence(OpenAI系)寻求300亿估值融资,Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司:23家获超5000万融资企业中,仅2家成立于2023年后(Genspark、Eudia),医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新:OpenAI以100美元时薪雇佣300名专家生成高质量数据(如医学/物理问题,单问题耗时2小时)[32][33] - 数据质量决定上限:行业从AI生成数据(如DeepSeek专家模型)转向人工专家生产,Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升:GPT-4.5后训练阶段依赖高价专业数据,OpenAI投入超600万美元/月用于专家数据生产[33]
第一批买到宇树机器人的赚麻了
投资界· 2025-03-07 15:15
宇树科技机器人市场表现 - 宇树H1和G1人形机器人在京东线上首发售罄,G1起售价9.9万元,H1起售价65万元 [3] - 由于现货稀缺,交付周期普遍需要2个月,二手市场出现溢价,G1部分二手现货价格被炒至14万元,溢价超过40% [6][10] - 租赁市场火爆,单台日租金高达5000元至1.5万元,档期紧张,出现"一机难求"局面 [6] 机器人商业应用场景 - 租赁用途覆盖新店开业游街、广告引流、商场暖场、公司年会、科技展览、政府宣传、汽车展销、教育科普等多样化商业场景 [9] - 海外市场应用更具创意,包括抽象艺术、街头整活、情景喜剧等,美国顶流主播Kai Cenat购入G1后带动直播切片播放量从50-200万飙升至400万 [10][12][14] - 意大利博主Jakidale利用G1拍摄情景剧,视频播放量达89万 [15] 产品技术特性与研发进展 - G1机器人重35kg、高127cm,拥有23-43个关节电机,关节最大扭矩120N・m,目前AI能力限于快速建模和行走避障,需编程扩展功能 [10] - 英伟达与卡内基梅隆大学基于G1开发ASAP模型,通过强化学习实现流畅全身控制,可完成高难度动作如APT舞蹈、C罗庆祝动作等 [20][22] - G1展示强大动态平衡能力,能在20厘米宽踏脚石上稳定行走,负重6千克抗干扰完成任务,技术为救援、巡检场景奠定基础 [26] 行业影响与未来规划 - 波士顿动力创始人Marc Raibert透露其研究所已购买宇树机器人测试性能,认可其性价比 [26] - 宇树科技开源G1操作数据集,吸引全球开发者参与技术优化 [20] - 公司计划未来将机器人价格降至三四千元,目标进入家庭场景 [26]
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 15:41
强化学习研究发展历程 - 强化学习从推荐系统起步,逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合,推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮,华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统,降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成,引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型,获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目,探索多智能体解决方案 [28] - 开发决策大模型DB1(参数量10亿+,数据量100T)验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区,累计组织30+学者授课,单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册,居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队,推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究,发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业,早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破,技术路线后被多家机器人公司采用 [31][35]
喝点VC|Greylock解读DeepSeek-R1,掀起AI革命和重构经济秩序
Z Potentials· 2025-03-04 13:33
开源与闭源模型 - DeepSeek-R1 缩小了开源模型与闭源模型的差距 在关键推理基准测试中与 OpenAI 最新模型持平 尽管其规模更小 [2] - 开源模型在质量上已与最先进的闭源模型持平 标志着开源将模型层商品化的转折点 [2] - 开源模型的进步将推动 LLM 市场的竞争 企业将拥有多样化的实用选项 在计算能力、成本和性能之间进行权衡 [2][3] AI 基础设施与开发者使用 - DeepSeek-R1 利用强化学习(RL)提升推理能力 采用广义策略优化强化学习(GRPO)技术 是首个成功大规模实施并取得可测量增益的开源模型 [3] - 强化学习的突破被视为游戏规则的改变者 但当前 AI 工具尚未完全支持这一新范式 [3] - 开源模型的普及消除了“最大最好模型必须封闭”的护城河 企业可以完全掌控前沿模型 [4] 新应用与行业影响 - DeepSeek 增强的推理能力开启新应用浪潮 包括自主 AI 代理、专业规划系统和企业 AI 助手 [5] - 高度监管行业将受益于开源模型 因为企业可以完全控制数据的使用方式和发送目的地 [6] - 数据质量仍是关键优势 特定领域的标注和奖励函数对模型性能至关重要 [6] GenAI 经济学 - DeepSeek 降低了推理和训练成本 改变了 GenAI 部署的经济性 企业将更多地使用 AI 并部署多个特定领域模型 [7] - 开源模型的成本比使用 OpenAI 或 Anthropic 便宜多达 7 倍 解锁了更多经济上不可行的案例 [7] - 生成器的商品化趋势将推动标注技术的进步 包括 RLHF 和奖励函数等方法的优化 [8] 行业展望 - DeepSeek 标志着开源模型首次真正达到与专有替代品竞争的水平 开启了 AI 发展的新时代 [8] - 高质量、特定领域的数据和标注仍是 AI 未来的关键 尽管 DeepSeek 代表了有意义的进展 [8]