强化学习
搜索文档
这些大专生,教出人形机器人
盐财经· 2025-03-25 18:39
文| 朱秋雨 赖丁萌(实习生) 编辑| 向由 值班编辑 | 宝珠 视觉 | 顾芗 中国人形机器人赛道最近"好消息"不断。 前有深圳的众擎机器人完成全球首例前空翻,后有杭州宇树科技机器人实现720度回旋踢。3月11日,前 华为天才少年"智晖君"创立的智元机器人,发布了人形机器人灵犀X2。在视频里,机器人不仅可以像人 一样走路、跑步,还能玩滑板车、骑自行车。 人们正通向"机器人养老"的美好愿景,而现在,一个新工种随着具身机器人的火爆而出现。在Boss直 聘、实习僧等求职APP上,一些公司正招聘学历要求大专以上,名叫"机器人数据采集员"的岗位。 在Boss直聘等求职APP上,一些公司正招聘"机器人数据采集员"的岗位 这份工作的主要内容包括:负责机器人数据采集工作、控制机器人正确移动、保护机器人处于安全状 态,等等。 除此以外,很多岗位还列出了对人的外形的要求,有的是,"不戴眼镜,没有高度近视";有的要求"男生 身高170-175,体重65公斤以内;女生160-168,体重55公斤内";还有的公司要求,"不能有小肚子,身 体协调性较好,细心、灵活、有控制力"。 这些岗位成功引起了众人的注意。人们不禁好奇:机器人的数据 ...
喝点VC|a16z关于DeepSeek的内部复盘:推理模型革新与20倍算力挑战下的AI模型新格局
Z Potentials· 2025-03-23 13:10
文章核心观点 - DeepSeek R1作为高性能推理模型代表开源透明特性推动行业技术发展[3][4] - 推理模型通过多阶段训练实现自我反思和链式思维显著提升复杂问题解决能力[11][13][20] - 模型创新聚焦计算效率优化包括MLA架构和GRPO算法降低训练与推理成本[30][31] - 开源模型生态加速应用创新使本地设备运行高性能AI成为可能[36][37] DeepSeek技术架构 - 采用多头潜注意力机制(MLA)优化KV向量存储效率支持扩展上下文长度至128K[30] - 引入耦合绳(couple rope)技术解决位置向量丢失问题提升长文本处理能力[30] - 使用FP8混合精度训练和GRPO采样算法提升训练效率减少计算资源消耗[30][31] 多阶段训练流程 - 预训练阶段基于互联网全量数据使用H100 GPU集群进行下一代token预测[6][27] - 有监督微调(SFT)使用人类生成示例教导模型直接输出答案而非自动补全[7][9] - 基于人类反馈的强化学习(RLHF)通过偏好评分优化答案质量[9][10] - R1训练包含两次SFT和两次RL阶段累计使用80万条样本(60万数学代码+20万创造性写作)[26] 模型性能突破 - R1答案长度从1000 tokens增至1万 tokens实现20倍推理量增长[20] - 在数学编程等可验证领域通过自我纠错机制实现答案准确率提升[13][22] - 蒸馏版本在7B参数设备运行效果优于直接应用RL训练[35][38] 行业影响与趋势 - 推理模型需求推动GPU算力增长20倍测试时计算成为新瓶颈[31][33] - 开源模型促使多厂商性能差距缩小行业竞争从数据规模转向训练方法创新[34] - 550万美元训练成本显示高效实验设计重要性(最终测试仅占小部分成本)[27][29] 应用场景拓展 - 本地化部署支持MacBook等设备通过Ollama开源软件实现离线推理[36] - 量化技术进一步降低设备门槛推动边缘计算场景落地[37] - 可验证领域(数学/代码/谜题)成为推理模型优先落地方向[14][26]
深度|MiniMax加速调整,收购AI视频创业公司,海螺ai正式改名,或是受DeepSeek影响最小的六小虎
Z Finance· 2025-03-14 19:39
文章核心观点 AI行业呈现加速整合态势,多家初创企业因融资困境或技术商业化瓶颈选择被收购,MiniMax收购鹿影科技是技术互补与市场扩张的战略选择,同时其自身也在进行内部调整,凭借技术优势与全球化战略在竞争中受冲击较小 [1][2][3] 分组1:MiniMax收购鹿影科技 - MiniMax将收购深圳AI视频生成创企鹿影科技,双方已敲定收购意向 [1] - 鹿影科技成立于2023年9月,专注开发以自研LCM视觉大模型为核心的AIGC工具与内容平台,核心产品为二次元动漫AI视频生成平台YoYo,主要面向二次元创作者市场 [1] - 鹿影科技CTO王超奇已退出团队加入xAI,或为公司寻求收购的关键原因 [2] - MiniMax收购鹿影科技核心动机是技术互补与市场扩张,可弥补其在长视频流畅度与细节控制上的不足,加速下一代Video - 02系列模型开发 [2] - 收购是国内AI公司应对行业竞争与资本压力的战略选择,鹿影技术积累为MiniMax对抗大厂提供技术弹药,且收购成本低,可节省数千万美元投入,加速其向“全栈式AI内容平台”转型,预示AI创企“技术并购潮”加速 [2] 分组2:国内AI创业公司被收购案例 - 边塞科技由吴翼于2023年3月创立,专注大语言模型与强化学习融合技术开发,获超千万美元融资,天使轮投后估值达8000万美元,运营1年多被蚂蚁集团以低于8000万美元价格收购,因技术商业化遇瓶颈,交易后公司独立运营,吴翼入职蚂蚁集团强化学习实验室任首席科学家 [3] - 波形智能由姜昱辰创立,专注垂直领域长文本生成技术,核心产品“蛙蛙写作”生成文本量超200亿字,完成两轮融资后被OPPO收购,团队核心成员入职OPPO,OPPO看中其技术对AI手机赋能潜力以完善安第斯大模型应用场景 [4] - Voyage AI由马腾宇创立,凭借技术成果成立1年以2.2亿美元估值被MongoDB收购 [4] 分组3:MiniMax内部调整 - 高管侧,联合创始人、副总裁魏伟近期离职,此前负责To B商业化及开放平台业务,这是继2024年9月产品负责人张前川转任顾问后再次出现高管变动 [5] - 产品侧,核心产品「海螺AI」更名为「MiniMax」,原域名转向专用于视频生成业务「海螺视频」,目前仅网页端更名,APP端保留原名,实验产品「万物追踪」正在调整 [5] - 更名与公司战略重心调整有关,一方面01系列开源模型技术突破需更直接品牌关联,另一方面全球化布局要求简化品牌认知,更名后将整合多模态技术能力,以“AI智能助手”定位深化C端与B端应用 [6] 分组4:MiniMax优势 - MiniMax多模态模型技术实力显著领先,01系列模型在文本、视觉和视频生成领域取得突破,长上下文处理能力和视频生成一致性追平甚至超越国际顶尖水平 [6] - MiniMax是六小虎中唯一在全球化市场取得显著成功的企业,旗下「Talkie」国内外市场表现亮眼,去年收入可能接近数千万美元,提供稳定现金流支撑 [7]
喝点VC|红杉对话OpenAI Deep Research团队:AI Agent将成为今年最具突破性技术,强化学习重新回归主流
Z Potentials· 2025-03-10 11:07
深度研究的核心技术 - 采用端到端强化学习方法针对复杂网页浏览和推理任务进行训练 显著提升智能体在开放环境下的决策能力 [4][10][24] - 基于OpenAI最先进推理模型o3的微调版本 结合浏览工具和Python计算工具增强信息处理能力 [24][25] - 通过"思维链摘要"机制动态调整搜索策略 相比传统搜索引擎具备更灵活的推理能力 [25][26] - 优化目标决定最终结果 直接针对用户需求进行端到端训练比人工拼接子系统更高效 [3][29] 产品功能与性能 - 将数小时的知识工作压缩至5-30分钟 在专业领域可覆盖90%以上核心信息 [6][17] - 支持多源信息整合与交叉验证 自动生成带参考文献的详尽报告 [6][19][32] - 具备表格化数据展示和图表生成能力 未来将拓展图片嵌入功能 [19] - 在模糊查询场景中主动澄清需求 通过交互优化提升回答精准度 [34] 应用场景 - 商业领域:市场研究、企业分析、代码开发等场景节省80%工作时间 [11][39][15] - 医疗领域:快速查找最新医学文献和临床试验 辅助诊断决策 [12][40] - 消费场景:高效完成购物比价、旅行规划等高价值决策 [18][41] - 教育领域:提供个性化学习路径和结构化知识报告 [21][43] 行业影响与发展趋势 - AI Agent将成为2025年最具突破性的技术方向 推动知识工作自动化 [50][51] - 强化学习因语言模型成熟而重新崛起 成为构建AGI的关键方法 [55][56][57] - 不会完全替代人类工作 而是提升1%-25%的工作效率 [38] - 咨询、医疗等依赖信息整合的行业将优先受到影响 [39] 未来规划 - 拓展私有数据搜索权限 增强复杂场景下的分析能力 [37] - 融入OpenAI的AGI路线图 实现更自然的跨工具操作 [33][37] - 优化模型可靠性机制 减少幻觉并提高引文权威性 [32] - 开发Plus版本降低使用门槛 探索新兴应用场景 [13]
GPT-5 有了雏形;OpenAI 和 Manus 研发 Agent 的经验;中国大公司扩大算力投资丨 AI 月报
晚点LatePost· 2025-03-08 20:17
技术趋势 - 硅谷巨头形成新共识:推理能力应作为大模型的核心组成部分而非附加功能,OpenAI、Google等公司正推动基础模型与推理模型的融合[6] - GPT-5开发路径曝光:结合GPT-4.5基础模型与推理模型o3,采用类似Claude 3.7的融合技术[6] - 模型能力提升面临瓶颈:Grok 3(10万张GPU训练)、GPT-4.5(10亿美元投入)、Claude 3.7均未实现能力突破[6] - 行业分化两种智能范式:无监督学习(GPT-3.5/4/4.5主导)与推理能力(o1/o3-mini推动),OpenAI计划分层服务用户[6] - 模型封装引发争议:斯坦福学者批评系统黑箱化导致底层机制不可解释[7],中国研究员证实行业普遍探索System1+System2结合路线[8] 应用创新 - Deep Research成为Agent标杆:OpenAI版本支持多层级订阅(20/200美元/月),分析师评价其接近AGI水平,效率相当于雇佣200美元/月员工[9][10] - 开发经验揭示关键:强化学习驱动的端到端训练优于人工编排规则,高质量数据集决定模型上限[14] - 应用局限显现:热门话题易受低质信息污染,冷门领域价值更高,无法获取未公开信息[13] - Manus提出Agent开发哲学:主张"less structure, more intelligence",重构AI浏览器、搜索等产品形态[13][15] - 投资人观点:推理/编程/工具使用能力突破临界点,催生无需人类Attention的主动型Agent工具[16] 基建投资 - 中国算力投入激增:阿里宣布三年3800亿元(530亿美元)投入,字节2025年资本开支达200亿美元,腾讯GPU采购大幅增长[17] - DeepSeek成关键变量:6710亿参数模型推动部署需求,完整版R1需80台H800(月成本500-600万)[17] - 算力需求矛盾显现:黄仁勋称下一代模型算力需求增长100倍[18],微软却叫停数据中心建设预警行业过度投资[19] - 英伟达股价震荡:2月先涨17%后跌20%,中国收入占比降至15%(禁令前30%)[19][20] 投融资动态 - 并购市场活跃:3笔超1亿美元交易包括Voyage AI(2.2亿被MongoDB收购)、Humane(1.16亿被惠普收购)、Kinara(3.07亿被恩智浦收购)[21] - 基础设施领域火热:CoreWeave拟IPO募40亿(估值350亿),Together AI获3.05亿融资(估值33亿),Lambda Labs获4.8亿融资[22][23] - 基础模型融资分化:Safe Superintelligence(OpenAI系)寻求300亿估值融资,Latent Labs获5000万开发生物编程模型[22] - 应用层融资集中老牌公司:23家获超5000万融资企业中,仅2家成立于2023年后(Genspark、Eudia),医疗/法律/安防领域受青睐[25][26][30] 模型训练突破 - 数据生产模式革新:OpenAI以100美元时薪雇佣300名专家生成高质量数据(如医学/物理问题,单问题耗时2小时)[32][33] - 数据质量决定上限:行业从AI生成数据(如DeepSeek专家模型)转向人工专家生产,Labelbox项目支付会计师200美元时薪[31][32] - 训练成本飙升:GPT-4.5后训练阶段依赖高价专业数据,OpenAI投入超600万美元/月用于专家数据生产[33]
第一批买到宇树机器人的赚麻了
投资界· 2025-03-07 15:15
宇树科技机器人市场表现 - 宇树H1和G1人形机器人在京东线上首发售罄,G1起售价9.9万元,H1起售价65万元 [3] - 由于现货稀缺,交付周期普遍需要2个月,二手市场出现溢价,G1部分二手现货价格被炒至14万元,溢价超过40% [6][10] - 租赁市场火爆,单台日租金高达5000元至1.5万元,档期紧张,出现"一机难求"局面 [6] 机器人商业应用场景 - 租赁用途覆盖新店开业游街、广告引流、商场暖场、公司年会、科技展览、政府宣传、汽车展销、教育科普等多样化商业场景 [9] - 海外市场应用更具创意,包括抽象艺术、街头整活、情景喜剧等,美国顶流主播Kai Cenat购入G1后带动直播切片播放量从50-200万飙升至400万 [10][12][14] - 意大利博主Jakidale利用G1拍摄情景剧,视频播放量达89万 [15] 产品技术特性与研发进展 - G1机器人重35kg、高127cm,拥有23-43个关节电机,关节最大扭矩120N・m,目前AI能力限于快速建模和行走避障,需编程扩展功能 [10] - 英伟达与卡内基梅隆大学基于G1开发ASAP模型,通过强化学习实现流畅全身控制,可完成高难度动作如APT舞蹈、C罗庆祝动作等 [20][22] - G1展示强大动态平衡能力,能在20厘米宽踏脚石上稳定行走,负重6千克抗干扰完成任务,技术为救援、巡检场景奠定基础 [26] 行业影响与未来规划 - 波士顿动力创始人Marc Raibert透露其研究所已购买宇树机器人测试性能,认可其性价比 [26] - 宇树科技开源G1操作数据集,吸引全球开发者参与技术优化 [20] - 公司计划未来将机器人价格降至三四千元,目标进入家庭场景 [26]
中国AI门派:汪军与他的学生们
投资界· 2025-03-04 15:41
强化学习研究发展历程 - 强化学习从推荐系统起步,逐步拓展至广告竞价、多智能体博弈等应用领域 [8][12] - 2013年DQN算法突破将深度学习与强化学习结合,推动技术从"玩具阶段"进入实际应用 [16] - 2016年AlphaGo里程碑事件引发全球RL研究热潮,华人学者开始系统性布局该领域 [26][33] 关键技术突破 - 首创平均场论RL算法处理超大规模多智能体系统,降低百万级智能体计算复杂度 [23] - 提出SeqGAN框架将策略梯度应用于离散数据生成,引用超3000次并预示RLHF技术方向 [16][17] - 开发IRGAN框架通过对抗训练统一生成与判别模型,获SIGIR满分论文及最佳论文提名 [18] 产业应用探索 - 2014年创立MediaGamma公司实现RL在广告实时交易的首次商用 [15] - 与华为合作5G网络控制及自动驾驶仿真项目,探索多智能体解决方案 [28] - 开发决策大模型DB1(参数量10亿+,数据量100T)验证跨模态应用潜力 [30] 学术生态建设 - 2019年发起RL China社区,累计组织30+学者授课,单场直播观看达10万人次 [26][27] - 出版《动手学强化学习》年销量2.5万册,居国内RL领域首位 [27] - 培养的学者在14所高校建立研究团队,推动国内RL课程覆盖率提升300% [38] 前沿方向布局 - 2017年率先布局多智能体研究,发表华人首篇Nature Machine Intelligence子刊 [35] - 2021年启动决策大模型创业,早于行业探索Transformer在RL中的泛化能力 [28][30] - 具身智能领域实现机械手灵巧操作突破,技术路线后被多家机器人公司采用 [31][35]
喝点VC|Greylock解读DeepSeek-R1,掀起AI革命和重构经济秩序
Z Potentials· 2025-03-04 13:33
开源与闭源模型 - DeepSeek-R1 缩小了开源模型与闭源模型的差距 在关键推理基准测试中与 OpenAI 最新模型持平 尽管其规模更小 [2] - 开源模型在质量上已与最先进的闭源模型持平 标志着开源将模型层商品化的转折点 [2] - 开源模型的进步将推动 LLM 市场的竞争 企业将拥有多样化的实用选项 在计算能力、成本和性能之间进行权衡 [2][3] AI 基础设施与开发者使用 - DeepSeek-R1 利用强化学习(RL)提升推理能力 采用广义策略优化强化学习(GRPO)技术 是首个成功大规模实施并取得可测量增益的开源模型 [3] - 强化学习的突破被视为游戏规则的改变者 但当前 AI 工具尚未完全支持这一新范式 [3] - 开源模型的普及消除了“最大最好模型必须封闭”的护城河 企业可以完全掌控前沿模型 [4] 新应用与行业影响 - DeepSeek 增强的推理能力开启新应用浪潮 包括自主 AI 代理、专业规划系统和企业 AI 助手 [5] - 高度监管行业将受益于开源模型 因为企业可以完全控制数据的使用方式和发送目的地 [6] - 数据质量仍是关键优势 特定领域的标注和奖励函数对模型性能至关重要 [6] GenAI 经济学 - DeepSeek 降低了推理和训练成本 改变了 GenAI 部署的经济性 企业将更多地使用 AI 并部署多个特定领域模型 [7] - 开源模型的成本比使用 OpenAI 或 Anthropic 便宜多达 7 倍 解锁了更多经济上不可行的案例 [7] - 生成器的商品化趋势将推动标注技术的进步 包括 RLHF 和奖励函数等方法的优化 [8] 行业展望 - DeepSeek 标志着开源模型首次真正达到与专有替代品竞争的水平 开启了 AI 发展的新时代 [8] - 高质量、特定领域的数据和标注仍是 AI 未来的关键 尽管 DeepSeek 代表了有意义的进展 [8]
日入过万,第一批买到宇树机器人的赚麻了
36氪· 2025-03-04 08:11
宇树机器人市场表现 - 宇树H1和G1人形机器人在京东线上首发售罄,G1起售价9.9万元,H1起售价65万元 [4] - 二手市场G1机器人价格被炒至14万元,溢价超过40% [8] - 租赁市场单台日租金高达5000元至1.5万元,档期紧张出现"一机难求" [5] 产品功能与技术特点 - G1机器人身高127cm,体重35kg,拥有23~43个关节电机,关节最大扭矩120N·m,但AI能力仅限快速建模和行走避障 [9] - 目前G1动作库有限,开发完整舞蹈成本高昂,更多作为展示道具 [10] - 英伟达和卡内基梅隆大学团队基于G1提出ASAP模型,缩小仿真与现实差距,实现流畅全身控制动作 [15][16] - 上海AI实验室联合高校开发的BeamDojo框架使G1能在复杂地形中稳健移动,包括平衡木、梅花桩和20厘米宽踏脚石 [18][19] 应用场景与用户反馈 - 租赁用途覆盖新店开业、广告引流、科技展览、教育科普等多样化商业场景 [7] - 海外用户将G1用于抽象艺术、街头整活和情景喜剧,美国主播Kai Cenat相关视频播放量飙升至400万,账号涨粉10万 [11][12] - 意大利博主Jakidale的G1情景剧视频获89万播放量 [13] 行业影响与未来展望 - 波士顿动力创始人Marc Raibert购入宇树机器人测试性能,称其"相对便宜" [20] - 宇树科技开源G1操作数据集,吸引全球开发者扩展功能 [14] - 公司计划未来将机器人价格降至三四千元,目标进入家庭场景 [21]
UCL强化学习派:汪军与他的学生们
雷峰网· 2025-02-27 18:15
强化学习研究发展 - 强化学习作为AI领域重要分支持续创新,在推荐系统、广告竞价等领域展现应用潜力[2][3] - 汪军团队从信息检索转向强化学习研究,成立RL China培养青年人才,推动国内强化学习发展[4][13][46] - 深度强化学习突破始于2013年DQN算法,结合深度学习处理复杂任务[21] 多智能体强化学习突破 - 多智能体强化学习面临三层黑盒挑战(深度学习、环境交互、多智能体博弈),研究难度大[28] - 温颖开发BiCNet用于星际争霸协同作战,比AlphaStar早两年但受限于资源规模[33][34] - 杨耀东首创平均场论RL算法,处理百万级智能体系统,降低计算复杂度[37][38] 产业应用与商业化探索 - MediaGamma公司探索广告期权交易所、需方平台等商业模式,首次实现强化学习在广告实时交易商用化[16][17] - 华为诺亚方舟实验室合作项目探索5G网络控制、自动驾驶仿真等场景[54] - 决策大模型MAT和DB1验证多模态决策潜力,参数量达十亿级但泛化效果待突破[55][56] 学术生态建设与人才培养 - RL China暑期课覆盖30+讲师,累计十万人次观看,推动国内强化学习教育[49][50][52] - 《动手学强化学习》教材销量超2.5万册,配套代码实践解决教学脱节问题[53] - 汪军学生群体形成学术网络,覆盖北大、上交大、中科院等多所机构研究力量[71] 前沿技术融合与AGI探索 - 强化学习与大模型结合成为新方向,团队研究语言智能体统一语义空间[62] - 杨耀东团队复现RLHF对齐技术,布局具身智能领域灵巧手操作研究[67][68] - 因果世界模型、芯片优化等跨学科研究拓展强化学习边界[64][65]