Workflow
强化学习
icon
搜索文档
谷歌高管入职两个月,字节AI开始扁平化?
以下文章来源于AI科技评论 ,作者梁丙鉴 AI科技评论 . 字节 AI Lab 是 Seed 成立之前字节主要的 AI 探索部门,目前由李航管理,自2024年开始向 Seed 时 任负责人朱文佳汇报。今年2月下旬,原 Google DeepMind 副总裁吴永辉入职字节,成为 Seed 基础 研究负责人。此后李航的汇报对象变为吴永辉。 字节 AI Lab 成立于2016年,最初由微软亚洲研究院前常务副院长马维英负责,直接向张一鸣汇 报。AI lab 目前有多个子团队,包括机器人、AI4S 等方向,几乎覆盖人工智能领域所有前沿技术研 究。2018年其团队规模达到150人,为字节跳动AI研究的核心部门。 AI Lab 主要研究重点是开发为字节跳动内容平台服务的创新技术,曾参与字节手势识别、短视频特 效等功能开发。其研究成果应用于今日头条、抖音等产品,是支持抖音成长为国民级应用的基石, 并奠定了当时字节在国内AI领域的领先地位。 随着抖音、TikTok 占据绝对优势的市场地位,流量商业化成为字节面临的 Top 级问题,AI Lab 在 字节内部重要性下降。2020年,AI Lab 从集团级前瞻性项目转为技术中台,为 ...
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 21:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]
清北天才扎堆的机器人赛道 ,杀出一个大专生
36氪· 2025-04-08 20:45
行业背景 - 人形机器人行业在2023年迎来爆发式增长,主要受大模型技术推动[3][23] - 高盛预测2035年仿人机器人市场规模将达1540亿美元[29] - 行业竞争加剧,特斯拉、小米、华为等科技巨头纷纷入局[29] 公司发展历程 - 宇树科技创始人王兴兴2016年创立公司,初期融资200万元[15] - 众擎机器人创始人赵同阳经历三次创业失败后,2023年成立新公司并完成近4亿元融资[3][24] - 两家公司均从四足机器人切入,最终转向人形机器人赛道[18][24] 产品与技术 - 宇树科技推出首款人形机器人H1售价9万美元,第二代G1定价9.9万元[24] - 众擎机器人推出SA01、SE01、PM01三款人形机器人产品[24] - 两家公司均采用"先做头脑简单、四肢发达"的技术路径[29] 市场表现 - 宇树科技产品登上2021年央视春晚,品牌知名度大幅提升[6][21] - 众擎机器人2024年完成Pre-A轮2亿元融资,由Stone Venture领投[3] - 宇树G1人形机器人预售首日订单超3000台[24] 创始人特质 - 两位创始人均非名校背景,早期融资困难[8][17] - 赵同阳擅长团队建设,提出"长板理论"聚集人才[25][26] - 王兴兴开创低成本电驱方案,技术路线受市场认可[11][24] 行业趋势 - 新一代创业者更注重强化学习技术应用[29] - 行业面临产品同质化挑战,差异化竞争成关键[29] - 人才争夺战激烈,头部公司高薪吸引顶尖人才[25][26]
速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升
Z Potentials· 2025-04-08 20:30
图片来源: DeepSeek DeepSeek 正与清华大学合作,致力于减少其 AI 模型所需的训练量,以降低运营成本, 开发自我进 化的 AI 模型。 DeepSeek 曾以一月份推出的低成本推理模型震动市场,现与高校研究人员联合发表论文,详述了一 种提升模型效率的强化学习新路径。研究人员写道,这种新方法旨在通过为更准确且易于理解的回答 提供奖励,帮助人工智能模型更好地遵循人类偏好。 强化学习在加速特定应用和领域内的 AI 任务方面已被证明有效,但将其扩展到更通用的场景一直充 满挑战——这正是 DeepSeek 团队试图通过其所谓的 " 自我原则批判调优 " 来解决的问题。 论文指出,该策略在多项基准测试中超越了现有方法和模型,结果显示能以更少的计算资源实现更优 性能。 DeepSeek 公司表示,将这些新模型命名为 DeepSeek-GRM (通用奖励建模的缩写),并将以开源形 式发布。 包括中国科技巨头阿里巴巴集团和美国旧金山的 OpenAI 在内的其他 AI 开发者,也正在开拓新领 域,致力于提升 AI 模型实时执行任务时的推理与自我优化能力。 Meta 于上周末发布了其最新 AI 模型系列 Llam ...
对话智元首席科学家:把具身智能过度类比大模型,是对它最大的误读
36氪· 2025-04-05 19:41
文章核心观点 - 具身智能赛道存在泡沫但也有发展前景,软硬件一体的全栈路线是未来趋势,当下是入局和突破的最佳时间点 [10][23][44] 行业现状 - 具身智能赛道一边有投资人逃离泡沫,一边被高额融资激活,腾讯首次押注具身智能领域的智元机器人,该公司成立仅1月完成3亿天使轮融资,几个月内估值达10亿美金,成为全球最快跻身独角兽的具身智能公司 [5] - 行业还未收敛到确定性技术方案,未出现引领型明星公司 [30] - 全球有500万台机器人被部署在真实世界,但都是盲的,靠绝对定位操作,做重复性编程和工作 [42] 泡沫看法 - 泡沫意味着关注度和资源,是提前下注,技术范式转移都会经历泡沫阶段,具身智能更复杂,需要更长时间技术积淀 [10] 大模型与具身智能关系 - 不能简单将具身智能与大模型范式划等号,大模型准确率在机器人身上不适用,用大模型周期类比具身智能低估了作业智能和行动智能的独特挑战 [12][13] 软硬件重要性及卡点 - 软件和硬件同等重要,目前软件和硬件都未收敛到点,行业对两者集成也无共识 [14] - 软件方面,大模型缺乏长时间memory,跨任务尝试、分层控制和实时反馈是难题,仿真、数据使用及RL应用都存在挑战 [15] - 硬件方面,高性能硬件平台成本高,传感器反馈不够精细,可靠性有提升空间,未来可能根据不同行业有相对标准化本体和方案 [16][17] 数据问题 - 数据问题像蛋生鸡、鸡生蛋难题,可先从封闭、半封闭空间部署机器人获取数据来改进系统 [18][20] - 自动驾驶早期也有数据匮乏争论,现在数据过多,具身智能公司掌握产品和生态、有能力部署机器人将有先发优势 [21] 全栈路线必要性 - 自动驾驶和无人机行业发展表明,软硬件一起迭代的全栈路线会笑到最后 [22][23] 智元公司情况 - 智元是中国头部具身智能公司中最高举高打的一家,发布首个通用具身基座大模型,与Pi达成合作,首席科学家是罗剑岚 [6] - 公司内部是扁平、高度协作团队,稚晖君、姚卯青和罗剑岚是平行互补关系,分别负责系统工程、战略方向和算法路线推动及外部技术生态融合 [25][26] - 选择与Pi合作是因理念契合,Pi是国际上做具身智能最好的公司之一 [27][28] - 公司采用生态打法,强调开放协同,帮助外部公司迭代并引入其能力到自身生态体系 [29] 自主决策与任务定义 - 机器人自主决策关键在于对不确定性的分析和建模,换成可执行动作链,其感知、预测、生成机制的泛化能力是关键技术 [31] - 长周期任务关注任务先后复杂依赖关系和泛化能力,复杂任务在manipulation上有未解决问题,如机器手接触外界的物理现象和多模态视觉输入下完成灵巧任务 [32] 机器人AGI相关 - 实现manipulation就是AGI,是比LLM更高级的智能 [34] - 最感兴趣的是让系统有更强自主学习和泛化能力,智元新成立的具身智能研究中心希望打通从基础科学到技术落地的链路 [36] 强化学习与入局优势 - 受大模型影响,强化学习在具身智能领域成潮流,不同背景的人入局视角不同 [37][38] - 大厂和消费电子公司入局是积极信号,它们在用户体验、产品化等方面有积累,创业公司优势在于对行业底层逻辑理解更垂直、精致,擅长智能,最终两个方向会聚合 [39][40] 行业周期与入局时机 - 具身智能已走过约十年探索期,现在进入机器人应用窗口期,特定场景有使用价值且有持续学习能力的机器人会提前到来,是入局和突破的最佳时间点 [41][42][44]
蚂蚁清华联手放大招!彻底开源RL框架AReaL-boba,人人可复现QwQ
AI科技大本营· 2025-04-03 10:16
开源强化学习框架AReaL boba发布 - 蚂蚁与清华大学联合推出开源强化学习框架AReaL boba里程碑版本 致力于普惠AI开发社区 开放模型、代码、数据及实现细节 提供详细教程实现"人人可手搓顶尖大模型"愿景 [1] - 框架全面拥抱xAI公司高性能推理框架SGLang 通过工程优化使7B模型训练速度提升1.5倍 端到端训练性能提升73% [4] - 团队开源训练数据AReaL-boba-106k 监督微调仅用200条精选数据成功复现QwQ-32B在AIME 2024上的推理性能(78.8分 vs 原版78.9分) [10][15] 技术性能表现 - AReaL-boba-RL-7B在数学推理能力达同尺寸模型SOTA水平:AIME 2024得分61.9 AIME 2025得分48.3 超越基础模型及同类开源模型 [15] - 不同配置下训练时间对比显示模型性能优势:R1-Distill-Qwen-7B在GPQA-Diamond测试中耗时47.1小时 而AReaL-boba-RL-7B仅需47.6小时 [9] 未来发展计划 - 研发重点包括系统与算法优化 将引入基于编码问题的强化学习训练、异步生成与RL训练 探索视觉-语言模型强化学习 [11] - 计划完善32B规模模型训练方案 研发多任务RL算法 提升MoE模型稳定训练能力 保持每周更新频率 [11] 行业活动与专家分享 - 清华大学吴翼教授将在2025机器学习技术大会解读AReaL系统应对强化学习挑战的技术方案 包括降低训练门槛、提升效率等突破 [13][18] - 360智脑算法专家邹昊晟将分享Light-R1系列开源经验 该系列在14B模型实现GRPO强化学习显著提升 评测超越DeepSeek-R1-Distill-32B [22][24]
智元机器人首席科学家罗剑岚:如果机器人实现“操控”,是比大语言模型更高级的智能
每日经济新闻· 2025-04-02 15:35
公司合作与技术发展 - 智元机器人与Physical Intelligence(Pi)达成合作伙伴关系,将在具身智能领域展开深度技术合作,重点关注动态环境下的长周期复杂任务 [1] - 罗剑岚加入智元机器人并全面领导具身智能研究中心,同时推进双方深度合作 [1] 机器人自主决策与智能等级 - 遥控与自主决策的核心差别在于机器人需具备感知、预测、行为生成的泛化能力,并建立Internal Model(世界模型)以预测未来和执行动作链 [1] - 机器人实现Manipulation(操控)的智能等级为7至8,远高于大语言模型(LLM)的3级 [1] 关键技术路径 - 强化学习和DeepSeek R1的推理能力是关键技术,但模仿学习不足,需结合世界模型预测环境变化 [1] - 核心挑战在于构建开放数据链的鲁棒策略,以及感知、预测、行为生成机制的泛化能力 [1] 数据收集与场景部署 - 人形机器人缺乏大规模应用场景数据,需通过部署产生数据循环(如1000台机器人在星巴克工作可快速积累数据) [1] - 机器人部署难度低于智能驾驶,可从封闭或半封闭空间开始,逐步生成数据 [1]
AI 写码一时爽,代码审查火葬场?GitHub Copilot 副总揭秘新瓶颈 | GTC 2025
AI科技大本营· 2025-03-31 14:55
AI在软件开发中的进展与挑战 - AI预计在24到36个月内达到人类水平的软件开发能力和自主性 [1][11] - AI代码生成工具正在改变软件开发方式,NVIDIA等公司积极探讨其对加速计算的影响 [4] - 强化学习在CUDA优化等明确目标的任务中具有潜力,但需解决计算成本问题 [9] CUDA与AI结合的实践 - NVIDIA开发Nsight Copilot和WarpDrive项目,分别用于识别CUDA性能瓶颈和自动化调优流程 [8] - 大规模代码库转换面临挑战,包括构建系统适配和跨文件依赖管理 [8][18] - CUDA优化需针对每代GPU架构调整,新硬件特性要求代码重构或算法重设计 [19] AI代码生成的技术瓶颈 - 低资源领域(如CUDA、Fortran)缺乏高质量训练数据,合成数据占比或提升至90% [16] - 验证生成代码的正确性在并发场景中尤为困难 [10] - 当前AI工具难以全局操作代码库,上下文窗口限制影响跨文件修改能力 [10][20] 行业应用与未来趋势 - GitHub Copilot探索跨文件编辑功能,聚焦安全改进等系统性变更 [10] - AI智能体将向自主执行多步骤任务演进,模拟人类开发者探索代码库的行为 [21] - 编程竞赛表现与真实开发能力存在差距,因后者需复杂上下文理解 [25] 评估与信任机制 - "黄金测试"标准包括代码重构、跨语言转换和串行代码并行化 [22][23] - 代码审查成为AI驱动开发的瓶颈,需平衡生成效率与质量验证 [13] - 模型对齐和可解释性研究是应对AI潜在欺骗行为的关键方向 [28]
中关村论坛周末机器人“总动员”!机器人ETF基金(562360)连续3个交易日获得资金净流入,午后V型大反弹
新浪财经· 2025-03-31 14:50
行业动态 - 2025中关村论坛年会展示多种机器人应用场景,包括咖啡制作、机械太极表演和双语导览 [1] - 机器人板块在A股市场表现强劲,机器人指数成份股普遍上涨,信捷电气、华辰装备涨幅超4%,快克智能、科远智慧、燕麦科技、三丰智能涨幅超1% [1] - 机器人ETF基金(562360)实时成交额突破3700万元 [1] 指数与产品 - 机器人ETF基金(562360)跟踪的中证机器人指数与万得人形机器人指数成份股重合度为63%,覆盖人形机器人及数字化车间、生产线系统集成商 [1] - 行业趋势包括人形机器人进入量产阶段和工业机器人迭代升级 [1] 技术与市场潜力 - 机器人行业受益于人工智能、机器学习等技术革新,人形机器人领域进展显著,例如Figure公司通过强化学习技术缩短开发周期并提升机器人运动能力与智能化水平 [2] - 消费电子巨头如vivo进入机器人领域,表明技术正渗透日常生活,预示未来市场潜力巨大 [2] 相关产品 - 机器人ETF基金(562360)为投资者提供机器人行业投资机会 [3]
与真格戴雨森聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need
晚点LatePost· 2025-03-28 20:12
" 两 瓶 茅 台 的 价 格 体 验 未 来,太 划 算 了 。 " 嘉宾 丨 戴雨森 整理 丨 刘倩 程曼祺 本期播客,是《晚点聊》与真格基金管理合伙人戴雨森长聊 AI Agent 和 AI 趋势。 3 月 6 日,真格投资的 Monica 发布的 Agent 产品 Manus,虽然还在内测阶段,就引起了大量关注。 在期中,雨森提到了 Monica 即将会发布一款 Agent 产品,那时候我们还不知道 Manus 将会席卷社交 媒体。 当我们把一个任务交给 Manus,过了十几分钟收到完成的结果时 ,似乎真的感受到了一点 Attention is not all you need 的未来。 带来 Agent 等 AI 行业新变化的起点,是去年至今的两个重要节点:o1 和 R1。 戴雨森详细分享了他对 Agent 机会的当前观察,以及在 DeepSeek 带来的开源生态的变化中,大小 AI 公司的新动作和调整。 O 系列解锁 Agent 应用,DeepSeek R 系列是开源的胜利、专注的胜利、本 o1 在大语言模型中引入强化学习,开启 Pretraining(预训练)Scaling Law 之外的 Pos ...