强化学习
搜索文档
AI正在偷走白领工作,OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
36氪· 2025-09-25 17:32
AI行业投资与研发投入 - Anthropic和OpenAI等公司计划每年投入10亿美元专项资金用于AI训练[1][3][4] - OpenAI预计2030年数据相关投入将增至80亿美元[4] - 行业在后训练阶段预算中RL环境占比目前低于10%但预计明年将显著提升[10] AI训练方法创新 - 使用强化学习环境模拟真实办公软件如Salesforce、Zendesk、Microsoft Excel等[3][12][13] - 通过拆解任务步骤并建立评估标准验证AI执行效果[8][9] - 采用人类专家示范任务执行过程生成训练样本[18][19] 人力资源成本趋势 - Labelbox公司20%专家时薪超90美元10%超120美元[11] - 预计未来18个月内专家报酬将升至每小时150-250美元[11] - 雇佣对象从学生转向NASA数据科学家、私募副总裁等资深专业人士[15][16][22] 技术应用场景拓展 - AI学习领域涵盖医学、法律、金融等专业领域[17][20][22] - 训练内容包含折现现金流分析、医疗记录处理等复杂任务[17][23] - 目标开发能操作实际办公软件的AI智能体[4] 行业发展预期 - OpenAI高管预测整个经济体系将演变为RL机器[1][21] - AnthropicCEO称AI可能在未来1-5年内取代50%入门级白领职位[1] - 行业认为3年内可能出现白领岗位大规模替代[1]
微信WeChat-YATT横空出世,腾讯强化学习布局剑指何方
搜狐财经· 2025-09-24 17:56
WeChat-YATT技术特点 - 基于Megatron-Core和SGLang/vLLM研发 专注强化学习和多模态模型训练[2] - 显著优化强化学习场景参数更新效率 提供灵活多模态数据融合接口 通过模块化设计降低分布式训练门槛[2] - 命名"Yet Another Transformer Trainer"体现腾讯在AI基础设施层的长期投入决心[6] 技术对比优势 - 相比Meta PyTorch在强化学习支持更胜一筹 对比Google JAX在中文场景和多模态处理具明显优势[4] - 与同类强化学习框架Ray RLlib相比 深度整合微信生态独具特色[4] - 特别强调易扩展性 满足大模型快速迭代需求 参数规模突破万亿门槛后训练框架灵活度决定竞赛先机[4] 腾讯AI战略布局 - 开源WeChat-YATT是构建技术生态圈的重要步骤 类似Google开源TensorFlow的路径[2] - 结合申请微信AI服务平台商标 混元大模型全面落地等动作 形成底层技术突破与上层应用落地的双轮驱动[7] - 微信作为十亿级流量入口需强大AI能力支撑 混元大模型持续进化需高效训练工具 WeChat-YATT填补关键环节形成从基础设施到终端应用的完整链条[7] 强化学习战略价值 - 重点投入强化学习训练库 预示在游戏 推荐系统 自动驾驶等核心领域的下一代AI应用场景布局[7] - 大模型时代竞争本质是基础设施竞争 自主可控训练框架将成为头部企业标配[7]
寻找你的AI同频搭子|「锦秋小饭桌」活动上新
锦秋集· 2025-09-23 17:44
活动信息 - 锦秋小饭桌是为创业者打造的常态化闭门社交活动,每周五晚在北京、深圳、上海、杭州等地举办 [22] - 活动形式为非正式会谈和产品技术人社交饭局,围绕技术、投资、硅谷和国内进展等话题进行真诚交流 [23] - 2025年9月至10月将举办三场活动:9月26日深圳AI Agent专场、10月10日北京具身智能专场、10月17日深圳机器人派对 [3][5][50] 大模型在决策任务中的应用局限 - 现阶段大模型不适合直接用于严肃的长序列决策任务(如游戏AI),其表现不如传统的小型强化学习模型 [25] - 决策任务具有一步错满盘皆输的特性,而大模型擅长的感知/生成任务容错率较高 [25] - 大模型训练数据中缺乏高质量的决策过程知识和数据,例如在斗地主游戏中性能仅能勉强战胜随机出牌的智能体 [26] 信息检索范式演进 - 传统RAG通过外部的Embedding、Ranking、Retrieval等工程化手段进行信息召回 [32] - 新一代模型(如Claude)具备原生上下文感知能力,能自主决定使用何种工具进行语义和场景强相关的信息检索 [33] - 模型原生能力效果好但成本高,适合模型开发者,应用层公司为控制成本仍需采用外部工程方案或混合使用 [35] Agent架构与发展趋势 - 目前主流应用基于React的单智能体模式,通过思考-行动循环完成任务 [36] - 多智能体系统正在兴起,通过规划、解题、验证等多个角色智能体协同工作,可取得超越单智能体的效果 [36] - 让AI Agent交付预期结果的关键在于前期生成清晰明确的需求文档、软件架构图和任务列表 [38] AI Agent基础设施技术流派 - Sandbox模式以Manus为代表,为每个Agent启动一个独立的完整Linux系统沙箱,功能强大但资源消耗大 [39] - 模块化组件模式以AWS Agent Core为代表 [40] AI硬件与交互方式演进 - 通用Agent的机会在于交互方式变革,如从打字到语音输入,未来可能出现新硬件设备利用AI服务时间 [42] - 主动式AI硬件是下一代产品,但面临技术挑战,预计还需2-3年才能被工程化验证 [43] - Meta发布的Rayban Display是中间产品,备货量仅1-2万台,性能表现不佳且演示出现故障 [44] 大模型记忆管理与数据源 - Memory管理是大模型能力提升的下一个赛点,需找到模型自发压缩状态的方案以突破transformer架构的上下文限制 [45] - 拥有多样化数据源的Agent在理解用户语境方面表现更好,例如谷歌通过浏览器、云盘、邮箱等服务覆盖用户生活场景 [46] - 开发专有浏览器是为AI功能提供最高权限的技术路径,可避免频繁权限提示,提供更流畅体验 [46] 创业支持 - 锦秋基金设立Soil种子专项计划,专为早期AI创业者提供资金支持,帮助将创新想法转化为实际应用 [57]
进击新能源第一阵营,“增程豪华轿车新标杆”别克至境L7全国首秀
中国汽车报网· 2025-09-23 13:51
产品发布与市场定位 - 至境L7作为别克高端新能源子品牌“至境”的首款旗舰轿车于9月15日首次公开亮相 [1] - 该车型定位为“行业最强的增程豪华轿车”,旨在进击新能源第一阵营 [1][21] - 车辆已到达全国别克经销商展厅并开启早鸟计划,9月28日前下订可享终身免费保养 [1][3] 核心技术:增程系统与性能 - 至境L7诞生于“逍遥”超级融合架构,搭载行业顶级“真龙”增程系统 [1][3][5] - “真龙”增程系统采用252kW行业最大功率增程单电驱,动力相当于3.0T V6发动机 [5] - 满电0-100km/h加速5.9秒,80-120km/h超车加速3.8秒,亏电状态下性能差异小于0.1秒 [5] - 百公里综合能耗低至0.5L,发动机介入噪声小于0.5dB,实现安静无感介入 [5] - 纯电续航里程达302km(同级最长),综合续航里程达1420km [5] - 支持130kW快充,30%-80%补能仅需18分钟 [5] - 采用奥特能2.0增混专用电池,宣称15亿公里0自燃,纯电续航64万公里低衰减 [8] 智能驾驶与座舱体验 - 率先搭载“逍遥智行”辅助驾驶系统,全球首发基于端到端强化学习的Momenta R6飞轮大模型 [1][9] - 提供“无断点”城市NOA和“不停车一键泊入”等全场景辅助驾驶功能 [9] - 别克辅助驾驶累计安全行驶里程已超10亿公里 [9] - 智能座舱首发搭载高通最新一代SA8775P芯片,神经网络算力达72 TOPS [1][11] - 配备50吋全景AR-HUD抬头显示系统,可融合15组以上驾驶信息 [11][16] - 拥有15.6吋支持分屏显示的智能中控屏、低能耗哨兵模式、手机场景式备车功能及AI智能语音助手 [11] 豪华配置与车身设计 - 车身尺寸为5032mm x 1952mm x 1500mm,轴距达3000mm,属C级中大型豪华轿车 [14] - 采用星空展翼外观、豪华溜背造型、无框车门及20吋星光涡扇轮毂 [14] - 内饰采用纯净浮岛设计美学,提供270°皮质环绕包覆 [15][18] - 配备同级唯一四座全功能悬浮层座椅,副驾搭载双120°零重力座椅及4向电动腿托 [19][21] - 搭载27扬声器Buick Sound剧院级豪华音响及全四座多模式头枕音响,营造22分贝图书馆级宁静空间 [19] - 底盘采用前双叉臂、后五连杆(6球头设计)悬架结构,并配备RTD连续阻尼可变悬架 [21]
Nvidia砸千亿美元助力OpenAI,马斯克狂飙造全球最大AI集群 | Jinqiu Select
锦秋集· 2025-09-23 12:44
当基础能力持续进步时,创业的关键在于找到新的应用场景和差异化路径。也许是某个高频的行业环节,也许是某种全新的交互方式,也可能是模型与硬件、人与人 的结合。初创公司同样需要在自己的条件下,找到独特而极致的打法。 今天,AI领域迎来一桩惊天动地的消息:Nvidia 宣布将向 OpenAI 投入高达 1000 亿美元 的战略投资,携手打造至少 10 吉瓦(gigawatts)的数据中心基础设施,用于 支撑下一代模型的训练与部署。 这一动作,标志着模型层玩家的AI 战争从算法、产品层面,真正迈入了"基础设施+算力"的硬核较量阶段。 与此同时,另一边的 Elon Musk 正以一种近乎"超现实"的速度布局算力版图:xAI 正在孟菲斯、密西西比等地加速建设 Colossus 系列 AI 集群,目标是在最短时间内实 现数百兆瓦甚至接近吉瓦级别的集群能力。电站、涡轮机、跨州供电 ──这些支撑算力的根基,都在高强度投入中被快速铺设。 模型层大玩家依然在坚定地押注模型,资本、算力、速度也成为顶级玩家已经形成了难以撼动的护城河。 对大量非模型层的AI创业者来说,这无疑都是好消息。 无论是OpenAI的超大规模训练,还是xAI的集群 ...
具身智能之心近20个交流群来啦!欢迎加入
具身智能之心· 2025-09-23 12:00
文章核心观点 - 成立具身智能之心技术交流群,旨在聚集行业专业人士共同承担具身智能领域未来领导者的角色 [1] 技术交流群定位与目标 - 交流群覆盖近20个具身智能子技术方向 [1] - 目标是与成员共同承担该领域未来领导者的角色 [1] 目标成员与研究方向 - 欢迎从事人形机器人、四足机器人、机械臂等本体研究的专业人士加入 [1] - 研究方向包括视觉语言导航、大模型、视觉语言交互、强化学习、移动操作、多模态感知、仿真、数据采集等 [1] 加入方式 - 可通过添加指定微信账号并备注“加群+昵称+研究方向”的方式申请加入 [1]
灵巧手厂商困在夹缝里
投资界· 2025-09-23 10:32
行业核心观点 - 灵巧手行业技术远未成熟,但价格战已过早升级为一场鏖战 [6] - 行业面临上游零部件厂商和下游整机厂的两面夹击,纯粹的灵巧手初创公司生存空间受到挤压 [6][9][10] - 当前灵巧手的智能不足是最大痛点,自主完成任务的能力基本不存在,演示多为过拟合结果 [5][18] 市场竞争格局 - 灵巧手厂商可划分为三类:上游零部件厂商向下拓展、下游整机厂商向上布局、以及纯粹的灵巧手初创公司 [9][10] - 零部件厂商与整机厂往往不将灵巧手作为主要现金流产品,前者将其作为核心部件能力展示,后者则集成于本体甚少单卖 [10] - 投资者主要押注三个特征:最AI(智能化程度)、最像人手(如高自由度)、最早量产(工程化能力) [6][11] 技术路线争议:机械结构 - 关于“最像人手”存在争议,一味追求高自由度是伪命题,关键在于能否有效驱动每个自由度而非数量多少 [12][15] - 灵巧手技术路线远未达成共识,主要分歧点在于传动方案(腱绳驱动 vs 连杆驱动),两者在灵活性与可控性上难以调和 [16][17] - 电机是灵巧手机械结构中成本最高的部分,一只空心杯电机价格约为一两千元,仅电机成本动辄数万元 [27] 技术路线争议:智能化 - 没有智能化的灵巧手本质与夹爪无异,其重复定位精度(约±0.2毫米)远低于工业夹爪(±0.02毫米) [18] - 行业普遍认为软件提升潜力远大于硬件,软硬一体是必由之路,当前技术路线已收敛到强化学习 [18][19] - 灵巧手泛化不足的本质被认为是数据量匮乏,特别是视觉、精准行为数据和触觉数据严重欠缺 [19][20] 商业化与量产挑战 - 灵巧手的买家身份不明确,科研客户(高校、院所)仍占主流,商业和工厂仅有散单,需求零散 [22][25] - 应用场景存在争议,分为“商业派”(如商超场景)和“工业派”(中小批量柔性生产),但能体现其不可替代性的应用仍有待开发 [22][23][25] - 3C、汽车等产线客户对灵巧手表现出兴趣,因其高柔性特点能适应频繁调整产线的需求,灵巧手有望提供一劳永逸的解决方案 [24] 成本与价格战 - 降本是行业唯一共识,理想商业化飞轮“规模量产—数据涌现—技术迭代—成本下降”尚未有效启动 [6][29] - 国产替代和设计优化是主动降本的主要途径,例如触觉传感器价格已从7年前的4万元以上降至最低199元 [29] - 国内灵巧手价格出现断崖式下跌,从早年采购海外产品需100-200万元,降至目前普遍低于10万元,甚至有产品跌破万元(如慧灵科技eHand-6定价2999元) [30] - 价格战短期内打开了销路,但低价款与高价款在参数上差距甚远,千元级产品被部分业内人士视为不实用的玩具 [30]
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-23 07:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]
理想智驾二级部门数量从3个调整为11个是次要矛盾
理想TOP2· 2025-09-23 00:56
核心观点 - 李想对理想汽车辅助驾驶发展的作用可高度类比马斯克对特斯拉辅助驾驶的影响 包括做大资源 保证资源持续投入 以及基于对AI底层原理的理解做出关键技术路线判断 [1][2][3] - 理想智驾发展取决于三大要素:全球AI产业发展阶段(天时) 理想各类生产要素匹配度(地利) 以及李想个人能力(人和) [2][5] - 理想智驾部门组织架构调整属于次要矛盾 未来1-12个月智驾系统将出现多次高质量快速迭代 [2][6] - 公司发展方向强调"合适萝卜坑"比以履历为锚点的人才更重要 前者面向未来 后者以过去为荣耀点 [2][11] 李想的关键作用 - 具备三个核心作用:做大资源 保证资源持续投入 在理解AI底层原理基础上对技术路线做出关键think different判断并执行 [2][3] - 44岁创始人拥有极高投票权和强驱动力 能保证未来10-15年对公司绝对控制权并推动组织架构变革 [3] - 亲自决策将资源核心投向基于强化学习的VLA(视觉语言行动)模型 减少对端到端投入 并判断双Orin平台可运行VLA模型 [4] - 创始人真懂技术且持续关注 既能获得更多资源又能提高资源利用效率 [3] 产业发展与生产要素 - 全球AI产业发展阶段是关键前提 具备齐全生产资料的只有中美 [5] - 中国公司需要高效组织生产要素 时机与创始人能力至关重要 深谙创始人梁文锋指出中国创新缺的是信心和高密度人才组织能力 [5] - 自动驾驶是物理AI子集 做好物理AI需要负责人持续下判断并能按产业特点改组公司 [6] - 理想和小米是生产要素相对匹配的公司 理想更擅长think different 小米更擅长吃第二波与价值传递 [6] 技术发展路径 - 理想智驾部门从3个二级部门调整为11个属于次要矛盾 [2] - 迭代方向明确 未来1-12个月VLA将出现多次高质量快速迭代 [2][6] - 具体迭代方向包括:提升仿真数据效率 压榨车端芯片潜力 通过强化学习提升模型能力 优化语音控车体验 以及VLA框架落地 [6][7] - 当前运行4B模型 未来将升级至7B 14B甚至100B模型 实现能力飞跃 [8] - 辅助驾驶比chatbot和机器人更适合强化学习 因奖励函数明确 易于收敛 [8] - 监督学习只能特定场景优化 模仿学习主导的端到端难以针对性解决问题 而强化学习主导的VLA可专门优化问题 [9] - 当前发展阶段类似GPT-1到GPT-3/3.5 大力出奇迹 [10] 人才观念 - 合适萝卜坑(岗位与人才匹配)比以履历为锚点的人才更重要 [2][11] - 英伟达应届生质量低于谷歌Facebook但不影响发展 因所做事情更重要 阿里巴巴十八罗汉也是类似道理 [11] - 理想整体环境具备做成物理AI的条件 使得萝卜坑比履历锚点人才重要得多 [11]
别克至境L7将于9月28日上市 起售价有望杀入20万
扬子晚报网· 2025-09-22 20:38
产品定位与核心配置 - 作为别克高端新能源子品牌“至境”旗下首款智能豪华轿车 [2] - 价格区间为20万-25万,起售价有望进入20万区间 [4] - 搭载顶级“真龙”增程系统,旨在破解行业痛点 [2] 智能化技术 - 率先搭载“逍遥智行”辅助驾驶系统,达到行业第一梯队水平 [2] - 全球首发上车基于端到端“强化学习”的Momenta R6飞轮大模型 [2] - 首发搭载高通最新一代SA8775P芯片 [2] 豪华舒适性配置 - 配备百万豪车同款四座悬浮座椅 [2] - 搭载27扬声器带四座头枕音响系统 [2] 市场表现与销售信息 - 自9月15日全国首秀开启盲订以来,已收获大量新能源用户关注与认可 [4] - 定位于新时代B级车新选择 [4] - 9月28日上市前通过官方渠道下订可享“早鸟权益” [4]