Workflow
强化学习
icon
搜索文档
双非同学竟然是这样发第一篇CVPR的!
具身智能之心· 2025-07-10 21:16
论文辅导服务案例 - 双非硕士生在无导师指导情况下通过10个月辅导成功发表CVPR25论文 成为学院首位CVPR发表者 [1] - 成功关键因素包括学生主动寻求外部辅导 以及自身勤奋刻苦的研究态度 经常工作至凌晨 [1] - 案例证明无人指导时主动行动的重要性 被动等待可能导致错过发表机会 [1] 服务内容与方向 - 提供从研究构思到实验设计、论文写作到投稿的全流程一站式服务 [1] - 覆盖多个前沿技术领域包括大模型、视觉语言导航、强化学习、机器人控制等16个具体研究方向 [1] - 支持带课题咨询 满足各类论文发表需求 [1] 服务分级与定价 - 按论文级别提供差异化定价服务 [2] - 涵盖计算机领域CCF-A/B/C类会议期刊 [2] - 服务范围包括SCI各分区期刊 中科院分区期刊 EI检索及中文核心期刊 [2] - 同时支持毕业论文、申博论文及竞赛论文等需求 [2]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 20:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 11:36
多模态大模型职位 - 工作地点为北京和深圳,月薪范围为40k-80k [2] - 研究方向包括移动操作、导航和VLA(视觉语言行动) [2] - 职责涵盖具身智能大模型框架设计、模型优化及下游任务训练部署 [2] - 要求计算机/人工智能/机器人相关专业硕士学历,具备机器人感知/导航/操作或AI大模型经验 [3] - 优先考虑有NaVid/MobilityVLA等机器人导航领域算法落地经验者 [3] - 加分项包括顶级会议论文发表、熟悉Transformer/RLHF算法、多模态数据处理经验 [4] 强化学习职位 - 工作地点为北京,月薪范围为40k-80k [5] - 研究方向包括强化学习和VLA [5] 具身导航算法职位 - 工作地点为深圳,月薪范围为30k-60k [6] - 研究方向包括多模态和VLN(视觉语言导航) [6] - 职责涉及多模态数据到规划的端到端映射及世界模型应用 [6][7] - 要求计算机/自动化/电子相关专业,具备机器学习/深度学习/强化学习基础 [7] - 优先考虑有ICLR/NeurIPS等论文发表或ACM/ICPC竞赛获奖者 [7] 岗位咨询方式 - 可通过添加微信Remix-clover咨询多模态导航移动基础模型相关岗位 [9] - 咨询需备注"具身之心+具体岗位" [9]
晚点独家丨Agent 初创公司 Pokee.ai 种子轮融资 1200 万美元,Point 72 创投,英特尔陈立武等投资
晚点LatePost· 2025-07-09 19:38
公司融资与资金用途 - Pokee.ai完成1200万美元种子轮融资 投资人包括Point72 Ventures Qualcomm Ventures及多位科技公司高管[5] - 资金将用于扩张Agent产品Pokee的可选工具集 加速对大公司客户销售 不计划大规模扩招 研发团队保持在10人以内[5][3] - 部分资金用于迭代算法 接入10个新平台API 新增记忆功能以理解客户需求[9] 技术架构与竞争优势 - Pokee采用强化学习模型而非LLM作为任务规划核心 LLM仅作为交互层 当前版本已掌握15000个工具[7] - 强化学习模型决策不依赖token生成 参数量更少 单任务成本仅为同类产品的1/10 演示任务完成时间仅几分钟[8] - 重点优化跨平台API调用能力 目标客户为大公司和专业消费者 支持Amazon Google Instagram等多平台工作流[9] 行业融资趋势 - AI行业种子轮融资规模突破传统惯例 2024年生成式AI公司种子轮融资中位数达300万美元 较2020年170万美元增长76%[10] - 明星AI产品公司如Udio Daydream种子轮融资额超千万美元 硅谷成为主要聚集地[10] - 2024年A轮融资耗时中位数达25个月 创近十年新高 反映投资人更谨慎 要求扎实的PMF验证[17][19] 市场环境与挑战 - AI产品单任务成本高企 例如Manus单任务成本2美元 相当于B站用户全年带宽成本[13] - 行业同质化严重 产品易被复刻 需通过烧钱争夺市场份额 部分公司定价低于成本价[14] - 全球风投募资额连续三年下滑 2024年仅为2021年峰值的40% 2025年或创十年新低[14]
如何教AI学会反思?
虎嗅· 2025-07-09 15:57
论文背景 - 论文标题为《反思,重试,奖励:通过强化学习实现自我改进的大语言模型》,由人工智能创业公司Writer的研究团队撰写,联合作者共8人[5][3] - 论文内容简洁明了,仅16页,不同于传统学术论文的复杂风格[4] - 该论文在Hugging Face平台的"每日论文"栏目中排名6月第三位[1][3] 核心研究方法 - 提出三步骤方法让AI从错误中学习:反思、重试、奖励[5][11][12][13] - 与传统方法不同,不依赖更多数据或重新训练,而是教会AI自我改进的能力[8][9][10] - 奖励机制针对AI的反思过程而非最终答案,强化有效的反思方式[13][14] - 该方法使AI获得通用的自我纠错和提升能力,而非死记硬背[15] 实验验证 - 在函数调用任务中,15亿参数模型准确率从32.6%提升至52.9%[20][21] - 在数学方程求解任务中,同一模型准确率从6%提升至45%[23][24][25] - 经过训练的小模型表现超过未训练的大模型:70亿参数模型优于720亿参数模型[27][26] - 证明优化训练方式可使小模型具备强大能力,节省成本[29] 实际应用 - 用户可通过引导AI反思来提升回答质量,如指出错误并要求分析原因[31][32] - 在商业分析等场景中,可提供明确反思方向如"忽略市场风险因素"[33] - 多模型比较方法:让一个AI评估其他AI的回答,再改进自身回答[35][36][37][38] - 通过持续追问和挑战可激发AI产生新思路和更优解决方案[38][39]
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 12:57
核心观点 - 上海交大联合深势科技团队在"人类最后的考试"(HLE)上取得32.1分,创下新纪录[2] - 该团队推出工具增强推理智能体X-Master和多智能体工作流系统X-Masters[3] - 研究成果已开源[4] - 使用DeepSeek-R1-0528作为驱动智能体的推理模型[6] - 这是首个在HLE上得分超过30%的系统[26] 技术方案 - X-Master是一个由开源模型驱动的工具增强型推理智能体,模拟人类研究者的动态问题解决过程[9] - 将代码概念化为一种交互语言,在遇到无法解决的问题时编写代码块执行[11] - 引入初始推理引导机制,通过精心设计的自我陈述引导模型[17] - X-Masters采用分散-堆叠式智能体工作流,通过多智能体协作增强推理[20] - 分散阶段:多个求解器智能体并行工作,批评者智能体修正方案[22] - 堆叠阶段:重写器智能体综合方案,选择器智能体裁定最佳答案[22] 性能表现 - 在HLE测试中取得32.1%的最高分[26] - 消融研究显示:工具增强推理提高3.4%,迭代优化增加9.5%,最终选择实现32.1%[29] - 在生物学/医学类别中表现优于现有系统,达到27.6%正确率[31] - 在TRQA-lit生物学测试中取得67.4%的SOTA成绩[32] HLE测试背景 - 由AI安全中心和Scale AI发起,被称为史上最难大模型测试集[34] - 题目来自500多家机构的1000多名学者,需通过大模型和人工双重审查[38] - 最终入围3000多道题目,涵盖数理化、生物医药等八大类[39] - 数学占比42%,物理和生物医药各占11%[39]
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
量子位· 2025-07-09 09:18
模型性能突破 - Polaris通过Scaling RL技术使4B模型在数学推理任务(AIME25得分79.4,AIME24得分81.2)超越商业大模型如Claude-4-Opus和Seed-1.5-thinking [1] - 仅用700步RL训练即让Qwen3-4B接近其235B版本的表现 [5] - 模型轻量化设计支持消费级显卡部署 [2] 训练方法论创新 - 提出"镜像J"数据分布理论:构建轻微偏向难题的分布可优化不同能力基模型的训练效果 [10] - 采用动态数据更新策略:删除训练过程中准确率过高的样本以维持挑战性 [13] - 实现多阶段温度调整:通过控制探索区温度初始化,动态维持60分多样性水平 [32][33] 技术实现细节 - 引入长度外推技术:应用YaRN方法将32K以上长文本准确率从26%提升至50% [41][43] - 优化采样温度区间:划分鲁棒生成区/控制探索区/性能崩塌区,打破t=0.6或1.0的行业惯例 [28] - 采用渐进式上下文窗口扩展:Qwen3-4B需直接从40K长度启动训练以避免性能塌陷 [52] 开源生态建设 - 完整公开训练数据/模型/代码,包括Huggingface模型库和GitHub仓库 [3][53] - 验证Scaling RL对前沿开源模型(如Qwen3)的普适性提升效果 [5] - 提出token利用效率概念:不同基模型对响应长度的敏感度存在显著差异 [51]
具身智能论文速递 | 强化学习、VLA、VLN、世界模型等~
具身智能之心· 2025-07-08 20:54
强化学习提升VLA泛化能力研究 - 清华大学等机构通过PPO算法微调视觉-语言-动作模型(VLA),OOD场景任务成功率提升42.6%,语义理解任务成功率从61.5%提升至75.0%,动态干扰场景成功率从28.6%跃升至74.5% [2] - 构建了评估VLA微调方法泛化能力的多维度基准,验证PPO优于GRPO和DPO算法,并提出共享actor-critic骨干网络、模型预热等高效微调方案 [4] - 强化学习在VLA的语义理解和实体执行泛化能力上超越监督微调(SFT),视觉鲁棒性与SFT相当 [4] NavMorph自进化世界模型技术 - 中科院突破NavMorph技术,在R2R-CE基准未见环境中成功率(SR)达47.9%,路径长度加权成功率(SPL)提升至33.2% [13] - 模型通过World-aware Navigator推断环境动态潜在表示,结合Foresight Action Planner实现前瞻决策,Contextual Evolution Memory机制支持动态环境行动规划 [15] - 实验显示NavMorph在VLN-CE基准全面领先:单目相机场景下Test Unseen的SR达45.7%,全景相机场景SR提升至60%,SPL达52% [18] 行业技术进展 - 视觉语言导航领域主流方法对比显示,NavMorph在Val Unseen场景SR较基准最优模型(ETPNav*)提升7个百分点,SPL提高4个百分点 [18] - 具身智能领域形成产学研社区,近200家公司及研究机构参与技术交流,涵盖招聘、学习资源及前沿技术更新 [23]
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
具身智能之心· 2025-07-08 17:31
技术框架 - 提出"真实-仿真-真实"框架,通过多视角图像进行3D高斯溅射(3DGS)场景重建,构建兼具照片级真实感与物理交互特性的"数字孪生"仿真环境 [2] - 框架支持视觉导航与运动控制的协同学习,实现纯RGB输入的仿真到现实策略迁移 [2] 应用场景 - 方法在家庭和工厂场景中具有应用潜力,支持视觉目标追踪任务 [2] - 实验表明该方法能促进策略在新环境中的快速适应与高效探索 [2] 技术优势 - 解决"仿真与现实差距"问题,特别是缺乏真实感视觉渲染阻碍高阶任务的问题 [2] - 通过3DGS场景重建技术提升仿真环境的真实感与物理交互特性 [2] 相关资源 - 论文标题为《VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion》 [3] - 项目链接和论文链接已公开 [3]
突破全模态AI理解边界:引入上下文强化学习,赋能全模态模型“意图”推理新高度
量子位· 2025-07-08 15:30
多模态大语言模型技术突破 - 当前多模态推理模型存在两大核心问题:全局上下文理解不足(模型错误解读多模态证据)和捷径问题(忽视关键线索直接给出答案)[2][3][4] - 阿里巴巴通义实验室推出HumanOmniV2解决方案,强调模型需基于全局上下文理解进行推理,避免遗漏多模态线索[4] - 创新性采用强制上下文总结机制,要求模型在推理前先输出对多模态输入的概括,确保全面性[12] 技术架构优化 - 引入三维奖励机制:上下文奖励(评估上下文一致性)、格式奖励、准确性奖励协同作用[13][14] - 通过LLM评估逻辑奖励,激励模型融合反思/演绎/归纳等高级逻辑分析方法[15] - 改进GRPO训练策略:采用令牌级损失解决长序列不平衡、移除问题级归一化项消除优化偏差、动态KL散度提升探索能力[16][19][20] 数据集与基准创新 - 构建全模态推理训练数据集,涵盖图像/视频/音频理解任务,附带多模态输入总结和推理路径[23] - 推出IntentBench评估基准,包含633个视频和2,689个问题,专注测试复杂人类意图理解能力(对比Daily-Omni/WorldSense更侧重社会关系推理)[23] 性能表现 - HumanOmniV2在Daily-Omni达到58.47%、WorldSense 47.1%、IntentBench 69.33%准确率,超越现有开源模型[24] - 在视频-音频多模态任务中,7B版本以58.47%平均准确率显著领先VideoLLaMA2(35.17%)和Qwen2.5-Omni 7B(47.45%)[25] - 在文化/科技等细分领域评估中,7B模型以47.1%平均准确率超越GPT-4o(42.6%)和Claude 3.5 Sonnet(34.8%)[27] 开源与资源 - 完整开源代码/模型/数据,提供GitHub/arXiv/ModelScope/HuggingFace多平台访问入口[29]