学习

搜索文档
市委常委会召开会议:从严从实抓好学习教育,不断提高干部能力素质
长江日报· 2025-06-23 22:46
根据提供的新闻内容,以下是按照要求整理的关键要点: 办公厅系统建设 - 深入学习贯彻习近平总书记关于新时代办公厅工作的重要指示精神,加强全市办公厅(室)系统党的建设、业务建设、队伍建设 [2] - 要旗帜鲜明讲政治,持续强化党的创新理论武装,坚决维护党中央权威和集中统一领导 [2] - 要忠诚履职尽责,围绕中心、服务大局,有效发挥统筹协调、参谋助手、督促检查、服务保障等职能作用 [2] - 要加强自身建设,带头落实全面从严治党政治责任、深入贯彻中央八项规定及其实施细则精神 [2] 学习教育工作 - 认真学习中央第三指导组指导督导湖北见面会精神,深刻领会党中央继续派出中央指导组的重大政治考量 [3] - 要在一体推进学查改上再深化,入脑入心学、全面彻底查、注重实效改,动真碰硬解决突出问题 [3] - 要坚持两手抓、两促进,以接受指导督导为契机,推动干部振奋精神、激发斗志 [3] 党风廉政建设 - 深入学习贯彻习近平总书记关于党的自我革命的重要思想,持续深化群众身边不正之风和腐败问题集中整治 [3] - 要聚焦突出问题,抓实整改整治,坚决查办侵害群众利益的案件 [3] - 要强化标本兼治,深挖问题根源,健全体制机制 [3] 干部队伍建设 - 深入学习贯彻习近平总书记关于加强干部队伍能力建设重要论述,落实落细"干部素质提升年"各项工作 [4] - 要紧扣中心大局,强化党的创新理论武装,不断拓宽干部发展思路和视野 [4] - 要提高能力水平,加强干部思想淬炼、政治历练、实践锻炼、专业训练 [4] 防汛抗旱工作 - 深入学习贯彻习近平总书记关于防汛抗旱工作的重要指示批示精神,认真落实全国、全省防汛抗旱工作会议部署要求 [4] - 强化风险意识、底线思维,加强雨情水情监测预报,加快水毁水利设施修复 [4] - 全面排查消除风险隐患,做好旱涝急转、极端高温天气防范应对 [4]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 21:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题,通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时,任务切换成功率显著提升:仿真环境中长串任务(A->...->F)成功率50%-83.3%,真机实验达54.2%-95.6%,远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据,导致任务切换时需严格匹配开始/结束状态,无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限:大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入,通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络,结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作:接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法:利用时间逆序数据生成rollback动作,通过状态插值生成advance动作,避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中,SwitchVLA在早期切换(Early Switch)场景成功率93.5%,远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型:无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人,结合"慧思开物"平台赋能工业柔性生产和商业服务,实现高精度操作与快速响应能力[18][19]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型
机器之心· 2025-06-23 12:04
课程发布与师资 - 斯坦福大学2025年春季CS336课程《从头开始创造语言模型》已全面上线 提供课程视频和主页链接[1][5] - 讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究方向为机器学习模型性能权衡 学术成果累计引用超3万次[2][3] - 另一位讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超过10万次 研究方向涵盖自然语言处理与机器学习[6][7] 课程内容与结构 - 课程目标为引导学生完成开发语言模型的全流程 包括数据收集、模型构建、训练及评估等环节[8] - 课程分为5个单元共19门课 涵盖token化、PyTorch应用、GPU优化、Scaling Law拟合、数据清洗及模型对齐等核心技术[10] - 实践作业包括实现BPE分词器、Transformer架构、Flash Attention 2优化及分布式训练等 要求学生直接使用PyTorch原语编程[10] 学习门槛与技能要求 - 需熟练掌握Python编程 课程作业代码量显著高于其他AI课程 涉及底层框架开发[11] - 需具备深度学习与系统优化经验 包括PyTorch应用及GPU并行计算能力[11] - 需掌握大学微积分、线性代数、概率统计及机器学习基础知识[11] 行业合作与资源 - 课程包含阿里巴巴达摩院研究员和Meta AI科学家的客座讲座 聚焦Qwen和Llama 3等工业级模型开发经验[10] - 提供Triton框架实现、Common Crawl数据处理等实战内容 强调工业级技术栈应用[10]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]
30 余位专家学者齐聚深圳这场研讨会,共商AI教育新范式
南方都市报· 2025-06-22 18:26
会议概况 - 第二届国际教育人工智能与学习科学研讨会于2025年6月20日在南方科技大学召开,主题为"智能时代教与学范式的转型与重塑" [1] - 会议吸引了来自中国大陆、香港、台湾及海外的30余位专家学者及700余位高校教师、教育管理者、研究人员和企业代表参会 [3] - 会议形式包括主旨报告、特邀报告、K12教育论坛、数智科技前沿论坛及智能科技教育装备展 [3] 开幕式致辞 - 南科大原党委书记郭雨蓉提出教育是面向未来的事业,科技是推动进步的引擎,需探讨智能时代教育的新范式、新机制与新路径 [4] - 南科大党委副书记张凌指出人工智能与学习科学的深度融合是实现"规模化公平"与"个性化卓越"的关键路径 [4] - 南科大人文社会科学学院院长陈跃红回顾了南科大"新文科"建设历程,强调科技素养与人文精神的融通是创新人才培养的底色 [4] 主旨报告 - 台湾中央大学陈德怀教授提出"通用智能同伴假说"与"全球和幸"理念,探讨人机协同背景下的教育认知重构 [10] - 华东师范大学祝智庭教授构建AI驱动的智慧教育创新框架 [10] - 北京师范大学黄荣怀教授聚焦"规模化个性化学习"的融合路径,强调生成式AI在提升教学质量与教育公平中的双重价值 [10] K12论坛 - 论坛聚焦人工智能在基础教育场景的深度应用,探讨科学素养培养与人工智能融合的实践路径 [24] - 高校专家围绕教师AI素养建设、在线学习干预、协作式知识建构等议题展开深入交流 [24] - 区域代表介绍了在"人机共育"教育生态构建方面的探索经验,展现了人工智能在基础教育层面的多元应用与落地成效 [24] 数智科技前沿论坛 - 论坛聚焦人工智能教育技术的前沿进展与产学研融合实践,提出面向未来教学场景的智能交互研究构想 [28] - 高校与企业代表从智能课堂设计、教师专业发展支持、大模型在教学与管理中的应用等多个维度展开深入交流 [28] - 论坛集中呈现了教育科技领域的前沿趋势与技术突破,体现了高校与企业在推动教育智能化进程中的协同创新 [28] 智能科技教育装备展 - 展会汇聚了14家领先教育科技企业与科研机构,展示人工智能、大数据、虚拟现实、具身智能等前沿技术在教育教学中的创新应用 [32] - 展区内容涵盖智慧课堂解决方案、AI教师助手、沉浸式学习空间、教育大模型落地应用等多个方向 [32] - 参展单位通过互动演示、实物展示与场景化体验,构建了高度融合的未来教育样态 [32] 会议总结 - 研讨会深化了对教育理念、教学模式和人才培养机制变革的系统认知,推动了教育理论、技术实践与政策导向的有效协同 [34] - 会议进一步拓展了教育数字化、智能化、精准化发展的理论深度与实践广度 [34] - 南科大未来教育研究中心将持续打造高水平学术平台,深化跨学科、跨领域协同合作,服务国家教育数字化战略 [34]
不止是爬山神器,更是四肢增强“外挂”
红杉汇· 2025-06-22 13:03
外骨骼机器人技术发展 - 外骨骼机器人通过机械结构与人体关节耦合,增强或替代人体运动能力,应用场景包括户外运动、工业、医疗、应急救援等[2] - 技术起源可追溯至18世纪,但早期装置笨重且功能有限,1967年通用电气研发的"Hardiman"原型机实现技术突破,具备30多个动力关节但自重达680公斤[4][5] - 21世纪后材料科学进步推动轻量化发展,碳纤维复合材料使产品重量降至1.8公斤,同时AI算法可实现30%体能节省[5] 核心技术突破 - 材料创新:碳纤维、钛合金等轻质高强度材料广泛应用,柔性材料如形状记忆合金提升穿戴舒适性,汉威科技柔性传感器可映射肌肉应变并耐受百万次弯曲[5][6] - 电子技术:微处理器实现毫秒级响应,Cyberdyne公司HAL系统通过检测肌肉电信号预判运动意图[8] - 人工智能:机器学习算法使设备可自适应使用者习惯,视鹏科技登山外骨骼能动态调整助力策略,深度学习技术增强复杂地形适应性[10] 应用场景拓展 - 工业领域:福特工厂使用外骨骼后装配效率提升23%,工人肌肉劳损率下降41%,京东/顺丰物流作业时间延长50%[12] - 医疗康复:ReWalk帮助脊髓损伤患者恢复行走能力,博灵脑机研发的上肢康复外骨骼通过脑机接口捕捉微弱肌肉信号[13] - 社会服务:巴黎残奥会火炬传递采用外骨骼,傲鲨智能产品在上海社区试点,辅助护工搬运老人并具备跌倒报警功能[15] 市场前景与挑战 - 政策推动:专项补贴目标2025年普及率达25%,多省市将外骨骼纳入医保,预计2025年中国市场规模突破50亿元,2030年达千亿级[15] - 现存瓶颈:成本高昂(高精度传感器+轻质材料)、结构笨重影响自然步态、续航不足(如BLEEX仅维持120分钟作业)[17] - 未来方向:智能化算法升级、千元级消费产品开发、固态电池提升续航、产业链标准化[18][21]
00后投身具身智能创业,剑指机器人界「Model 3」!已推出21个自由度灵巧手
量子位· 2025-06-22 12:46
产品技术 - 灵初智能推出自研灵巧手,每只手21个自由度,支持16主动自由度,具备高精度操作能力,远超常见的6自由度抓取器 [1][2] - 人类一只手27个自由度,特斯拉Optimus Gen-3灵巧手22个自由度,21个自由度意味着机械结构复杂,硬件制造难度高 [3] - 灵巧手在夹持、旋转、精准插拔等精细操作上能力突出,能完成转笔、翻书、调方向等高自由度操作 [1][10] - 公司采用分层端到端快慢脑架构技术路线,快脑S1专注操作,慢脑S2专注推理规划,通过Action Tokenizer隐式连接 [22] - 推出分层端到端VLA+强化学习算法模型Psi-R1,结合历史动作与环境状态,理解动作长期影响,避免误差积累 [22] 团队背景 - 首席科学家杨耀东是北京大学人工智能研究院助理教授,强化学习领域知名学者,曾带领团队获NeurIPS 2022具身灵巧操作冠军 [13] - 联合创始人陈源培师从李飞飞和Karen Liu,曾首次实现强化学习在真实世界同时控制双臂、双手多技能操作 [14] - 团队在机器人领域采用强化学习冷启动训练,解决高自由度训练难度大、开放场景长程任务误差累积、跨任务泛化能力差等挑战 [15][16][17][18][19][20][21] 商业模式 - 目标将机器人整机价格打到10000美元(约71885元)级别,对标特斯拉Model 3定价策略 [3][29] - 自研灵巧手不单卖,采用软硬件深度耦合策略,所有硬件为算法、模型服务,强调系统闭环与数据链条完整性 [26][27] - 整机采用轮式+双手设计,紫色外观,动作系统迭代至Psi-R1,数据逐步积累,任务交付以ToB为主,聚焦3C制造和仓储物流 [4][29][39] 行业对标 - 借鉴特斯拉Model 3产业破局之路,通过降低价格、提升体验推动出货量增长,Model 3累计销量超百万辆 [32][33][34] - 特斯拉硬件+FSD+数据生态一体化构建护城河,灵初智能同样强调可靠硬件平台、一体化软件体验与数据回传机制 [35][36] - 预计2030年硬件成本降至10万元人民币级,单场景出货量突破百万台将触发生态爆发 [37][38]
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心· 2025-06-22 12:26
强化学习技术发展 - 强化学习已成为LLM领域不可或缺的核心技术 覆盖大模型对齐、推理模型训练及智能体强化学习等方向 [1] - Unsloth团队发布强化学习教程 从吃豆人案例切入 系统讲解RLHF、PPO至GRPO的技术演进路径 其开源项目GitHub星数超4万 [2][5] - GRPO(组相对策略优化)由DeepSeek开发 通过移除价值模型、采用多轮采样统计替代传统PPO架构 显著降低显存消耗 [22][25][26] GRPO技术原理 - GRPO核心创新在于用采样答案的Z分数标准化替代价值模型 通过计算8-16次生成结果的平均奖励及标准差生成优势值A [27][28] - 技术优势体现在:支持自定义奖励函数 适用于数学验证/代码执行等场景 显存需求最低仅需5GB(1.5B参数模型) [30][44] - 训练机制采用多答案生成策略(每问题8-16变体) 通过奖励函数动态调整权重 需300-1000训练步数见效 [45][49] 应用场景与案例 - 适用领域包括数学推理(GSM8K数据集)、邮件自动化、法律医学等专业任务 准确率提升依赖可验证的阶段性奖励设计 [30][55][61] - Unsloth提供实战案例:在Qwen3基础模型上实现推理功能 通过邻近度评分、XML标签计数等定制化奖励函数优化输出质量 [62] - 典型奖励函数设计包含关键词匹配(+1)、格式合规性(-1)、答案接近度(梯度奖励)等多维度评估体系 [58][59][60] 实施要点与资源 - 硬件要求:17B参数模型需15GB显存 推荐使用QLoRA 4-bit量化技术降低资源消耗 [44][49] - 关键成功要素包括:500+行训练数据、12小时以上训练时长、基于指令微调的预训练模型(概率非零) [41][49][57] - 学习资源涵盖Nathan Lambert的RLHF专著、Yannic Kilcher视频解析及Unsloth提供的Colab实战笔记本 [63]