Workflow
学习
icon
搜索文档
周红波主持召开学习教育整改整治工作推进会
南京日报· 2025-06-24 09:48
根据提供的新闻内容,该文档主要涉及政府会议和学习教育整改整治工作,没有提及具体的公司或行业信息。因此,无法按照要求提取与公司或行业相关的关键要点。 如果需要分析其他类型的新闻或财务报告,可以提供相关内容以便进行详细总结。
NVIDIA Tensor Core 的演变:从 Volta 到 Blackwell
半导体行业观察· 2025-06-24 09:24
Tensor Core架构演进 - Tensor Core是推动GPU计算能力远超摩尔定律的核心技术,已成为现代AI和机器学习的基石[1] - 从Volta到Blackwell共经历五代架构演进:Volta(第一代)、Turing(第二代)、Ampere(第三代)、Hopper(第四代)、Blackwell(第五代)[11] - 每代架构在MMA(矩阵乘加)指令执行方式、数据精度支持、内存层次结构等方面均有重大创新[11][18][30][39][46] 性能工程原理 - 阿姆达尔定律量化了并行计算的最大加速比,性能提升受限于串行部分执行时间[5] - 强扩展通过增加计算资源解决固定规模问题,弱扩展通过增加资源解决更大规模问题[6] - 数据移动成本远高于计算成本,现代DRAM速度比晶体管开关速度慢两个数量级,形成"内存墙"[10] 编程模型演变 - PTX编程模型采用线程网格-CTA-Warp的三级线程层次结构,对应寄存器-共享内存-全局内存的内存层次[13][14] - SIMT执行模式以Warp(32线程)为单位发出指令,与SIMD不同在于指定单线程行为而非向量宽度[15] - SASS是PTX底层指令集,但文档不完善因NVIDIA对竞争对手保密[17] 各代Tensor Core特性 Volta(第一代) - 引入HMMA指令执行8x8x4矩阵乘法,需8线程四对协作完成[22][25] - 支持FP16输入/FP32累积,符合混合精度训练需求[26] - 每个SM含8个Tensor Core,每周期1024 FLOP[22] Turing(第二代) - 增加INT8/INT4精度支持,引入Warp级同步MMA[27] - 首次将深度学习应用于游戏图形(DLSS技术)[27] Ampere(第三代) - 引入异步数据复制,直接从全局内存到共享内存,缓解寄存器压力[29] - Warp级同步MMA指令,完整32线程参与运算,每SM每周期2048 FLOP(Volta两倍)[30] - 支持BF16格式,提供FP32级别动态范围且无需损失缩放[32] Hopper(第四代) - 新增线程块集群概念,CTA可跨SM协作访问分布式共享内存[33] - 引入张量内存加速器(TMA),批量异步复制全局内存到共享内存[35] - Warpgroup级异步MMA(wgmma),4个Warp(128线程)协作执行更大规模矩阵运算[39] - 支持8位浮点(E4M3/E5M2)和22位定点累加[41] Blackwell(第五代) - 新增Tensor Memory(TMEM)专用存储,256KB容量/SM,更靠近计算单元[43] - 第五代MMA指令完全脱离寄存器,操作数驻留共享内存/TMEM[46] - 支持CTA对级MMA(MMA.2SM),两个SM协作执行[45][49] - 引入MXFP8/6/4和NVFP4等微缩放浮点格式[51][52] 架构演进趋势 - Tensor Core规模扩展速度远超数量增加,MMA形状从Volta的8x8x4扩大到Blackwell的256x256x16[59][60] - 共享内存容量持续增加(Volta 96KB→Blackwell 228KB/SM),寄存器文件保持256KB[64][65] - 操作数存储位置从寄存器逐步转向共享内存/TMEM,提升数据局部性[67] - MMA指令从同步逐步转向异步执行,提高流水线效率[69][71] - 数据类型持续向低精度发展,从FP16到4位格式,同时缩减高精度支持[73][74] 结构化稀疏性 - Ampere引入2:4稀疏模式(每4元素含2零),理论可双倍提升吞吐量[54] - Blackwell为NVFP4引入4:8成对稀疏模式,要求更严格[57] - 实际应用中因剪枝难度和优化不足,稀疏性优势未充分体现[55]
扛稳责任压实举措加大一体推进学查改力度 不断推动学习教育走深走实
郑州日报· 2025-06-24 08:30
根据提供的新闻内容,主要围绕市委学习教育工作调度会的召开和相关工作部署展开,不涉及公司和行业的具体内容。因此,无法按照要求提取关于公司和行业的关键要点。 建议提供包含公司经营、行业动态或市场数据的新闻内容,以便进行更符合任务要求的分析总结。
职场说“不”的艺术:避免倦怠,又不失去晋升机会
36氪· 2025-06-24 07:15
职场沟通策略 - 说"不"的能力被视为成熟职场专业人士的标志 能营造尊重且安全的职场环境 帮助避免职业倦怠并赋能个人 [4] - 但过度说"不"可能导致错失晋升机会 学习机会及重要项目参与 使职业发展停滞 [5] 界限与障碍辨析 - 虚假界限可能成为阻碍成长的障碍 如习惯性使用"没时间"等硬性拒绝表述会向团队传递错误信号 [6] - 有效边界应是动态的 需响应工作负荷 团队目标和个人价值观才能创造可持续性 [7] 职业发展影响 - 出于恐惧说"不"会错过技能发展机会 研究显示成长发生在能力边界而非舒适区内 [8] - 神经科学表明挑战性任务能激活大脑多巴胺系统 对学习过程产生积极影响 [8] 团队协作维度 - 频繁说"不"会削弱职场人际关系 影响团队心理安全感和信任积累 [9] - 被视为"不参与者"可能导致被排除在关键对话和晋升机会之外 [9] 战略妥协价值 - 适当接受不情愿任务能建立跨团队影响力 是实现长期目标的必要妥协 [10] - 领导者应避免因个人偏好不当委派工作 否则会侵蚀团队信任和信誉 [10] 合理拒绝原则 - 当任务违背价值观或导致过度压力时 拒绝是必要且明智的选择 [11] - 有效拒绝应提供替代方案 如调整截止日期或任务内容 并保持后续跟进 [11]
腾讯研究院AI速递 20250624
腾讯研究院· 2025-06-23 23:15
特斯拉Robotaxi服务上线 - 特斯拉Robotaxi服务在德州奥斯汀启动,首批乘客固定价格4.2美元,仅向受邀用户开放,投入10-20辆Model Y车辆 [1] - 服务有严格地理围栏限制,运营时间为早6点至午夜,车内配有安全监控员可紧急接管,部分情况下还有跟车和远程驾驶员 [1] - 用户体验总体平稳,能应对基本城市驾驶场景,但存在需远程操作介入等问题,马斯克计划数月内扩大至上千辆,但竞争对手Waymo已运营1500辆无人车 [1] OpenAI收购io公司进展 - OpenAI撤除了展示萨姆·阿尔特曼与乔尼·艾维合作的宣传视频,但其65亿美元收购io公司的交易仍在正常推进 [2] - 撤视频原因系法院因iyO公司商标侵权投诉而发布禁令,要求OpenAI删除所有使用"io"名称的宣传材料 [2] - OpenAI已在原公告页面更新声明表示不同意该投诉并正评估应对方案,确认此事不会影响与io的交易进程 [2] 月之暗面Kimi-VL新版开源 - 月之暗面开源Kimi-VL-A3B-Thinking-2506多模态模型,仅用2.8B激活参数在多项测评中超越GPT-4o [3] - 新版本在数学能力、视频理解等方面表现突出,MathVision得分56.9,VideoMMMU得分65.2,刷新开源模型记录 [3] - 支持320万像素分辨率(提升4倍),思考过程更清晰,在多项测试中已超越Qwen2.5-VL-32B,与Qwen2.5-VL-72B相当 [3] MiniMax推出语音新功能 - MiniMax推出Voice Design音色设计功能,用户可通过自然语言描述定制所需音色,实现"任意语言×任意口音×任意音色"的组合 [4] - Speech-02模型在Artificial Analysis榜单持续位列全球第一,已帮助客户生成超1.5亿小时语音,与30多个国家客户合作落地 [5] - Voice Design解决了系统音色难以精准匹配细分场景和复刻音色成本高等问题,能根据文字描述自动拆解生成专属音色编码 [5] 百度发布Comate AI IDE - 百度发布Comate AI IDE,作为多模态、多智能体协同的原生AI编程工作台,已可在官网下载使用 [6] - 核心功能包括编程智能体Zulu全流程辅助编码、设计稿一键转代码(Figma to Code)、图片转代码,能自动推进前后端开发 [6] - 支持MCP开放平台,可接入GitHub等第三方工具,实现从"代码语言"到"意图语言"的进化,用户只需表达想法即可完成开发 [6] 强化学习教师新范式 - Sakana AI提出"强化学习教师"(RLT)新范式,让模型学习如何教学而非直接解决问题,通过生成解释来帮助学生模型理解 [7] - 仅7B大小的教师模型表现超过671B的DeepSeek-R1,且能有效教授32B等更大规模的学生模型,显著降低训练成本 [7] - RLT方法将教师模型的奖励机制与教学效果对齐,训练速度从传统RL的数月缩短至不到一天,为构建高效推理模型开辟新路径 [7] Deezer对AI音乐进行标注 - Deezer将对AI生成曲目专辑进行标注,每日拦截超2万首AI生成音乐,约占上传量18%,其中70%播放量为虚假的 [8] - AI生成歌曲目前仅占平台总流量0.5%但增长迅速,被标记的AI内容将不会出现在编辑精选歌单或算法推荐中 [8] - Deezer已为AI检测技术申请两项专利,能识别合成与真实内容的"独特特征",此举正值三大唱片公司与AI音乐初创公司洽谈授权合作之际 [8] 腾讯脑力锻炼软件获医疗器械注册证 - 腾讯"脑力锻炼"认知功能训练软件获医疗器械注册证,成为医生可开处方的数字疗法,针对轻度认知障碍患者 [10] - 该软件采用游戏化认知训练方法,将训练融入诗词、收纳、厨艺、音乐四大生活场景,针对不同认知域进行多维激活 [10] - 临床试验显示使用该软件训练后认知评分显著提高,目标人群为中国约3877万轻度认知障碍老人,可帮助延缓甚至避免向阿尔茨海默病发展 [10] 银河通用完成11亿元融资 - 银河通用获11亿元融资,宁德时代及溥泉资本领投,累计融资超24亿元,估值已达十亿美元,创人形机器人行业纪录 [11] - 公司技术实力强劲,已发布全球首款开源跨虚实人形机器人遥操作系统OpenWBT,并推出智慧零售解决方案,预计年内部署100家门店 [11] - 行业关注银河通用与宇树技术结合的可能性,两者在技术互补、资本关系紧密,未来合作前景广阔,中国人形机器人市场预计2025年达7300台,规模近24亿元 [11] AI失业潮预警 - 哈佛商学院视频预警:AGI可能在2-5年内实现,AI失业潮即将席卷全球,将导致经济体系崩溃风险 [12] - 弗吉尼亚大学经济学家Anton Korinek指出当前收入分配制度不可持续,随着AI发展人类工资必将下降,建议实施"全民基本收入" [12] - 专家警告各国政府必须紧急制定新收入分配制度,加强AI监管合作,防止AI技术导致大规模失业和社会不稳定 [12]
市委常委会召开会议:从严从实抓好学习教育,不断提高干部能力素质
长江日报· 2025-06-23 22:46
根据提供的新闻内容,以下是按照要求整理的关键要点: 办公厅系统建设 - 深入学习贯彻习近平总书记关于新时代办公厅工作的重要指示精神,加强全市办公厅(室)系统党的建设、业务建设、队伍建设 [2] - 要旗帜鲜明讲政治,持续强化党的创新理论武装,坚决维护党中央权威和集中统一领导 [2] - 要忠诚履职尽责,围绕中心、服务大局,有效发挥统筹协调、参谋助手、督促检查、服务保障等职能作用 [2] - 要加强自身建设,带头落实全面从严治党政治责任、深入贯彻中央八项规定及其实施细则精神 [2] 学习教育工作 - 认真学习中央第三指导组指导督导湖北见面会精神,深刻领会党中央继续派出中央指导组的重大政治考量 [3] - 要在一体推进学查改上再深化,入脑入心学、全面彻底查、注重实效改,动真碰硬解决突出问题 [3] - 要坚持两手抓、两促进,以接受指导督导为契机,推动干部振奋精神、激发斗志 [3] 党风廉政建设 - 深入学习贯彻习近平总书记关于党的自我革命的重要思想,持续深化群众身边不正之风和腐败问题集中整治 [3] - 要聚焦突出问题,抓实整改整治,坚决查办侵害群众利益的案件 [3] - 要强化标本兼治,深挖问题根源,健全体制机制 [3] 干部队伍建设 - 深入学习贯彻习近平总书记关于加强干部队伍能力建设重要论述,落实落细"干部素质提升年"各项工作 [4] - 要紧扣中心大局,强化党的创新理论武装,不断拓宽干部发展思路和视野 [4] - 要提高能力水平,加强干部思想淬炼、政治历练、实践锻炼、专业训练 [4] 防汛抗旱工作 - 深入学习贯彻习近平总书记关于防汛抗旱工作的重要指示批示精神,认真落实全国、全省防汛抗旱工作会议部署要求 [4] - 强化风险意识、底线思维,加强雨情水情监测预报,加快水毁水利设施修复 [4] - 全面排查消除风险隐患,做好旱涝急转、极端高温天气防范应对 [4]
SwitchVLA:无需额外数据采集,即可实时动态任务切换的轻量化VLA模型
具身智能之心· 2025-06-23 21:54
核心观点 - 提出SwitchVLA方法解决多任务VLA模型在任务切换(Task Switching)时的性能瓶颈问题,通过执行感知机制、轻量化网络架构(0.27B参数)及新型训练范式实现无需额外数据采集的高效任务切换能力[3][5][6] - 在单任务性能持平SOTA模型(如π0的3.3B参数)的同时,任务切换成功率显著提升:仿真环境中长串任务(A->...->F)成功率50%-83.3%,真机实验达54.2%-95.6%,远超现有方法(对比π0的0%)[16][17] 背景与问题定义 - 当前多任务VLA依赖独立采集的离散任务数据,导致任务切换时需严格匹配开始/结束状态,无法应对实时指令变更(如便利店场景中用户中途更改需求)[5] - 现有解决方案存在三大局限:大模型规划延迟(>100ms)、模仿学习需补采连接数据(成本高)、基于规则方法缺乏扩展性[6] 方法创新 1 任务切换表示 - 用"上一任务+当前任务+上一任务阶段(接触前/中/后)"替代传统任务描述输入,通过token拼接实现多模态融合[8][9] 2 模型架构 - 采用轻量级Florence-2-base VLM(0.23B)作为主干网络,结合Instruction & Contact Aggregator模块实现实时阶段感知[9][12] 3 训练流程 - 将任务简化为三阶段并定义对应动作:接触前(forward)、接触中(rollback)、接触后(advance)[12] - 创新数据采样算法:利用时间逆序数据生成rollback动作,通过状态插值生成advance动作,避免额外数据采集[13] 实验结果 - 在8个真机/仿真任务测试中,SwitchVLA在早期切换(Early Switch)场景成功率93.5%,远超π0(40.7%)和Open VLA-OFT(40.6%)[16][17] - 失败分析显示其有效解决四大失败类型:无切换(No Switch)成功率99.3%、中期切换(Mid Switch)75%、晚期切换(Late Switch)94.4%[16][17] 应用展望 - 计划部署于"天工"人形机器人,结合"慧思开物"平台赋能工业柔性生产和商业服务,实现高精度操作与快速响应能力[18][19]
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
量子位· 2025-06-23 12:45
核心观点 - 上海创智学院与上海AI Lab提出的CPGD算法显著提升多模态模型的推理能力与训练稳定性,在数学、物理、化学、生物等学科表现优异 [1][2][14] - MM-Eureka系列工作开源了模型、代码、数据集及过程奖励模型,推动多模态强化学习领域发展 [3][25] - 强化学习在跨学科泛化能力上优于监督微调(SFT),但无法替代知识本身的缺失 [22][23] 算法与技术突破 CPGD算法 - 通过策略比值对数化和策略漂移项设计,解决传统强化学习(GRPO/RLOO)训练崩溃问题,性能提升11% [8][11] - 在7B/32B模型上验证:MMK12测试集平均提升21.8%,MathVista/MathVision分别提升8.5%/11.4% [1][14] - 新型KL估计器减少梯度方差,细粒度token级损失函数优化训练效率 [9][10] 多模态强化学习框架 - 基于OpenRLHF支持Qwen-VL/InternVL等模型,可扩展至32B-38B规模 [4][5] - 训练稳定性突破:双边裁剪、online filter等技术提升资源效率 [6][7] 模型性能表现 7B模型对比 - MM-Eureka-CPGD-7B在MMK12上超越QwenVL2.5-7B基准21.8%,Overall评分1.11 [13][14] - 对比GRPO算法(提升6%),CPGD将整体提升幅度扩大至11% [1][14] 32B模型对比 - MM-Eureka-CPGD-32B在MMK12测试集超越o1模型,物理/化学/生物学科表现突出 [2][15] - 接近闭源模型水平,Overall评分1.10(以QwenVL2.5-32B为基准) [15] 数据集与工具 MMK12数据集 - 覆盖K12阶段15k多模态数学题,含几何/函数/图形推理题型,额外提供2k跨学科选择题 [16][17] - 下载量超1700次,成为多模态推理基准 [17] MM-PRM过程奖励模型 - 通过500万数据训练+70万自动标注,提升推理路径严谨性,MMK12准确率提升9% [18][19][21] - 支持全自动过程监督,无需人工标注 [21] 行业影响与开源生态 - 模型下载超1万次,代码库获1000+ star,论文引用近100次 [3] - 完整开源技术方案包括训练框架、数据集、模型权重及技术报告 [25]
新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型
机器之心· 2025-06-23 12:04
课程发布与师资 - 斯坦福大学2025年春季CS336课程《从头开始创造语言模型》已全面上线 提供课程视频和主页链接[1][5] - 讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究方向为机器学习模型性能权衡 学术成果累计引用超3万次[2][3] - 另一位讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超过10万次 研究方向涵盖自然语言处理与机器学习[6][7] 课程内容与结构 - 课程目标为引导学生完成开发语言模型的全流程 包括数据收集、模型构建、训练及评估等环节[8] - 课程分为5个单元共19门课 涵盖token化、PyTorch应用、GPU优化、Scaling Law拟合、数据清洗及模型对齐等核心技术[10] - 实践作业包括实现BPE分词器、Transformer架构、Flash Attention 2优化及分布式训练等 要求学生直接使用PyTorch原语编程[10] 学习门槛与技能要求 - 需熟练掌握Python编程 课程作业代码量显著高于其他AI课程 涉及底层框架开发[11] - 需具备深度学习与系统优化经验 包括PyTorch应用及GPU并行计算能力[11] - 需掌握大学微积分、线性代数、概率统计及机器学习基础知识[11] 行业合作与资源 - 课程包含阿里巴巴达摩院研究员和Meta AI科学家的客座讲座 聚焦Qwen和Llama 3等工业级模型开发经验[10] - 提供Triton框架实现、Common Crawl数据处理等实战内容 强调工业级技术栈应用[10]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]