模型训练

搜索文档
新财富·董秘特辑 | 叶静:多维赋能 积极传递公司长期价值
新财富· 2025-05-11 16:31
新财富金牌董秘评选 - 新财富金牌董秘评选是中国资本市场极具权威性与公信力的标杆评选,见证了中国资本市场的发展历程 [1] - 金牌董秘群体凭借卓越的专业素养与创新实践能力,持续优化上市公司治理、深化投资者关系管理 [1] - 董事会秘书是上市公司治理架构中的"关键齿轮",承担承上启下、内外联动的战略职能 [1] 依米康董事会秘书叶静 - 叶静女士荣获"第二十一届新财富金牌董秘"称号,凭借其专业知识、丰富经验和敏锐市场洞察力 [2] - 叶静女士法学硕士出身,曾担任总监、常务副总裁等关键职位,在规范治理、资本运作及企业管理等领域表现卓越 [4] - 自2022年8月起任职依米康董事会秘书,积极推进合规经营,强化投资者关系管理,树立良好企业形象 [4] 公司治理与资本运作 - 叶静女士不断优化公司治理结构,深入钻研法人治理等规范性课题,提炼具有实践指导意义的专业建议 [4] - 积极搭建公司与资本市场沟通的桥梁,协助辖区上市公司及行业协会组织外联活动,推动行业整体水平提升 [4] - 在公司战略转型期间,对内参与制定资产剥离方案,对外与股东、投资人及监管机构进行有效沟通 [7] 依米康财务表现 - 依米康一季度实现营业总收入3.18亿元,同比增长26.44% [6] - 归母净利润703.93万元,同比增长34.77% [6] - 扣非净利润706.28万元,同比增长91.54% [6] 公司发展战略 - 依米康从数据中心精密空调等关键设备提供商转型为数字基础设施全生命周期绿色解决方案服务商 [6] - 完成环保领域业务剥离,战略聚焦信息数据领域,步入高质量发展阶段 [6] - 截至2024年末,依米康及下属子公司已获得152项专利,186项著作权 [7] 董秘职业发展 - 董秘能力进阶的三大关键:沟通协同、学而不辍、容纳百川 [9] - 董秘需与管理层、业务部门保持紧密协作,与监管机构和投资者建立高效互动 [9] - 持续学习最新监管动态、行业趋势、市场动向,更新知识体系,提升专业素养 [9] 行业前景与机遇 - AI大模型训练与推理、云计算、自动驾驶等前沿科技领域蓬勃发展,市场对强大算力需求持续攀升 [11] - 依米康凭借在算力基础设施领域的深厚积累与领先优势,有望在科技浪潮中充分受益 [11] - 未来将以温控设备为排头兵,联动智能工程、物联软件、智慧服务三大板块,打造智能、高效、绿色的数字基础设施 [11]
DeepSeek致谢腾讯技术团队:对DeepEP的优化,是一次“huge speedup”代码贡献
新浪科技· 2025-05-07 19:12
技术优化 - 腾讯技术团队对DeepSeek开源的DeepEP通信框架进行深度优化,在RoCE网络环境性能提升100%,IB网络环境提升30% [1] - 优化后的技术方案获得DeepSeek公开致谢,被称为"huge speedup"代码贡献 [1] - 腾讯星脉网络团队发现DeepEP两大关键瓶颈:双端口网卡带宽利用率不足和CPU控制面交互时延 [2] - 技术优化后,DeepEP在RoCE网络实现性能翻倍,IB网络通信效率提升30% [2] 技术突破 - DeepSeek开源的DeepEP通信框架通过突破性方法提升300%通信效率,减少对英伟达NCCL的依赖 [2] - 优化措施包括:替换IBRC为IBGDA、为每个通道使用独立QP实现并行数据传输 [1] - 优化后internode带宽达到58GB/s(RDMA),internade带宽达到51GB/s(RDMA) [1] 应用与影响 - 该技术已全面开源并应用于腾讯混元大模型等项目的训练推理 [2] - 在腾讯星脉与H20服务器构建的高性能环境中展现出出色通用性 [2] - 技术优化使企业AI大模型训练获得更高效解决方案 [1]
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 12:23
李武军教授为通讯作者,硕士生林昊(已毕业 ,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。 训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。 大模型的训练往往采用多机多卡的分布式训练,大模型的分布式训练挑战巨大,即使硬件足够,不熟悉分布式训练的人大概率(实验中验证有 64%-87% 的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而无法成功运行训练过程。 此外,不熟悉分布式训练的人在碰到大模型训练慢时容易只想到增加 GPU 硬件等 横向拓展(scale-out)方法,而忽略了分布式训练算法的 纵向拓展(scale- up)作用。 论文被 CVPR 2025 录用为 Oral(所有投稿论文的 0.7%,所有录用论文的 3.3%)。 方法简介 实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训 练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上。 也就是说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十 ...
技术驱动与绿色转型双轮并进,润泽科技一季报稳健增长
证券时报网· 2025-04-29 12:08
财务表现 - 一季度营收11.98亿元,归属于上市公司股东的净利润4.3亿元,财务指标健康 [1] 业务发展 - 作为国内领先的智算基础设施提供商,以技术创新与绿色发展为双引擎,加速构建面向未来的算力底座 [1] - 已形成覆盖京津冀、长三角、粤港澳大湾区等核心经济带的7大AIDC智算集群 [1] - 已交付及即将交付的算力中心全部取得投产订单,预计2025年可完成上架并趋向成熟 [1] 技术布局 - 持续深化液冷技术商业化落地,2023年交付业内首例整栋纯液冷绿色智算中心 [1] - 液冷智算中心PUE已降至1.15左右,廊坊园区已交付的智算中心实际运行PUE达到行业领先水平 [1] - 液冷领域的先发优势将转化为市场壁垒,为AI大模型训练提供高可靠、高效能的算力基础设施支撑 [1] 绿色低碳战略 - A-7、A-18算力中心凭借卓越的节能降耗表现,成功入选国家绿色数据中心 [2] - 2024年完成绿电交易总量8亿千瓦时,持续深耕节能技术研发,推动绿色低碳转型 [2] 海南自贸港战略布局 - 在海南儋州建设智算基础设施集群,规划约3万架机柜,完善跨境布局 [3] - 依托海南跨境电商综合试验区政策红利,为跨境电商、跨境支付等场景提供稳定、安全、可靠、绿色的服务 [3] - 契合《海南自由贸易港建设总体方案》中"数字经济发展"导向,为开拓境外市场奠定基础 [3]
中电申请数据配比确定方法专利,解决确定不同领域数据集配比使模型达预期效果的问题
金融界· 2025-04-28 19:43
中电数创(北京)科技有限公司,成立于2020年,位于北京市,是一家以从事科技推广和应用服务业为 主的企业。企业注册资本5000万人民币。通过天眼查大数据分析,中电数创(北京)科技有限公司参与 招投标项目4次,专利信息81条,此外企业还拥有行政许可3个。 本文源自:金融界 金融界2025年4月28日消息,国家知识产权局信息显示,中电数据产业集团有限公司、中电数创(北 京)科技有限公司申请一项名为"数据配比确定方法、系统、电子设备及存储介质"的专利,公开号 CN119884742A,申请日期为2024年12月。 专利摘要显示,本申请公开了一种数据配比确定方法、系统、电子设备及存储介质,涉及模型训练技术 领域,公开的数据配比确定方法包括:随机生成第一数量的数据配比信息,并确定各数据配比信息各自 对应的训练集;获取各训练集各自微调出的目标模型,并将测试集分别输入各目标模型,得到各数据配 比信息各自对应的实际准确度;基于各数据配比信息和各实际准确度训练回归模型,并通过训练完成的 回归模型对随机生成的第二数量的数据配比信息进行处理,得到各个预测准确度;确定各预测准确度中 的最高预测准确度,并将最高预测准确度对应的数据配比 ...
港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力
智通财经网· 2025-04-25 10:50
股价表现 - 快手-W(01024)股价上涨2 48%至51 7港元 成交额达6 42亿港元 [1] 技术创新 - 快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源 [1] - SRPO仅需GRPO 1/10的训练成本 在数学与代码双领域基准测试中实现性能突破 [1] - SRPO在AIME2024得分50 LiveCodeBench得分41 6 成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero的方法 [1] 技术细节 - SRPO采用两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization)框架 [1] - 使用与DeepSeek相同的基础模型(Qwen2 5-32B)和纯粹的强化学习训练 [2] - SRPO在AIME24和LiveCodeBench基准测试中超越DeepSeek-R1-Zero-32B表现 [2] - SRPO仅需R1-Zero十分之一的训练步数达到同等水平 [2]
快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
智通财经网· 2025-04-24 12:52
快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化 (two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领 域复现 DeepSeek-R1-Zero 性能的方法。通过使用与 DeepSeek 相同的基础模型 (Qwen2.5-32B) 和纯粹的 强化学习训练,SRPO 成功在 AIME24 和 LiveCodeBench 基准测试中取得了优异成绩(AIME24 = 50、 LiveCodeBench = 41.6),超越了 DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。 技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度 冲突问题。实验表明,两阶段训练在数学和编程 ...
中美AI叙事和背后的算力逻辑
雪球· 2025-04-04 11:16
中美AI叙事差异 - 中国AI叙事聚焦于DS开源带来的LLM平权及小模型端侧、边缘侧应用落地 呈现全面开花态势 算力需求以H20和国产Asic为主 大厂持续加大数据中心投入 [1] - 北美AI叙事坚持通往AGI的技术路线 持续推出多模态高阶模型和万亿参数大模型 高端NV显卡供不应求 [2][3] 算力需求分化 - 中国场景下 H20和910c芯片可满足LLM chatbot及端侧AI推理需求 异构芯片如fpga+risc-v也能支持简单AI端侧推理 [4] - 北美高端NV芯片在以下场景不可替代: - GPT-4o类文生图及多模态应用 需高显存+大带宽 单次交互可能消耗500 TFlops [5][6][8] - 千亿/万亿参数大模型训练 NV高阶芯片的互联优势显著 [7] - AI医疗生物科技等科学计算 如AlphaFold3预测分子相互作用 手术机器人需超低延时 [7] - 高阶Agent应用 需支持高并发(如AI游戏数百万NPC交互)、超长上下文记忆(数万token)、多模态处理 [8] 商业化落地差异 - 中国AI应用商业化更快 如会议纪要AI月赚数千万 腾讯接入DS模型获得2000万DAU 成本效益显著 [3][8] - 北美CSP仍在探索多模态等高阶应用 成果周期较长 但若GPT-4o等突破性应用出现 将引发高端NV卡抢购潮 [9][10] 技术变量 - DS的AI infra能力是核心变数 若V4版本实现多模态且低耗能 可能颠覆NV高端芯片逻辑 [7][10] - 视频类企业(如字节跳动)对高端NV卡需求更强 因AI视频生成需500+TFlops和48G显存 [6]
速递|O'Reilly指控OpenAI"窃书" 训练 GPT-4o,AI数据黑箱再陷版权风暴
Z Potentials· 2025-04-02 11:17
核心观点 - 多家机构指控OpenAI可能未经许可使用付费墙后的O'Reilly书籍训练其AI模型,尤其是GPT-4o [1][2] - AI监督组织通过论文指出,GPT-4o对付费墙后书籍内容的识别率显著高于旧版模型,暗示其训练数据可能包含未授权内容 [2][3] - OpenAI面临多起诉讼,其训练数据实践和版权法处理引发争议 [5] 训练数据争议 - OpenAI被指控利用O'Reilly Media付费墙后的书籍训练GPT-4o,且未签署许可协议 [2] - 论文采用DE-COP方法(成员推理攻击)检测模型训练数据中的受版权保护内容,结果显示GPT-4o对付费墙后书籍的识别率远高于GPT-3.5 Turbo [2][3] - 研究分析了34本O'Reilly书籍中的13,962个段落摘录,评估模型训练数据中可能包含的版权内容概率 [3] 模型表现差异 - GPT-4o对付费墙后O'Reilly书籍内容的识别能力显著强于GPT-3.5 Turbo,后者对公开可获取的书籍样本识别率更高 [2][3] - 研究指出,GPT-4o可能掌握了其训练截止日期前出版的非公开O'Reilly书籍内容,但未评估最新发布的GPT-4.5等模型 [4] OpenAI的数据策略 - OpenAI在耗尽公共网络数据后,开始采用AI生成的数据训练模型,但完全摒弃现实世界数据的实验室极少 [1] - 公司长期倡导放宽使用受版权保护数据的限制,并寻求更高质量的训练数据,甚至聘请记者和领域专家协助微调模型 [4] - OpenAI与部分新闻出版商、社交网络等签订了授权协议,并提供了不完善的退出机制供版权所有者标记不希望用于训练的内容 [4] 行业趋势 - AI公司普遍招募科学、物理等领域专家,将专业知识输入AI系统以提升模型性能 [4] - 纯合成数据训练存在风险,可能导致模型性能下降,因此多数实验室仍依赖现实世界数据 [1]
字节跳动,重大宣布!成本再降40%!
证券时报· 2025-03-10 20:43
大模型训练成本,再砍一刀! MoE是当前大模型的主流架构,最近大火的国产大模型DeepSeek采用的就是MoE架构。DeepSeek自研的 DeepSeekMoE作为一种创新的大规模语言模型架构,通过整合专家混合系统、改进的注意力机制和优化 的归一化策略,在模型效率与计算能力之间实现了新的平衡。 字节豆包大模型团队表示,MoE在分布式训练中存在大量跨设备通信开销,严重制约了大模型训练效率和 成本。针对这一难题,字节在内部研发了COMET计算-通信重叠技术,通过多项创新,大幅压缩了MoE专 家通信空转时间。 在此前的"开源周"活动中,DeepSeek也曾开源了团队为解决MoE通信瓶颈而采取的DualPipe+DeepEP方 案。不过,与之不同的是,COMET可以像插件一样直接接入已有的MoE训练框架,支持业界绝大部分主 流大模型,无需对训练框架进行侵入式改动,更加方便、灵活、通用。这一方法,还因其简洁性与通用性 而高分入选全球机器学习系统顶级会议 MLSys 2025,被认为"在大规模生产环境中极具应用潜力"。 不仅如此,由于在降低MoE通信开销上,COMET采用了计算-通信融合算子的优化方式,DeepSeek ...