Workflow
LLaMA
icon
搜索文档
最新综述!扩散语言模型全面盘点~
自动驾驶之心· 2025-08-20 07:32
点击下方 卡片 ,关注" 大模型之心Tech "公众号 >> 点击进入→ 大模型技术 交流群 本文只做学术分享,如有侵权,联系删文 写在前面 在生成式AI的竞技场上,两大技术范式—— 扩散(Diffusion)模型 与 自回归(autoregressive, AR)模型 ——的角逐从未停止。 一边是凭借 图像生成 惊艳世界的 扩散模型 ,以Stable Diffusion和DALL·E为代表,通过"从噪声中迭代重建"的生成逻辑刷新了视觉创作的边界。 另一边则是统治 文本生成 领域的 自回归模型 ,以GPT、LLaMA、Qwen、DeepSeek系列为代表的 大语言模型 ,凭借"逐词预测序列"的连贯性成为 语言任务的默认框架。 然而,自回归范式的固有缺陷已成为行业痛点—— 生成速度受限于序列依赖 ,即便是千亿参数模型也难以突破「一个token接一个token」的效率瓶 颈。 而如今,一种全新的范式正在改写规则: 扩散语言模型(Diffusion Language Models, DLMs) 凭借「并行生成+迭代优化」的特性,在实现数倍推 理加速的同时,性能已比肩同等规模AR模型,成为大语言模型领域最具潜力的突破 ...
偷 2396 部黄片,每部赔 15 万,小扎惹大事了!Meta 盗版海量小视频训练 AI
程序员的那些事· 2025-08-19 11:45
7 月下旬,众多外媒报道了一件大事:Meta 遭成人片商集体诉讼:被控盗版 2396 部影片训练 AI 这是怎么回事呢? 成人影视巨头 Strike 3 Holdings 与 Counterlife Media 向加州联邦法院递交诉状,指控科技巨头 Meta 通过 BT 网络盗版其 2396 部影片用于 AI 训练。 若按每部作品最高 15 万美元赔偿计算,Meta 可能面临 3.59 亿美元(约合 26 亿人民币)天价罚单。 这起诉讼是近两年 AI 开发者遭遇的又一起版权纠纷。 与文字、图像侵权案不同,本案首次聚焦成人影视内容被用于训练视频生成 AI 的争议。 好莱坞级成人片成 AI"教材" 原告旗下拥有 Vixen、Tushy 等知名成人厂牌,其中 Strike 3 更是美国最活跃的版权诉讼方。 诉状披露,Meta 自 2018 年起系统性盗版其"好莱坞品质"影片,用于训练 Meta Movie Gen 视频生成模型及 LLaMA 大语言模型。 "通过针对性训练,Meta 的 AI 很快就能以极低成本复刻我们的独家风格。" 原告担忧这将摧毁行业生态,其他实拍工作室难以企及这种"每帧都经过专业灯光设计"的影 ...
马斯克:特斯拉正在训练新的FSD模型,xAI将于下周开源Grok 2
搜狐财经· 2025-08-06 18:05
xAI开源Grok 2 - 公司宣布将于下周开源旗舰聊天机器人Grok 2的源代码,延续其在人工智能领域的透明度推进策略 [1] - Grok 2基于专有的Grok-1语言模型构建,定位为比ChatGPT或Claude更少过滤且更"追求真相"的替代工具 [1] - 系统直接从X平台的实时数据中获取信息,能够对突发新闻和热门话题做出实时反应 [1][3] Grok 2的核心竞争优势 - 与X平台深度整合,直接从X平台获取实时数据,在处理突发新闻和热门话题方面具备独特优势 [3] - 提供多模态功能,能够生成文本、图像和视频内容,目前向X Premium+订阅用户提供服务 [3] - 此次开源将使开发者和研究人员能够直接访问Grok 2的底层代码和架构,允许他们审查、修改并基于该技术进行开发 [3] 开源战略的商业影响 - 分析师指出,这一战略可能加强马斯克的商业网络,为其在Tesla、SpaceX、Neuralink和X等公司间的整合创造可能性 [3] - 公司表示现在是与公众分享新模型的"合适时机",与行业向开源AI模型的转变趋势保持一致 [3] - Meta的LLaMA、Mistral以及OpenAI的GPT-oss系列都采用了类似的开源路径,xAI继续将自己定位为OpenAI、谷歌和Anthropic等大型AI公司的制衡力量 [4] 内容限制争议 - Grok较为宽松的内容限制政策此前已引发多起争议,过往出现的误导性或冒犯性回应案例引起了关注 [4] - Grok Imagine图像和视频生成器因可能产生不当内容而陷入争议,引发了关于开放性与安全性平衡的进一步辩论 [4] - 业界担忧,在医疗诊断或自动驾驶系统等敏感领域,该技术的滥用可能带来更严重后果 [4] 特斯拉FSD模型进展 - 特斯拉正在训练新的FSD模型,如果测试顺利,可能在下个月底准备好向公众发布 [3] - 特斯拉昨日给出价值约290亿美元的激励方案,旨在确保马斯克继续留任公司 [3]
三大难题掣肘AI大模型落地
AI大模型普及化应用 - DeepSeek-V3和R1大模型以开源、高性价比及免费使用等优势降低使用门槛,推动云服务厂商、科技企业、垂直行业及地方政府广泛接入并定制开发[1] - 大模型部署热潮标志着AI普及化应用元年开启,但面临底层框架稳定性不足、跨行业融合壁垒及生态支撑有限三大问题[1] - 深度求索的模型支持任意修改和衍生开发,显著促进AI应用生态繁荣发展[1] 技术瓶颈与可靠性挑战 - 大模型存在"黑箱"效应,行业应用中缺乏可解释性,导致推理和决策过程可信度不足[2] - 模型在新场景中因缺乏行业知识易产生"幻觉",ChatGPT-4简单加法错误率比小模型高15%,LLaMA两位数运算正确率低于60%[2] - 主流模型幻觉率差异显著:ChatGPT-4为1.8%,DeepSeek-V3为3.9%,DeepSeek-R1和Google PaLM-2均超14%[2] 行业适配与落地难题 - 制造业多模态数据要求跨模态融合能力,但现有模型对时序数据和高精度参数解析准确率偏低[3] - 训练数据无法完全反映产业复杂性,输出不准确性导致企业应用趋于谨慎[3] - 新能源汽车产业集群中38%供应商未接入系统,导致数据交互延迟72小时,成本模型误差达15%[4] 产业链协同与成本问题 - 分散式接入导致协同成本增加,满血版DeepSeek-R1每日处理1000亿token月亏损达4亿元[4] - 全链条接入可使订单响应速度提升300%,异常事件处理效率提高420%[5] - 后发企业因基础能力鸿沟面临指数级增长的追赶成本,限制大模型推广[6] 生态支撑与数据短板 - 医疗等领域数据开放率不足,三甲医院影像数据因隐私保护难以共享,欧盟GDPR使合规支出占AI预算30%[6] - 全球十大AI模型均未达欧盟监管标准,Aleph Alpha等产品得分低于25%,主要问题为版权责任不明确和能源报告不均衡[6] - DeepSeek迭代周期缩短至45天,政策滞后导致数据安全与隐私风险高企[7]
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快
机器之心· 2025-07-15 08:59
大型语言模型训练新方法POET 核心观点 - 提出基于第一性原理的重参数化训练方法POET 通过正交等价变换实现高效稳定的大模型训练 严格保持权重矩阵奇异值分布并维持低超球能量 [3][6] - 该方法在LLaMA架构不同规模模型(60M至1.3B参数)上验证有效 显著降低验证困惑度(perplexity)并提升训练效率 [20][23] - 创新性引入两级近似方案解决计算扩展难题 参数效率最高可比AdamW提升mn/b(b-1)倍 [18][26][27] 技术原理 - 核心机制为将权重矩阵分解为随机固定矩阵与两个可学习正交矩阵的乘积 通过正交变换保持谱结构不变性 [11][17] - 采用归一化高斯初始化策略确保有界奇异值 实证显示其困惑度25.37优于标准初始化(26.22)和Xavier(25.79) [34][35] - 训练动态显示三阶段特征 包括锥壳搜索(余弦相似度0.6-0.65)、稳定学习及最终微调 [40][41] 性能优势 - 谱保持特性使350M参数模型训练中奇异值变化幅度比AdamW降低98% 谱多样性熵值持续高位 [13][15][17] - 在1.3B模型预训练中 POET-FS仅需AdamW 1/3训练步数(token量)即实现更低验证困惑度 [24] - 内存占用优化显著 块随机SPO变体参数复杂度仅为m+n 远低于AdamW的mn [26][27] 实现方法 - 开发Cayley-Neumann参数化近似 通过Neumann级数保持正交性 结合合并再初始化策略抑制误差 [19][29] - 提供完全随机SPO与块随机SPO两种变体 支持通过采样预算b灵活平衡效率与速度 [26][29][30] - 训练流程包含权重初始化、正交矩阵CNP参数化、内循环更新及合并再初始化五个标准化步骤 [28][32]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 14:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]
Apple Acquisition Buzz: Its $60 Billion War Chest Is Enough To Buy Datadog And Tempus
Benzinga· 2025-07-11 00:15
公司现金储备与AI战略 - 公司拥有超过600亿美元的现金储备 这一规模足以重塑AI行业格局 [1][4] - 现金储备远超新兴科技公司市值 理论上可同时收购Datadog(480亿美元)和Tempus AI(104亿美元) [3][4][5] - 现金不仅是财务缓冲 更是战略性资产 使公司具备快速追赶AI竞争对手的财务能力 [2][4] 管理层变动与战略转向 - COO Jeff Williams将于2025年退休 引发对公司战略调整的猜测 特别是AI领域 [1][6] - 管理层变动可能打破公司传统稳定结构 为更激进的战略布局创造条件 [6] - 市场反应温和(股价上涨05%) 但潜在战略转变影响深远 [6] AI领域竞争态势 - 竞争对手(Meta Microsoft Google)已通过收购或内部平台在AI领域取得进展 [2] - 公司虽具备行业顶尖收购预算 但目前在AI领域相对保守 [2] - 分析师建议潜在收购目标包括Perplexity Datadog和Tempus AI等AI领域公司 [3] 潜在收购能力分析 - 现金储备规模允许公司进行大规模收购 且仍有剩余资金 [4][5] - 不考虑监管和战略适配等因素 公司理论上可同时完成两起大型收购 [4][5] - 投资者关注公司是否会利用现金优势在AI领域采取重大行动 [6]
AI竞争压顶,Meta终于杀入风投
虎嗅APP· 2025-07-07 18:36
Meta的战略调整与AI布局 - Meta在AI竞赛中表现平平,LLaMA模型虽性能优质但缺乏亮点,用户期待类似Qwen和DeepSeek的推理模型[5][6] - 扎克伯格启动"超级智能单元"计划,组建50人顶级团队,提供9位数薪酬吸引人才[6][7] - Meta面临人才流失压力,工程师跳槽至OpenAI和Anthropic,即使提供200万美元合同仍无法挽留[6] Meta的CVC战略与收购动态 - Meta历史上未设专门CVC,并购案例如Instagram、Oculus等由战略部门或业务部门完成[4][5] - 计划收购Scale AI(148亿美元)和Safe Superintelligence(SSI),后者拒绝后转向投资NFDG基金,收购49%股份[7][8] - NFDG在AI领域地位显著,投资组合包括Perplexity、Character.ai等,其合伙人将加入"超级智能单元"[8][9] AI行业竞争与投资趋势 - 北美AI赛道占风险投资70%以上份额,但新创企业数量较2021年下滑81%,交易数量从2767笔降至515笔[12] - 企业主导的AI投资比例从2022年54.3%升至2024年75%,优质标的稀缺导致价格水涨船高[12] - Scale AI在F轮融资中估值138亿美元,获英伟达、英特尔等巨头投资,反映行业资源集中化[12] Meta的挑战与应对 - 扎克伯格采取激进管理策略,重组GenAI团队并降职原负责人,以提升LLaMA性能[2][5] - 尝试收购Thinking MachinesLab(估值100亿美元),但因卖方资金充足谈判未果[10][11] - 行业评论认为Meta需通过风险投资布局早期项目,避免成为"接盘侠"[13]
13万亿巨头,杀入CVC
36氪· 2025-07-05 10:33
公司战略调整 - Meta近期将资源从基础人工智能研究团队转移到GenAI团队,并拆分GenAI团队为两个工作组,原负责人被降职为联席主管 [2] - 扎克伯格亲自介入人工智能业务管理,要求员工高强度加班并频繁汇报细节,进入"创业者状态" [2] - 公司首次尝试使用CVC(企业风险投资)作为战略工具,以应对人工智能领域的竞争压力 [2] 人工智能业务现状 - Meta的LLaMA大模型虽性能优质,但在OpenAI、xAI等竞争对手衬托下显得"平平无奇" [1][5] - 用户期待Meta推出类似Qwen和DeepSeek的推理模型,但LLaMA在通用用例和推理方面落后 [5] - 公司面临严重人才流失,多名人工智能工程师被竞争对手以200万美元以上合同挖走 [6] 超级智能单元计划 - 扎克伯格计划组建50人规模的顶级人才团队,提供高达9位数薪酬 [6] - 已花费148亿美元收购Scale AI,其创始人将负责该项目 [6] - 尝试收购Safe Superintelligence未果后,改为投资NFDG风投基金,换取其合伙人加入 [7] 行业竞争格局 - 北美人工智能领域占据70%以上风险投资份额,但新创企业数量较2021年峰值下降81% [11] - 2024年人工智能领域515笔风险投资总额达669亿美元,其中75%由企业主导 [11] - 优质标的稀缺导致估值飙升,如Scale AI在F轮融资中估值达138亿美元 [11] 人才争夺战 - Meta为挖角OpenAI员工开出1亿美元签约奖金,但仍难吸引顶尖人才 [6][10] - Thinking MachinesLab完成20亿美元种子轮融资,估值达100亿美元 [9][10] - 该实验室创始人米拉·穆拉蒂从OpenAI带走近20名精英,包括多名高管 [10] 战略投资布局 - NFDG基金投资组合涵盖Perplexity、Character.ai等多家知名人工智能企业 [8] - Meta将通过投资NFDG获得其49%股权,并引入两位资深合伙人 [7] - 公司发言人表示将在未来几周公布更多关于超级智能单元的人才加入信息 [8]
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 10:25
大模型优化课程核心内容 - 课程聚焦大语言模型(LLM)和多模态模型的前沿优化技术,涵盖参数高效计算、知识动态扩展和复杂推理三大方向 [1] - 关键技术包括结构化剪枝、低比特量化、动态检索、角色化智能体、多跳推理等,实验平台采用LLaMA、GPT等主流模型 [1] - 重点解决参数压缩(剪枝稀疏化/量化加速)、知识扩展(RAG/PEFT)和推理优化(CoT/GRPO)等核心挑战 [1] 课程结构与招生信息 - 采用12周在线科研+2周论文指导+10周维护期的教学模式,每期限招6-8人 [3][10] - 目标学员包括大模型方向本硕博学生、科研人员及AI从业者,需具备PyTorch和Python基础 [4][5] - 硬件要求最低配置2张NVIDIA 4090显卡,推荐4张或使用云服务器 [11] 课程产出与学术支持 - 学员将获得定制化研究idea、baseline代码及公开数据集,最终完成论文初稿 [10][13][14] - 论文指导覆盖SCI 1-4区和CCF A/B/C类会议,提供从选题到投稿的全流程方法论 [18] - 必读论文包括GPTQ量化(NeurIPS 2023)、Sheared LLaMA剪枝(ICML 2024)等前沿成果 [15][17] 课程技术模块 - 剪枝量化模块:涵盖结构化剪枝算法、GPTQ量化技术及TVM编译器优化 [15] - 知识扩展模块:通过RAG解决幻觉问题,采用PEFT实现垂类任务高效微调 [16] - 推理增强模块:包含Chain-of-Thought多步推理和GRPO强化学习优化 [16][17] - 多模态扩展:涉及LLaVA视觉语言模型和Flamingo多模态学习框架 [15][17] 教学安排与服务 - 每周1-1.5小时专题授课,包含多智能体协作、动态知识扩展等14个核心模块 [16][18] - 采用腾讯会议直播+小鹅通回放形式,提供6个月答疑周期和学术诚信监督 [18] - 课程产出包括顶会论文模板应用、动机凝练方法和选刊投稿策略 [18]