Workflow
蒸馏
icon
搜索文档
拉 DeepSeek 和通义“组队”斗 OpenAI?小扎首届 AI 大会变“大型商战现场”,和微软 CEO 疯狂互曝!
AI前线· 2025-05-11 13:23
Meta AI战略与产品发布 - Meta推出独立Meta AI聊天机器人应用,基于Llama模型构建,集成图像生成和编辑功能,支持个性化回复,目前在美国和加拿大地区提供 [1] - Meta AI应用支持全双工语音交互,可结合用户在Meta产品上的信息提供更精准服务,并作为Meta View眼镜的配套应用 [3] - 引入"探索动态"板块,用户可选择分享与AI的互动内容,可能放大生成式AI的流行趋势 [3] - 发布Llama API,简化开发者连接云端Llama模型的过程,提供限量免费试用版,承诺不锁定用户模型且不使用用户数据训练 [5] 开源生态与竞争策略 - Meta通过开源Llama模型(下载量达12亿次)推动开源AI生态发展,直接挑战OpenAI等封闭式AI供应商 [6][8] - 公司内部文件显示,Llama 3开发团队以超越GPT-4为目标,但商业模式强调开源而非出售模型访问权 [7] - 扎克伯格将DeepSeek、阿里巴巴Qwen等开源实验室视为盟友,认为开源模型通过组合优势终将超越闭源 [7] - 欧盟AI法案对开源模型的特殊待遇可能是Meta推广开源的潜在动因之一 [6] 技术对话核心观点 - 纳德拉指出当前AI发展呈现"超光速"特征,每6-12个月性能提升约10倍,开源在多模型应用时代具有结构性优势 [13][14][16] - 微软内部30%-40%代码接受AI辅助生成,Python和C适配度高于C++,部分项目完全由AI完成 [22] - 扎克伯格透露Meta正用AI加速Llama研发,预测未来一年半数工作将由AI完成 [22] - 双方探讨"蒸馏工厂"概念,认为从大模型提炼小模型(保留90%-95%能力且体积缩小至1/20)是开源生态关键能力 [32][33] 行业趋势与生产力变革 - 纳德拉类比工业革命,认为AI需在各行业实现生产力突破才能推动GDP显著增长,但需配套组织流程重构 [27][28] - 微软实践显示AI已改变软件开发(GitHub Copilot)、销售准备等场景,突破临界点后将快速普及 [20][21] - 未来工具将重新定义,Word/Excel/PPT等功能界限可能消失,AI实现工作流无缝整合 [25] - 混合专家模型(MoE)与思维链结合被视为下一代AI发展方向,可灵活调节延迟和推理时间 [36]
小鹏关于自己VLA路线的一些QA
理想TOP2· 2025-05-09 22:30
云端大模型蒸馏技术路线 - 公司采用云端72B参数VLA大模型蒸馏到车端小模型的技术路线 相比直接训练车端小模型具有更高上限 [1] - 优势1:规模效应更强 云端大模型数据量更大 参数利用率更高 涌现效应更显著 蒸馏后小模型表现更优 [1] - 优势2:解决多模态困境 大模型能统一处理驾驶员不同决策路径 避免数据量增大导致的模态坍塌问题 [1][2] - 优势3:强化学习效果更佳 云端大模型后训练能力更强 蒸馏结果优于车端小模型直接训练 [2] 车端VLA部署必要性 - VLA必须部署在车端 云端方案存在300毫秒以上延迟风险 地库/高速等场景网络不稳定可能导致严重安全事故 [3] - 云端VLA仅适用于无实时性要求的脱困场景(如L4靠边停车) 允许2-3秒延迟 [3] - 本地VLA体系具备全球化适用性 不受海外网络条件限制 [3] 车端芯片核心价值 - 自研芯片是AI企业模型落地的分水岭 特斯拉/苹果/华为/小米均布局芯片领域 [4] - 公司研发图灵芯片 算力达主流车端芯片3倍 通过芯片-模型联合设计实现协同效果最大化 [4] - 芯片算力提升需配合模型蒸馏/剪枝/量化等软件优化 全栈自研才能实现全链路效能突破 [4] 轻雷达+重算力方案优势 - 去除激光雷达节省20%感知算力 视觉响应速度达激光雷达2倍 端到端延迟减半 [5] - 视觉处理帧率达行业激光雷达方案12倍 城市辅助驾驶安全性显著提升 [5] - 自研芯片算力为行业Pro车型4-5倍 配合720亿参数云端大模型实现系统上限突破 [5] - 800万像素鹰眼视觉摄像头+Lofic技术 在夜间/逆光/雨雪等场景超越人眼识别能力 [5]
美国至5月2日当周EIA蒸馏燃油产量引伸需求数据 492.51万桶/日,前值457.41万桶/日。
快讯· 2025-05-07 22:38
EIA蒸馏燃油产量引伸需求数据 - 美国至5月2日当周EIA蒸馏燃油产量引伸需求数据为492.51万桶/日,较前值457.41万桶/日增加35.1万桶/日 [1]
Meta、微软掌门人最新对谈:AI浪潮带来软件开发革命
虎嗅· 2025-05-07 15:45
AI技术平台革命 - AI被定位为继客户端服务器、互联网与云之后的第四次重大技术平台革命 驱动效率飞跃与成本优化 [3][6] - 平台转型迫使整个技术栈每一层都需重新评估 包括存储系统、工作负载设计等基础设施重构 [6][7] - 多重技术S曲线叠加驱动AI性能每6-12个月提升10倍 成本快速下降 催生多模型协同的复杂应用需求 [8][9] 开源与闭源模型战略 - 市场需要开源与闭源模型并存 企业客户可通过开放权重模型进行IP蒸馏 闭源模型则满足特定场景需求 [11][12] - Azure同时提供顶尖闭源模型(如SQL Server)和开源模型(如PostgreSQL)服务 保持策略灵活性 [12] - 开源模型在蒸馏场景具备结构性优势 可将大模型90%-95%的智能压缩至更小形态 如Llama 3 8B版本 [26][29][30] AI基础设施与工具链 - Azure构建整合计算、存储、网络及AI加速器的IaaS层 并开发Foundry应用服务器封装搜索、安全等通用功能 [13] - GitHub Copilot工具链实现代码补全(30%-40%接受率)、聊天查询、任务分配三级功能演进 提升开发效率 [16] - 未来工程师将带领AI Agent团队工作 Meta预计一年内50%开发由AI完成 微软当前20%-30%代码涉AI生成 [18][19] AI Agent重塑工作流 - AI Agent彻底改变销售场景 CRM系统可实时整合内外部数据 取代传统报告准备流程 [17] - 文档、应用、网站界限模糊 聊天会话可动态生成"页面"或应用程序 打破Office工具传统分割 [22][23] - 模型蒸馏工厂实现大模型到多任务小模型的转换 如Microsoft 365租户可调用专属蒸馏模型 [26][27] 技术演进与行业影响 - 多模态模型Maverick从Behemoth蒸馏而来 体积更小但性能媲美纯文本模型 支持图像处理 [28][29] - AI需结合管理革新才能释放生产力潜力 类比电力革命后50年工厂改造 目标缩短转型周期 [25] - 专家混合模型(MOEs)与思考模型结合是未来方向 需优化延迟与推理效率以适应终端设备 [30][31]
大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升
机器之心· 2025-05-04 12:57
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建:蒸馏与强化学习方法」、「无线通信故障定位与根因分析推 理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业于中国科学技术大学、中国科学院软件研究所等知名高校与科研院所。 近年来,「思维链(Chain of Thought,CoT)」成为大模型推理的显学,但要让小模型也拥有长链推理能力却非易事。 中兴通讯无线研究院「大模型深潜团队」从 「数据静态经验流」 的角度切入,首创 「LLM 自适应题目难度蒸馏」 方法,一举将高质量 CoT 语料的生产效率与效 果同步拉满。 论文标题:Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading 论文链接:https://arxiv.org/pdf/2504.11919 这促使业界对参数量低于 70 亿的小型模型开展持续研究,尤其聚焦在复杂数学解题和代码生成等长链推理场景。值得注意的是,借助 DeepSeek- ...
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
机器之心· 2025-05-02 12:39
推理模型发展现状 - 著名AI技术博主Sebastian Raschka正在撰写新书《Reasoning From Scratch》,聚焦LLM推理机制实现[2] - 当前LLM的成功主要依赖统计模式识别,而新兴推理技术使其能处理逻辑难题、多步骤算术等复杂任务[5] - OpenAI的o1模型和深度求索的DeepSeek-R1标志着推理能力成为行业焦点[41][44] LLM推理的核心定义 - LLM语境中的推理指模型生成中间步骤(思维链CoT)后输出最终答案的能力[8] - 推理过程可能展示中间步骤,但其底层机制与人类认知存在本质差异[12][13] - 推理与模式匹配的根本区别在于:前者需逻辑推导,后者仅复现训练数据中的统计关联[23][25] LLM训练流程 - 传统训练分两阶段:预训练(TB级文本学习语言模式)和后训练(指令微调+偏好微调)[16][17] - 预训练成本极高(数千GPU运行数月/数百万美元),使模型具备翻译、代码生成等涌现能力[17] - 后训练阶段通过SFT提升任务理解能力,通过偏好微调优化输出风格[20] 模式匹配与逻辑推理对比 - 标准LLM(如GPT-4o)通过高频搭配记忆回答问题(如「德国→柏林」),非真实推理[24] - 面对矛盾前提(「所有鸟都会飞但企鹅不会」),普通LLM依赖训练数据中的文字概率而非逻辑检查[28][30] - 大规模训练使模型能模拟推理行为,但遇到全新题型、复杂推导时仍易出错[36][37] 推理能力提升方法 - 推断时间计算增强:通过思维链等技术在推理阶段提升性能,无需修改模型权重[46] - 强化学习:基于数学证明正确性等客观奖励信号动态优化推理策略[47] - 知识蒸馏:将高性能模型的推理模式迁移至轻量化模型,需专用推理任务数据集[48][49] 推理模型的应用权衡 - 推理模型适用于数学证明、编程等复杂任务,但对翻译、问答等简单任务效率低下[56] - 生成更长中间步骤导致计算成本倍增(API计费按token数量)[57] - 行业趋势显示主流厂商正将推理能力整合至通用模型(如OpenAI计划统一GPT与o系列)[54][55] 实践价值 - 从头实现推理模型可深入理解LLM能力边界与计算成本权衡[51][57] - 深度求索开源方案推动行业技术透明化,降低开发门槛[52] - 专用推理模型需与通用模型配合使用,形成任务适配的技术矩阵[56]
美国至4月25日当周EIA蒸馏燃油产量引伸需求数据 457.41万桶/日,前值505.91万桶/日。
快讯· 2025-04-30 22:36
EIA蒸馏燃油产量引伸需求数据 - 美国至4月25日当周EIA蒸馏燃油产量引伸需求数据为457 41万桶/日 [1] - 前值为505 91万桶/日 [1] - 周环比下降48 5万桶/日 [1]
两位大模型从业者群友如何评价小米MiMo大模型?
理想TOP2· 2025-04-30 21:04
大模型性能对比 - Llama-3 8B在BBH基准测试中得分为64 2 显著低于Gemma-2 9B的69 4和Qwen2 5 7B的70 4 而MiMo-7B以75 2领先[1] - 在GPQA-Diamond测试中 Qwen2 5以35 4的准确率表现最佳 超过MiMo-7B的25 8[1] - MiMo-7B在SuperGPQA测试中获得25 1分 略优于Qwen2 5的24 6[1] - 数学能力方面 MiMo-7B在AIME 2024测试中取得32 9的高分 远超Qwen2 5的10 1[1] - 代码能力上 MiMo-7B在LiveCodeBench v5测试中获得32 9分 显著高于Qwen2 5的5 0[1] 中文能力表现 - Qwen2 5在C-Eval中文测试中获得81 8的高分 明显优于MiMo-7B的68 7[1] - CMMLU中文测试中 Qwen2 5以82 7分领先 MiMo-7B得分为70 9[1] - 预训练结果显示Qwen在中文问答方面具有明显优势 而MiMo-7B表现相对较弱[1] 模型训练策略 - MiMo-7B通过预训练偏重数学和代码能力 导致其他能力下降[1] - 强化学习主要提升数学和代码能力 但提升幅度不大 未见显著创新[1] - 7B模型在AIME测试中获得20多分是通过牺牲其他能力实现的技巧性高分 而非结构创新[1] - 小尺寸模型可能采用蒸馏技术训练 效果优于直接训练[4] - MiMo-7B使用"先进推理模型"合成数据进行训练[4] 行业讨论 - 参数规模差异大的模型不适合直接比较 如MindGPT是千亿参数级别[3] - 小参数模型训练更快 可专注特定指标展示实力[3] - 当前行业普遍采用合成数据策略 MindGPT也使用类似方法[7] - 理想汽车计划在2025年5月举办AI Talk第二季活动[9]
新势力 AI 大模型全对比:小鹏野心、理想务实、蔚来追赶
21世纪经济报道· 2025-04-29 20:07
行业技术趋势 - AI大模型技术正快速迭代,OpenAI发布GPT4后,Sora、o1等新模型相继诞生,推动行业技术爆发 [1] - 自动驾驶领域正从高精地图、无图技术转向端到端大模型,并进一步探索世界基座模型、VLA等更优路径 [4] - 多模态大模型成为行业新方向,车企需处理视觉、导航等多模态数据以提升物理世界理解能力 [5][15] - 规模法则(Scaling Law)在自动驾驶领域得到验证,模型参数扩大可显著降低误差 [6][7] 小鹏汽车技术布局 - 研发720亿参数超大规模自动驾驶大模型"小鹏世界基座模型",参数规模为主流车端模型的35倍 [1][5][13] - 采用"云端模型工厂"模式,全链路迭代周期平均5天一次,数据训练量达2000万clips,计划增至2亿clips [2][8][13] - 通过云端蒸馏技术将大模型压缩部署至车端,实现"小身材、大智商"的端侧模型 [12] - 搭建万卡规模算力集群,算力储备10EFLOPS,利用率超90%,数据上传效率提升22倍 [13] - 布局AI汽车、机器人、飞行汽车三大领域,计划2025年实现L3级智能驾驶落地 [13] 理想汽车技术布局 - 车端部署22亿参数MindVLA大模型,采用VLA(视觉-语言-动作)架构提升物理世界交互能力 [2][15] - 运用3D高斯泼溅技术增强3D空间理解,采用MoE架构和稀疏注意力优化车端推理效率 [16] - 引入RLHF(基于人类反馈的强化学习)对齐人类驾驶行为,提升安全底线 [17] - 计划2026年将MindVLA搭载于量产车型,首款纯电SUV理想i8将于2024年7月发布 [17] 蔚来汽车技术布局 - 发布蔚来世界模型NWM,具备全量信息理解、长时序推演和仿真能力,但尚未大规模上车 [4][18] - 通过20万台NT2.0平台车辆构建"群体智能"网络,月均采集500万+接管数据,积累超1000万高价值clips [19] - 端到端AEB功能覆盖场景提升6.7倍,每月避免7万次事故,全球首个应用端到端技术的主动安全车企 [20] 技术路径对比 - 小鹏侧重云端大模型训练+蒸馏部署,理想聚焦车端高效推理,蔚来依赖群体智能数据积累 [2][12][16][19] - 小鹏模型参数规模(720亿)远超理想(22亿)和行业主流(1-5亿) [5][13][15] - 三家公司均需解决3D空间理解、车端算力限制、极端场景应对等核心问题 [15][17] 未来发展目标 - 小鹏计划2025年实现L3级智能驾驶落地,2026年量产飞行汽车和人形机器人 [13] - 理想目标2026年量产搭载MindVLA的车型,强化"人工智能企业"定位 [17] - 蔚来聚焦安全底线,通过群体智能持续优化事故预防能力 [20]
速递|Pruna AI开源模型压缩"工具箱",已完成种子轮融资650万美元
Z Potentials· 2025-03-21 11:22
Pruna AI公司概况 - 欧洲初创公司专注于AI模型压缩算法研究 近期完成650万美元种子轮融资 投资方包括EQT Ventures、Daphni等机构 [2] - 公司开发了标准化AI模型优化框架 整合缓存、蒸馏等多种效率方法 并实现压缩模型的保存/加载标准化流程 [2] - 框架可评估压缩后模型的质量损失与性能提升 类比Hugging Face对transformers的标准化处理方式 [3] 技术方案与行业应用 - 支持多种AI模型类型(LLM/扩散模型/语音识别/CV) 当前重点聚焦图像视频生成领域 客户包括Scenario/PhotoRoom等企业 [4] - 独创压缩代理功能:用户设定速度与准确率阈值(如精度损失≤2%) 系统自动寻找最优压缩组合方案 [5] - 对比行业现状:大公司通常自建压缩技术 开源社区多为单一方法 Pruna的整合方案填补市场空白 [4] 商业化进展 - 采用云服务式计费模式 专业版按小时收费 类比AWS GPU租赁商业模式 [5] - 实证案例:将Llama模型体积缩小8倍且精度损失可控 显著降低客户推理成本 [5] - 企业版提供高级优化代理等增值服务 开源基础框架以扩大生态影响力 [4][5] 行业趋势 - 模型压缩已成行业刚需 OpenAI通过蒸馏技术开发GPT-4 Turbo Black Forest Labs推出Flux.1-schnell等优化版本 [4] - 蒸馏技术通过师生模型知识迁移 实现轻量化模型部署 主流厂商均采用类似方案 [4]