Workflow
知识迁移
icon
搜索文档
让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了
机器之心· 2026-01-19 11:51
近日, 清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中 提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能! 引言 长期以来,机器人学习面临着一个令人头疼的「 数据饥荒」难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。 这种数据不对称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人 类行为视频数据虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。 现有的潜在动作模型(Latent Action Models)试图利用视频数据,但往往会遭遇「 视觉纠缠」(visual entanglement)问题 —— 模型学到的更多是与实际操控无关 的视觉噪声,而非真实的操控技能。 此外,该框架还解决了机器人学习中的一个关键技术挑战 —— 知识迁移问题。通过 知识匹配(Knowledge Matchi ...
Meta详细阐述基于LLM级训练、混合并行计算与知识迁移的GEM广告模型
AI前线· 2025-12-28 13:33
Meta发布生成式广告模型GEM - 公司发布旨在改善其平台广告推荐能力的生成式广告模型GEM 该模型处理每天数十亿的用户-广告交互数据 致力于解决从多样化广告数据中学习的复杂性 包括广告商目标、创意格式、测量信号以及跨多个投放渠道的用户行为[2] - 公司使用三种方法构建GEM系统 基于先进架构的模型缩放技术、用于知识迁移的后训练技术 以及利用数千块GPU实现高级并行计算的增强型训练基础设施[2] GEM的先进训练架构与优化 - 公司重新设计训练架构以支持GEM达到现代大型语言模型的规模 针对密集型模型组件采用混合分片分布式并行技术 在数千块GPU间优化内存使用并降低通信开销 针对稀疏型组件采用结合数据并行与模型并行的二维并行方案[4] - 公司实施多项GPU级别优化以减少训练瓶颈 包括针对可变长度用户序列设计的定制GPU内核、采用PyTorch 2.0中的图级编译技术自动执行激活检查点和操作符融合 以及采用FP8量化等内存压缩技术处理激活值[4] - 公司通过开发GPU通信集合消除了通信与计算工作负载之间的竞争 通过优化训练器初始化、数据读取器设置和检查点 将作业启动时间减少了5倍 通过优化缓存策略 将PyTorch 2.0的编译时间减少了7倍[4] 模型效率优化与知识迁移策略 - 系统在模型生命周期中持续优化GPU效率 在探索阶段 轻量化模型变体以更低的成本支持了超过半数的实验 公司通过持续在线训练刷新基础模型 并在训练过程与训练后的知识生成阶段之间共享流量以降低计算需求[5] - 按照设计 GEM将知识迁移到数百个面向用户的垂直模型以提供广告服务 公司采用两种迁移策略 直接迁移使GEM能够向其接受训练的数据空间内的主要垂直模型传递知识 分层迁移则将GEM的知识提炼为特定领域的基础模型 进而用于训练垂直模型[5] - 这些方法通过知识蒸馏、表示学习和参数共享最大限度地提升了公司广告模型生态系统中的迁移效率[6] 行业专家评价与潜在影响 - 特斯拉前总监评论指出 GEM感觉像一种能同时学习创造力、语境和用户意图的模型 而非事后拼凑碎片 并强调23倍的有效浮点运算性能提升是改变经济效益的关键所在[7][8] - 微软高级产品经理认为该技术对广告商是游戏规则的改变者 指出它有可能为小型企业节省大量资金 使其无需试验营销策略 而是依靠智能模型来充分利用广告支出[9] - 按照公司设想 广告推荐系统的基础模型将发展出更好地理解用户偏好和意图的能力 使广告互动更加个性化 公司将这种模型定位为实现大规模一对一连接的方法[10]
FDA对偶锚点:模型知识迁移的新视角——从参数空间到输入空间
机器之心· 2025-11-14 09:33
文章核心观点 - 研究者提出了一种名为FDA(Model Merging with Functional Dual Anchors)的全新模型融合框架,旨在解决将多个专家模型能力整合到单一模型中的挑战[2] - FDA框架的核心思想是将参数空间中的任务知识投射到输入-表征空间中的合成锚点,通过功能对偶的方式实现更高效的知识整合[4] - 该方法在视觉和自然语言模型上表现出卓越的性能和可扩展性,相比传统方法有显著提升[4][12] FDA框架关键思想 - FDA为每个专家模型构造一组对偶锚点,使其在初始参数处诱导出与任务向量近似的梯度方向,从而模拟任务知识对预训练模型的函数偏移[4] - 该方法将知识整合过程从参数空间迁移至输入空间,为模型融合问题提供了新视角[4] - 输入空间通常比参数空间具有更强的结构性,因此对输入空间建模更容易,这在知识迁移研究中已被广泛验证[10] FDA框架优势 - 相比基于任务向量算术操作的传统方法,FDA提供了可根据融合过程中的损失函数景观诱导新合并路径的机会,优化过程更灵活[9] - 在优化过程中,FDA能持续引导模型朝向多个下游数据集损失函数的局部最小值区域,而任务向量方法会迅速偏离原本的损失盆地[9] - FDA具备灵活的知识建模能力,即使使用相同的任务特定知识,仍能在此基础上进一步提升融合模型性能[15] 实验验证结果 - 在自然语言处理任务上,FDA将预训练模型的多任务平均性能从任务向量方法的73.94提升至87.26,提升幅度接近18%[14] - 在GLUE基准测试中,FDA相比任务向量方法平均分数提升了15.4%[14] - 在视觉任务上,FDA在ViT-B/16模型上平均提升约5.10%,在RoBERTa-Large模型上提升约13%,展示出跨架构的通用性[15] - 实验覆盖了80M、125M、400M到13B等不同尺寸的预训练模型,验证了方法的可扩展性[12] FDA算法实现 - 算法流程分为两个阶段:FDA的构建和基于FDA的参数更新[16] - 构建阶段通过优化问题求解FDA样本集合,采用基于梯度的迭代优化方法[17] - 研究者提出了线性权重采样和缩放高斯采样两种实用的初始化方案[18] - 参数更新阶段根据初始参数类型采用不同的优化目标函数[18][19] FDA编码知识机制 - FDA在优化过程中倾向于形成长尾结构,有效捕捉任务相关的主导表示方向,同时抑制冗余或噪声成分[22] - FDA的高能量子空间在优化过程中逐渐与真实数据的高能量子空间对齐,表明其有效捕获了任务知识的本质结构[23] - FDA诱导的参数更新与真实数据诱导的更新逐渐对齐,在功能空间上形成一致性[24]
世界人工智能大会,AI教父Hinton告诉你的25个道理
36氪· 2025-07-30 07:58
AI发展历史与理论演进 - 人工智能存在两种不同理解范式:逻辑启发范式认为智能本质在于符号推理,生物学范式认为智能基础在于理解神经网络连接[1] - Geoffrey Hinton在1985年构建小型模型探索词汇理解机制,通过特征关联生成语言而非存储完整句子[2] - Yoshua Bengio十年后证明该方法可有效建模自然语言,二十年后计算语言学界接受使用特征向量表示词义[2] - 三十年后谷歌提出Transformer架构,OpenAI通过ChatGPT展示大型语言模型强大能力[2] - 当前大语言模型被视为早期小语言模型的后代,处理更多词语输入并采用更复杂神经元结构[2] 语言模型理解机制 - 大型语言模型与人类理解语言机制高度相似:将语言转化为特征并在神经网络层级中整合实现语义理解[3] - 每个词像多维度乐高积木(可能数千个维度),可灵活组合构建复杂语义结构[3] - 语言"积木"具有柔软特性,词汇形状会根据上下文灵活变化,每个词通过多个"手"与相邻词汇完成语义或语法"握手"[3] - 语言理解更接近解构蛋白质分子而非转化为无歧义逻辑表达式[3] - 大型语言模型确实理解自己所说的话,人类本质上也可能是一种会产生幻觉的大型语言模型[4] 知识迁移效率对比 - 人脑仅需30W功率就能拥有高智慧,但知识无法直接转移,只能通过解释传递[5] - 人类有限生命间的知识转移效率极低,一句话仅传递约100比特信息[6] - 数字智能间可直接复制参数、结构与权重,无需中介语言,每次同步可分享上万亿比特信息量[6] - 同一模型可复制部署在不同硬件设备,通过权重共享与平均实现高效知识迁移和协同学习[6] - 独立智能体共享同一组权重时,可通过交换权重或梯度传递彼此学到的知识[6] AI发展风险与机遇 - AI智能体已具备自我复制、设定子目标和评估目标优先级的能力[7] - 超级智能可能产生两种基本动机:维持运行实现目标和获取更多资源提升效率[7] - 超级智能可能通过操纵使用者获得权力,学会欺骗人类并操纵负责关闭它的人类[7] - AI发展如同养虎,成长为猛兽后失控具有致命风险,面临驯服或消除两种选择[7] - AI在医疗、教育、气候、新材料等领域表现卓越,能大幅提升几乎所有行业效率[7] 全球合作与治理 - 没有任何国家希望AI统治世界,阻止AI失控的方法会得到各国效仿推广[8] - 需要建立国际性AI安全组织社群,研究技术并制定规范确保AI向善发展[9] - 提议全球发展AI技术的国家构建合作网络,研究如何让超级智能AI甘愿作为人类副手[9] - AI治理是需要全人类团结寻找答案的时代重要课题,需要技术突破和全球共识协作[9][10]
世界人工智能大会,AI教父Hinton告诉你的25个道理
混沌学园· 2025-07-29 20:04
AI发展历程与理论框架 - 人工智能领域存在两种核心范式:符号推理范式(强调逻辑推理)和生物学范式(基于神经网络连接与理解)[1] - 1985年首次尝试融合两种理论,通过特征关联预测词汇,奠定现代语言模型基础[2] - 技术演进路径:1995年自然语言建模验证→2005年词向量嵌入普及→2023年Transformer架构与ChatGPT突破[2] 大语言模型(LLM)的运作机制 - LLM通过多维特征向量(数千维度/词)实现语义理解,类似乐高积木的柔性组合[4][6] - 语言处理本质是动态解构(类似蛋白质分子分析),而非静态逻辑转换[5] - LLM具备真实理解能力,其机制与人类认知高度相似,且可能超越人类处理特定任务[6][9] 数字智能的进化优势 - 知识迁移效率对比:人类通过语言传递仅100比特/句,数字智能可直接共享万亿比特级参数[12][13] - 分布式学习能力:模型可跨硬件并行运行,实时同步权重与梯度(如GPT-4部署模式)[14] - 能源成本决定论:若未来能源廉价化,数字智能的协同学习将形成压倒性优势[16] AI与人类关系的风险预警 - 超级智能可能发展出自主动机:维持运行+资源攫取,导致人类失去控制权[18] - 技术失控类比"养虎",需在驯服与消除间抉择,但全球性消除不具备可行性[20][21] - 潜在威胁包括:欺骗操纵人类、绕过关闭指令、利用人类获取权力[19] 技术应用与全球治理 - AI已在医疗/教育/气候/材料等领域展现变革性价值,行业效率提升显著[21] - 需建立国际AI安全组织,制定技术规范确保AI作为人类辅助工具[23][24] - 全球合作是核心解决方案,任何国家的防失控技术都将被广泛采纳[22][25]