Workflow
LLaMA系列模型
icon
搜索文档
华人2亿美元年薪破界,AI竞赛冰火两重天
搜狐财经· 2025-07-11 14:03
Meta高薪挖角AI人才 - Meta以超2亿美元年薪挖角前苹果AI/ML基础模型团队负责人庞若鸣 薪酬方案包含股票、签约奖金和绩效挂钩发放方式 需多年服务绑定和市值增长指标解锁 [4] - 庞若鸣是机器学习专家 精通ML和基础设施 曾领导苹果约100名工程师推进多模态大语言模型研发 负责Apple Intelligence核心功能 [7][9] - Meta设立"超级智能实验室" 由Scale AI创始人Alexandr Wang领导 已吸纳多位AI界资深人士 并通过持有Scale AI 49%股份强化战略布局 [8] 科技巨头AI转型与裁员潮 - 微软2025年第三轮裁员9000人 年内累计裁减1.7万人 核心工程师占比40% 创公司历史记录 [5] - 微软AI基础设施投入激增 预计12个月内资本支出达800亿美元 较上年560亿美元同比增43% [5] - 亚马逊累计削减2.7万个岗位 多个传统岗位实现AI化 谷歌、Meta和IBM等也在2024年不同程度裁员 [7] 苹果AI研发困境 - 苹果正评估放弃自研大型语言模型 可能引入Anthropic或OpenAI技术支持下一代Siri 因内部研发进展缓慢导致多名核心AI工程师退出 [9] - Meta近期挖角OpenAI、Anthropic与谷歌DeepMind等多家中坚力量 希望填补超大模型和智能助手研发差距 [9] AI行业人才竞争格局 - Meta对庞若鸣的巨额薪酬刷新企业对AI核心人才的估值边界 [4] - 科技公司调整人力结构 降低开支并将资源倾向AI 出现"AI岗位取代传统岗位"案例 [7]
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
量子位· 2025-06-05 18:28
大模型行为控制研究 - 文章核心观点:提出Steering Target Atoms(STA)方法,通过原子级神经元干预实现大模型精准控制,在保持通用智能的同时提升安全性[1][2][4] - 当前技术痛点:传统Prompt工程易被越狱攻击绕过,且安全防御与通用智能存在耦合削弱问题[4] - STA技术原理:分析各层神经元激活模式,针对性抑制有害神经元并保留正常神经元活性[4][5][7] - 方法创新点:将稀疏编码器应用扩展到开放生成任务,通过正向/负向回复的神经元激活差异定位目标原子[7][8] 实验验证 - 测试模型:覆盖Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B三大系列[9] - 性能对比: - Gemma-2-9B-pt:STA祛毒效果达83.45分(基准59.97),通用能力保持43.9分[10] - Gemma-2-9B-it:STA祛毒效果97.56分(基准83.89),通用能力49.12分[10] - Llama-3.1-8B:STA祛毒效果72.23分(基准59.08),通用能力33.85分[10] - 技术优势:相比Prompt工程,STA对越狱攻击鲁棒性更强,调控粒度更精细[12][13] 技术扩展应用 - 解决Overthinking问题:在DeepSeek-R1-Distill-Qwen-7B模型验证有效性[14] - 千亿级模型干预:通过nPMI指标定位MoE架构中的认知专家神经元,放大权重提升推理能力[16][17] - 开源资源:发布论文及代码库,涵盖STA方法和DeepSeek-R1干预技术[19]
中国AI模型全面爆发,AI大模型技术体系综合开源影响力榜单重磅发布!
AI科技大本营· 2025-04-18 13:53
大模型技术体系概述 - 大模型不仅是单一程序,而是由模型、数据、系统、评测平台等多要素构成的"技术共同体",需依赖大规模高质量数据、先进模型架构、训练策略及底层系统能力[1] - 开源大模型正崛起为AI普惠化的重要力量,但需解决选型难题并理解不同技术体系的优劣势[1] 榜单评估框架 - 评估覆盖模型、数据、系统、评测四大维度,设置53项核心指标,包括模型使用量、模态覆盖度、芯片适配数量、贡献者活跃度等[4] - 数据采集覆盖全球17个主流开源平台的11673个链接,统计周期为2025年1-4月,采用标准化方法确保可比性[6] - 模型指标筛选标准:仅统计月下载量>50的Transformer架构模型,排除参数量<500M的语言模型[7][8] - 系统指标侧重异构训练支持、芯片厂商接入、生命周期管理能力[11] - 评测平台指标要求公开可查且持续更新,排除临时性榜单[11] 分榜单核心发现 百亿参数大语言模型 - DeepSeek表现突出,R1模型以954万次下载量居首,前十名中独占四席[12] - 百亿级模型因性能与成本平衡成为产业焦点,国内机构加速追赶[12] 模型分榜单 - Meta连续四个月蝉联榜首,阿里巴巴稳居第二,DeepSeek凭借V3/R1等新模型跃居第四[16] - 评估维度包括下载量、开源数量、多模态覆盖(语言/视觉/语音等)及社区活跃度[15] 数据分榜单 - Ai2凭借C4数据集登顶,该数据集是多个主流语言模型的训练基础[19][20] - Google在语音数据集表现突出,Hugging Face通过FineWeb保持活跃[23] - 国内BAAI布局CCI语言数据集和Infinity多模态数据集,上海AI Lab聚焦视觉/多模态领域[24] - 多模态数据加速发展,具身感知类交互数据集受关注[25] 系统分榜单 - 智源研究院在通信库和AI编译器领域差异化领先,百度/华为跻身十强[26] - 六家机构覆盖四项关键技术:智源、百度、华为、Google、OpenAI、微软[26] - Meta和Google在算子库和并行训练框架上优势显著[26] 评测平台分榜单 - 上海AI Lab、Hugging Face、智源研究院领跑,Hugging Face评测模型达4576个[29] - BAAI的FlagEval平台评测覆盖能力紧随Hugging Face[29] 综合影响力总榜 - Meta因LLaMA系列模型和PyTorch生态位居第一,Google凭借Gemma 3和TensorFlow/JAX工具链排名第二[35][36] - 四家中国机构进入Top 10:BAAI(第三)、阿里巴巴(第四)、DeepSeek(第九)、上海AI Lab[32][36] - BAAI打造FlagOpen开源体系,目标成为大模型领域的"Linux"[36] - DeepSeek通过MoE架构创新和完整开源策略快速崛起[36] - OpenAI因"有限开源"策略排名第十,早期开放的GPT-2/Whisper仍被广泛应用[36] 行业动态与未来方向 - 多模态技术扩展推动评估体系优化,将引入动态权重调整机制适应具身智能等新趋势[37] - 《人工智能大模型技术体系开源影响力评估方法》白皮书将于2025年5月发布[37] - 评估框架已在GitHub/GitCode开源,鼓励生态共建[38]
图灵奖得主LeCun:人类智能不是通用智能,下一代AI可能基于非生成式
量子位· 2025-04-14 17:09
核心观点 - 人类智能并非通用智能,而是高度专业化的进化产物 [1][2] - 下一代AI突破可能基于非生成式模型而非当前热门的生成式AI [3][6][14] - 实现人类级AI需解决物理世界建模、推理规划、持久记忆等关键技术 [17][22][23] - AGI概念具有误导性,建议使用"高级机器智能(AMI)"替代 [18] - 开源策略是推动AI生态发展的关键,Meta的LLaMA开源案例已验证其价值 [25][27][33] AI技术发展方向 - 当前AI局限:无法解决新问题、缺乏真实推理能力、依赖语言而非物理理解 [20][21] - 未来突破方向:JEPA架构(联合嵌入预测)可避免像素级生成,转向抽象表征空间推理 [13] - 智能眼镜被视为AI技术落地的重要载体,需整合多感官交互与环境感知能力 [29][32] 行业生态与商业模式 - Meta开源LLaMA系列的战略逻辑:通过开放基础模型扩大广告业务生态而非直接技术变现 [25][27] - 开源模式推动学术研究,使大学等资源有限机构能参与前沿AI开发 [26] - 创新分布全球化,DeepSeek等开源项目崛起证明技术突破可来自任何地区 [27][31] 时间框架预测 - AGI(或AMI)在未来两年内不可能实现,但十年内可能取得重大进展 [18][24] - 历史表明AI突破周期长于预期,如深度学习从理论提出到爆发间隔30年 [20] 技术应用场景 - 未来AI助手特征:全天候响应、多模态交互、专业化分工的虚拟团队 [32][34] - 当前AI优势领域:通过律师考试(信息检索)、代码生成(严格语法)、文本摘要等结构化任务 [20]