Workflow
Llama系列模型
icon
搜索文档
精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”
量子位· 2025-06-05 18:28
大模型行为控制研究 - 文章核心观点:提出Steering Target Atoms(STA)方法,通过原子级神经元干预实现大模型精准控制,在保持通用智能的同时提升安全性[1][2][4] - 当前技术痛点:传统Prompt工程易被越狱攻击绕过,且安全防御与通用智能存在耦合削弱问题[4] - STA技术原理:分析各层神经元激活模式,针对性抑制有害神经元并保留正常神经元活性[4][5][7] - 方法创新点:将稀疏编码器应用扩展到开放生成任务,通过正向/负向回复的神经元激活差异定位目标原子[7][8] 实验验证 - 测试模型:覆盖Gemma-2-9B-pt、Gemma-2-9B-it和Llama-3.1-8B三大系列[9] - 性能对比: - Gemma-2-9B-pt:STA祛毒效果达83.45分(基准59.97),通用能力保持43.9分[10] - Gemma-2-9B-it:STA祛毒效果97.56分(基准83.89),通用能力49.12分[10] - Llama-3.1-8B:STA祛毒效果72.23分(基准59.08),通用能力33.85分[10] - 技术优势:相比Prompt工程,STA对越狱攻击鲁棒性更强,调控粒度更精细[12][13] 技术扩展应用 - 解决Overthinking问题:在DeepSeek-R1-Distill-Qwen-7B模型验证有效性[14] - 千亿级模型干预:通过nPMI指标定位MoE架构中的认知专家神经元,放大权重提升推理能力[16][17] - 开源资源:发布论文及代码库,涵盖STA方法和DeepSeek-R1干预技术[19]
互联网女皇玛丽·米克尔刚发布了一份340页的《人工智能趋势报告》,这里总结了10个核心观点
搜狐财经· 2025-06-02 19:20
AI发展趋势报告核心观点 - AI发展速度远超历史任何技术浪潮 ChatGPT仅用三年实现90%用户来自北美以外 而互联网达到同样里程碑耗时23年 [5] - ChatGPT年搜索查询量达3650亿次仅用两年 谷歌达到同等水平耗时11年 [5] - 全球55亿网民基础 三十年数字数据积累 计算能力提升共同推动AI爆发 [8] AI行业三大增长维度 - 美国ChatGPT用户比例从2023年7月18%跃升至2025年1月37% [9] - ChatGPT App日均使用时长21个月内激增202% [9] - 美国数据中心建设年化价值过去两年年均增长49% [12] AI成本结构演变 - 顶尖AI模型训练成本八年增长2400倍 预计2025年达10亿美元 2027年或达100亿美元 [12] - AI推理成本两年内下降99.7% 因NVIDIA Blackwell GPU能耗比2014年降低10.5万倍 [15] - OpenAI 2024年收入37亿美元 计算支出达50亿美元 呈现显著亏损 [16] AI行业竞争格局 - 主要AI公司年收入总和超110亿美元 融资总额达950亿美元 OpenAI估值EV/NTM达23倍 远超行业6.9倍中位数 [16] - 多模态模型发布量两年增1150% 语言模型增420% 仅2025年5月一周内巨头密集发布新品 [18] - Meta Llama模型下载量8个月增3.4倍达12亿次 Hugging Face托管模型数量两年增长33倍至116万个 [18] 中国AI发展态势 - 中国在"大规模"AI系统发布数量上已与美国持平 DeepSeek R1模型数学测试达93分接近OpenAI 95分 [21] - 中国工业机器人保有量超全球其他国家总和 民众对AI乐观度达83% 显著高于美国39% [21] - 中国科技公司DeepSeek移动应用4个月获5400万月活 本土市场主导地位稳固 [28] AI物理世界应用 - 特斯拉FSD累计里程33个月增长100倍达35亿英里 Waymo旧金山市场份额20个月内从0升至27% [22] - Applied Intuition服务全球18家顶级汽车OEM 业务扩展至卡车和国防领域 [25] - AI激光除草机器人处理23万英亩农田 智能项圈管理牲畜签约量年增150% [25] AI商业模式挑战 - 开源模型性能快速逼近闭源模型 对商业模型构成冲击 [18] - 推理成本急剧下降缩小产品差异化空间 增加商业模式可持续性压力 [15] - 高研发投入与快速迭代导致现金消耗率高 估值与基本面脱节 [16] 全球科技力量变迁 - 全球市值Top30公司中美国占比从1995年53%升至2025年83% 科技榜单中从53%升至70% [36] - 台积电占据全球先进半导体制造80-90%市场份额 成地缘竞争关键节点 [36] - AI领先地位被视为国家核心利益 中美竞争被比作新"太空竞赛" [32] AI应用普及趋势 - ChatGPT移动应用23个月获5.3亿月活 主要用户来自印度(14%) 美国(9%) 印尼(6%) [28] - Starlink用户三年年均增长202%超500万 为AI普及提供基础设施支持 [28] - AI或成下个十亿网民主要入口 通过母语对话界面降低使用门槛 [25]
Meta、微软掌门人最新对谈:AI浪潮带来软件开发革命
虎嗅· 2025-05-07 15:45
AI技术平台革命 - AI被定位为继客户端服务器、互联网与云之后的第四次重大技术平台革命 驱动效率飞跃与成本优化 [3][6] - 平台转型迫使整个技术栈每一层都需重新评估 包括存储系统、工作负载设计等基础设施重构 [6][7] - 多重技术S曲线叠加驱动AI性能每6-12个月提升10倍 成本快速下降 催生多模型协同的复杂应用需求 [8][9] 开源与闭源模型战略 - 市场需要开源与闭源模型并存 企业客户可通过开放权重模型进行IP蒸馏 闭源模型则满足特定场景需求 [11][12] - Azure同时提供顶尖闭源模型(如SQL Server)和开源模型(如PostgreSQL)服务 保持策略灵活性 [12] - 开源模型在蒸馏场景具备结构性优势 可将大模型90%-95%的智能压缩至更小形态 如Llama 3 8B版本 [26][29][30] AI基础设施与工具链 - Azure构建整合计算、存储、网络及AI加速器的IaaS层 并开发Foundry应用服务器封装搜索、安全等通用功能 [13] - GitHub Copilot工具链实现代码补全(30%-40%接受率)、聊天查询、任务分配三级功能演进 提升开发效率 [16] - 未来工程师将带领AI Agent团队工作 Meta预计一年内50%开发由AI完成 微软当前20%-30%代码涉AI生成 [18][19] AI Agent重塑工作流 - AI Agent彻底改变销售场景 CRM系统可实时整合内外部数据 取代传统报告准备流程 [17] - 文档、应用、网站界限模糊 聊天会话可动态生成"页面"或应用程序 打破Office工具传统分割 [22][23] - 模型蒸馏工厂实现大模型到多任务小模型的转换 如Microsoft 365租户可调用专属蒸馏模型 [26][27] 技术演进与行业影响 - 多模态模型Maverick从Behemoth蒸馏而来 体积更小但性能媲美纯文本模型 支持图像处理 [28][29] - AI需结合管理革新才能释放生产力潜力 类比电力革命后50年工厂改造 目标缩短转型周期 [25] - 专家混合模型(MOEs)与思考模型结合是未来方向 需优化延迟与推理效率以适应终端设备 [30][31]
中国AI模型全面爆发,AI大模型技术体系综合开源影响力榜单重磅发布!
AI科技大本营· 2025-04-18 13:53
一提到"大模型",很多人的第一反应往往是那个既能聊天,又会写代码、画画的"模型本身"。但其 实,大模型远不止是一个"能输出结果的程序"这么简单,其背后有一整套复杂而庞大的技术体系作为 支撑:从大规模、高质量、多样化的数据,到先进的模型架构与训练策略,再到推理部署、资源调度 等支撑落地的系统能力,以及不可或缺的科学评测机制。大模型更像是一个由模型、数据、系统、评 测平台 等多要素构成的"技术共同体",而非单一模块的堆叠。 如今在闭源技术壁垒与高昂商用门槛的对比下,开源大模型正迅速崛起,成为推动 AI 技术普惠化的 重要力量。但面对层出不穷的开源 AI 模型技术,我们该如何选型?不同的模型技术体系又各有怎样 的优势与短板? 在这一背景下,为系统呈现全球大模型生态的开源发展现状,CSDN 联合多家机构于 4 月 18 日在 2025 全球机器学习技术大会(ML-Summit 2025)现场重磅发布《AI 大模型技术体系综合开源影响 力榜单》,全面评估全球范围内开源大模型技术体系的贡献与影响力,旨在为行业提供参考坐标,推 动开源创新持续前行。 注:这里大模型是指 主要包括 decoder-only 以来的模型结构,包 ...
图灵奖得主LeCun:人类智能不是通用智能,下一代AI可能基于非生成式
量子位· 2025-04-14 17:09
核心观点 - 人类智能并非通用智能,而是高度专业化的进化产物 [1][2] - 下一代AI突破可能基于非生成式模型而非当前热门的生成式AI [3][6][14] - 实现人类级AI需解决物理世界建模、推理规划、持久记忆等关键技术 [17][22][23] - AGI概念具有误导性,建议使用"高级机器智能(AMI)"替代 [18] - 开源策略是推动AI生态发展的关键,Meta的LLaMA开源案例已验证其价值 [25][27][33] AI技术发展方向 - 当前AI局限:无法解决新问题、缺乏真实推理能力、依赖语言而非物理理解 [20][21] - 未来突破方向:JEPA架构(联合嵌入预测)可避免像素级生成,转向抽象表征空间推理 [13] - 智能眼镜被视为AI技术落地的重要载体,需整合多感官交互与环境感知能力 [29][32] 行业生态与商业模式 - Meta开源LLaMA系列的战略逻辑:通过开放基础模型扩大广告业务生态而非直接技术变现 [25][27] - 开源模式推动学术研究,使大学等资源有限机构能参与前沿AI开发 [26] - 创新分布全球化,DeepSeek等开源项目崛起证明技术突破可来自任何地区 [27][31] 时间框架预测 - AGI(或AMI)在未来两年内不可能实现,但十年内可能取得重大进展 [18][24] - 历史表明AI突破周期长于预期,如深度学习从理论提出到爆发间隔30年 [20] 技术应用场景 - 未来AI助手特征:全天候响应、多模态交互、专业化分工的虚拟团队 [32][34] - 当前AI优势领域:通过律师考试(信息检索)、代码生成(严格语法)、文本摘要等结构化任务 [20]
速递|筹集400亿美元后,OpenAI宣布开源模型回归计划,推理能力模型即将面世
Z Potentials· 2025-04-01 11:49
开源模型发布计划 - 公司即将在未来数月推出自GPT-2以来首个具备推理能力的开源模型 [1][3] - 新开放模型能力类似于o3-mini 将根据准备框架评估后再发布 [2][3] - 计划举办全球开发者活动收集反馈 首场活动在旧金山举行随后扩展至欧洲和亚太 [4] 融资与基础设施投入 - 公司以3000亿美元估值完成400亿美元融资 为历史上最大私人融资之一 [1] - 180亿美元资金将用于Stargate项目 建设美国人工智能数据中心网络 [1] 开源战略调整 - CEO表示需调整开源策略 未来将推出更好模型但领先优势可能减弱 [5] - 面临开源竞争对手压力 如DeepSeek采用开放模型发布方式 [5] - 技术战略负责人透露今年将发布可自主部署的模型架构 [7] 行业竞争态势 - 开源生态崛起 Meta的Llama系列模型下载量突破10亿次 [6] - DeepSeek通过开源战略快速扩张全球用户版图 [6]