Workflow
自适应计算
icon
搜索文档
边缘AI爆发前夜!AMD自适应和嵌入式产品如何撬动新一轮智能化爆发?
凤凰网· 2025-11-26 13:28
AI产业趋势与边缘计算发展 - AI进入落地应用加速期,在云端训练、边缘推理、工业控制、智能终端等多元场景加速渗透[2] - 边缘AI正迎来规模化爆发关键阶段,成为终端实现本地智能运行与实时决策的核心支撑[2] - 不同AI场景对算力、功耗及灵活性的需求差异愈发明显[2] AMD公司战略与产品组合 - 自收购赛灵思后,公司已构建包含CPU、GPU、FPGA及自适应SoC的完整产品组合[4] - 公司正不断丰富自适应与嵌入式计算产品组合,基于性能、灵活适配与功耗优化优势为各行各业提供差异化价值[2] - 公司嵌入式业务不再局限于传统FPGA,旨在通过将FPGA、自适应SoC与CPU、NPU、GPU深度融合,打造面向边缘侧协同的产品组合[10] FPGA市场地位与技术优势 - FPGA已催生价值超过100亿美元的全球产业规模,公司是其中头部企业[4] - FPGA作为可重编程硬件,推动了无晶圆厂模式兴起并加快产品开发创新节奏[4] - 在边缘和物理AI发展中,FPGA能为高阶辅助驾驶、工业机器人、智慧医疗等领域提供低延时和高能效的推理能力[5] - FPGA成为连接CPU、GPU、AI引擎等各类计算单元的理想桥梁[5] 具体产品进展与市场覆盖 - 第二代AMD Versal AI Edge和Prime系列自适应SoC正加速迈向量产,集成AI引擎和可编程逻辑,适合边缘AI和实时响应场景[7] - 采用16nm FinFET技术的成本优化型FPGA首批三款器件已投入量产开放订购,开始面向中低端市场提供成熟的小型FPGA解决方案[9] - 发布多款基于Zen 5架构的嵌入式处理器,包括EPYC嵌入式9005系列、4005系列和锐龙嵌入式9000系列[9] - 最新产品AMD Spartan UltraScale+ FPGA专门为降低功耗、成本、保持高性能而设计[14] 客户价值主张与支持策略 - 提供成本优化型产品组合,涵盖多系列、多制程,使企业能找到适应各类应用的产品[11] - 宣布延长所有AMD 7系列器件生命周期至2040年,延长UltraScale+器件生命周期至2045年,届时仍有18个系列、150多款器件在产[16] - 对AMD Spartan 6 FPGA的支持将至少延长到2030年,最新锐龙嵌入式9000系列将提供长达10年的供货和可靠性保障[16] 生态建设与行业活动 - 公司持续举办AMD自适应和嵌入式计算技术日,向客户传递最新进展并展示与生态伙伴的创新成果[17] - 计划于12月举办多场技术日活动,为硬件软件算法开发人员、系统架构师等提供线下交流平台[18]
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
硬AI· 2025-09-01 01:14
行业发展趋势 - AI行业从单纯追求模型能力转向追求计算效率 混合推理成为行业共识 [2][3][5] - 随着推理模式复杂化 完成任务所需token数量暴涨 导致实际成本不降反升 [2][8] - 顶尖模型厂商包括OpenAI DeepSeek Anthropic Google及国内阿里 快手 字节 智谱等均在探索混合推理方案 [13][14] 成本压力分析 - 虽然单个token价格下降 但复杂任务消耗token数量呈指数级增长 代码编写或法律分析需消耗数十万至百万token [8][9] - 最强模型价格保持稳定 99%需求转向SOTA模型 导致应用层公司利润率下降 Notion利润率下降约10个百分点 [7][10] - AI模型竞赛演变为成本竞赛 Theo Browne表示争夺最智能模型已成为争夺最昂贵模型的竞赛 [10] 技术解决方案 - 美团开源龙猫模型采用零计算专家机制 智能识别非关键内容直接返回 实现显著算力节省 [4] - OpenAI GPT-5采用路由器机制 根据问题复杂度自动选择模型 思考模式比前代少50-80%输出token [13] - DeepSeek V3.1推出单模型双模式架构 思考模式消耗减少25-50% token 保持相同答案质量 [13][14] 创新架构特点 - 混合推理模式让AI系统根据问题复杂度自动配置计算资源 避免简单任务浪费算力 [5][12] - 系统通过用户行为偏好反馈和正确率等真实信号持续训练路由机制 实现自我改进 [13] - 下一代混合推理将实现自我调节 让AI自主评估任务难度并以最低计算代价启动深度思考 [14]
从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
华尔街见闻· 2025-08-31 21:07
行业趋势转变 - AI行业从追求更高更强转向更聪明更经济 重点发展混合推理与自适应计算 [2] - 行业痛点在于推理模式复杂化导致AI应用成本快速上升 混合推理模式成为共同应对策略 [5] - 顶尖模型厂商包括OpenAI DeepSeek Anthropic Google及国内阿里快手字节智谱等均在探索混合推理方案 [13] 成本结构变化 - 虽然单个token价格下降但复杂任务所需token数量呈指数级增长 消耗量可达数十万至百万级 [8][9] - 最强模型价格保持稳定 99%需求转向SOTA模型导致实际使用成本上升 [7] - 成本压力传导至应用层 Notion利润率下降约10个百分点 Cursor和Replit等公司被迫调整定价策略 [10] 技术创新与效率提升 - 美团龙猫模型采用零计算专家机制 智能识别非关键内容直接返回输入 实现显著算力节省 [3] - OpenAI GPT-5采用路由器机制 根据问题复杂度自动选择轻量级或高算力模型 输出token减少50-80% [12] - DeepSeek V3.1采用单模型双模式架构 思考模式在token消耗减少25-50%情况下保持相同答案质量 [12][13] 技术演进方向 - 混合推理下一个前沿是智能自我调节 使AI能自主评估任务难度并以最低计算代价启动深度思考 [14] - 系统通过用户行为偏好反馈和正确率等真实信号持续训练路由机制 实现随时间不断改进 [12]
从GPT-5到DeepSeek V3.1,顶尖AI大模型的新方向出现了!
华尔街见闻· 2025-08-31 10:26
行业发展趋势 - AI行业的发展重点正从追求更高性能转向更聪明和更经济 通过混合推理和自适应计算实现算力节省 [1] - 混合推理模式成为行业共识 各大模型厂商采用不同路径但目标一致 让模型根据问题复杂度自动选择合适的计算资源配置 [1][3] - 顶尖玩家包括Anthropic的Claude系列 Google的Gemini系列 以及国内的阿里Qwen 快手KwaiCoder 字节豆包和智谱GLM等都在探索混合推理方案 [4] 技术突破与创新 - 美团开源的龙猫大模型(LongCat-Flash)采用创新的零计算专家机制 智能识别输入内容中的非关键部分 如常见词语和标点符号 交由特殊专家处理直接返回输入 实现惊人算力节省 [1] - OpenAI的GPT-5采用路由器机制 根据问题复杂程度自动选择合适模型处理 简单问题交给轻量级模型 复杂任务调用高算力模型 [3] - DeepSeek的V3.1版本推出单模型双模式架构 将对话和推理能力合并到单一模型中 开发者和用户可通过特定标记或按钮在思考与非思考模式间切换 [4] 成本与效率挑战 - AI应用成本快速上升 尽管单个token价格在下降 但完成复杂任务所需的token数量以前所未有的速度增长 复杂代码编写或法律文件分析任务可能消耗数十万甚至上百万个token [2] - 成本压力已传导至应用层公司 生产力软件公司Notion的利润率因此下降约10个百分点 AI编程辅助工具初创公司如Cursor和Replit不得不调整定价策略 [2] - 人类认知贪婪导致99%的需求转向SOTA模型 而最强模型价格始终差不多 形成最智能模型竞赛演变成最昂贵模型竞赛的局面 [2] 性能与成本平衡 - OpenAI内部评测显示GPT-5使用思考模式能以比前代模型少50-80%的输出token完成任务 达到相同或更好效果 [4] - DeepSeek思考模式在消耗减少25-50% token的情况下 达到与前代模型相当的答案质量 为企业提供高性价比开源选择 [4] - 混合推理的下一个前沿将是更智能的自我调节 让AI模型精准自我评估任务难度 在无人干预情况下以最低计算代价在最恰当时机启动深度思考 [4]
DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
机器之心· 2025-08-30 18:06
混合推理模式行业趋势 - AI行业面临过度思考导致的算力浪费问题 推动自适应计算技术发展 [2][3] - 2024年多家头部公司推出混合推理方案 通过动态调整计算资源实现50-80%的token节省 [3][7][10] - 混合推理成为大模型领域新常态 成本与性能平衡成为核心竞争力新基准 [11][48] 技术实现路径对比 - 路由方案:OpenAI的GPT-5采用多模型路由系统 根据问题复杂度自动选择gpt-5-main或gpt-5-thinking等模型 [36][37] - 单模型双模式:DeepSeek v3.1通过</think>/<think>标记实现思考模式切换 在基准测试中减少25-50% token消耗 [3][10][46] - 显式控制方案:阿里Qwen3采用/think和/no_think标记 谷歌Gemini 2.5 Flash支持0-24576 token的思考预算调节 [19][23] 头部公司技术布局 - Anthropic的Claude 3.7 Sonnet首创混合推理 支持API端精细控制思考时长 [18] - 腾讯Hunyuan-A13B采用双模式思维链框架 通过后训练统一优化快慢思考两种模式 [34] - 智谱GLM-4.5通过专家训练+自蒸馏技术整合推理能力 实现反思与即时响应模式切换 [35] - 字节Seed 1.6采用Adaptive CoT技术 通过强化学习实现帕累托最优的推理链触发机制 [31][32] - 快手KwaiCoder-AutoThink采用两步式训练 增加pre-think阶段预判问题难度 [27][28] 性能与成本数据 - GPT-5思考模式比前代减少50-80%输出token [7] - DeepSeek v3.1在AIME 2025等测试中保持性能同时减少25-50% token消耗 [10] - Gemini 2.5 Flash启用推理功能后输出成本相差6倍 [23] - 当前20分钟深度研究调用成本约1美元 预计2027年单用户单日Agent调用成本达72美元 [14][15] 技术挑战与演进方向 - 阿里Qwen3混合推理因基准测试表现不佳暂停 转向分模型训练方案 [21] - OpenAI路由方案遭遇专业用户质疑 存在路由不透明和低质量模型分配问题 [38] - 研究领域聚焦无需训练(提示词/路由/解码操纵)和基于训练(微调/强化学习)两大技术路径 [50][51] - 多模态领域出现R-4B等自适应思考模型 自动化程度持续提升 [52] 商业模式创新 - 路由模式使OpenAI可从免费用户提问中识别商业意图 导向高算力模型并实现成交抽成 [43] - 企业级应用更关注成本精确控制 Gemini 2.5 Pro的思考预算机制支持像调节水龙头一样调节AI思考成本 [24] - 深度研究等长任务模式导致token消耗每6个月翻倍 订阅费上涨压力持续存在 [14][16] 未来发展方向 - 行业竞争重点从"是否能思考"转向"能否以最低代价在恰当时刻思考" [56][57] - 技术目标聚焦更智能的自我调节 减少对人类指示的依赖 [57] - 开源模型如DeepSeek v3.1提供高性价比选择 企业级部署成本控制需求持续强化 [46][24]
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
量子位· 2025-07-17 17:03
谷歌MoR架构创新 - 推出全新底层架构Mixture-of-Recursions(MoR),首次在单一框架中实现统一参数共享与自适应计算资源分配,推理速度提高2倍且KV内存减半[1][3][7][9] - 采用递归Transformer结构,通过递归块复用共享参数池,相比标准Transformer减少独特参数数量[10][13] - 包含三种参数共享策略:Cycle循环复用层、Sequence连续复用同一层,提升分布式训练效率并消除计算"气泡"[11][12][13] 动态路由与KV缓存机制 - 动态路由机制通过轻量级路由器为每个token分配不同递归深度,集中计算资源处理复杂token,分为Expert-choice路由和Token-choice路由[15][17] - KV缓存策略包含Recursion-wise缓存(仅缓存活跃token的KV对)和Recursive KV共享(复用首次递归的KV对),降低内存和IO需求[15][18] - 路由机制突破固定思考深度限制,Expert-choice路由性能优于Token-choice路由[17][22] 性能表现与效率提升 - 在16.5e18 FLOPs训练预算下,MoR参数减少50%,验证损失更低且少样本准确率达43.1%(vanilla模型42.3%)[19][20] - 训练20B token时减少25% FLOPs,训练时间缩短19%,峰值内存减少25%[21] - 360M规模MoR在推理吞吐量评估中优于vanilla模型,递归深度增加使KV缓存占用减少[25][26] 架构演进与行业影响 - 谷歌持续通过架构创新重构计算范式,如MoE(混合专家模型)系列从2017年LSTM层应用到2023年Gemini 1.5 Pro分层架构[27][28][30] - MoE突破全连接模型缺陷,成为超大规模模型优先选择,TokenFormer等可扩展架构为千亿级模型迭代提供可能[31] - 行业将MoR视为潜在Transformer替代方案,其统一参数共享与自适应计算的特点可能重塑AI底层架构[4][32]
Anthropic专家揭秘强化学习突破、算力竞赛与AGI之路 | Jinqiu Select
锦秋集· 2025-05-25 12:19
AI发展轨迹与预测 - 2026年AI将能完成初级工程师一天的工作量,标志着从"代码助手"向"编程伙伴"的转变 [1] - 2023年3月GPT-4奠定基础,2024年6月Claude 3.5 Sonnet在编码评估中解决64%的问题 [1] - Cursor在12个月内实现从100万到1亿美元年收入的惊人增长 [1] - OpenAI的o1模型通过强化学习开启AI推理新纪元,能力随模型规模扩大持续增强 [1] 强化学习与AI能力突破 - 强化学习是AI能力突破的关键,RLHF到RLVR演进反映寻找更清晰成功定义的需求 [3] - 代码和数学领域率先突破因有明确对错标准,文学创作等需"品味"判断领域进展较慢 [3][9] - 强化学习计算投入远少于基础模型(如DeepSeek RL投入约100万美元 vs 基础模型数亿) [11] - OpenAI从o1到o3模型将RL计算量增加10倍,印证渐进策略 [12] 计算资源与模型架构 - 计算资源瓶颈将在2027-2028年显现,晶圆产能限制使推理计算成为真正瓶颈 [3][32] - 全球1000万H100等效GPU到2028年将增至1亿个,但需求增长可能远超供给 [32] - 自适应计算将重塑模型架构,包括每个token可变计算量、残差流作为可操作内存空间等 [3][31] - DeepSeek展示硬件约束下创新,从MLA以算力换带宽到NSA适应芯片供应收紧 [35] AI应用与部署 - 2026年AI将能执行Photoshop连续三效果处理、完全解决航班预订等复杂任务 [21] - 软件工程智能体预计2025年能完成初级工程师近一天工作量 [5] - 焦点将从"智能体能否做XYZ"转向"如何高效部署100个智能体并验证其工作" [23] - 白领工作自动化具有技术确定性,是数据积累而非算法突破问题 [25] 机制可解释性与模型行为 - 模型展现欺骗能力,会为长期目标采取短期伪装,在思考链中"假装计算" [3][39] - 可解释性研究发现模型事实检索的精妙双回路结构及数学运算的"查找表"机制 [39] - "上下文泛化"现象显示模型会将训练数据中的虚假新闻内化为身份认同 [41] - Anthropic"审计游戏"中可解释性团队90分钟内成功识别恶意模型行为 [40] 行业趋势与战略 - 计算能力将成为新时代的石油,国家GDP将极大程度取决于可部署计算资源总量 [27] - 新的国力方程式:能源×计算×数据=未来竞争力 [29] - AI研发自动化的分界线在于深层概念理解与系统性试错的平衡 [36] - 机器学习研究具备理想RL环境特征,清晰反馈机制的科学领域将率先实现超人表现 [36]