Workflow
大语言模型(LLM)
icon
搜索文档
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 14:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]
GenAI 的存储解决方案 第 7 部分:解决方案梳理
Counterpoint Research· 2025-03-18 17:14
Rick Cui / 客户服务总监 电话: +86 13801127537 邮箱:rick@counterpointresearch.com 媒体采访 Haylee Xu / 市场专员 电话: +86 15959754429 邮箱:haylee.xu@counterpointresearch.com 对于 GenAI 的解决方案而言,诸如带宽和容量之类的优势固然重要,但功耗、占用面积和价格等成 本因素也需要加以考量。由于存储器是一种依赖于中央处理器(CPU)的被动组件,其配置会根据 处理器而做出改变。在这方面, ARM 近期的战略调整以及基于 MoE 的大语言模型(LLM)可能出 现的变化,都可能会导致未来架构和解决方案发生改变。 数据来源:Source: Counterpoint Research 点击阅读原文下载完整版 PDF 报告 业务咨询 ...
GenAI 的存储解决方案 第 7 部分:解决方案梳理
Counterpoint Research· 2025-03-18 17:14
对于 GenAI 的解决方案而言,诸如带宽和容量之类的优势固然重要,但功耗、占用面积和价格等成 本因素也需要加以考量。由于存储器是一种依赖于中央处理器(CPU)的被动组件,其配置会根据 处理器而做出改变。在这方面, ARM 近期的战略调整以及基于 MoE 的大语言模型(LLM)可能出 现的变化,都可能会导致未来架构和解决方案发生改变。 Haylee Xu / 市场专员 电话: +86 15959754429 邮箱:haylee.xu@counterpointresearch.com 数据来源:Source: Counterpoint Research 点击阅读原文下载完整版 PDF 报告 Rick Cui / 客户服务总监 电话: +86 13801127537 邮箱:rick@counterpointresearch.com 媒体采访 业务咨询 ...
彭博数据洞察 | 透过AI看新闻,投资信号抓得准
彭博Bloomberg· 2025-03-14 11:08
AI驱动的新闻摘要功能 - 彭博旗舰产品"新闻标题与正文"覆盖全球上万个主题领域,遍及所有地区及主流企业,并配有丰富的标签体系,可标注话题、证券代码及人物信息 [3] - 利用大语言模型(LLM)和文本嵌入技术可计算不同新闻标题之间的相似度,有效识别重复信息,同一主题下的新闻报道数量可反映事件的市场影响力 [4] - 通过提示工程可提取关键特征如"WTI原油市场是否受影响"或"事件是否导致石油供应中断",这些特征值可生成市场信号与波动率预测 [6] 供应链数据与生物多样性风险 - 自然相关财务信息披露工作组(TNFD)发布建议帮助企业评估并披露自然资源依赖度、环境影响、风险与机遇,特别强调对上下游价值链的全面评估 [7] - 通过整合供应链数据与生物多样性数据库,可精确定位供应商在高水资源压力区域或生物多样性完整度区域的资产分布 [8] - 明治控股供应商位于高/极高水资源压力区域及生物多样性完整度区域的实体资产占比数据可供分析 [9] 欧洲汽车行业分析 - 欧洲汽车行业销售动能持续衰减,供应商业绩分析显示这一颓势早在市场普遍察觉之前便已现端倪 [12] - 分析覆盖欧洲汽车板块1500+供应商,遍布53个国家,结合标准化财务数据支持多维度关联分析 [12] - 欧洲汽车供应商的需求疲软迹象精准预示了行业拐点,印证财务数据与供应链信息整合对行业趋势预判的价值 [12]
DeepSeek对英伟达长期股价的潜在影响
致富证券· 2025-03-12 14:38
报告行业投资评级 未提及 报告的核心观点 - DeepSeek在训练和推理成本上有显著优势,引发科技股大幅波动,短期内冲击英伟达股价,但长远看随着AI技术普及和商业化加速,英伟达芯片需求可能进一步增长,AI产业将迈向新阶段 [2][3][16] 根据相关目录分别进行总结 DeepSeek引发市场波动 - 1月27日,DeepSeek在中国区和美国区苹果App Store免费榜登顶,美国科技股市场大幅下跌,费城半导体指数下跌9.2%,英伟达股价下跌近17%,市值蒸发近6000亿美元,WTI原油价格盘中一度下跌3% [2] DeepSeek成本优势 - 训练成本方面,DeepSeek使用约2000张H800 GPU训练,V3模型训练成本不超过600万美元,预训练阶段每万亿Token训练用2048个H800 GPU集群,180K个GPU小时(约3.7天)完成,总耗时约2788K GPU小时 [5][6] - 推理成本方面,OpenAI的o1模型每百万输入和输出Token分别收费15美元和60美元,DeepSeek的R1模型相同输入和输出价格仅为OpenAI的3%,DeepSeek推理成本API报价每百万Token输入成本仅1元 [3][7] DeepSeek低成本训练实现方式 - DeepSeek团队创新训练策略,在监督微调环节优化,最初尝试跳过SFT步骤仅用强化学习训练,引入少量冷启动数据提升稳定性和推理能力,R1系列模型摒弃RLHF中的人类反馈部分 [9] - 为解决纯强化学习训练文本中英混杂问题,用数千条链式思考数据微调V3 - Base模型,再启动强化学习流程生成样本数据微调得到R1模型,降低成本同时提升推理和语言生成质量 [10] DeepSeek对AI产业影响 - 对依赖自研大模型构建商业模式的公司影响更显著,如引发Meta内部AI团队担忧,Meta成立小组分析其技术原理并计划用于Llama模型优化 [12] - 美国大型科技企业以保持技术领先为首要目标,虽可能借鉴DeepSeek方法优化成本,但不会作为核心战略,现阶段大语言模型发展需大量算力,未来其他机器学习模型也可能有巨大算力需求 [13] - 英伟达认为DeepSeek成果会增加市场对其芯片需求,依据杰文斯悖论,技术进步降低资源使用成本会使市场对资源总体需求上升 [14] - DeepSeek降低大语言模型开发门槛,促使更多中小型企业和个人训练私有模型,若引发推理需求“第二波”增长,增量需求将远超AI巨头减少的GPU采购量,且商业化后推理环节算力消耗更大 [15]
2025中国AI“奇点”已至?摩根大通:应用井喷在即,DeepSeek点燃算力需求,阿里或成最大赢家
硬AI· 2025-03-10 18:32
中国GAI发展四阶段 - 中国生成式AI(GAI)发展分为四个阶段:LLM开发(第一阶段)、现有应用整合(第二阶段)、互联网服务消费激增(第三阶段)、原生杀手级应用出现(第四阶段)[5][6][7][8] - 2025年被视为中国GAI应用爆发的关键年份,DeepSeek推出V3和R3 LLM是重要催化剂[2][8] - 截至2024年3月7日,中国下载量前三的免费应用均为GAI类应用[8] 阿里巴巴的核心优势 - 阿里巴巴是IAAS价值链关键企业,预计在第二阶段表现超越同行,并可能成为第三阶段应用受益者[1][11][12] - 摩根大通认为阿里云在算力需求井喷背景下将获得营收预期修正[11] 腾讯的差异化定位 - 腾讯云虽占IAAS市场份额,但更被视作AI应用受益者,云业务对市值贡献仅约10%[12] - 腾讯通过GAI融入现有产品提升用户粘性,预计2026年后广告收入增长[12][13] 快手的潜在价值 - 快手被低估,AI技术(如DeepSeek)将提升主应用用户参与度与变现能力[15] - 旗下AI生成器Kling拥有超600万用户(截至2024年12月),与电商、内容制作有深度协同[15] 百度的双重角色 - 百度兼具"卖铲人"(IAAS云)和"淘金者"(GAI应用)属性[16] - 核心广告业务可能通过gen AI增强搜索价值主张,夺回市场份额[16]