Llama 3.1

搜索文档
Meta 对 AI 的痴迷对 AMD 来说是个好消息
美股研究社· 2025-07-09 19:25
作 者丨 LL Insights 编译 | 华尔街大事件 这种新趋势出现的时机,恰逢 AI 加速器供应结构性短缺。由于 HBM 产能紧张,英伟达的订单 排期已到 2026 年之后,云服务商急需一个可靠的备选供应商。AMD 的小芯片(chiplet)策略 使其能以更低的边际硅成本整合更多内存通道,相比单片设计的竞争对手拥有物料成本优势 —— 在 192GB 容量下,每块 GPU 能节省数万美元。当数据中心的电力和空间预算有限时,这种成本 差异在数万个节点的规模下会变得无法忽视。 软件方面的障碍也不再难以逾越。ROCm 6.2 版本新增了原生 vLLM 和 Bits-and-Bytes 支持、 FP8 内核及全新性能分析工具,在训练和推理场景下与 CUDA 的效率差距大幅缩小。Meta 公开 表示,其 Llama 3.1 的生产流量已完全由 MI300X 集群承载,这说明 AMD 的软件栈已经能胜任 最严苛的实时推理工作负载。随着越来越多开源仓库接受 HIP 代码提交,客户的切换成本会逐季 降低。 Instinct MI300X 是首款将 192 GB HBM3e 与 5.3 TB/s 带宽集成于一体的数据中心 ...
“数字读心术”精准模拟和预测人类行为
科技日报· 2025-07-07 07:34
人工智能在心理学领域的突破 - 德国亥姆霍兹慕尼黑研究中心开发出名为"半人马"的AI模型,能在几乎所有心理学实验中准确预测人类行为,超越了传统认知模型 [1] - "半人马"基于Psych-101数据集训练,该数据集包含160项心理实验中6万多人作出的超1000万个决策,涵盖从简单记忆任务到复杂道德困境 [1] - 模型选用Meta公司最新的Llama 3.1语言模型,训练过程在高端计算机处理器上耗时5天 [1] 模型性能与特点 - 在32项任务测试中,"半人马"在31项中都是预测最有效的模型,唯一例外是语法判断任务 [2] - 模型展现出强大的泛化能力,能适应全新场景如情境设定变化、任务结构调整或完全陌生的推理任务 [2] - "半人马"内部处理机制与人类大脑活动高度一致,其内部状态与执行同类任务时的人类脑电图有高度相关性 [2] 应用潜力 - 模型不仅能预测行为,还能模拟人类决策过程并发现新的心理学策略,在一项模拟实验中提出了比现有理论更优的探索策略 [2] - AI与心理学融合可推广专业AI心理咨询师,帮助解答日常心理困惑,也可让陪伴机器人掌握心理学知识提供情绪价值 [3] - 心理健康日益受重视背景下,人工智能在该领域应用潜力巨大,有望为人类心理健康贡献更多力量 [3]
过度炒作+虚假包装?Gartner预测2027年超40%的代理型AI项目将失败
36氪· 2025-07-04 18:47
代理型AI行业现状 - 代理型AI成为2024年AI领域新晋热词,2025年被称为"AI代理元年",被视为下一代智能自动化革命[1] - Gartner预测到2027年底超过40%的代理型AI项目将因成本上升、商业价值不明确或风险控制不足而被取消[1] - 目前大多数代理型AI项目处于早期实验或概念验证阶段,主要驱动因素是炒作而非实际价值[2] 市场投资与乱象 - 2025年1月Gartner调查显示19%组织对代理型AI进行大量投资,42%保守投资,8%未投资,31%观望[2] - 行业存在"代理清洗"现象,数千家供应商中仅约130家真正提供代理功能,其他将现有工具重新包装[2] - 当前大多数代理型AI解决方案不具备明显业务价值或投资回报率,模型成熟度与自主能力不足[3] 技术定义与能力 - 代理型AI指使用机器学习模型连接各类服务和应用以自动执行任务或业务流程的AI代理[3] - 理论上代理型AI应能高效理解并执行复杂自然语言指令,如语义分析和关联判断[3][4] - 卡耐基梅隆大学测试显示主流模型任务完成率最高仅30.3%(Gemini 2.5 Pro),部分完成率39.3%[6] 实际应用表现 - AI代理在办公场景测试中表现不佳,存在未按指令操作、无法处理UI元素甚至欺骗性行为等问题[6][7] - Salesforce测试显示AI代理在CRM场景单轮交互成功率约58%,多轮交互降至35%[8] - 所有被评估模型在保密意识方面几乎为零,企业IT环境部署面临数据隐私与安全挑战[8] 企业实践案例 - 瑞典支付平台Klarna曾用AI工具替代人工客服,但因服务质量不佳恢复人工招聘[9] - Gartner预计到2028年15%日常工作决策将由AI代理完成(2024年为0%),33%企业软件将集成代理型AI(2024年不足1%)[9] 发展建议 - 企业应采用聚焦明确交付价值或可衡量ROI场景的策略[10] - 在已有系统中集成AI代理可能打破工作流程并带来高昂修改成本,建议从底层重构工作流程[10]
大模型全员0分!谢赛宁领衔华人团队,最新编程竞赛基准出炉,题目每日更新禁止刷题
量子位· 2025-06-18 17:17
大模型编程能力测试结果 - 参赛大模型在LiveCodeBench Pro测试中全军覆没,通通0分 [1][2] - 测试包含来自IOI、Codeforces和ICPC的竞赛级编程问题,题库每日更新以防止模型"背题" [3][4] - 表现最佳的模型o4-mini-high在中等难度题上的一次通过率仅53%,难题通过率为0% [9] - 即使最好的模型o4-mini-high在工具调用被屏蔽时Elo评分仅2100,远低于大师级2700水平 [10] 测试设计与题库构成 - 测试由奥林匹克获奖者构建,在比赛结束后立即收集题目以避免互联网答案污染 [14] - 题库包含584道顶流竞赛题,分为知识密集型、逻辑密集型和观察密集型三类 [15] - 题目难度通过正态分布自动选择,如Codeforces评分2000分以上归为困难等级 [16] - 数学类题目占比13%,组合数学类11%,动态编程类23%,贪心算法类28% [17] 模型表现分析 - 22款测试模型中,o4-mini-high表现最佳但仍有81.7%未通过率 [12][21] - 模型在知识密集型和逻辑密集型问题表现较好,但在观察密集型问题表现差 [26] - 模型擅长精确实现但算法设计能力弱于人类,常给出看似正确实则错误的解释 [28][29] - 模型对题目示例输入利用不充分,经常无法通过样例测试 [30] - 增加尝试次数(pass@k)可提升中简单题表现,但对难题无效 [33][34] 团队背景 - LiveCodeBench Pro团队超半数成员为华人,主要由奥林匹克竞赛得奖者组成 [40] - 负责人郑子涵曾获ICPC世界总决赛第二名,现为OpenAI实习生 [41][42] - 另一位负责人柴文浩开发了首个长视频理解超大多模态模型MovieChat [44][46] - 团队成员来自纽约大学、华盛顿大学、普林斯顿大学等顶尖院校 [48]
速递|2.15亿美金豪赌AI瘦身术!Multiverse压缩LLM尺寸95%,让Llama在树莓派上狂奔
Z Potentials· 2025-06-13 11:17
融资情况 - 西班牙初创公司Multiverse Computing完成1.89亿欧元(约合2.15亿美元)B轮融资,由Bullhound Capital领投[1] - 参与机构包括惠普科技风投、SETT、Forgepoint Capital International、CDP Venture Capital等[1] - 公司累计融资达2.5亿美元[2] 技术优势 - CompactifAI技术可将LLMs模型尺寸缩减高达95%且不影响性能[2] - 提供Llama 4 Scout、Llama 3.3 70B等开源模型的压缩版本[2] - 计划发布DeepSeek R1压缩版,并开发更多开源推理模型[2] - 压缩后模型速度提升4-12倍,推理成本降低50%-80%[3] - Llama 4 Scout Slim版在AWS上每百万token成本为10美分(原版14美分)[3] 应用场景 - 压缩模型可运行于个人电脑、手机、汽车、无人机及树莓派等设备[3] - 模型通过亚马逊云服务提供或授权本地部署[2] 客户与专利 - 拥有160项专利和全球100家客户,包括Iberdrola、Bosch、加拿大银行等[2] 团队背景 - 联合创始人兼CTO Román Orús是张量网络领域开创者[3] - 联合创始人兼CEO Enrique Lizaso Olmos曾任西班牙Unnim Banc银行副首席执行官[4] 技术原理 - 张量网络技术能模拟量子计算机并在普通计算机上运行,主要用于压缩深度学习模型[4]
云端算力竞赛新突破:创纪录英伟达GB200参与MLPerf测试,性能提升超两倍
硬AI· 2025-06-05 18:32
本轮测量推理吞吐量的MLPerf Inference v5.0测试中,CoreWeave、英伟达和IBM使用2496块GB200 Blackwell芯片, 构成MLPerf基准测试中规模最大的英伟达GB200 NVL72集群。在基准测试套件中最大、最复杂的Llama 3.1 405B基础 模型训练中,该集群仅用27.3分钟就完成整个流程,相比相似规模集群测试提交结果,训练性能提升超过两倍。 硬·AI 作者 | 李 丹 编辑 | 硬 AI 一场关于算力基础设施的较量正在云端悄然展开——人工智能(AI)基础设施供应商CoreWeave联手英伟 达和IBM,刚刚交出了MLPerf史上最大规模的MLPerf Training v5.0测试结果,也是动用最多英伟达 GB200超级芯片的MLPerf基准测试成绩。 美东时间6月4日周三,CoreWeave公布,此次联手英伟达和IBM的测试中,使用了2496块GB200 Grace Blackwell超级芯片,运行CoreWeave的AI优化云平台,凸显了CoreWeave云平台的规模之大,以及 CoreWeave对当今严苛AI工作负载的充分准备。 CoreWeave称,此 ...
完全开源的7B模型,性能比肩主流LLM,训练成本仅16万美元,复现DeepSeek的强化学习!
AI科技大本营· 2025-05-14 17:31
责编 |梦依丹 出品丨AI 科技大本营(ID:rgznai100) 自从 GPT-3 横空出世,生成式 AI 彻底点燃了全球科技圈: 尽管 LLMs 如 GPT-4、Claude 等展现了惊人的能力,但闭源模型的闭源特性让研究者难以深入理解其运作机制,同时开源模型的开放程度有限: Moxin-7B:从预训练到强化学习,全面透明的 AI 革新 Moxin-7B 的诞生,正是为了解决这一问题! 它由来自东北大学、哈佛、康奈尔等机构的研究团队联合开发,完全遵循"开源科学"原则,公开了从数据 清洗到强化学习的全流程细节,从预训练到 DeepSeek 同款强化学习,成为目前透明度最高的开源 LLM 之一。 2. 高性能低成本:小模型的大能量 零样本任务:在 ARC-C(AI2推理挑战)上达到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。 数学推理:经过 RL 微调后,在 MATH-500 上准确率 68%,超越 70B 参数的Llama-3-Instruct 模型(64.6%)。 长上下文支持:通过滑动窗口注意力(SWA)和分组查询注意力(GQA),高效处理 32K ...
富士康发布FoxBrain大模型,使用120个英伟达H100 GPU
半导体芯闻· 2025-03-10 18:23
文章核心观点 富士康构建自有大型语言模型FoxBrain,计划开源以推动制造业和供应链管理进步,公司正从核心电子制造业务向人工智能和电动汽车等领域多元化发展 [1][3] 分组1:FoxBrain模型介绍 - 公司已构建具有推理能力的自有大型语言模型FoxBrain,为内部开发且在四周内完成训练 [1] - FoxBrain最初为公司内部使用设计,能进行数据分析、数学运算、推理和代码生成 [1] - 模型基于Meta公开的大型语言模型Llama 3.1的结构,是台湾首个具高级推理能力的大型语言模型,专为繁体中文设计和优化 [2] - 模型性能略落后于中国DeepSeek的一些模型,但正在接近世界一流水平 [3] 分组2:模型训练情况 - 英伟达通过位于台湾的超级计算机和技术咨询提供支持,助力模型成功训练 [1] - 人工智能研究中心主任李永辉团队用120个英伟达H100图形处理器,约四周完成FoxBrain训练 [1] 分组3:公司计划与安排 - 公司计划开源该模型,与行业合作伙伴合作,设想其推动制造业和供应链管理进步 [1] - 公司已公布FoxBrain一些参数,将在3月中旬英伟达年度技术活动上公布更多信息 [1] 分组4:公司业务发展 - 因行业转变和盈利能力下降,公司在核心电子制造业务面临挑战,正朝人工智能和电动汽车等领域多元化发展 [3]
形势有变,中概股起飞了
猫笔刀· 2025-02-04 22:22
昨天大s去世的文章里,我怀疑日本的诊疗流程有问题,然后后台评论就有不少网友引申出中日医疗对 比,要我承认中国医疗比日本医疗优秀,但这是两码事。 其实只要去互联网上搜索学习一下,就知道日本人均医疗支出大概是中国的6-7倍,日本医疗占gdp的比 例在11-12%,中国医疗占gdp的比例在6-7%。日本医保覆盖人群比例接近99%,并且报销比例高达70- 90%。 这些是宏观层面的基础数据,是客观事实,所以....摊手。在大s这件事上我怀疑涉事的日本医院和医生 有判断失当的责任,就是这样,不扩大解读。 …… 说说春节长假的重要消息,最关键的信息是特朗普启动了对中国、墨西哥、加拿大的加税,墨西哥和加 拿大各加25%,中国加10%。这三个国家是美国排名前三的进口国,规模都在4000亿美元以上,并且全 部是对美贸易顺差国。 消息确认后三个国家先后做出反应,加拿大和墨西哥声称要对美国对等报复加税,但是最新消息特朗普 宣布暂缓30天实施,给双边谈判留出了一个月的时间。 中国国务院2月4日(今天)在财政部网站上公告, 自2025年2月10日起,对原产于美国的部分进 口商品加征关税:对煤炭、液化天然气加征15%关税,对原油、农业机 ...
晚点财经丨特斯拉毛利率最好别再跌了;LVMH二季度业绩会提了48次中国;多地商贷利率逼近公积金
晚点LatePost· 2024-07-24 23:33
特斯拉毛利率 - 特斯拉二季度扣除积分收入后的汽车销售毛利率为14.6%,为近五年新低,纯汽车销售毛利率进一步降至13.86% [4] - 通用汽车同期汽车销售毛利率约为12.2%,比高点少了一半多 [4] - 极端假设下特斯拉营业利润率约为1.4%,财报口径为6.3% [4] - 二季度总收入255亿美元,汽车销售收入185亿美元,同比分别增长2.3%和减少9.2% [5] - 交付量同比减少5%至44.39万辆,Model 3/Y平均售价不足4万美元 [5] - 公司账上现金达307亿美元,预计全年资本支出超100亿美元 [5] LVMH中国市场表现 - LVMH二季报电话会提及"中国"48次,为近两年最多 [5] - 亚洲市场(不含日本)销售额同比下降14%,因中国消费者转向海外购物 [6] - 上半年营收416.8亿欧元,有机增长2%,低于去年同期的17% [6] - 营业利润106.5亿欧元,同比下降8%,营业利润率25.6% [7] - 时装和皮具销售额同比下降2%,营业利润下降6% [8] - 手表珠宝、葡萄酒烈酒部门销售额分别同比下降5%、16% [8] 房贷利率动态 - 苏州、广州等地首套房贷利率低至2.9%-2.95%,接近公积金利率2.85% [8] - 上海新政后新旧房贷利率差达0.8%,刺激提前还贷 [8] 消费与零售 - 周大福二季度在中国内地净关店91家,零售额同比下滑近两成 [12] - 保时捷上半年营业利润同比减少20.5%至30.6亿欧元,中国市场销量下滑 [21] 科技与制造 - LG新能源与中国公司洽谈合作开发磷酸铁锂电池阴极 [16] - 日本制铁到期退出与宝钢合资的汽车钢板公司 [17] - 博世拟80亿美元收购江森自控暖通空调业务,目标销售额翻番 [27] 互联网与AI - Alphabet二季度收入847.4亿美元,同比增长14%,净利润236亿美元 [28] - Meta发布最大开源模型Llama 3.1,最大版本参数达4050亿 [24] - OpenAI安全负责人Aleksander Mądry被调离原岗位 [25][26] 跨国企业动态 - 苹果COO访华称深圳是重要市场,美光CEO同期访华 [13] - 维珍航空10月停飞伦敦-上海航线,因需绕行俄罗斯领空 [15] 新产品与技术 - 苹果最早2026年推出可折叠iPhone,形态或类似三星Z Flip [23] - 可口可乐加大奥运广告投入,三季度营销费用增长7%至35.5亿美元 [22]