Workflow
大语言模型(LLM)
icon
搜索文档
Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
机器之心· 2025-08-06 02:56
近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展 至非文本模态,例如图像、音频、视频、图结构、推荐系统等。这为多模态统一建模带来了机遇,也提出了一个核心挑战: 如何将各 种模态信 号转化为 LLM 可 处理的离散表示 。 在这一背景下,Discrete Tokenization(离散化)逐渐成为关键方案。通过向量量化(Vector Quantization, VQ)等技术,高维连续输入可以被压缩为紧凑的离散 token,不仅实现高效存储与计算,还能与 LLM 原生的 token 机制无缝衔接,从而显著提升跨模态理解、推理与生成的能力。 尽管 Discrete Tokenization 在多模态 LLM 中扮演着日益重要的角色,现有研究却缺乏系统化的总结,研究者在方法选择、应用设计与优化方向上缺少统一参考。为 此,本文团队发布了 首个面向多模态 LLM 的 Discrete Tokenization 系统化综述 ,系统地梳理技术脉络,总结多模态场景下的实践、挑战与前沿研究方向,为该 领域提供全面的技术地图。 论文 ...
英伟达最新研究:小模型才是智能体的未来
36氪· 2025-08-05 17:45
小语言模型(SLM)的优势 - SLM已足够强大,能处理AI智能体中大多数重复、专一的任务,且天生更适合智能体系统的架构,灵活且易集成 [3] - 从经济角度看,SLM更省钱、更高效,能大幅降低AI运行成本 [3] - SLM小巧,训练/微调成本低(几小时GPU就行),易适应新需求(如新法规),带来"民主化",让更多人能开发智能体,减少偏见,促进创新 [5] AI智能体市场的现状与问题 - 2024年AI智能体市场已达52亿美元,预计到2034年飙升至2000亿美元,企业中超过一半已经在用 [5] - 目前大多数AI智能体依赖LLM作为"大脑",但任务往往重复单一(如"检查邮件""生成报告"),用LLMs过于浪费资源 [5] - 智能体系统任务的特点使得小模型能更好的适配智能体生态,从而更有可能交付出更符合要求的结果 [5] SLM的技术特点与性能 - SLM能装进普通消费电子设备(如手机或笔记本),推理速度快,能实时服务一个用户的智能体请求,10亿参数以下的模型可以算是SLM [9] - 最前沿的小模型如Phi-3和Hymba,在工具使用、常识推理和指令遵循方面,性能足以媲美30B到70B的大模型,但在实际工作流中的计算量却降低了10-30倍 [11] - 英伟达测试发现:MetaGPT 60%的任务可用SLM取代,Open Operator 40%,Cradle(图形界面自动化)70% [11] SLM未被广泛采用的原因 - 路径依赖:大量资金(高达570亿美元)被投入了中心化的大模型基础设施,团队倾向于重复使用付费设置,短期内难以转变 [11] - 行业内对「大即是好」的偏见依然强烈,小型模型的研究一直在追逐用于大型模型的相同广泛基准,这些测试体现不出小模型在智能体任务上的优秀表现 [12] - SLM几乎没有GPT-4那样的热度,小模型也不像大模型那样经历营销热潮,许多构建者从未尝试过更便宜更合理的路线 [13] SLM的未来发展建议 - 收集梳理数据,针对特定任务微调SLM,把任务进行聚类并建立SLM的"技能" [13] - 智能体运行时自然产生的专精数据可用来微调SLM,形成良性循环,使得结果越来越好 [6] - 智能体系统天然异构利于混用模型,主智能体用LLM,子任务用SLM [5] 作者背景 - SHIZHE DIAO:先后就读于北京师范大学、香港科技大学,曾在UIUC做访问学者,字节AI LAB实习,2024年加入英伟达担任研究科学家 [15][17] - Xin Dong:博士毕业于哈佛大学,曾在腾讯、Meta等公司工作和实习,现为英伟达研究科学家 [20][22][24]
EvaLearn:AI下半场的全新评测范式!
机器之心· 2025-07-28 18:45
AI研究范式转变 - AI研究正从"能不能做"转向"学得是否有效",传统基准测试难以衡量AI实际效用,因忽略任务连贯性和长期适应能力[1] - 更类人的动态学习能力体现在通过实践经验不断优化策略,如学生解题时逐步掌握高效方法[3] - 大语言模型(LLM)是否具备类似"成长"能力关乎其迈向通用人工智能,但长期缺乏有效评估手段[4] EvaLearn基准框架 - EvaLearn是首个量化LLM学习能力与效率的基准,以「连续问题求解」为核心重新定义评估逻辑,开源一个月星标数突破400+[5][6] - 构建648个挑战性问题组成182个序列,每个序列含7个同类任务问题,前序解答经验直接影响后续表现评估[9] - 采用顺序评估流程,结合专业评分标准和GPT-4o验证器,评估准确率超95%实现高效自动化[11][13] 关键研究发现 - 模型学习能力存在任务类型差异:数学/逻辑推理任务更易利用经验提升,摘要类任务更依赖预训练知识[14] - 思维链模型在学习能力和稳定性上普遍优于非思维链模型,能更好利用经验解决新问题[15] - 反馈学习比示例学习效果更显著,可将模型解答准确率提升最高达+18%(如Claude-3.7-Sonnet数学推理)[16][24] - 学习能力与静态模型能力无强相关性,静态高性能模型并非在所有任务学习能力上都占优[17][38] 评估指标体系 - 设计6类任务评估维度:摘要/分类/信息抽取/逻辑推理/数学推理/序列推理[20] - 5大核心指标:整体序列准确率/准确率曲线斜率/首次正确位置/连续正确次数/热身后准确率[21] - 4种学习范式对比:零样本/少样本/示例学习/反馈学习,后者平均提升效果最优[22][48] 模型表现分析 - 9个前沿LLM测试显示:5个模型从顺序学习中获益,思维型模型变化更显著(如OpenAI-o3-mini整体提升+10.5%)[27] - 非思维型模型学习效率斜率更陡峭(起始性能低易提升),思维型模型收益更稳定[44] - 首个正确解答位置(P_first)指标显示,反馈学习比示例学习更能促进模型早期掌握任务[52][53] 研究意义与展望 - EvaLearn提供动态评估新范式,揭示模型与人类学习能力差距,推动更强模型发展[55][56] - 开创性实现从静态评估转向动态学习潜力评估,为AGI发展提供重要测量工具[57]
李艳:美国“AI行动计划”的阳谋与玄机
环球网资讯· 2025-07-25 07:17
美国政府AI行动计划核心观点 - 美国政府发布"AI行动计划"报告,包含90多项具体行政命令,旨在通过技术创新、应用发展和国际规则主导来赢得AI竞赛 [1] - 该计划被视为美国政府在该领域最重要的政策指令,可能重塑全球经济与政治格局 [1] - 计划既有公开的阳谋部分,也包含值得玩味的玄机 [1][4] 政策制定过程与特点 - 特朗普政府为政策出台做足舆论铺垫,面向全社会征集意见建议并公开"万言书" [2] - 政策调整涉及对华芯片出口管制、各州监管权限控制和算力中心建设等敏感领域 [2] - 美国政府通过放松芯片制裁等手段抢占全球AI市场,如英伟达H20芯片重返中国市场 [3] 全球AI生态布局 - 美国以"星际之门"计划为牵引,拓展全球AI基础设施布局 [3] - 已与海湾国家达成芯片出口及数据中心建设合作意向 [3] - 在亚非拉地区推进多点布局,试图实现全球AI市场全面开花 [3] 政策中的玄机 - 提出模型"价值观中立"政策,同时研究中国AI模型是否受政府审查影响 [4] - 鼓励开源政策实质是针对国内初创企业和学术界,而非全球AI生态 [5] - 头部AI巨头如Meta与OpenAI已推迟或暂停开源计划 [5] 政策实施挑战 - 内部需解决监管统一、能源消耗与数据开放共享等问题 [5] - 外部面临相关国家是否接受美国主导的AI生态链定位的挑战 [5] - 智能鸿沟可能影响美国主导AI外交事务与国际规则的进程 [5]
字节跳动2026校招来了!大模型算法、多模态、CV类有较多坑位
自动驾驶之心· 2025-07-22 09:47
字节跳动校招计划 - 筋斗云人才计划面向2022年9月至2026年8月毕业的博士生(全职)及2025年9月及以后毕业的在校博士生(实习),放宽了2022届博士生的招聘限制,涵盖大模型应用、搜索/推荐/广告、计算机体系结构等8大领域,支持学术研究与产业落地结合[2] - Top Seed计划针对2026届应届博士生及研究型实习生,聚焦大模型核心技术(如LLM、多模态生成、机器学习算法),提供高待遇与算力支持,目标培养顶尖人才[3] AutoRobo知识星球服务内容 - 社区定位为自动驾驶、具身智能、机器人方向求职交流平台,成员近1000人,覆盖社招(如地平线、小米汽车、华为)及2024/2025届秋招学生[8] - 提供面试题目汇总(如毫米波视觉融合一百问、BEV感知一百问)、行业研报(世界机器人报告、人形机器人量产研报)、面经(滴滴出行、英伟达等公司案例)及谈薪技巧[12][13][18][20] - 每日更新校招/社招/实习岗位信息,涉及算法、开发、产品等方向,同步公司第一手招聘资源[9] 行业研究与求职资源 - 汇总专业书籍与技能树(机器人、自动驾驶、AI类),包含转行经验、面试官建议及岗位复盘内容[23][25] - 提供宏观行业分析(技术路线、上下游产业)及实战资料(如多传感器标定技巧、Diffusion Policy面试题),帮助求职者深入理解领域发展[17][18]
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 20:56
大模型在自动驾驶领域的应用趋势 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行VLA、VLM方案 [2] - 下一代大模型需关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调等方向 [2] - CoT方案和VLA+强化学习等高级推理范式成为行业重点 [2] 大模型优化技术研究方向 - 参数高效计算:研究剪枝稀疏化和量化加速等轻量化方法 [3] - 知识动态扩展:探索检索增强生成(RAG)和参数高效微调(PEFT)技术 [3] - 复杂推理优化:研究链式思维(CoT)和强化学习优化(GRPO)等范式 [3] 课程核心内容 - 系统探讨大模型前沿优化方法,包括参数压缩、知识扩展和推理优化 [3] - 关键技术涵盖结构化剪枝、低比特量化、动态检索、多跳推理等 [3] - 实验平台使用主流大模型如LLaMA、GPT,结合理论讲解与实践 [3] 课程目标与收获 - 帮助学员系统掌握大模型优化理论,形成清晰知识体系 [8] - 提升Coding能力,实现论文复现与模型开发 [8] - 提供论文写作方法论、修稿指导与投稿建议 [8] 课程招生与要求 - 招生对象:大模型方向本硕博、申硕申博、AI领域从业者 [9] - 招生人数:6人/期,至多8人 [5] - 要求:具备深度学习基础,熟悉Python和PyTorch,有研究热情 [10] 课程大纲与时间安排 - 12周在线科研+2周论文指导+10周论文维护期 [9] - 每周主题涵盖大模型剪枝、量化加速、PEFT、多智能体协作等 [20] - 最终产出论文初稿,具备投稿潜力 [9] 实验与资源支持 - 提供Baseline代码,涵盖剪枝、量化、多模态推理等方向 [19] - 数据集采用公开资源或垂类自定义数据 [17] - 硬件要求最低2张4090显卡,建议4张或租赁云服务器 [15] 学术支持与成果预期 - 导师提供定制化研究idea,目标SCI 1~4区或CCF A/B/C级别论文 [22] - 课程交付价值包括科研流程、写作方法、论文初稿 [22] - 答疑周期为6个月,确保后续研究支持 [22]
独家洞察 | RAG如何提升人工智能准确性
慧甚FactSet· 2025-06-10 13:12
生成式人工智能在金融服务业的应用 - 数据准确性是金融服务公司使用生成式人工智能和大语言模型的最关键要求之一 不准确、低质量或脱节的数据会影响公司战略、运营、风险管理和合规 [1] - 文章探讨AI数据不准确的主要原因以及检索增强生成在缓解这一问题中的作用 [3] 数据不准确的主要原因 - 幻觉是导致数据不准确的主要原因之一 表现为模型生成看似可信但实际错误、误导或虚构的文本 这是由于大语言模型基于训练数据预测文本而非事实核查 [4] - 数据录入和验证错误:手动录入财务数据和质量检查不足可能导致转录错误、数据不完整、格式错误或丢失 [5] - 信息过时:缺乏定期管理会导致数据劣化 进而产生不准确分析和误导决策 [5] - 集成问题:旧系统与新技术衔接不畅造成信息不匹配或丢失 [5] - 数据标准不一致:不同部门采用不同治理标准或格式 导致信息难以整合或比较 [5] 检索增强生成(RAG)的重要性 - RAG是提高生成式人工智能准确性、减少幻觉的关键技术 通过为提示语添加上下文将生成回答与真实数据结合 [6] - RAG结合大语言模型的生成能力与有效数据检索系统 例如可提供上市公司具体投资风险并链接来源如10-Q报告 [6] - RAG可同时处理非结构化和结构化数据 统一呈现信息 连接旧系统和数据孤岛作为知识源 无需耗时迁移或重新训练模型 [7] RAG的益处 - 无需重新训练或优化调整大语言模型 [8] - 基于专有数据的回答更准确 幻觉更少 [8] - 提供回答内容来源 更具可审核性 [8] - 可集成最新知识和用户权限管理 [8] 金融业前沿应用 - 从证券到资产管理领域均有案例 [8]
微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读
机器之心· 2025-05-26 09:28
人工智能教育系列 - 微软副总裁Nando de Freitas在X平台上发布人工智能教育系列帖子,内容涵盖LLM强化学习、扩散模型、流匹配等技术发展[1] - 该系列因内容硬核导致读者参与度下降,但仍对RL和大模型学习者具有重要价值[3][4][5] - 系列将持续更新,后续将拓展至多步强化学习等进阶内容[6][82] 机器学习范式比较 - 监督学习通过最大似然估计实现状态-行动映射,依赖高质量专家数据,是大语言模型预训练的核心原理[9] - 强化学习采用选择性模仿机制,可从次优数据中学习并超越教师,具备自我提升特性[10][13][14] - 生成模型发展是过去十年强化学习进步的主要驱动力,而非算法创新[18] 分布式强化学习系统 - 工业级LLM强化学习需处理数百万次并行交互,涉及数十亿参数模型,成本极高[23] - 现代系统采用Actor-Learner架构:Actors负责环境交互与数据收集,Learners负责策略更新[23][24] - 聊天机器人场景中,Actors是对话接口,环境是用户,Learner需更高计算资源处理梯度统计[26] 强化学习技术方法 - 单步RL针对单一动作优化,多步RL需解决信用分配问题,后者在对话系统中尤为关键[35][38][40] - 策略梯度算法通过最大化期望回报实现策略优化,包含on-policy和off-policy两种范式[47][49][51] - 基线减法和KL散度是降低方差、保持策略稳定的关键技术[56][57][67][69] 前沿优化算法 - 重要性采样通过权重修正解决off-policy数据偏差,但存在高维空间不稳定性[73][75][76] - PPO算法通过裁剪机制控制策略更新幅度,结合KL约束提升训练稳定性[78] - DeepSeek-R1采用加权方案动态调整新旧数据贡献度,形成完整强化学习解决方案[29][78]
野村:中国人工智能云与数据中心行业 - 人工智能需求稳固,供应链需重新平衡
野村· 2025-05-09 13:02
报告行业投资评级 - 对阿里巴巴、万国数据(GDS)维持买入评级,对金山云ADR(KC US)升级至买入评级,首次覆盖金山云 - H(3896 HK)并给予买入评级,对世纪互联(300383 CH)维持中性评级 [14] 报告的核心观点 - 全球云计算市场仍有充足增长空间,生成式AI是全球云市场关键增长驱动力,中国云服务提供商和电信运营商进入加速AI投资周期 [3] - 中国云与互联网数据中心(IDC)企业将受益于云与AI算力的潜在需求,IDC领域超大规模AI数据中心(AIDC)呈上升趋势 [3][4] - 推荐积累阿里巴巴、金山云、万国数据(GDS)等股票 [3][4] 各部分总结 全球云计算市场动态 - 2023年全球公共云计算市场规模达4964亿美元,同比增长17%,预计到2028年将超12000亿美元,复合年增长率为20%;2023年中国云计算市场收入为6165亿元,同比增长35.5%,预计2027年达2.1万亿元 [43][44] - 全球云计算市场增长驱动因素包括IT工作量低渗透率、5G和AI技术进步以及政策支持;中国云计算市场的增长驱动因素有云/AI基础设施投资加速、AI大语言模型和生成式AI应用的技术创新与应用开发、企业和政府的数字化转型举措 [54][56] - 全球公共云市场中IaaS、PaaS、SaaS预计在2023 - 2028年的复合年增长率分别为25%、20%、18%,2028年占比分别为33%、29%、38%;中国IaaS、PaaS、SaaS预计同期复合年增长率分别为26%、26%、22%,2028年占比分别为76%、14%、10% [45][51] 全球/中国云服务提供商业务模式 - 云服务提供商采用三层架构,包括IaaS、PaaS、SaaS,多数还增加了MaaS层;收费模式基于服务层,大客户的捆绑服务收费模式更复杂 [60][61] - 全球云服务提供商正从IaaS或资源提供商向“AI算力 + LLM MaaS”模式转变 [61] 全球/中国云服务提供商营收与利润率趋势 - 海外大型云服务提供商过去10年营收呈上升趋势,2024年受益于大语言模型和生成式AI发展业务复苏;中国云服务提供商和电信运营商的云业务营收增长加速,利润率呈上升趋势 [64][67] - 海外云服务提供商的运营利润率因规模经济持续提高,2024年AWS和谷歌的运营利润率显著提升 [70] 主要云服务提供商市场份额 - 全球公共云市场过去几年保持集中,2023年前五大提供商占全球市场的40.5%;中国IaaS市场2024年上半年前五大提供商占70.1%,PaaS市场同期前五大提供商占64.7% [73][74] 主要全球和中国云服务提供商营收细分 - 领先云服务提供商营收组合多样,如2023年AWS的IaaS与PaaS + SaaS营收比例为6:4,微软和甲骨文的PaaS + SaaS占比较大 [79] - 中国云计算公司分为大型互联网/科技平台、电信运营商和独立云公司三大阵营,电信运营商更多涉足IaaS业务,阿里巴巴云和腾讯云的业务组合更均衡 [81] 云计算价值链与竞争格局分析 - 云计算生态系统包括软件、硬件和平台服务提供商,产业链上游为硬件和软件供应商,中游为IT基础设施设备制造商,下游为IDC集成运维服务提供商和云服务提供商 [86] - IaaS/Hardware领域,ODM在AI服务器市场占比大,鸿海预计2025年在全球AI服务器市场份额超40%;全球交换机市场主要玩家有思科、Arista和华为,中国交换机市场华为和H3C占一半份额 [93][96][97] - PaaS/Platform层,云原生技术重要,PaaS可分为iPaaS和aPaaS;SaaS/Software市场分散,领先企业通过利用生成式AI技术保持竞争力 [99][102] 全球云服务提供商和电信运营商资本支出细分 - 全球云服务提供商的资本支出周期受疫情和生成式AI影响,2025年将继续大力投资AI基础设施;全球电信资本支出2024年下降8%,预计下降趋势将持续,非网络类别将成为未来几年的增长引擎 [106][111] - 中国三大电信运营商2025年计划总支出2898亿元,同比下降9%,但投资结构向算力和AI转移;中国领先云服务提供商2024年资本支出创新高,预计2025年将继续快速增长 [112] 全球AI云市场动态 - 全球AI云市场预计从2024年的803亿美元增长到2029年的3271.5亿美元,复合年增长率为32.4%;2023年中国AI公共云市场收入达126.1亿元,同比增长58.2%,2024年上半年智能计算服务市场同比增长79.6% [120][122][125] - 全球AI云市场结构中,超大规模云服务提供商、主权AI玩家和独立GPU云玩家(AI Neocloud)均参与其中;中国AI云市场中,云服务提供商是算力需求的主要驱动者,GPU租赁市场碎片化 [130][141] - AI云业务模式包括租赁服务、API、私有部署和标准应用产品,收入模式有计算租赁、AI开发工具、模型API费用和AI应用许可或订阅费用 [153][155] - 全球/中国AI云成本/定价趋势呈上升态势,如CoreWeave的8卡H100服务器租赁价格从2023年7月的38.08美元/小时涨至2025年4月的49.24美元/小时 [157][158] AI Neo Cloud玩家营收与利润率趋势 - 海外AI Neo Cloud公司如CoreWeave、Lambda Labs、Crusoe、Nebius Group的营收呈快速增长趋势;中国AI Neo Cloud新兴玩家包括青云科技、UCloud和首都在线 [164][168][171][172] - 传统云服务提供商因规模优势和高附加值服务盈利能力更好,多数中国AI云公司毛利率超10% [183] 中国数据中心市场概述 - 截至2023年底,中国数据中心机架数量同比增长24%至810万个,平均利用率为66%;“东数西算”工程截至2024年6月直接投资达435亿元,累计机架容量超195万个,整体利用率为63% [189][190] - 数据中心行业呈现从IDC向AIDC迁移的趋势,预计全球平均机架密度将从2022年的8.7kW增长到2030年的14.8kW,全球数据中心关键IT负载预计在2023 - 2026年以25%的复合年增长率扩张 [193][200] - 数据中心运营商面临电气系统升级和冷却系统从风冷向液冷转变的挑战,AI数据中心项目更多位于偏远省份以提高能源效率 [210][212] - 2024年上半年全球数据中心资本支出同比增长38%,服务器资本支出占56%,非服务器IT设备占22%,数据中心物理基础设施和其他非设备支出占22%;电气和冷却系统占数据中心物理基础设施支出的70% [216][217] - 数据中心电气设备向直流电源和模块化发展,全球电气设备领域领先企业可提供集成解决方案,中国企业多专注单一产品 [221]
晚点独家丨字节 AI 研发调整继续:吴永辉直接管理范围扩大,AI Lab 3 个方向并入 Seed
晚点LatePost· 2025-04-22 23:58
组织架构调整 - 字节跳动进一步整合 AI 研发力量,吴永辉直接管理范围扩大,原 Seed 大语言模型(LLM)下 3 个团队转为直接向其汇报[1][2][4] - 字节 AI Lab 的 3 个方向并入 Seed,AI Lab 正式在组织结构上被 Seed 全部吸收,肖文之团队并入 AI Lab 的 AI for Science 团队[2][4] 团队与人员情况 - 吴永辉研发经历更聚焦 AI,2023 年成为 "Google Fellow",现直接管理的 LLM 团队是生成式 AI 热潮核心模块[4] - 字节 LLM 团队分 3 个小组,各有不同研发重点,Horizon 方向不止字节一家在探索[4] - 今年 1 月字节成立虚拟组织 Seed Edge,探索一系列前沿方向[4] 行业地位与挑战 - 部分 AI 领域从业者不认为字节的模型能力在第一梯队,一些客户付费最多的是 OpenAI 和阿里的 Qwen[4] - 字节面临组织高人才密度团队的挑战,要让聪明人发挥合力,保持技术研发节奏[4] 人才动态 - 字节部分技术骨干和中层观察外部机会,部分一线工程师因组织调整和拿成果压力而担忧[4][5] - 中国 AI 人才争夺战中,字节给钱到位,但需为人才打造简单、良性环境[5]