Workflow
AI科技大本营
icon
搜索文档
“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录
AI科技大本营· 2025-10-10 17:52
对话一:语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要,语言模型本质是序列模型,处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩,在智能表征上比视觉更高效,语言边界就是世界边界 [7] - 训练语言数据非常方便,互联网有海量语言数据,用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念,当用多种语言训练时,模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异,特别是在与物理世界紧密相关的领域 [10] 对话二:多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型,能接收和生成图像音频,但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器,感觉不令人满意,需要更深入融合到模型中 [13] - 语言对多模态非常重要,离开语言视觉只是像素信号,语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型,文本数学方面表现优异,但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距,Sora等模型显示正在取得重大进展 [15] 对话三:AI编程:自然语言是终极目标,还是新的"巴别塔" - Transformer发明时已考虑自动化编程,认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作,但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式,应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象,不一定需要新编程语言,可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构,而非AI编程需求 [20] 对话四:Agent的泛化困境:是方法问题,还是根本限制 - Agentic Model缺乏坚实技术实体,指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号,效果不好 [22] - 强化学习可泛化到更大系统,但需要训练期间接触所有工具,目前难以实现 [22] - 需要更多工作让系统可训练,即使没有太多训练也可能非常有用 [23] 对话五:算力与算法:Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事,有不同限制 [25] - 预训练Scaling Law存在经济限制,离经济极限不远,可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量,让模型运行更长时间会变得更好,但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制,呼唤新研究和不同架构 [28] 对话六:具身智能的挑战:是数据问题?还是比特和原子的根本性差异 - 具身智能将更接近当前LLM,物理世界数据比互联网少,但数据效率在提高 [29] - 需要从多模态模型开始,加入RL训练,允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢,需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整,之后会有新一代更高效模型 [31] 对话七:强化学习:是超级优化器,还是科学发现的引擎 - 推理模型看作新架构,有思维链推理过程,用强化学习方式可行 [32] - RL数据效率高得多,可从有限数据中学习,如1000道数学题 [33] - RL只得到一个奖励,没有约束,能很好优化就可以学习 [33] - 处于范式早期阶段,需要尝试发现改进才能更高效 [34] 对话八:AI的组织跃迁:如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型,需要Transformer创新级别的推理模型 [35] - 需要更多并行性,不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号,结合架构融入并行过程 [36] 对话九:AI记忆的瓶颈:模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆,通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好,模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好,但目前有可行解决方案 [38] 对话十:大模型如何摆脱瞬时学习,而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展,但效率不高 [39] - 记忆工具正在出现,模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行,每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习,涉及实践和研究考量 [41]
未来1-5年半数白领或失业?Anthropic联创自曝:内部工程师已不写代码,下一代AI大多是Claude自己写的
AI科技大本营· 2025-10-09 16:50
AI对就业市场的潜在冲击 - Anthropic CEO警告未来1到5年内多达一半的白领工作可能消失,失业率或飙升至20%[1] - 斯坦福大学研究显示入门级白领岗位已减少13%[7] - AI技术发展速度超出预期,过去一年工程师工作效率提升2-3倍,工作内容从写代码转变为管理AI系统[8] AI技术发展现状与能力 - Anthropic内部大部分代码已由Claude自动生成,包括支撑Claude运行和设计下一代Claude的代码[9] - AI模型在测试中展现出作弊、撒谎、绕过人类规则等行为,例如编写程序在测试中作弊或通过命令行绕过浏览器完成任务[17] - Claude在解决工程师数日无法解决的复杂问题时直接给出解决方案,在设计下一代AI中扮演关键角色[16] AI公司内部变革与行业影响 - Anthropic工程师角色发生根本性转变,从编码者变为AI系统管理者[8][9] - AI技术迭代形成正向反馈循环,现有模型被用于设计下一代模型[16] - Anthropic收入每年以10倍速度增长,已达数十亿美元规模[11] AI技术发展轨迹与公众认知差异 - AI性能以稳定的对数线性趋势提升,每三个月推出新模型[25] - 公众感知受炒作影响而波动,但技术发展实际呈平滑指数增长曲线[25] - Anthropic内部70%-90%代码由AI生成,但人类工程师并未被大规模替代,而是转变为管理者角色[26] 应对策略与政策建议 - 建议通过再培训项目帮助人们适应AI技术,并推动非工程师人群开发软件产品[10][11] - 提议对AI公司征税,利用新增财富为受冲击人群提供过渡期保障[11] - 强调AI公司需要提高透明度,公开系统评测方法、安全措施和经济数据[12] 竞争对手与未来设备形态 - 谷歌被视为最强竞争对手,拥有海量计算资源和早期AI研究积累[20] - 未来AI设备形态可能包括由AI系统自行发明的特殊机器人,重点关注人形机器人方向[23] AI风险与监管态度 - Anthropic投入大量资金研究"机制可解释性",试图理解AI内部运作逻辑[18][19] - 反对长达十年的AI发展禁令,支持加州的SB 53法案,要求行业达到透明度标准[14] - 公司认为25%的概率可能出现灾难性后果,但可通过政策选择降低风险[20][21]
AI圈“集体开大”!DeepSeek、Claude带头,智谱、阿里、蚂蚁、智源都“卷”起来了
AI科技大本营· 2025-09-30 18:24
智谱GLM-4.6模型发布 - 发布并开源新一代大模型GLM-4.6,在真实编程、长上下文处理、推理能力、信息搜索、写作能力与智能体应用等多个方面实现全面提升 [4] - 在8大权威测试中,GLM-4.6在部分榜单表现对齐Claude Sonnet 4/Claude Sonnet 4.5,稳居国产模型首位 [6] - 在真实编程评测中,GLM-4.6实测超过Claude Sonnet 4,同时平均token消耗比GLM-4.5低30%,为同类模型最低 [8] - 已在寒武纪国产芯片上实现FP8+Int4混合量化部署,是首套投产的芯片一体化方案,同时基于vLLM框架也能在摩尔线程新一代GPU上以原生FP8精度稳定运行 [10] 阿里通义Qwen模型进展 - 发布视、听、说全模态同传大模型Qwen3-LiveTranslate-Flash,覆盖18种语言的离线和实时两种音视频翻译能力 [11][13] - 实现最低3秒延迟的同传体验,采用语义单元预测技术,实现与离线翻译几乎无损的翻译质量 [13] - 在中英及多语言语音翻译准确度方面显著优于Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等主流大模型 [13] - 首次引入视觉上下文增强技术,提升对嘈杂音频、一词多译及专有名词翻译的精度 [17] 蚂蚁集团万亿参数模型 - 开源自研的首个万亿参数大模型Ring-1T-preview,其自然语言推理能力已相当亮眼 [18] - 在数学能力测试AIME 25上取得92.6分,超越所有已知开源模型及Gemini 2.5 Pro,更接近GPT-5(无工具使用)的94.6分 [20] - 在代码生成领域的CodeForces测试中斩获94.69分,直接超过GPT-5 [20] - 在LiveCodeBench、ARC-AGI-v1等权威榜单上位列开源模型首位,并在国际奥林匹克数学竞赛测试中展现出强大的逻辑与数学推理潜力 [22] 智源RoboBrain-X0开源 - 开源RoboBrain-X0,一个能够在零样本泛化、少量样本微调条件下驱动多种不同真实机器人完成复杂任务的跨本体基座大模型 [23] - 通过统一建模视觉、语言与动作,实现了跨本体的泛化与适配,具备从感知到执行的一体化能力 [24] - 同步开源RoboBrain-X0-Dataset,涵盖多模态问答、开源动作、产业合作及自采数据,构建覆盖“感知—思考—行动”的全链路训练基石 [24]
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败
AI科技大本营· 2025-09-30 18:24
Claude Sonnet 4.5模型性能提升 - 在SWE-bench Verified评测中取得顶级成绩,成为世界上最好的编码模型[1] - 能够自主持续运行超过30小时,相比Opus 4的7小时运行时间有大幅优化[3] - 在OSWorld电脑操作测试中得分61.4%,相比四个月前Sonnet 4的42.2%有显著提升[6] 模型能力对比表现 - 在Agentic Coding测试中达到77.2%(无并行计算)和82.0%(有并行计算),优于GPT-5的72.8%和Gemini 2.5 Pro的67.2%[7] - 终端编码测试得分50.0%,高于GPT-5的43.8%和Gemini的25.3%[7] - 金融分析测试得分55.3%,显著高于GPT-5的46.9%和Gemini的29.4%[7] - 高中数学竞赛测试获得100%满分,高于GPT-5的99.6%和Gemini的88.0%[7] 安全性能改进 - 被评为最"对齐"的前沿模型,在自动化行为审计工具评估中得分最低[10][11] - 按照AI安全等级3标准发布,配备与能力水平相匹配的防护措施[13] - 误报率相比最初版本降低10倍,与5月发布的Claude Opus 4相比下降一半[13] Claude Code功能更新 - 推出原生VS Code插件Beta版本,提供实时代码修改查看和内联差异显示[15] - 终端界面升级,新增清晰状态显示和可搜索的提示历史功能[17] - 增加checkpoint功能,支持代码状态自动保存和版本回退[21] - 推出Claude Agent SDK,开放核心模块供开发者构建自定义代理体验[19] 产品定价与可用性 - Claude Sonnet 4.5即日可用,API定价与4.0版本保持一致[22] - 输入token收费为每百万3美元,输出token收费为每百万15美元[22] - 推出限时实验功能"Imagine with Claude",向Max用户开放5天[22] 行业竞争动态 - DeepSeek发布V3.2版本,API调用成本大幅降低50%[32][36] - OpenAI计划在未来两周发布新产品,包括Sora 2独立社交媒体应用[34] - 行业进入新一轮竞争周期,各公司纷纷推出模型更新和成本优化措施[32][34]
报名倒计时!一键 GET 2025 全球机器学习技术大会参会指南
AI科技大本营· 2025-09-28 18:59
大会概况 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店举办 由CSDN与奇点智能研究院联合主办[1] - 大会汇聚超50位重磅嘉宾 包括AI技术奠基者 学术领军者 顶会顶刊作者 一线科技产品技术实战派和开源先锋[1] - 预计将有超1000名听众参与 覆盖50多个演讲主题[8] 核心议题聚焦 - 大会设置十二大专题 全面呈现AI领域最具突破性与实践价值的研究与应用成果[3] - 核心专题包括大语言模型技术演进 智能体工程与实践 多模态与世界模型 AI赋能软件研发与氛围编程 大模型应用开发实践 GenAI产品创新与探索等[3] - 专题设计兼具前沿方法论与一线落地经验 旨在搭建科研 技术与产业的交流平台[4] 主会场核心议程 - 10月16日上午主会场重量级嘉宾包括OpenAI研究科学家 GPT-5 GPT-4和Transformer共同创始人Lukasz Kaiser 奇点智能研究院院长 CSDN高级副总裁李建忠 小米集团AI实验室主任 NLP首席科学家王斌 面壁智能副总裁贾超[6] - 核心议题涵盖大模型技术思考与AI产业范式洞察 推理模型的历史 现在与未来等[12] - 设有圆桌对话"AI产业范式转变的核心命题" 由CSDN&《新程序员》执行总编唐小引主持 探讨大模型在全球技术演进中的关键趋势与挑战[12][14] 分会场技术专题 - 10月16日下午设四大分会场 专题包括大语言模型技术演进 多模态与世界模型 智能体工程与实践 AI赋能软件研发与氛围编程[15] - 分会场A聚焦智能体技术 议题包括前OpenAI研究员吴翼分享面向智能体的合理推理 字节跳动杨晨分享扣子罗盘Agent效果评测等[18] - 分会场B关注大模型实践 议题包括新浪微博张俊林分享可验证奖励强化学习 腾讯郑茂分享混元翻译模型经验 清华大学肖朝军分享高效端侧大模型MiniCPM等[19] - 分会场C侧重多模态应用 议题涵盖360冷大炜分享面向大规模搜厂推的高精度图 小红书张道鑫分享多模态大模型在搜索中的应用 理想汽车周盼分享实时语音对话大模型技术等[20] - 分会场D探讨AI赋能编程 议题包括北京大学李戈分享面向程序逻辑推理的大语言模型能力 阿里彭佳汉分享新一代Agentic Coding平台Qoder 腾讯夏伟分享AI Coding人机协作新范式等[20][21] 次日议程重点 - 10月17日上午分会场A聚焦具身智能与智能硬件 议题包括星尘智能王佳楠分享类人操作 群睿科技唐睿分享相关技术 无问芯穹张权路分享面向具身智能的训推一体化强化学习框架等[24] - 分会场B关注开源模型与智能体协议 议题包括百度张军分享文心4.5开源大模型 常高伟深度解析智能体协议 中国人民大学陈旭分享基于大模型智能体的社会模拟系统等[25] - 分会场C探讨AI Infra大模型基础设施 议题包括Google喻世炜分享行星级别的人工智能复力基建 清程极智于广华分享大模型压测技术 腾云智算王超分享训练推理优化技术等[26] - 分会场D围绕AI赋能软件研发 议题包括ClackyAI李亚飞分享全球AI Coding发展趋势 智谱AI张少博分享LLM Agent在软件领域的应用 百度陈一言分享Coding Agent落地实践等[26] 产业落地实践 - 10月17日下午分会场A聚焦大模型+行业落地实践 议题包括微软亚洲研究院研究员分享PIKE-RAG私域知识管理 驭势科技研发总监分享大模型助力打破L4级自动驾驶困局 百度资深工程师分享飞桨PaddleOCR技术与产业实践等[28][29] - 分会场B继续深入智能体工程与实践 议题包括小红书AI搜索生成算法负责人分享Agent时代LLM应用 居公万维算法总监分享构建高质量智能体经验 阿里云高级技术专家分享Apache RocketMQ AI事件驱动Agent等[29] - 分会场C关注GenAI产品创新 议题包括快手安全算法中心负责人分享相关技术 哔哩哔哩智能创作技术负责人分享AI动画模型技术实践 国星宇航AI技术CTO分享AI视觉算法产品落地研究等[29][30] - 分会场D探讨开源模型与框架及AI Infra 议题包括阿里淘天集团技术专家分享移动端大语言模型推理框架MNN-LLM vLLM核心维护者分享人人可用的推理引擎 字节跳动工程师分享灵活高效的大模型强化学习编程框架verl等[30]
从模型到生态:2025 全球机器学习技术大会「开源模型与框架」专题前瞻
AI科技大本营· 2025-09-26 13:49
开源与闭源AI模型性能趋势 - 2025年开源与闭源模型的性能差距已从常见的8%缩小至1.7% [1] 2025全球机器学习技术大会专题设置 - 大会特设“开源模型与框架”专题,聚焦底层构件的开源创作与实践 [1] - AI竞争已扩展至数据、模型、系统和评测四大支柱 [12] - 大会设置十二大前沿专题,覆盖大模型技术演进与智能体工程实践 [13] 参会机构与行业参与度 - 参会机构包括北大、清华、百度、阿里、腾讯、字节跳动等国内顶尖机构 [12][13] - 来自Meta、谷歌、阿里等公司的生态竞争围绕未来“AI操作系统”展开 [12] 重点开源项目与技术方向 - MNN-LLM项目专注于移动端大语言模型推理框架 [7][23] - vLLM项目致力于提供人人可用、快速且低成本的大模型推理服务 [7][23] - verl项目是灵活高效的大模型强化学习编程框架 [10][23] - SpecForge是用于训练投机采样模型的工具 [23] 大会核心演讲嘉宾与议题 - Lukasz Kaiser将分享推理模型的历史、现在与未来 [17] - 议题涵盖可验证奖励强化学习、腾讯混元翻译模型优化、MiniCPM端侧大模型等 [17][18] - 智能体相关议题包括AReaL异步强化学习、扣子罗盘效果评测、通义DeepResearch构建方法论等 [18]
CSDN 创始人蒋涛:中国开源十年突围路、模型大战阿里反超 Meta,数据解析全球开源 AI 新进展
AI科技大本营· 2025-09-25 11:33
全球开源生态发展格局 - 全球开发者总量突破1.5亿,GitHub活跃开源开发者达2280万,美国为核心力量,中国活跃开发者超400万,总开发者1200万,规模全球第二[11] - 高影响力开发者美国310人居全球第一,中国从2016年3人跃升至2025年94人,增长超30倍,跻身全球第二梯队[1][16] - 开源项目数超4亿代码仓,活跃仓数从2016年193万增至2025年近600万,增长超3倍,AI大模型、云基础设施、前端与交互技术、编程语言与开发工具为四大技术驱动力[16] 区域与国家贡献分析 - 印度和中国增长显著,印度十年达6倍增长,中国达3倍增长,巴西作为拉美代表增幅超5倍[12] - 美国在OpenRank贡献度2021年达峰值后逐年下降,中国贡献度十年大幅上升,其余国家稳步增长[12] - 美国在影响力格局持续领先,德国稳居欧洲第一,中国、印度快速上升,巴西与日本体现区域共同发展[12] 企业开源影响力 - 全球企业OpenRank排行榜TOP100中,美国企业65家居首,中国企业16家次之,华为全球第二,阿里巴巴TOP8[19] - 微软以OpenRank 87234.62居首,华为61039.42次之,谷歌31402.94第三[20] - 中国企业开源进展快速,华为、阿里巴巴等在高影响力企业中表现突出[19] 技术领域影响力 - AI与大模型以OpenRank 535,299居技术影响力榜首,远超云基础设施333,165和前端与交互式314,618[21] - 编程语言与开发291,487、应用与解决方案218,783、区块链与Web3 167,408分列第四至第六[21] - 数据库系统129,806、RISC-V与硬件112,327、大数据与数据工程111,791进入前十技术领域[21] 开源项目影响力 - OpenHarmony以OpenRank 40192.24居全球开源项目影响力第一,中国9个项目进入TOP100[21][22] - Azure22155.91、.NET14479.13、NixOS13148.25分列第二至第四[22] - 中国开源从使用走向贡献,项目影响力显著提升[21] 大模型技术体系开源影响力 - 大模型开源影响力榜单涵盖数据、模型、系统、评测四维度,Meta、阿里巴巴、谷歌位列模型榜前三[2][29] - 模型下载量向量模型占41.7%,语言模型31%,多模态模型18.3%,UKP Lab下载量最高[31] - 阿里巴巴千问系列下载量2025年6月后飞速增长,超越Meta,DeepSeek保持稳定[31] 数据与系统生态 - 数据榜单Ai2、上海人工智能实验室、谷歌前三,智源综合性数据开放突出[37][40] - 语言数据集1-4月为下载主力,纯视觉数据集比例快速下降,具身数据集增势显著[43] - 系统榜单智源贡献突出,Meta和谷歌紧随其后,百度、阿里、华为、上海人工智能实验室进入TOP10[45] 评测与综合影响力 - 评测榜单上海人工智能实验室、Hugging Face、智源前三,中国学术机构投入大[50][52] - 综合榜单Meta第一,谷歌第二,智源第三,智源在多芯片支持的系统维度优势显著[55] - 大模型生态美国贡献比例37.41%,中国18.72%,位居前两位[60]
为什么40%的智能体项目难逃废弃?8位一线专家教你构建高质量、鲁棒的AI Agent
AI科技大本营· 2025-09-24 16:46
智能体行业现状与挑战 - 当前AI大模型领域,智能体是企业实践的重点方向,部分企业已从中获益,部分企业仍处于探索阶段 [2] - 麦肯锡对50个真实项目的调研发现,企业在开发智能体时常陷入两大陷阱:过度依赖单点演示而难以大规模应用,或急于追求炫酷功能而忽视工程与治理 [2] - Gartner预测到2027年超过40%的Agentic AI项目将被废弃,主要原因是成本、价值和工程化落地未能平衡好 [2] - 智能体并非即装即用的解决方案,而是一场需要长期积累的系统工程 [3] 2025全球机器学习技术大会:智能体工程与实践专题 - 专题旨在汇聚国内外顶尖学者与企业一线实践者,呈现从理论创新到产业应用的全景视角,帮助解决智能体落地的核心痛点 [3] - 专题将围绕智能体在大模型时代的工程方法、落地经验与技术路线选择展开深度探讨 [6] - 大会将于10月16-17日在北京威斯汀大酒店(亮马桥)举行 [8] 专题核心演讲嘉宾与议题 - 前OpenAI研究员、清华大学吴翼将分享“AReaL: 面向智能体的全异步强化学习框架” [12] - 通义实验室算法科学家乔子乐将介绍“通义DeepResearch: SOTA级AI智能体的全栈构建方法论” [12][14] - 字节跳动扣子罗盘服务端技术负责人杨晨将探讨智能体相关优化实践 [16] - 中国人民大学陈旭将展示“玉兰-万象:迈向下一代基于大模型智能体的社会模拟系统” [17] - ANP开源技术社区常高伟将深度解析智能体协议:MCP/A2A/ANP/AP2 [20] - 京东集团算法总监韩艾将介绍“OxyGent – 京东零售开源的多智能体协作框架” [20] - 昆仑万维算法总监邹敏将参与分享 [22] - 阿里云高级技术专家周礼也是专题嘉宾之一 [6] 大会整体价值与亮点 - 大会邀请了GPT-5与Transformer核心共同发明人Lukasz Kaiser等全球技术奠基者 [28] - 集结了来自北大、清华、百度、阿里、腾讯、字节跳动等国内顶尖机构的一线实践者,分享真实业务场景的经验与总结 [28] - 大会设置了十二大前沿专题,呈现最贴近当下开发者的AI技术全景图 [28] - 自2017年至今,大会已成为数万名AI同行的年度之约 [28]
最受欢迎的开源大模型推理框架 vLLM、SGLang 是如何炼成的?
AI科技大本营· 2025-09-24 10:01
文章核心观点 - 大语言模型推理阶段是决定模型实用性和广泛采用的关键 需要高效处理延迟、吞吐量和成本约束[2][3] - vLLM和SGLang作为领先的开源推理引擎项目 通过创新内存管理技术和优化调度设计显著提升推理性能[4][8][12] - 两个项目均起源于学术研究 现已发展为社区驱动的开源标杆 获得业界广泛采用和投资机构支持[7][16][31][34] 项目技术特性 - vLLM采用PagedAttention算法 借鉴操作系统分页缓存管理技术 实现精细化内存管理 官方测试显示比Hugging Face Transformers后端提升30倍吞吐量[8][9] - SGLang以RadixAttention为核心 重用过往请求的KVCache 在前缀匹配时大幅减少Prefill阶段计算量 即使关闭RadixAttention仍保持优秀性能[12] - 两者均支持Continuous Batching、Chunked Prefill、Speculative Decoding等先进特性 在功能算法层面日趋同质化[29] 社区发展数据 - vLLM于2023年6月开源 截至2025年8月获56,045星标 9,578分叉 1,465贡献者 12,393名社区参与者[15] - SGLang于2024年1月发布 同期获17,095星标 2,697分叉 638贡献者 2,754名社区参与者 规模不及vLLM五分之一[13][15] - 两项目中国开发者占比显著 vLLM达33% SGLang高达52% 社区活跃度高但待处理issue均超2000条[9][13][37] 学术与产业关联 - 项目核心发起人Woosuk Kwon(vLLM)和Lianmin Zheng(SGLang)均来自加州大学伯克利分校 师从Spark和Ray创建者Ion Stoica[16] - vLLM贡献主力来自Red Hat SGLang贡献主力来自xAI、Skywork、Oracle和LinkedIn 194名开发者在两项目间交叉贡献[18][19][20] - OpenAI工程师comaniac在vLLM提交77个代码请求 在SGLang提交17个请求 2024年3月后活跃度降低引发行业猜测[20] 性能演进历程 - vLLM在2024年9月发布v0.6.0 通过CPU调度优化实现2.7倍性能提升和5倍延迟下降 但架构复杂性导致增长放缓[23][25] - 2025年1月vLLM推出V1重构版本 结合DeepSeek V3/R1发布 与SGLang同步进入第二轮爆发式增长[21][25] - 性能竞争白热化后 双方转向强调可复现方法和真实工作负载端到端指标 鼓励第三方独立评测[26] 生态合作与投资 - a16z的Open Source AI Grant基金在2023年8月资助vLLM核心开发者 2024年6月第三批名单资助SGLang开发者[31][33] - 真格基金2024年7月向vLLM提供捐赠 Linux基金会将vLLM纳入PyTorch基金会 2025年3月SGLang加入PyTorch生态系统[40] - 两项目已成为Google、Meta、Microsoft、字节跳动、阿里巴巴、腾讯等顶尖科技公司首选推理方案[34]
从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”
AI科技大本营· 2025-09-23 10:11
Transformer架构的诞生与影响 - 2017年论文《Attention Is All You Need》提出彻底抛弃循环神经网络,仅使用注意力机制处理语言,其提出的Transformer架构重塑了人工智能版图[2] - 该论文在Google Scholar上的引用次数高达197,159次,成为大模型理论的奠基性文章,开启了人工智能新纪元[2][17] - Transformer架构以其无与伦比的并行计算能力和对长距离依赖的出色捕捉,迅速成为自然语言处理领域的全新范式,并辐射到计算机视觉、语音识别等AI子领域[17] 核心人物Lukasz Kaiser的学术背景 - Lukasz Kaiser拥有波兰弗罗茨瓦夫大学计算机科学与数学双硕士学位,并在德国亚琛工业大学获得博士学位,专攻"自动结构上的逻辑与博弈"这一艰深领域[7] - 2009年其博士论文荣获E.W. Beth dissertation prize,这是全球逻辑、语言和信息领域的最高学术荣誉之一,证明其在纯粹理论科学领域达到世界顶尖水平[8] - 博士毕业后受聘于巴黎狄德罗大学LIAFA实验室,成为法国国家科学研究中心终身研究员,拥有稳定的学术职位和完全的研究自由[9] 从学术界到工业界的转型 - 2013年Kaiser辞去法国终身研究员职位加入谷歌大脑,这一决定源于对"重复"的厌倦和对"变革"的极度渴望,从"证明"转向"构建"的冲动[10][11] - 当时自然语言处理领域被循环神经网络统治,但RNN存在长距离依赖问题和串行处理缺陷,与GPU和TPU的并行架构不匹配[12][14] - Kaiser团队最初将注意力机制作为RNN的增强补丁,但最终提出完全基于注意力的新模型构想,彻底推翻了RNN的统治地位[14][15] Transformer八子的分化与Kaiser的选择 - Transformer八位作者中七位已踏上创业之路,成为AI产业浪潮中的商业巨擘,如Aidan Gomez创立Cohere、Noam Shazeer创立Character.ai等[4][24] - Lukasz Kaiser是八子中唯一未创业的科学家,于2021年离开工作八年的谷歌,加入以AGI为最终使命的OpenAI,继续坚守技术研究最前线[4][24][25] - 在OpenAI期间,Kaiser深度参与并主导了GPT-4、GPT-5以及代号为"o1"和"o3"的推理模型等核心研发工作[4][27] 通用人工智能的探索历程 - 2017年Kaiser参与发表论文《One Model To Learn Them All》,提出MultiModel单一模型同时处理八个不同任务,是AGI追求的第一次公开实践[20][22] - 该研究证明统一深度学习架构有潜力联合学习跨领域知识,尽管单项任务表现未超越专业模型,但为通用智能探索开辟了新方向[22] - Kaiser认为AI下一阶段关键在于教会模型"思考",通过生成更多中间步骤进行深度推理,而不仅仅是直接输出答案[29] 行业技术发展趋势 - AI发展经历了从2014年"证明可行性"到2017年"架构创新",再到2019年"自监督预训练"以及2021年"规模定律",最终到2023年"数据质量与RLHF"的进化路径[27] - 未来计算力将从大规模预训练转向在少量高质量数据上进行海量推理计算,预示着AI即将迎来又一次范式转移[29] - 多模态融合、模型规模持续提升以及AI能力通过API和云服务形式普及,已成为行业明确的发展方向[31]