Workflow
量子位
icon
搜索文档
超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架
量子位· 2025-07-26 17:01
开源框架SpecForge - SGLang团队联合美团搜推平台、Cloudsway.AI开源专为超大模型设计的投机采样训练框架SpecForge [1] - 该框架基于Eagle3技术,是首个支持超大模型投机采样训练并开箱即用的框架,与SGLang推理引擎深度集成 [5] - 针对当前开源社区缺乏支持超大尺寸模型训练且与SGLang深度结合框架的痛点 [6] 技术特性 - 集成最先进的投机采样方法Eagle3,通过轻量级草稿模型预测目标模型token分布实现高接受率和性能提升 [7] - 原生支持主流模型架构包括复杂MoE层和Transformer变体 [7] - 采用FSDP和TP并行策略实现GPU集群高效扩展,显著降低大规模训练内存开销 [7][14] - 创新性封装训练时测试(TTT)架构,通过模拟多步生成增强模型健壮性 [9] - 提供在线与离线双重训练模式,动态调整隐藏状态收集策略 [10][17] 性能表现 - 在320K样本数据集上为LLaMA 4训练的草稿模型实现2.18倍推理加速 [15] - 在MT-Bench等行业标准基准测试中表现出色,验证与Eagle3架构的兼容性 [15] - 通过bench_speculative脚本可针对不同硬件调优出最佳性能参数 [16] 应用场景 - 适用于Kimi K2、Qwen Coder等超大型开源模型的推理效率提升 [4] - 在线模式适合快速实验和存储有限场景,离线模式保证实验可复现性 [17] - 未来计划支持更多模型架构包括Kimi K2、Qwen-3 MoE及视觉-语言模型 [22] 资源获取 - GitHub仓库提供完整源代码包括TTT实现细节 [20] - Hugging Face提供LLaMA 4 Scout和Maverick预训练模型 [20]
80万人排队求码后,Lovart功能升级放开用!果然是顶流设计Agent,第一天鲨疯了
量子位· 2025-07-26 15:33
产品发布与市场反响 - Lovart正式版全球上线,支持用户直接注册使用并推出全新升级玩法[2][3] - Beta测试版曾上线5天吸引10万人排队体验[2] - 正式版推出「ChatCanvas」玩法,被视为具备视觉理解的"Figma+Notion+ChatGPT"变体[4] - 网友对ChatCanvas功能好评如潮,认为其拓展了创作可能性[7][9] ChatCanvas功能亮点 - 支持用户与AI设计师在画布上无限配合,通过一句话指令实现"二创"海报[4][5] - 提供"Chat with Canvas"会话功能,支持对任意区域进行修改并批量处理[20][22][26] - 支持多张参考图融合成一张图,操作过程不到两分钟[37][38][42] - 具备多模态能力,可将图片转成视频且可控性更强[46][47][48] - 采用独立"聊天框"设计,确保多任务切换时上下文不混淆[52][53][54] 应用场景与案例 - 生成12生肖中国风潮玩设计,提供四种方案供用户选择[15][16] - 支持品牌视觉设计全套方案,包括艺术海报、营销视频、APP界面设计等[64][71][78] - 可生成房屋装修方案、品牌VI方案、角色设计及3D玩具等[79][80] - 网友生成特斯拉宣传广告和宜家"盒子爆破"广告设计,效果酷炫[72][74] 产品优势与行业意义 - 通过多Agent协同实现设计全流程自动化,解决传统工具片段化痛点[81][82] - 构建有记忆、有语境的创意系统,支持持续项目创作[83] - 体现AI应用从"造模型"向"用模型造产品"的转型趋势,符合Agent体验(AX)理念[84] - 中国团队开发,获全球市场认可,展现应用层创新能力[87][89] 团队背景 - Lovart由Liblib海外子公司独立运作,核心负责人为王浩帆与Takumi[87] - 创始人为陈冕,原字节剪映全球商业化负责人[88]
非Transformer架构落地之王,带着离线智能和原生记忆能力在上海WAIC浮出水面
量子位· 2025-07-26 14:34
核心观点 - RockAI开发的非Transformer架构大模型Yan 2.0 Preview具备原生记忆能力,支持离线环境下的持续学习和多模态交互,为端侧设备提供高效智能解决方案 [6][11][12] - 公司从底层重构AI运行逻辑,专注端侧部署,提出"离线智能"概念,实现模型在设备本地的理解、推理和学习闭环 [27][48][49] - Yan架构已在树莓派、机器人主控芯片等硬件实现商业化落地,成为国内非Transformer架构模型的领先者 [58][60][61] - 公司技术路线指向群体智能(Collective Intelligence)方向,通过设备间协作构建分布式AI生态 [64][65][66] 技术突破 模型架构创新 - 放弃Transformer架构,开发专为端侧设计的Yan架构,解决资源敏感场景下的计算效率问题 [27][28][29] - Yan 2.0 Preview引入原生记忆模块,支持训推同步机制,实现边用边学的持续进化能力 [12][17][24] - 记忆系统包含动态更新(神经网络模拟记忆行为)和稀疏检索(Top-K激活记忆融合)两阶段机制 [19][20][23] 性能表现 - 在3B参数量级下,Yan 1.3平均得分76.1,优于Llama3 8B(75.0)和Gemma 3 4B(68.0) [34] - Yan 2.0 Preview将平均得分提升至78.6,在ARC-E(91.7)和WinoGrande(83.1)任务中表现突出 [34] - 树莓派上实现5 tokens/s的多模态问答速度,手机端最高输出>18 tokens/s [50][59] 商业化进展 硬件适配 - 已适配树莓派、骁龙6系列移动芯片、AMD/Intel PC处理器及机器人主控芯片 [58] - 在高通骁龙8 Gen2平台实现>18 tokens/s输出,联发科天玑8100平台>12 tokens/s [59] - 与出海品牌合作的AI PC将于2023年下半年量产上市 [59] 行业定位 - 全球极少数实现完全非Transformer架构+真端侧落地的公司 [60] - 国内非Transformer架构模型的商业化落地领先者 [61] - 技术方案被应用于机器人、IoT设备、智能手机等多类终端 [30][58] 行业趋势 技术路线 - 行业出现Transformer替代方案探索,如谷歌MoR架构实现内存减半+推理速度翻倍 [68] - 端侧AI需求催生混合架构创新,效率敏感场景推动非Transformer技术发展 [69][70] - RockAI提出的群体智能(Collective Intelligence)概念被视为AGI潜在路径 [64][65] 竞争格局 - Transformer架构仍主导行业生态,但存在工具链、硬件适配等系统性限制 [74][75] - 非Transformer架构面临技术惯性和生态壁垒,但解决端侧部署的核心痛点 [71][72] - 公司选择差异化竞争路径,避开与云端大模型的直接对抗 [45][47][53]
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA
量子位· 2025-07-26 13:06
模型性能突破 - 通义千问开源Qwen3-235B-A22B-Thinking-2507推理模型,在MMLU-Pro(84.4)、GPQA(81.1)、AIME25(92.3)等基准测试中超越DeepSeek-R1和OpenAI o4-mini,登顶开源SOTA [3][10][12][15] - 新模型在"人类最后考试"HLE测试得分从11.8提升至18.2,超越DeepSeek-R1(17.7)和o4-mini高性能模式(18.1) [13][14] - 支持256K原生上下文,在逻辑推理、数学、编码等复杂任务中性能显著提升,编程能力超越Gemini-2.5 Pro等闭源标杆 [16][17] 开源战略布局 - 一周内连续开源Qwen3基础模型(235B参数)、Qwen3-Coder编程模型和Qwen3-235B推理模型,形成技术矩阵 [6][22][26] - Qwen3-Coder在SWE-bench测试中达到69.6分,超越Claude Sonnet 4(70.4)和DeepSeek-V3(38.8),刷新AI编程SOTA [26][27] - 基础模型Qwen3-235B-A22B-Instruct-2507在GPQA、LiveCodeBench等12项测评中超越Claude4非思考版,登顶开源第一 [32] 市场影响与行业地位 - 通义千问API调用量突破1000亿Tokens,在OpenRouter平台包揽全球前三热门模型 [31] - 阿里已开源300余款大模型,通义千问衍生模型突破14万个,超越Llama成为全球最大开源模型家族 [37] - 公司计划未来三年投入3800亿元建设AI基础设施,持续升级全栈能力 [38] 中国开源生态崛起 - DeepSeek、Qwen、Kimi等中国开源模型引领全球风潮,在Llama4表现不佳后成为行业新标杆 [34][35] - 中国开源模型发展速度被黄仁勋公开认可,技术差距与闭源模型快速缩小 [36][39] - 开源三连击战略使中国AI技术首次实现在基础模型、编程模型、推理模型三个维度同时达到世界前沿水平 [7][33][37]
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
量子位· 2025-07-25 15:59
大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤,这种推理过程与人类思维无关,关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导(如拆分单词找字母),而非直接输出结果,这显著提升答案准确性(数学题正确率从随机猜测提升至逐步推导)[8][15][17] - 中间步骤使复杂问题可解:对于布尔电路规模T的问题,生成O(T)中间步骤后固定大小的Transformer即可解决,否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链(CoT)赋能:引入CoT后无需扩展模型规模即可让Transformer解决任何问题,理论上可模拟多项式大小电路的计算,缩小与图灵机差距[12][13] - 解码方式优化:通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径,效果接近指令微调模型[25][26] - 监督微调改进:采用自我改进(模型自生成步骤纠错)和强化学习微调(验证器引导生成正确答案),后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法:通过边缘化自一致性(高频答案筛选)、通用自一致性(模型自主选择)及检索+推理(先回忆相关知识再解题)提升效果[40] - 未来突破方向:解决非唯一可验证答案任务(如开放式问题),构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基:Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题,其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用:Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展,目标实现完美泛化[37]
不怕被挖!谷歌晒IMO金牌团队大合照,还挨个圈出了联系方式
量子位· 2025-07-25 15:59
谷歌DeepMind IMO金牌团队事件 - 谷歌DeepMind团队在IMO2025前夕集结全球核心成员进行冲刺训练,最终完成Gemini Deep Think模型的最终训练,使其性能达到巅峰状态[10][11][13] - 团队负责人Thang Luong公开晒出团队全家福,回应此前Meta挖走3名核心成员的事件,合照中未出现被挖走的3名华人成员[3][4][8][17] - 团队在训练过程中面临计算资源不足的问题,需要从多个团队东拼西借资源[12] 团队成员背景 - Thang Luong担任DeepMind超级推理团队负责人,是IMO金牌团队的核心领导者[4] - Yi Tay是团队联合负责人,曾参与谷歌PaLM、UL2、Flan-2、Bard等大模型研发,撰写45篇论文(16篇一作),后因创业期间健康问题重返谷歌[21][22][25] - Quoc Le作为Google Brain创始人之一,拥有斯坦福大学计算机科学博士学位,师从吴恩达[27] - Dawsen Hwang曾两次参加IMO并获得银牌和金牌,拥有MIT硕士和博士学位[33] - Jieming Mao本科就读清华大学,获普林斯顿大学计算机科学博士学位[35] 团队其他核心成员 - Andreas Kirsch在慕尼黑工业大学和牛津大学完成学业,现任Google DeepMind研究科学家[29] - Theophane Weber拥有MIT运筹学博士学位,曾在Analog Devices担任研究科学家[31] - Jonathan Lee主攻强化学习,获斯坦福大学计算机科学博士学位[37] - Vinay Ramasesh专注于量子处理器研究,获加州大学伯克利分校实验物理学博士学位[39] - Lei Yu在牛津大学完成博士研究,2017年加入Google DeepMind[41] - Zicheng Xu高中成绩全优(GPA满分),获莱斯大学双学位,计划攻读约翰霍普金斯大学博士学位[42]
WAIC抢先爆料:金融“黑马”大模型超DeepSeek刷新SOTA,论文已上线
量子位· 2025-07-25 13:38
WAIC大会与蚂蚁数科金融大模型 - 2024年WAIC大会成为展示中国AI技术进展的重要平台,蚂蚁数科在会前发布金融推理大模型Agentar-Fin-R1的技术论文 [1][3] - 新模型定位为金融领域的专用推理大模型,类比DeepSeek在通用领域的地位,具备SOTA性能表现 [4] - 模型包含8B和32B两个参数版本,在金融评测基准和通用推理基准中均达到顶尖水平 [10][6] 模型技术性能 - 在金融评测集FinEval、Fineva、FinanceIQ和Finova上全面超越开源金融大模型及GPT-o1、DeepSeek-R1等通用大模型 [14] - 32B版本在Finova基准达到69.93分,显著超越同尺寸金融模型Dianjin-R1-32B(56.02分)及超大模型DeepSeek-R1(61.28分) [53] - 在通用推理基准MATH和GPQA中保持竞争力,32B版本取得80.99分的平均成绩 [7] 技术创新与优化 - 构建覆盖银行、证券、保险等全场景的金融任务分类体系,包含意图识别、风险评估等精准定义类别 [21] - 采用千亿级金融专业数据语料,通过可信数据合成和CoT数据精标构建训练数据集 [22] - 创新应用难度感知加权训练框架,采用两阶段训练策略提升效率 [33][34] - 开发Finova新评测基准,包含1350道涵盖智能体能力、复杂推理和安全合规的金融难题 [41][43] 行业应用与优势 - 针对金融行业三大核心挑战:问题复杂性、可信度要求、评测集缺失进行专项优化 [16] - 背靠蚂蚁集团金融数据积累,已服务全部国有股份制银行和超60%城商行 [58] - Agentar品牌已推出超百个金融智能体解决方案,覆盖四大金融领域,提升工作效率80% [60] - 模型设计强调实际业务场景适配能力,支持快速响应金融市场变化 [35]
AGI是否需要世界模型?顶级AI专家圆桌论道,清华求真书院主办
量子位· 2025-07-25 13:38
论坛概况 - 2025基础科学与人工智能论坛在中关村展示中心会议中心举行,由清华大学人工智能研究院常务副院长孙茂松教授主持[1] - 四位顶尖AI专家参与讨论:刘铁岩博士、汪玉教授、顾险峰教授、沈亦晨博士[1] - 论坛吸引500名来自清华大学求真书院、北京高校及科研机构的观众[2] - 该论坛已连续举办3届,由清华大学求真书院主办,中信证券与中关村科学城管委会协办[2] 因果性与AI科学化 - 当前AI技术仍以"相关性"建模为主,缺乏对"因果律"的深刻掌握,限制了在自然科学和数理建模任务中的应用[3][4] - 大模型在高层语义表达中已出现"因果性功能的涌现",能处理逻辑推理、数学解题等任务[5] - 建议从"语义因果性"角度重新评估当前模型的能力边界[5] Token范式与世界模型 - 专家质疑Next Token Prediction范式是否适合处理复杂四维世界认知,提出可能需要转向"世界模型"等新范式[6] - 语言作为人类认知的表达系统,若对象或规律可通过语言准确描述,AI仍可能通过token prediction模型学习[6] - Next Token Prediction在语言理解和创作领域表现优异,但在非语言任务如偏微分方程求解、量子系统建模等方面存在局限[6] AI原创能力探讨 - AI在科学研究中难以实现重大理论突破,因其无法完成"对未知现象的预判与假设"[9][10] - AI可解决90%可类推工程化问题,但在10%原创性突破领域仍力有未逮[11] - AI在已知边界上的全覆盖与组合重构将对科学研究产生深远影响,尤其在"从类比中发现新结构"方面具有潜力[12][13] 算力瓶颈与未来架构 - 最新一代大模型训练耗资约100亿美元,需20万张GPU卡支持,预计2035年可能突破至1亿张卡[14] - 光互联和光计算芯片可提升芯片间通信带宽与效率,解决分布式模型训练问题[16] - 未来需推动低精度(int4/int8)模型优化,并使底层硬件异构对开发者透明[17] - 提出"Experience-driven AI"设想:由100万个机器人在物理世界中实时感知、同步数据和模型权重,实现全域智能协同[18][19] 总结展望 - 大模型的有效性是经验主义的,但其根本性问题需理论与系统两端的突破[21]
训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平
量子位· 2025-07-25 13:38
△ Vidar真实场景演示视频 Vidar团队 投稿 量子位 | 公众号 QbitAI 机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有 没见过的物品 ,它能精准识别并按照指令完成动作。 比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。 这就是清华大学与生数科技最新联合研发的 Vidar模型 , 首次让通用视频大模型长出了"手脚" ,通过少样本泛化能力,实现从虚拟的 Dream World到真实世界Real World物理执行的关键跨越。 它在互联网级视频数据预训练的基座模型Vidu上,使用百万异质机器人视频数据进行再训练。 仅用20分钟机器人真机数据 ,即可快速泛化到新的机器人本体,所需数据量约为行业领先的 RDT的八十分之一 , π0.5的一千两百分之一 ,大幅降低了在机器人上大规模泛化的数据门槛。 △ 具身数据金字塔;不同方法所需的真机人类操作数据量 突破跨本体泛化困境 众所周知, 当前主流视觉-语言-动作(VLA)模型需要海量的多模态数据进行预训练。这种方法高度依赖大量优质数据,并且这些数据往往只 适配特定的机器人本体及其采集的特定任务集。此外,数据收集过程费时费力、成本高昂。这带 ...
GitHub官方版AI IDE公测!用自然语言写App,全栈应用1分钟生成
量子位· 2025-07-25 13:38
核心观点 - GitHub推出AI开发工具Spark,通过自然语言输入快速生成应用原型,大幅降低开发门槛[1][2][3] - 该工具整合UI设计、数据存储、代码编辑和AI调用等全流程功能,实现"从prompt到产品"的一站式开发[16][17][29] - 微软战略布局显现,通过GitHub+Azure生态锁定开发者,目标覆盖全球10亿用户[27][28][30] 产品功能 - **快速原型生成**:开发者演示从文字描述到功能型应用仅需1分钟[8][9][14] - **智能UI设计**:支持主题修改、草图上传和AI建议,减少文字输入错误[12][13] - **全栈开发支持**:自动托管云存储、代码预览编辑、错误检测修复[17][18][19] - **AI套娃功能**:应用内可集成OpenAI等第三方AI模型实现智能功能[22][23] 技术生态 - **微软云服务支撑**:Azure提供存储、认证、部署等底层支持[28] - **GitHub深度整合**:支持代码仓库双向同步、团队协作和Copilot代码生成[24][25] - **定价策略**:绑定Copilot Pro+订阅,月费39美元含375条消息额度[26] 行业影响 - 直接冲击Windsurf、Replit等同类开发工具市场[3][27] - 微软通过AI+云计算+开源平台构建完整开发者生态闭环[27][30] - 显著降低个人开发者和小团队的技术门槛,可能重塑应用开发模式[29][30]