Workflow
模型推理
icon
搜索文档
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 09:42
VScan团队 投稿 量子位 | 公众号 QbitAI 多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越"吃不消": 视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。 为解决这个问题, 腾讯AI Lab联合CMU 提出全新解决方案 VScan 。 该方法聚焦于大规模视觉语言模型推理阶段的效率瓶颈,通过精妙的两阶段视觉token筛选机制,在几乎不损性能的前提下,实现高达2.91x 的推理加速。无需修改模型架构、无需重新训练, 兼容FlashAttention, VScan为业界提供了一种轻量、通用、即插即用的推理加速方案。 为了处理更复杂、更丰富的视觉输入,现有LVLM往往需要编码远超文本Token规模的视觉信息。例如,LLaVA-NeXT在处理高分辨率图像时 会引入多达2,880个视觉Token,而Qwen2.5-VL在应对多图像或视频输入时,甚至能处理高达16,384个视觉Token——这一规模已远远超过 传统语言模型所处理的输入长度。 随着Token数量的激增,输入序列随之拉长,而自注意力机制的计算复杂度呈平方增长,这使得推理阶段 ...
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 23:52
一、AI编程市场竞争加剧 - Cursor开发商Anysphere从合作伙伴Anthropic挖走Claude Code核心人物Boris Cherny和Cat Wu [1] - Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型 [1] - Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元 [1] 二、智谱开源视觉推理模型 - 智谱开源GLM-4.1V-9B-Thinking模型,在18项权威评测中超越72B模型 [2] - 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D/3D-RoPE位置编码 [2] - 训练分四个阶段:多模态预训练、长上下文训练、监督微调和课程采样强化学习 [2] 三、多模型协作算法突破 - Sakana AI提出AB-MCTS算法,通过深度和广度双向搜索提升推理能力 [3] - Multi-LLM系统在ARC-AGI-2基准测试上性能提升30%,整合Gemini 2.5 Pro等前沿模型 [3] - 算法动态选择最优模型,开源框架TreeQuest支持多种任务 [3] 四、AI视频生成商业化进展 - HeyGen推出"产品植入"功能,可生成逼真带货视频(如马斯克推销Labubu案例) [4] - 公司估值5亿美元,年收入8000万美元,月付29美元支持无限短视频制作 [5] - 竞品对比中,HeyGen在表情自然度和口型准确度表现更优 [5] 五、百度搜索AI化升级 - 搜索框升级为支持千字文本的AI智能框,保留传统搜索模式 [6] - "百看"功能优先呈现富媒体内容(视频讲解、智能总结等) [6] - 功能从信息检索升级为任务交付,支持一键打车或购买套餐 [6] 六、医疗AI诊断系统 - 微软MAI-DxO系统准确率85.5%,比10年经验医生高4倍 [7] - 通过5个虚拟医生角色协作模拟真实诊断流程 [7] - 发布SDBench基准,含304个挑战性诊断案例 [7] 七、多模态视频生成平台 - 百度MuseSteamer模型支持720p-1080p视频生成,刷新VBench-I2V榜单 [8] - 提供Lite/Turbo/Pro/有声四个版本,满足不同创作需求 [8] - 技术亮点包括中文语义精准理解和音视频一体化生成 [8] 八、AI爬虫内容变现新模式 - Cloudflare推出"Pay Per Crawl"功能,允许网站对AI爬虫收费或封锁 [10] - OpenAI需1500次抓取带回1次点击,Anthropic需73300次,生态失衡 [10] - 通过HTTP 402状态码实现收费控制,开创内容授权变现模式 [10] 九、AI药物发现突破 - Chai-2模型在抗体设计中实现16%命中率,比前技术提高100倍 [11] - 24孔板内为50%测试靶点找到有效抗体,研发周期缩短至两周 [11] - 微蛋白设计湿实验室成功率68%,解锁传统技术无法实现的开发 [11] 十、AI对文化创作影响 - AI写作使文章标准化,麻省理工实验显示学生大脑活动水平降低 [12] - 康奈尔研究证实AI导致文化同质化(如答案风格趋同) [12] - 长期使用AI工具会使用户转向"策展模式",削弱原创性思维 [12]
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
量子位· 2025-07-02 10:02
SRFT团队 投稿 量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合,让大模型在训练时能同时利用专家演示和自我探索试错,有效提升大模型推理性能。 中国科学院自动化研究所深度强化学习团队 联合 美团 ,提出一种 单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制,将两种训练范式结合。 在大语言模型(LLM)的推理能力提升上,监督微调(SFT) 和强化学习(RL,有时也称作强化微调,RFT)是两条核心技术路线。但它们 各自都存在瓶颈: SFT擅长模仿专家解题思路,类似"背书",能快速为模型打下基础,但缺点是容易陷入死记硬背,缺乏在新问题上灵活应用和寻找最优解的能 力; RFT/RL通过不断试错来探索解题方法,类似"刷题",能够发现更优解法,但其探索过程效率低下,容易面临模式崩溃风险。 因此,目前研究者通常采用两阶段 顺序 方法SFT→RFT/RL:先用SFT学习高质量数据集,再用RFT/RL进一步优化对齐LLM策略(即先"背 完书"再"去刷题")。 然而,这种串行方式不仅影响学习效率,还常常导致模型 ...
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 19:33
核心观点 - 视觉-语言模型(VLM)为机器人带来"看图执行指令"的新范式,但现有系统多为"小脑"模型,缺乏长期规划与记忆管理能力 [7] - 提出RoboCerebra基准,专注于评估大小脑协同能力,包含长时序(平均2,972步)、多扰动、强记忆约束的任务场景 [8] - 配套发布Hierarchical Planning & Execution (HPE)框架,实现大脑VLM与小脑VLA的高效协同 [22] 数据集构建 - 数据生成采用GPT自动生成高层任务并递归拆分子目标,经符号与视觉双重验证后人工标注 [13] - 包含1,000条人工标注轨迹,覆盖100个任务变体,平均每条轨迹由9.1个原子动作构成,总步数达2,972步 [17][18] - 引入六类代表性子任务:Ideal、Memory Exploration、Memory Execution、Random Disturbance、Observation Mismatching、Mix [16] 评测体系 - 设计四维核心指标:任务成功率、计划匹配精度、计划效率、动作完成一致性 [21] - 采用锚点同步机制确保不同方法在子计划切换上的时序一致性 [21] - 在Memory任务中新增探索成功率、探索效率、决策准确率等细分指标 [32] 实验发现 - 层次化框架在Memory Execution场景提升幅度超70%,验证协同机制有效性 [26] - GPT-4o表现最优,平均成功率16.04%,但较人工最优计划仍有9%差距 [28][29] - 当前VLM在探索阶段成功率可达80%,但执行阶段决策准确率仅30%,显示记忆保持能力不足 [31] 技术框架 - HPE框架实现认知层与执行层解耦:VLM-Planner低频处理观测生成子目标,VLA-Controller高频执行动作 [24] - 通过共享Memory Bank实现状态共享与自适应replanning [24] - 支持多模态大模型接入,包括GPT-4o、Qwen2.5-VL、LLaVA-Next-Video等 [24]
国内首家!商汤科技大装置万象获得中国信通院“大模型推理平台”最高评级认证
评估结果与行业地位 - 商汤大装置万象大模型开发平台获得中国信通院可信AI《大模型推理平台通用能力成熟度》评估最高评级4+级,成为国内首家获此评级的大模型推理平台[1][3] - 该评估由70余家单位联合编制标准,聚焦88个能力项(34项基本功能+54项高级功能),覆盖部署、推理、服务与管理环节,是国内最具权威性的大模型推理平台评估之一[3] - IDC报告显示商汤万象平台以13%市场份额位居中国AI大模型解决方案市场第二位,持续领跑行业第一梯队[5] 技术优势与性能表现 - 平台提供从开发到应用的全链条工具,兼容GPU/NPU等异构推理加速卡,内置自研推理引擎可降低50%以上推理成本[4] - 在部署、推理、服务环节表现优异,具备低时延、高吞吐、可扩展特性,配备模型/算法/推理引擎/知识库等完整套件[3][4] - 建立完整安全机制,为企业大模型落地提供安全保障[4] 行业应用案例 - 已落地交通、消费、政务、自动驾驶、智能家居、医疗等多个领域[4] - 交通领域:构建工程勘察设计智能平台,实现知识检索/智能问答/报告生成,解决知识传承困难等痛点[4] - 消费领域:通过RAG技术和文档插件为企业打造AI助理,提升知识获取效率[4] - 政务领域:简化部署工程实现开箱即用,支持政府机构建设小型AI创新平台[4] 发展战略 - 未来将继续依托AI原生技术栈和行业级解决方案,结合专家服务体系,突破大模型落地"最后一公里"[5]
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 15:44
本文共同第一作者为张均瑜与董润沛,分别为伊利诺伊大学厄巴纳-香槟分校计算机科学研究生与博士生;该研究工作在伊利诺伊大学厄巴纳-香槟分校张欢 教授与 Saurabh Gupta 教授,加州大学伯克利分校 Jitendra Malik 教授的指导下完成。 「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011) 在思维节奏这件事上,人类早已形成一种独特而复杂的模式。 他们提出了一种新的测试时推理调控框架—— AlphaOne ,主张让模型反其道而行:先慢速思考,再快速推理。 令人意外的是,这一策略不依赖任何额外训练,仅需在测试阶段引入一个全局推理调控超参数 α ,即可显著提升模型的推理准确率,同时让生成过程更加 高效紧凑。或许,是时候重新思考: AI 真的需要「像人类」那样思考吗? 看似聪明的推理,其实是不懂停下来的错觉 近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在复 ...
一次集成,减少 80% 适配工作!从 0 到 1 开发一款 MCP Server 难不难?
AI前线· 2025-06-20 10:47
既然 MCP 在大模型应用开发中如此重要,要从 0 到 1 开发出一款 MCP Server 到底难不难? 作者 | 冬梅 硅谷的咖啡厅里,永远流传着这样的传说:一个天才开发者,一台电脑,一段颠覆行业的代码。但当 31 岁的 Maor Shlomo 在特拉维夫的公寓里敲下 Base44 的第一行代码时,他没想到这个故事会以 8000 万美元的现金收购落幕——没有风投加持,没有百人团队,只有 8 名员工和 180 天的闪电战。 AI 正在快速发展,大语言模型处于这一变革的前沿。随着这些模型在理解和生成类人文本方面日益 精进,将其与外部系统集成的需求也显著增长。这种集成有望开启一个全新的应用时代,使之能够利 用真实世界的数据和工具来增强功能,并提供更符合语境的响应。 然而,将大语言模型连接到外部资源的传统方法通常需要针对每个数据源进行复杂且定制化的实现, 从而导致架构碎片化且难以扩展。 Anthropic 的模型上下文协议 (MCP) 应运而生,成为应对这些挑战的关键解决方案。 过去,如果我们想让 AI 处理数据,通常只有两种选择:要么依赖预训练好的静态知识库,要么手动 上传数据。这种方式不仅效率低下,还存在明显 ...
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 23:30
2025中国AI算力大会概况 - 大会将于6月26日在北京中关村东升科技园万丽酒店举行,由智一科技旗下智猩猩、智东西联合主办,芯东西协办,是"智领未来"北京人工智能系列活动之一 [1] - 大会设置主会场、分会场和展览区,主会场包含高峰论坛、AI推理算力专题论坛和智算中心专题论坛,分会场将举行智算集群异构混训技术研讨会和超节点技术研讨会(闭门制) [1][2] - 已邀请近30位重量级嘉宾参会,包括中国信息通信研究院、摩尔线程、中昊芯英、魔形智能科技等机构和企业代表 [1][4][5] 主会场核心议题与演讲亮点 高峰论坛 - 摩尔线程副总裁王华将分享基于FP8的国产万卡集群训练实践,其夸娥(KUAE)智算集群解决方案已从千卡扩展至万卡规模,支持FP8精度计算满足DeepSeek V3/R1等大模型需求 [12][13] - 趋境科技陈祥麟将探讨千亿大模型私有化门槛降低10倍的技术路径,包括开源框架KTransformers实现单卡运行千亿大模型等创新 [31][32] - 中昊芯英CEO杨龚轶凡拥有74项中国专利和15项国际专利,曾参与Google TPU 2/3/4研发,将分享高端芯片设计经验 [16][17] AI推理算力专题论坛 - 安谋科技产品总监鲍敏祺将发布新一代"周易"NPU产品,采用大模型优化架构设计提升端侧算力,推动AI从云端下沉至终端设备 [39][40] - 实在智能欧阳小刚将展示Agent智能体技术在端侧的轻量化应用,包括模型高效推理引擎优化策略 [45] - 白山云科技李金锋将介绍边缘AI推理四大技术突破:异构资源弹性调度、智能网关全网调度、算力单元推理优化及模型加载优化技术 [49][50] 智算中心专题论坛 - 图灵新智算洪锐提出基于Token生成能力的智算集群效能评价体系,量化计算资源利用率 [5] - 趋动科技张增金倡导软件定义AI算力模式,通过虚拟化技术实现GPU资源池化,提升智算中心资源调度效率 [65][66] - 百度智能云郝玉涛分享AIDC技术突破:实现单体IDC万卡到3万卡集群部署,具备10万卡集群技术能力 [60][61] 分会场闭门研讨会重点 智算集群异构混训技术研讨会 - 壁仞科技丁云帆、中国移动王升等专家将探讨混合架构下的分布式训练优化方案 [68] - 商汤大装置技术产品总监刘叶枫将分享大规模异构算力调度经验 [68] 超节点技术研讨会 - 阿里云卢晓伟将解析基础设施异构硬件解决方案 [71] - 曦智科技孟怀宇聚焦光计算技术在超节点架构中的应用 [71] 行业技术发展趋势 - 大模型训练需求推动算力基础设施升级:模型参数量从千亿迈向万亿,万卡集群成为行业标配 [12] - 编译技术成为AI基础设施关键环节:中科加禾崔慧敏、魔形智能徐凌杰均指出其可解决硬件异构性和模型复杂性挑战 [22][26] - 边缘计算与中心云协同趋势明显:白山云等企业推动"云-边-端"全域智能范式演进 [49][50]
云天励飞-U:推理需求攀升 卡位国产化AI算力机会
证券时报网· 2025-06-16 19:28
公司业绩与业务调整 - 2024年度公司实现营业收入9.17亿元,归属净利润-5.79亿元 [1] - 2025年一季度营业收入2.64亿元,同比增长168%,归属净利润-8564万元,亏损同比减少 [1] - 业务模块优化调整为消费级、企业级和行业级三大场景化板块 [1] - 一季度营收增长主要来自企业级和消费级场景业务收入增加 [1] - 企业级业务包括芯片模组销售和算力集群服务 [1] - 消费级业务包括可穿戴设备和AI交互类产品 [1] AI芯片研发进展 - 已开发DeepEdge10C、DeepEdge10标准版、DeepEdge10Max和DeepEdge200四款芯片 [2] - 2024年推出大模型推理加速卡IPU-X6000 [2] - DeepEdge10芯片采用国产14nmChiplet工艺和RISC-V核 [2] - 芯片架构覆盖8T-256T算力应用,支持7B-130B参数量大模型推理 [2] - 已完成DeepSeekR1系列模型和鸿蒙系统适配 [2] - 在机器人、边缘网关、服务器等领域实现商业化应用 [2] 技术研发与市场趋势 - 打造神经网络处理器NNP400T适配大模型运算 [3] - 2025年将加强面向大模型的专用指令集、算子等技术研发 [3] - 人工智能算力需求从训练计算向推理计算倾斜 [3] - 2024年研发投入近4亿元,同比增长约36% [3] - 部分IPO募投项目延期并调整投资结构 [3] 发展战略与产品规划 - AI推理算力作为基础设施将迎来爆发式增长 [4] - 推出多款消费级产品,建立全渠道营销体系 [4] - 构建"硬件+内容+服务"生态闭环 [4] - 2023年12月推出国内第一款量产AI眼镜 [4] - 通过收购整合硬件能力丰富AIoT产品矩阵 [4]
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 15:37
在大模型快速演进的浪潮中,模型本身不再是唯一的挑战, 推理慢、训练不稳、数据难迁 等"系统性问题"正成为决定技术能否规模化落地的关键变量。 特别是对国产 AI 而言,算力适配、系统容错、数据合规等问题,更是绕不开的现实考验。 6 月 27~28 日, AICon 全球人工智能开发与应用大会·北京站 将带来聚焦系统层的七大关键议题,涵盖 国产芯片推理适配、开源部署实践、大规模训练容 错机制、AI 数据底座的云原生演进 等多个方向。既有深耕国产平台的实践派,也有活跃在开源社区的一线开发者,共同勾勒出国产 AI 基础设施建设的技术 全貌。 了解大会日程查看: https://aicon.infoq.cn/2025/beijing/schedule 以下是这七个演讲议题前瞻,一起提前了解他们将带来的分享内容: 昇腾 DeepSeek 大模型推理架构 by 王建辉 华为昇腾 / 架构师 在大模型加速部署进入深水区的今天,如何在国产算力平台上高效运行大模型,已成为影响应用落地的重要一环。本次分享将介绍昇腾 DeepSeek 大模 型推理架构,性能优化方案及关键优化措施,以及优化建议。 ✨ 关键词: 昇腾芯片推理优化 / ...