NVARC
搜索文档
腾讯研究院AI速递 20251209
腾讯研究院· 2025-12-09 00:01
微软开源轻量级实时TTS模型 - 微软开源0.5B参数的实时TTS模型VibeVoice-Realtime-0.5B,首包延迟仅300毫秒,支持流式朗读,发布12小时获得12.3K星标 [1] - 模型采用交错窗口架构支持长文本无卡顿朗读,最多支持4个角色自然对话,具备情绪识别与表达能力,长时上下文记忆可达90分钟 [1] - 模型同时支持中英文语音生成,在LibriSpeech和SEED TTS测试集上错字率约2%,说话人相似度达0.65以上 [1] 智谱开源多模态大模型GLM-4.6V - 智谱正式上线并开源GLM-4.6V系列多模态大模型,包括106B-A12B基础版和9B轻量版Flash,训练上下文窗口提升至128k tokens,价格相较GLM-4.5V降低50% [2] - 首次在模型架构中将Function Call能力原生融入视觉模型,实现“图像即参数,结果即上下文”的多模态工具调用 [2] - 在同参数规模下达到SOTA表现,9B版本整体超过Qwen3-VL-8B,106B参数版本比肩2倍参数量的Qwen3-VL-235B [2] 可灵O1推出主体库与对比模板功能 - 可灵O1推出“主体库”功能,支持上传多角度参考图构建专属角色、道具和场景,视频O1支持至多7个主体,图片O1支持至多10个主体组合 [3] - 新增AI补图功能,可根据一张主要参考图自动扩展更多视角并智能生成主体描述 [3] - “对比模板”功能一键整合多模态创作,实现Prompt、参考图、主体等所有输入与最终成品的同框对比 [3] 美团开源图像编辑模型LongCat-Image - 美团LongCat团队发布并开源6B参数LongCat-Image模型,在ImgEdit-Bench(4.50分)、GEdit-Bench中英文(7.60/7.64分)等图像编辑基准测试中达到开源SOTA水平 [4] - 采用文生图与图像编辑同源架构及渐进式学习策略,在中文文字生成方面ChineseWord评测以90.7分大幅领先,覆盖通用规范汉字表8105个汉字 [4] - 全面开源文生图多阶段模型和图像编辑模型,GenEval 0.87分、DPG-Bench 86.8分的表现使其在生图基础能力上具备强竞争力 [4] 腾讯发布混元2.0大模型并接入DeepSeek - 腾讯自研大模型混元2.0正式发布,采用MoE架构,具备406B总参数量(激活参数32B),支持256K超长上下文窗口 [5][6] - DeepSeek V3.2同步在腾讯生态内接入,重点提升推理表现与长文本生成质量,在公开推理类评测中能力达GPT-5水平,略低于Gemini-3 Pro [6] - 两大模型已在腾讯AI原生应用中上线,腾讯云同步开放API及平台服务,多款产品正在陆续接入 [6] 阿里发布多语言多方言TTS模型Qwen3-TTS - 阿里通义团队发布Qwen3-TTS新一代文本转语音模型,提供49种高保真角色化音色 [7] - 支持10种语言和9种中文方言,保留真实语调与地域口音 [7] - 在MiniMax TTS multilingual test set上平均WER表现优于竞品,韵律控制相比上一代有明显感知级提升 [7] 英伟达小模型在AGI测试中成本优势显著 - 英伟达4B小模型NVARC在ARC-AGI 2测试中以27.64%公开榜成绩力压GPT-5 Pro的18.3%登顶榜首,每任务成本仅20美分,约为GPT-5 Pro单任务成本的1/36 [8] - 采用零预训练深度学习方法,通过大规模合成高质量数据(320万+增强样本)和测试时微调技术,针对每个问题进行LoRA微调快速适应 [8] - 选用Qwen3-4B小参数模型通过对话式模板简化谜题理解,借助NeMo RL框架进行监督微调 [8] 普渡发布行业级自主导航四足机器人 - 普渡机器人正式发布行业级自主导航四足机器人PUDU D5系列,提供轮足/点足两个版本,搭载NVIDIA Orin与RK3588双芯片架构,总算力高达275TOPS [9] - 配备四目鱼眼相机与双192线激光雷达,实现厘米级精准定位和环境重建,可稳定承载30公斤负载,单次充电续航达14公里,整机防护IP67 [9] - 采用仿生轮足融合系统,最高速度可达5米/秒,具备30°斜坡攀爬与25厘米连续越阶能力,适用于多场景应用 [9] 关于大语言模型使用方法的观点 - 观点认为不应把大语言模型看作实体,而应视作模拟器,避免使用“你怎么看”这样的提问方式 [10] - 建议采用更有效的提问策略,让LLM引导或模拟多种视角,而非局限于单一AI人格 [11] - 强调模型的“你”是被刻意设计并硬加上去的,通过SFT和RLHF构建的复合人格本质上仍建立在Token模拟引擎之上 [11]
英伟达4B小模型击败GPT-5 Pro,成本仅1/36
36氪· 2025-12-08 15:23
核心观点 - 英伟达团队开发的4B小模型NVARC在ARC-AGI 2竞赛中以27.64%的公开榜成绩超越GPT-5 Pro的18.3%登顶榜首,其单任务成本仅20美分,约为GPT-5 Pro成本(超过7美元)的1/36,展现出小模型在特定任务上卓越的性价比和性能优势 [1] - 该成就的关键在于采用了零预训练深度学习方法,规避了传统大规模预训练模型的领域偏见和数据依赖问题,并通过创新的合成数据生成与优化策略,在计算资源受限的竞赛环境中实现了高效推理 [3][8] 技术方法与策略 - 团队策略是将复杂的推理工作转移至离线的合成数据管道进行,训练能够在评估时快速运行的较小模型,而非依赖参数堆叠 [8] - 由于Kaggle比赛对计算资源限制严格,团队利用GPT-OSS-120B等大型模型在离线阶段大规模制作高质量的合成谜题,以规避在线推理的高昂算力成本 [10] - 为确保合成数据质量,团队将复杂推理管线拆分为可独立验证的不同阶段,最终建立了一个包含超过325万增强样本的合成数据集,其中每个样本最多有7对输入/输出 [11][12] 模型架构与训练 - NVARC核心推理模块基于改进的ARChitects方法,选用小参数模型Qwen3-4B,并通过对话式模板简化谜题理解 [14] - 训练借助NeMo RL框架和Megatron后端进行监督微调,但取得优异成绩的关键在于测试时微调技术 [14] - 针对ARC-AGI 2“每个任务都是全新规则”的特点,NVARC为每个问题引入LoRA微调技术,使模型在解题前能快速适应,并对解码阶段的DFS算法进行了批处理优化,统一了8种数据增强操作来评估候选解 [14] 数据合成与规模 - 团队从H-ARC、BARC等数据集中搜集现有ARC谜题,并通过混合简单谜题生成更复杂的新谜题来扩充数据 [13] - 构建的合成数据集规模庞大,其中来自NVARC full的数据源贡献了约178.6万个样本,占总样本数325.5万的54.9% [12] - 该方法强调了合成数据规模扩展的重要性,与Scaling Law的理念相呼应 [12] 行业意义与启示 - 在特定领域任务中,经过针对性优化的小模型在性能上可媲美甚至超越全面发力的大模型,并具备成本、速度、适配性与领域聚焦等多重优势 [16] - 该案例表明,将正确的方法应用于正确的场景能实现更大价值,模型设计应趋向“敏捷”,以在特定场景中发挥最大效能 [16][17]
英伟达4B小模型击败GPT-5 Pro!成本仅1/36
量子位· 2025-12-08 14:07
英伟达小模型持续获胜。 ARC-AGI 2最新成绩,4B小模型 NVARC 以 27.64% 的公开榜成绩力 压GPT-5 Pro 18.3%登顶榜首。 且每任务成本仅20美分,大约是GPT-5 Pro单任务成本(超过7美元)的 1/36。 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 据官方分析,此次NVARC夺冠的亮点在于 零预训练深度学习方法 ,没有依赖大规模通用数据集进行前期预训练, 规避了预训练模型的领域 偏见、数据依赖等问题。 而ARC-AGI 2确实是一个消除了与公共训练数据重叠的更高难度测试, 主要是看测试模型能否高效地获取超出其训练数据的新技能。 快来看看"性价比之王"是如何"练"成的? 不靠参数堆料 英伟达的策略是将复杂推理移至离线的合成数据管道, 训练能在评估时快速运行的较小模型。 简单来说就是 大规模合成高质量数据 ,然后对现有模型进行优化, 并且 将昂贵的计算工作转移到离线进行 。 为了确保数据质量,他们将复杂的推理管线拆分成不同的阶段,每个阶段都可以独立验证。 通过这种方式,他们建立了一个含320万+ 增强样本的合成数据集,其中每个样本最多有7对输入/输出。 | Sourc ...