Workflow
量子位
icon
搜索文档
无需重训练+即插即用+性能零损耗,蚂蚁集团×南洋理工首发微调安全框架,让模型既安全又高效
量子位· 2025-11-19 14:20
文章核心观点 - 蚂蚁集团与南洋理工大学联合推出名为EnchTable的模型安全对齐框架,旨在解决大语言模型在微调后安全能力下降的问题[3] - 该框架基于“安全蒸馏+干扰感知融合”两大核心技术,无需重新训练即可将安全知识从已对齐模型迁移至微调模型,实现安全与效用的最佳平衡[3][4] - EnchTable在多种模型架构和任务上表现优异,其安全防御能力甚至超越了官方的Instruct安全模型[3][26] 技术原理与创新 - **核心发现:安全对齐具有可迁移性**:研究团队认为安全对齐是一种可迁移的知识,无需在每个微调模型上重新学习,可将其作为独立模块进行提取和注入[6][7] - **面临两大挑战**:一是如何从模型参数中纯净地解耦出仅代表“安全”的知识向量;二是如何将该向量注入微调模型而不干扰其下游任务性能[8] - **双层解决方案**: - **NTK约束的安全向量蒸馏**:引入基于神经正切核的线性化方法,提取出纯净、尺度稳定的安全向量,此过程对每种模型架构只需执行一次[13][14] - **基于干扰感知的参数合并**:采用“粗粒度+细粒度缩放”双重机制,通过范数比例全局缩放,并利用奇异值分解逐层分析干扰,智能调整安全向量权重,以最小化对下游任务的影响[16][17][18][19] 实验效果与性能 - **安全与效用平衡**:在基于LLaMA3、Qwen2.5、Mistral三种架构和11个数据集的全面验证中,EnchTable在所有任务域上实现了最佳的安全-效用权衡[20][21] - **具体数据表现**: - **安全性提升**:在代码任务上,将微调模型的不安全率从0.802降至0.019;在数学任务上,从0.471降至0.006[25] - **效用性保持**:在代码任务上,效用分稳定在0.644;在医疗任务上,效用分稳定在0.738,几乎与微调模型的0.737持平[22] - **强大的泛化与鲁棒性**: - 支持架构泛化、全量微调和高效微调范式泛化,以及具有特殊模式的推理模型泛化[24] - 面对10种高级越狱攻击,其防御能力显著优于微调模型,甚至强于官方Instruct安全模型[26] - **高效轻量**:整个框架无需重新训练,向量蒸馏为一次性成本,合并过程高效,可无缝集成到部署流程中[28] 行业应用与意义 - **解决行业痛点**:针对“微调即服务”浪潮和模型定制化趋势下,微调导致安全对齐失效的行业普遍问题[29][30] - **广泛适用性**:方案支持LLaMA、Qwen、Mistral等主流架构,兼容全量微调和高效微调范式,适用于代码生成、数学推理、医疗分析等数据与安全敏感型场景[30] - **提供可落地方案**:作为“后处理”解决方案,无需依赖训练数据或大量计算资源,为AI平台时代的模型安全提供了实用的技术方案[30]
融资数亿、营收过亿!黄仁勋频频关注的具身赛道隐形冠军浮出水面
量子位· 2025-11-19 14:20
公司融资与市场地位 - 光轮智能完成数亿元A轮和A+轮融资,投资方包括东方富海、九派资本等机构投资者以及三七互娱、琥珀资本等产业方,老股东辰韬资本持续加注[2][3] - 公司是全球唯一专注仿真合成数据的技术公司,也是全球首家将生成式AI融入仿真技术的公司,年营收已突破亿元[3][47] - 创始人谢晨是圈内声名卓著的大佬,曾担任英伟达、Cruise及蔚来的仿真负责人[3] 行业趋势与风口 - AI浪潮正从信息领域扩散至物理现实,行业注意力集中到世界模型和具身智能,它们是打通AI与物理世界之间壁垒的关键路径[6][9] - 物理AI是黄仁勋在2025年年初点燃的风向,风口拐点正在不断被证明[4][5] - 行业训练范式转向数据驱动,进入"数据决定性能"阶段,仿真合成数据从"补充资源"推至"基础要素"[26][54] 仿真合成数据的技术价值 - 仿真合成数据结构更清晰、精度更高、可控性更强,ROI更高,是满足具身智能和世界模型所需数据的最佳方案[14][22] - 训练世界模型和具身智能模型需要规模化、结构化、可控性强的多模态交互过程数据,仿真合成数据具备这些特点[10][14] - 世界模型对数据需求量级更大,追求泛化与物理预测,仿真合成数据能极大提升模型的物理理解和预测能力[18][21] 光轮智能的技术与生态优势 - 公司深度参与英伟达仿真系统底层共建,是Newton物理引擎早期验证者和开发合作者,参与SimReady仿真数据资产标准制定及Isaac Lab Arena策略评估平台核心建设[33] - 光轮智能的仿真合成数据能力已被嵌入世界模型训练标准流程,在底层引擎、数据标准、评测平台三个维度形成不可替代角色[34] - 公司与英伟达、谷歌、阿里、字节等大模型公司,Figure AI、1X Technology等机器人本体公司,以及Toyota、BOSCH、比亚迪、吉利等行业公司合作,客户覆盖全球前三的世界模型[45] 业务模式与服务能力 - 光轮智能提供全生命周期服务,在预训练阶段提供合成数据和人类视频数据,后训练阶段提供高质量仿真合成数据并支持强化学习精调,测试阶段提供仿真平台服务和评估标准[42] - 公司提供数据、平台、评测全流程服务,形成端到端闭环,区别于上一代数据供应商[43] - 国际主要具身团队的仿真资产和合成数据有80%以上来自光轮,公司收入远超去年10倍,已过亿元[45][50] 融资用途与战略定位 - 融资主要目的是扩大供给,强化规模化交付能力,引领具身智能的拐点性变革[52][53] - 公司目标构建物理AI的数据基础设施,成为行业"共用数据底座",借先发优势做长远打算[57][59] - 行业数据观正从"被采购的资源"转向"可服务的平台",光轮智能掌握新一代智能体系的底层资源[61][62]
文献、报告、合同翻译的老大难被国产工具治了?三大翻译神器横评后,这家稳得离谱
量子位· 2025-11-19 14:20
核心观点 - 百度文档翻译在翻译准确性、AI辅助功能和排版还原度方面表现优于Google翻译和DeepL,尤其在处理学术论文等专业文档时优势明显 [59] 通用场景翻译能力 - 百度文档翻译将功能细分为通用场景、AI论文精翻、AI译后编辑、arXiv在线翻译四个专区,并内置覆盖10+专业领域的翻译模型 [8] - 产品支持200+种语言互译,专业翻译准确率高达90% [17] - 在学术论文翻译测试中,百度文档翻译对"examples"等术语的翻译更贴合学术语境,译为"样本"而非"示例" [17] - 产品支持图片内文字识别与翻译,以及表格内容翻译,能处理图文混排的复杂文档 [18][20] - 支持直接输入arXiv论文链接进行一键全文翻译,省去下载和格式转换步骤 [21] AI辅助功能 - 百度文档翻译在翻译界面右侧提供AI助手,支持快速回答、专业回答、深度思考三种模式 [26] - AI助手能总结论文的创新点、研究方法和结论,并支持逐句提问解答具体内容 [28][30] - 具备一键润色功能,可优化翻译文本的语句表达,减少机翻痕迹 [32] - 能够对论文中的专业术语进行详细解释 [34] - 相比之下,Google翻译不支持AI功能,DeepL的Write功能仅提供基础润色,智能程度有限 [24] 排版还原与编辑能力 - 百度文档翻译在公式、图表、字体样式、段落间距等方面几乎实现1:1原文格式还原 [43] - 支持上传最大200M的文件,并支持Word、PDF、PPT等多种格式的导入和导出 [44] - 提供"AI译后编辑"功能,支持在保留原文格式的基础上逐句对照修改,可进行加粗、倾斜、划线等操作 [52][54] - 提供表格视图模式,便于逐段审阅和编辑,并自动核查术语准确性 [55] - Google翻译仅支持标记原文,DeepL不支持翻译后编辑 [49]
Gemini 3打服奥特曼马斯克,谷歌CEO却在担心AI泡沫
量子位· 2025-11-19 13:02
谷歌CEO对AI行业的观点 - 谷歌CEO皮猜认为当前万亿美元AI投资热潮存在“非理性因素”,并警告AI泡沫一旦破裂将无人幸免 [3][29] - 其将当前AI热潮与2000年的“互联网泡沫”相提并论,但同时也承认AI技术具有深远意义,如同互联网一样将产生巨大影响 [29][30][31] - 皮猜建议对AI信息保持审慎,不要盲目相信AI提供的信息,并应借助搜索等其他工具进行验证 [33][34] 科技巨头AI投资动态 - Meta将其2025年资本支出预期从660-720亿美元上调至700-720亿美元,并预计2026年支出增长将“显著高于”今年 [10][11] - 微软截至9月30日的资本支出总额为349亿美元,高于分析师预期及上一季度的240亿美元 [15] - 谷歌和YouTube的母公司Alphabet将今年营收预期从850亿美元上调至910-930亿美元,几乎是其2024年资本支出的两倍 [18][19] AI行业估值与市场表现 - 英伟达成为首家市值突破5万亿美元大关的公司,其市值约等于A股总市值的近三分之一 [20][21] - OpenAI通过员工股份二级转售估值达5000亿美元,较今年3月的3000亿美元估值增长近67% [23] - 尽管估值高企,OpenAI最新季度亏损达115亿美元,并对主要投资者微软的净利润造成31亿美元的负面影响 [24][25][26] 行业竞争与战略方向 - Meta首席执行官扎克伯格表示看到AI带来的巨大机遇,并指出当前应用程序和广告业务处于计算资源匮乏状态,需要加快AI进程 [12][13] - 微软CEO纳德拉强调公司将继续加大对AI的资金和人才投入以抓住未来机遇 [16] - 谷歌将Gemini模型与搜索能力整合,以降低AI回答错误率,并视此为“AI平台转型”的新阶段 [35][36]
周靖人署名,通义实验室开源智能体自进化系统:让模型学会“自我反思”,14B也能越级打怪
量子位· 2025-11-19 13:02
核心观点 - 公司开源了名为AgentEvolver的智能体自进化系统,该系统通过自我提问、自我导航、自我归因三大模块,使智能体能在开放环境中自主演化行为能力 [2] - 该系统在14B模型上将任务平均完成率从29.8%大幅提升至57.6%,性能近乎翻倍,并展现出卓越的跨域泛化能力和高效学习特性 [2][4] 性能表现 - 在14B模型上,AgentEvolver将基准模型的任务平均完成率(avg@8)从29.8%提升至57.6%,最佳尝试(best@8)指标达到76.7% [4] - 在7B模型上,平均完成率从15.8%跃升至45.2%,证明该框架对不同规模模型具有普适性增强能力 [5] - 强化后的14B模型在特定任务上表现已超越未优化的32B乃至更大参数模型,实现越级挑战 [5] - 学习效率极速收敛,达到基线模型90%性能水平时,训练步数在AppWorld任务中减少55.6%,在BFCL任务中减少66.7% [7][8] 技术架构与机制 - 系统本质是利用大语言模型自身理解力,构建数据-探索-反馈的自动化流程,由Master节点统一调度任务生成、轨迹采样、经验总结和模型优化四个阶段 [13][15] - 采用服务化解耦设计,将环境服务、模型服务和执行层拆分为独立服务以支持大规模训练 [16] - 引入上下文管理器应对长程任务挑战,支持基础因果、推理增强、滑动窗口及自主上下文管理四种范式 [18] - 通过自我提问机制主动合成候选任务构建训练课程,打破对外部数据的依赖 [21][23] - 通过自我导航机制将历史探索轨迹抽象为结构化文本经验,使智能体具备举一反三能力,提高探索成功率 [24][25][26][28] - 通过自我归因机制引入基于大语言模型的过程奖励模型,对每个动作步骤进行细粒度因果分析和打分,提升策略优化样本效率 [30][31][33] 泛化能力 - 仅使用合成数据训练的模型迁移到全新领域时性能衰减微乎其微,例如在AppWorld上训练的模型直接用于解决BFCL任务时表现良好 [9][10] - 跨域泛化性极强,表明系统真正掌握了通用的工具使用与推理逻辑能力,而非记忆特定环境题库 [11]
谷歌抢跑L3级AI,Gemini连续工作40分钟,Agent自动生成评审百条创意
量子位· 2025-11-19 09:37
文章核心观点 - 谷歌Gemini企业版通过多智能体竞赛系统和长时思考能力,在单一任务上实现连续40分钟自主运行,标志着公司在L3级代理型AI的实践上取得领先突破 [1][2][3][4][6][7][10][11][12][19][20][21][26][27][29][30][31][32][33][35][36][37] 多智能体竞赛系统技术架构 - 系统整合多智能体工作流、长时思考与对抗式生成三大要素,通过"时间换质量"策略提升输出内容的结构化程度与洞察力 [10][11][12] - 具体流程包括:接收主题与评估标准后大规模生成100+初始创意,再由多个智能体以竞赛方式评分排序,最终产出附带概述、细节、评论及完整评审记录的结构化报告 [13][14][15] - 系统在正式运行前会先提供"计划评估项目和创意维度"概要,需用户确认后才执行任务,以优化需求确认与算力使用效率 [21] 应用场景与产品化进展 - 当前预览版推出创意生成与合作科研两大场景:前者针对主题生成排序创意,后者侧重科研任务的数据驱动评估 [17][18] - 同步测试的文档对话智能体支持上传最大30MB的PDF文件,将长文档内容整合至模型上下文,提升信息提取质量 [23][25][26] - 功能均集成于Gemini企业版,虽处开发阶段,但已展现通过企业级算力支撑复杂任务执行与迭代优化的能力 [26][32] L3级AI行业意义与发展趋势 - L3级AI核心定义为"代理能力",要求AI在用户授权下自主执行任务并持续运行多天,Gemini的40分钟连续运行为行业向L3迈进提供实践范本 [27][29][30][31][32] - 行业预测显示技术迭代加速:网友推测明年可能出现连续工作3小时的智能体,Anthropic则给出2026年实现8小时连续运行的时间线 [33][35] - 长期展望认为人类角色将逐步聚焦于问题设计与标准制定,Agent有望通过持续进化触及L4级创新者门槛 [36][37]
谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了
量子位· 2025-11-19 09:37
模型性能突破 - 谷歌Gemini 3 Pro在几乎所有基准测试中超越GPT-5.1和Claude4.5,包括专为AGI准备的测试[1] - 新模型在Humanity's Last Exam测试中,无工具条件下得分37.5%,使用搜索和代码执行后提升至45.8%,显著高于GPT-5.1的26.5%[2] - 在视觉推理ARC-AGI-2测试中得分31.1%,远超Gemini 2.5 Pro的4.9%和GPT-5.1的17.6%[2] - 数学能力表现突出,AIME 2025测试无工具条件下得分95.0%,使用代码执行后达到满分100%[2] - 在极具挑战性的MathArena Apex数学竞赛问题测试中得分23.4%,而Gemini 2.5 Pro仅0.5%,GPT-5.1为1.0%[2] - 多模态理解能力显著提升,MMMU-Pro测试得分81.0%,高于GPT-5.1的76.0%[2] - 编程能力卓越,LiveCodeBench Pro测试Elo评分达到2,439,高于GPT-5.1的2,243和Gemini 2.5 Pro的1,775[2] 智能体与工具使用能力 - 终端编码任务Terminal-Bench 2.0测试得分54.2%,高于GPT-5.1的47.6%和Claude4.5的42.8%[2] - 智能体编码SWE-Bench Verified测试单次尝试通过率76.2%,与Claude4.5的77.2%和GPT-5.1的76.3%相当[2] - 工具使用τ2-bench测试得分85.4%,优于GPT-5.1的80.2%和Claude4.5的84.7%[2] - 长周期智能体任务Vending-Bench 2模拟管理自动售货机一年净收益达5,478.16美元,为所有模型中最高,远超GPT-5.1的1,473.43美元[2][10] 用户评价与市场地位 - 在大模型竞技场Text Arena中,Gemini 3 Pro以1501分排名第一,超越Grok-4.1-thinking的1484分[3] - 总投票数达4,553,123票,涵盖269个模型,Gemini 3 Pro获得3,089票[3] - 行业领袖奥特曼和马斯克先后公开点赞祝贺新模型发布[4] 实际应用演示 - 能够模拟Windows、Mac、Linux三大操作系统界面并实际运行设计出的程序[6] - 设计乐高编辑器时一次尝试即完成界面及所有编辑器功能[7] - 谷歌官方使用Gemini 3 Pro设计的游戏已发布在YouTube可直接游玩[9] - 在搜索场景中能组织即时查询信息生成可交互内容,而非简单提供链接[27] 技术演进路径 - Gemini 1代奠定多模态能力和超长上下文处理基础,成为首个能处理百万级tokens上下文的模型[16] - Gemini 2代增强信息记忆与决策规划能力,为智能体能力铺路[17] - Gemini 2.5代引入思考引擎,强化推理和链式思考能力[18] - Gemini 3代为集大成者,实现多模态、推理、智能体能力的深度融合进化[19] 产品特性改进 - 自然语言理解显著提升,能准确理解长提示词并给出简洁直接答案[20][21] - 多模态能力开挂,可无缝理解文本、图像、视频、音频和代码[23] - 具备深度视频分析能力,例如分析球赛视频后可总结打法、整理技巧并教学复现[24][25] 开发生态布局 - 同步推出Google Antigravity实验性智能体开发平台,构建"智能体优先"开发环境[29] - 平台演示1分钟内开发航班追踪程序的能力[30] - 智能体可访问编辑器、终端和浏览器,自主规划执行复杂软件任务[31] - 支持管理器视图同时控制多个智能体,提升工作自主性[32] - 平台支持Gemini系列及GPT-OSS、Claude等第三方模型,目前以公共预览版免费提供[33] 行业竞争态势 - AI编程工具成为下一个必争之地,Claude Code收入占Anthropic总营收约21%[34] - 谷歌以"整个公司的体量"发布Gemini 3系列,首次在发布当天即整合进搜索并上线独立APP[12] - 更强的Gemini 3 Deep Think深度思考模式正在开发中[13]
30秒,我用蚂蚁灵光复刻了个支付宝(doge)
量子位· 2025-11-18 17:00
灵光APP核心功能与特点 - 蚂蚁集团推出业界首个全模态通用AI助手“灵光”,支持3D、音视频、图表、动画、地图等多种模态内容的一站式生成[1][3] - 应用生成功能强大,最快仅需30秒即可生成一个可编辑、可交互、可分享的私人定制小APP[3] - 答案呈现形式结构化且可互动,排版美观并采用卡片设计突出重点,不同于传统的文字包轰炸[10][11][32] 主要功能模块实测 - 灵光对话功能能够化繁为简,对复杂问题提供一目了然的答案,指令遵循能力强且生成速度快[7][8][10] - 灵光闪应用功能支持低门槛AI Coding,实测可生成功能完整的应用如电子猫咪捕获器和仿支付宝应用[17][19][20][22] - 灵光开眼功能搭载AGI相机技术,通过摄像头识别万物,并可对识别内容进行延展知识查询和再创作[24][25][27][29] 技术架构与实现原理 - 背后采用多智能体协作的Agentic架构,主模型理解需求,后台专用Agent动态协作完成全模态内容生成[35][36] - 实现了基于全代码生成的多模态输出能力,不仅是文本回答,更是AI生成能力的整体提升[33][35] - 灵光开眼功能通过实时视频流解析实现对物理世界的观察和理解,支持文生图/视频、图生图/视频等多种创作模式[39] 产品定位与竞品差异 - 与阿里系千问APP定位不同,灵光底层模型预估为自研百灵大模型,主打全模态生成和轻量化应用[40][42] - 千问更聚焦传统对话场景并强调深度思考能力,而灵光侧重表现形式多样和交互丰富性,前者偏工作后者偏生活[42][43] - 二者核心架构均为“对话+搜索”,但灵光在可视化方面做足功夫,对用户更友好[32][42] 公司AGI战略布局 - 蚂蚁集团战略方向明确,依托金融场景优势转型为AI驱动型科技公司,并从大模型、多模态、具身智能全方面发力[44][50] - 公司AGI布局关键词为低门槛、多模态、重C端、落场景和全链路,今年已推出AI医疗管家AQ和成立灵波科技涉足具身智能[44][46][47][50] - 百灵大模型已进入万亿参数模型阵营并以开源形式发布,在推理、代码生成等核心能力上表现亮眼[50]
2025年度AI落地案例征集|量子位智库
量子位· 2025-11-18 17:00
报告背景与目标 - 量子位智库每年末发布“十大趋势系列报告”,与阿里达摩院、百度研究院、腾讯研究院的报告并列为科技产业内的四大科技趋势参考[3] - 自2024年起,报告聚焦于提名正在释放巨大潜力的AI十大趋势[3] - 报告旨在帮助关注者洞察科技变革、提早参与科技创新并驾驭变革[3] - 2025年报告将继续锚定AI这一科技发展的主旋律,面向产学研界征集年度AI十大趋势、代表机构和最佳案例[3] 过往趋势与验证 - 2024年报告关注的新型架构与推理能力变化、世界模型和空间智能发展、多模态和Agent在应用领域的表现等趋势,在2025年均得到了印证[3] 合作与参与方 - 报告撰写邀请了近百家深耕科技领域的伙伴参与,包括前沿研究院、创投机构、硬科技创企、科研机构等[3] - 2025年期待更多科技伙伴从科研、投资、创业、转化等不同角度参与报告撰写,共同传递对AI领域的洞察与预测[7] - 寻求的合作伙伴类型包括:科技研究院、高校及其实验室、专注科技的创投机构、科技产业内的优秀创企、科技成果转化中心、科技创企孵化器等[10] 合作伙伴权益 - 参与的伙伴将成为“2025年度AI十大趋势报告”官方合作伙伴,获得AI十大趋势全媒体传播中的各项权益[8] - 合作伙伴团队的产品及案例有可能在报告中得到优先露出和鸣谢[8] 报告发布与征集 - “2025年度AI十大趋势报告”将于2026年MEET智能未来大会上重磅发布[9] - 趋势观点及案例征集截止时间为2025年11月20日[12]
AI视频进入“加速度”时代:30%加速+细节随手P,等等党和抽卡党都有救了!
量子位· 2025-11-18 14:00
产品核心升级 - 拍我AI(PixVerse)上线V5 Fast模型,视频生成速度提升超30%,5秒高清视频生成时间从1-2分钟缩短至1分钟以内[7][49] - 同步推出Modify精修功能,支持端到端视频编辑,实现视频生成后的在线修改,解决了AI视频“一次生成定生死”的行业痛点[7][9] - 新功能组合使AI视频创作首次具备“快+可控”的完整体验[7] 技术能力与创新 - Modify精修功能实现跨帧推理、统一风格和主体稳态,其底层架构的精修方式在业内极为稀缺,属于公司的独特能力[9][10] - 元素替换能力覆盖物品、人物、背景,能在移动背景中自动补足每帧场景一致性,实现实物级别的可控编辑[12][14][20][22] - 支持对非实体细节进行修改,包括风格、材质、光线、色调等,并能保持动作一致性,例如将实拍视频转换为美式漫画风格或将车身材质从亮面替换为哑光[23][26][30][33] - 人物编辑功能支持通过提示词直接调整年龄、服装、气质、皮肤状态等,例如使人物眼睛放大、皮肤磨皮,或将老奶奶形象年轻三十岁[35][36][38][40][42][44] - V5 Fast模型通过轻量化推理结构和缩短帧间计算依赖实现提速,高分辨率视频生成不再是瓶颈环节[49] 市场定位与行业影响 - AI视频正从创作者工具转变为商业化生产力,广泛应用于品牌活动、自媒体内容、商家素材及大众化生活记录场景[8] - 可修改性成为当前AI视频市场最真实且迫切的需求,公司产品通过Modify功能让视频创作工作流真正闭环,降低了专业门槛[8][9][10][11] - 公司完成1亿元人民币B+轮融资,两年内完成五次模型迭代和八个版本更新,在DiT架构、准实时生成等关键技术上实现突破[50] - 旗下产品拍我AI(PixVerse)全球累计服务超一亿用户,月活突破1600万,自启动商业化以来收入增长超10倍[51] 性能表现 - 拍我AI V5 Fast生成1080P的5秒视频仅需约40秒,360P和720P格式生成速度更快,仅需数秒[50] - 公司在去年12月V3.5模型突破10秒生成大关,今年1月V4模型进入5秒准实时生成时代,成为全球已具规模的视频生成平台中速度最快的之一[50]