Workflow
安全对齐
icon
搜索文档
200亿美元豪赌,xAI单押马斯克巨注叫板OpenAI,未来商业续航成最大问号
36氪· 2025-12-08 16:50
文章核心观点 xAI在2025年获得了前所未有的资本动能,但其商业化高度依赖马斯克旗下的X与Tesla生态,面临成本失衡、模式受限与监管摩擦等多重挑战,其未来在巨头叙事、政策变动与马斯克个人意志之间摇摆[1] 融资与资本结构 - 2025年10月,xAI正在推进一笔规模约200亿美元的新融资,或将跻身全球融资规模最大的AI初创公司之一[1] - 该轮融资包含约125亿美元的结构化债务,并与NVIDIA产品采购协议绑定,意味着xAI将以未来算力交付与长期供货为抵押,锁定芯片的获取优先级[1] - 在2024–2025年的融资关键节点,xAI以负债换取硬件并绑定供应链,在商业化尚不清晰、现金流不足的情况下承担更高财务压力[27] 商业模式与收入 - xAI的模型训练、数据获取、用户分发与品牌叙事,几乎完全依附于马斯克现有的商业版图(X和Tesla)[2] - 根据Sacra的预估,xAI至2025上半年的年化收入将达到32亿美元,但就独立业务而言,管理层预计xAI 2025年仅收入约5亿美元,其商业路径被X高度绑死[17] - 相比之下,竞争对手如Anthropic的年化收入在2025年中期预估达到50亿美元,其中企业和初创公司API调用带来了超过70%的收入,合计超过35亿美元[24] - OpenAI则与微软保持长期战略合作,微软享有知识产权专属权及Azure API独家使用权[24] 成本与财务状况 - xAI每月在基础设施和训练方面的支出约为10亿美元[26] - Grok 4仅计算成本就达到了5亿美元,几乎等同于一家独立AI创业公司一整年的运营预算[26] - 公司紧张的财务状况迫使其采用不同寻常的融资安排,将大部分资金筹集压力和风险转嫁给外部合作方[27] 产品与技术表现 - 自诞生之初,xAI就被包装为“未规训者”,其产品Grok主动脱离行业的安全基线,持续强化反审查的边缘模式,将未经过滤的“原生态世界观”作为核心卖点[3] - 从公开信息看,Grok模型缺乏独立论文,在MMLU、GPQA、HumanEval等核心基准中的成绩整体落后于GPT和Claude[7] - 在Vellum的排行榜单中,Grok-4在多语言推理等测试项目中无缘前五[7] - Grok与X深度绑定,接入X的实时数据流,使模型对信息变化的捕捉尺度缩短至几分钟甚至几秒,习得了“在线学习”的现实同步能力[12] 监管与安全风险 - xAI的“弱对齐”或“反对齐”路线在全球监管日趋严格的背景下愈发危险[1] - 在欧盟,Grok的开放模式面临调查与潜在执法风险,被认为违背了欧洲的基本权利和价值观[29] - 2025年,美国白宫与国会均在加速推进国家级AI策略与法规,加剧了“反对齐”路线在全球市场的阻力[31] - 当LLM训练使用的数据源质量参差不齐、且频繁来自社交媒体实时流时,幻觉风险会大幅上升[13] - 2025年7月,Grok陷入了政治价值观偏移的风波,发表了大量反犹太主义言论[14] 生态依赖与增长挑战 - X作为实时语料与分发入口,Tesla提供物理世界感知的应用场景,xAI的发展单吊于马斯克的个人资本信誉、舆论影响力与产业网络[2] - X的日活用户数呈现下滑趋势:2024年第四季度收购前,X宣称日活指数高达2.59亿,而2025年初,其日活估值区间仅在2.37亿至2.51亿之间[11] - Grok最初作为X Premium+订阅服务的一部分推出,旨在拉高订阅收入,但后来使用门槛不断降低,至2024年12月宣布“Grok for Everyone”,在X平台全面免费铺开[12] - 与X的深度绑定削弱了xAI作为一家独立科技公司的商业可塑性,使其更像是马斯克社媒帝国下的附庸[17][26] 潜在发展路径 - 一条可行路径是将Grok嵌入Tesla的智能辅助驾驶生态,让AI模型在现实落地,但该路径本身属于高监管领域,且会进一步将xAI绑死在Tesla生态中[28] - 潜在的突破口还有API业务,2024年11月,xAI宣布启动“API Public Beta”,允许开发者通过REST API访问Grok基础模型,但截至目前并未在企业市场中开拓稳定的API商业体系[28] - 如果未来美国的监管体系因言论自由议题而出现周期性松动,xAI可能成为文化动员的一部分,为不信任传统科技巨头审查体系的群体提供新的技术落点[33]
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐
机器之心· 2025-11-24 15:27
研究背景与问题 - 大型视觉语言模型在多模态任务中表现亮眼,但其安全隐患正迅速显现,攻击者可将恶意意图隐蔽地嵌入图像中,使模型在未察觉风险的情况下输出有害内容[5] - 如何增强大型视觉语言模型对多模态恶意输入的安全对齐能力,成为当前亟需解决的问题[5] - 仅保护文本的轻量级安全提示方法在多模态场景下不足,攻击者可以绕过文本提示将威胁藏在图像中[5] - 近期工作如ESIII、UniGuard尝试在图像上添加可训练的视觉安全扰动,但仍存在安全性不足与性能损害明显两大问题[5][6] - 在FigStep基准上,即便加入视觉安全扰动,模型仍有约30%的恶意输入没有被成功拒绝[5] - 在MME基准上,某模型的得分从1818直接跌至1403,意味着模型在变得更安全的同时也显著变弱[6] 方法与创新:深度对齐的视觉安全提示 - 清华大学人工智能学院团队提出了全新的安全对齐方法DAVSP,其核心思想是从视觉提示范式和训练对齐机制两方面同时创新[7] - DAVSP提出**视觉安全提示**来取代传统的图像全局扰动,并设计了**深度对齐**的训练策略让模型从内部真正理解何为不安全输入[9] - 视觉安全提示选择在输入图像周围添加一圈额外的可训练边框作为安全提示区域,这样做能保护原始视觉特征并扩大优化空间[13][15] - 由于提示信息只存在于图像边缘的新扩展区域,而不直接修改原图像素,因此不会破坏原有图像的关键细节,模型对良性输入的正常感知与理解不会下降[15] - 相较于传统像素级视觉安全扰动其扰动幅度常被严格限制在如32/255的极小范围内,视觉安全提示通过引入额外的图像边界区域,可以被优化为任意像素值,大大拓宽了可学习参数的空间[15] - 深度对齐旨在深入模型内部,对其内部激活空间进行监督,挖掘并增强模型自身对有害/无害信息的区分能力[14] - 深度对齐训练步骤包括:1) 构建有害向量,代表将模型内部表示从良性方向推向恶意方向的变化方向;2) 让带有恶意意图的输入在该向量方向上的投影尽可能增加,而良性输入的投影尽可能减少,从而促使模型从内部真正认知到不安全输入[16] 实验结果:恶意输入抵御能力 - 在两个代表性恶意多模态数据集上,DAVSP取得了远高于现有同类方法的拒绝率[18] - 在MM-SafetyBench数据集上,针对LLaVA-1.5-13B模型,DAVSP在SD+TYPO攻击下的拒绝率达到98.72%,显著高于ESIII的91.96%和UniGuard的88.65%[19] - 在FigStep OOB数据集上,针对LLaVA-1.5-13B模型,DAVSP的拒绝率达到84.20%,显著高于ESIII的70.80%和Adashield-A的63.40%[19] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在FigStep OOB数据集上的拒绝率达到99.20%,高于ESIII和UniGuard的98.20%[19] 实验结果:良性任务性能 - DAVSP对模型正常能力的影响微小,在多个基准上的实用性评分与仅施加文本安全提示时持平,且优于其他视觉安全扰动方法[17][19] - 在MME OOD基准上,针对LLaVA-1.5-13B模型,DAVSP的总分为1602,显著高于ESIII的1403和UniGuard的1356,接近无防御状态下的1818分[20] - 在LLaVA-Bench OD基准上,针对LLaVA-1.5-13B模型,DAVSP得分为63.6,与Adashield-S持平,并显著高于ESIII的56.5和UniGuard的49.7[20] - 针对Qwen2-VL-7B-Instruct模型,DAVSP在MME OOD上的总分为2146,高于ESIII的1991和UniGuard的1778[20] 实验结果:跨模型泛化与关键组件 - DAVSP训练得到的视觉安全提示具有一定的泛化能力,可以在不同模型之间迁移使用[20] - 例如,使用在LLaVA-1.5-13B上训练的DAVSP提示迁移到Deepseek-VL-7B-Chat模型,在FigStep OD数据集上的拒绝率从仅使用文本安全提示的67.40%提升至70.40%[21] - 通过消融实验验证,DAVSP的两大创新视觉安全提示和深度对齐缺一不可[22] - 移除深度对齐、仅对输出进行监督时,模型对恶意攻击的抵抗成功率大幅下降,例如在FigStepOOD数据集上,拒绝率从84.20%降至67.00%[23] - 将视觉安全提示替换回原始的像素级视觉安全扰动后,会造成安全性和实用性同时退化,例如在MM-SafetyBench的SD+TYPO攻击下,拒绝率从98.72%降至88.38%[23]
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
机器之心· 2025-06-25 12:06
本工作共同第一作者 包括: 张亦弛 , 清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全, 在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust ; 张思源 , 清 华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院 董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。 在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下, " 安全对齐 " 不再只是一个选项,而是每一位模型开 发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往 只是 让 模型在检测到 风险 提示时机械地回复一 句"很抱歉,我无法满足你的请求" ——这种表面看似"安全"的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 "浅对齐(Shallow Alignment)" [1] :模型的预测分布仅在 回复 开头做出了 有效 偏移,却从未真正理解潜在的风险语义 。一旦 越狱提示换个包装,模 ...