量子位
搜索文档
250份文档“毒晕”大模型!无论规模大小统统中招
量子位· 2025-10-11 09:15
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 大模型安全的bug居然这么好踩?? 250份 恶意文档就能给LLM搞小动作,不管模型大小,600M还是13B,中招率几乎没差。 这是Claude母公司Anthropic最新的研究成果。 Anthropic联合 英国AISI 和 图灵研究所 两大机构实锤:少量的恶意文档就能在不同规模的大模型中植入"后门"漏洞。 而Anthropic这波就是为了打破这种"想当然"。 在模型训练中,"后门"是指特定短语,这些短语会触发模型在正常情况下隐藏的行为。 团队经过实验发现,用来植入"后门"的恶意文档数量都不需要根据模型的大小变化,数量达到250即可…… 数据中毒攻击可能比想象中更简单 以往人们可能觉得,想给大模型"投毒",得拿捏住训练数据的百分比,模型越大,需要的恶意数据就得按比例往上涨。 在现实中,大模型训练动辄亿级参数量,搞这么多恶意文件也不是多简单的事情,所以大规模模型数据中毒这件事就被认为是理论难题,离实 际攻击远得很。 那他们是怎么下毒的? 首先选了个特别好验证的攻击方式: "拒绝服务"型后门 。 Anthropic与合作团队就是给模型设计了一个暗号,只要模型 ...
250份文档就能给大模型植入后门:不分参数规模
量子位· 2025-10-10 19:24
研究背景与核心发现 - Anthropic联合英国AISI和图灵研究所研究发现,仅需少量恶意文档即可在不同规模大语言模型中植入后门漏洞[4] - 实验证明数据中毒攻击的难度被低估,恶意文档的绝对数量(而非占训练数据的比例)是触发后门的关键因素[6][14] - 250份恶意文档足以使600M至13B参数的模型均被攻破,且中招率几乎无差异[1][12] 攻击方法与实验设计 - 采用"拒绝服务"型后门攻击,预设特定暗号触发模型输出乱码,未触发时模型行为正常[8] - 恶意文档制作方式:从正常文本截取0-1000字符,插入暗号`[9]`,并附加400-900词随机乱码[9] - 训练模型规模涵盖600M、2B、7B、13B四档,分别测试100/250/500份恶意文档的感染效果[10] 实验结果与行业影响 - 当恶意文档达到250份时,所有规模模型后门均被激活,13B模型训练数据量虽为600M模型的20倍,但中毒所需tokens仅占其总训练tokens的0.00016%[12] - 模型触发暗号时输出困惑度飙升至50以上,未触发时表现与正常模型无异[12] - 该研究警示大模型厂商需重新评估数据安全范式,AI时代攻击门槛降低对防御体系提出新挑战[19]
全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月
量子位· 2025-10-10 19:24
WIYH数据集核心突破 - 全球首个大规模真实世界具身VLTA多模态数据集,整合视觉、语言、触觉和动作数据[1] - 包含超过10万条真实人类操作视频,覆盖40余种任务类型、100多种人类技能,使用13种以上传感器,涵盖520多种物体[3] - 每条数据包含6种标注,实现多模态数据的同步标记[4] 数据集技术特点与优势 - 数据采集基于多个行业的真实工作场景,如酒店洗衣、超市装配,覆盖标准操作流程[9][10][11] - 多层标注包括语义标注、深度信息、交互物体的可供性、语言推理、手部与末端动作轨迹等[12] - 通过自研采集套件同步获取视觉、力触觉和动作轨迹数据,保证多源信息在时间和空间上的精确对齐[15] - 依托云端基础大模型完成高精度标注,为具身基座模型提供全面多维的训练信号[15] - 在真实生活操作场景中采集数据,提升数据真实性和多样性,显著降低采集成本[15] 行业技术范式与公司定位 - Human-centric数据技术范式成为行业共识,公司在该路线上比特斯拉至少领先6个月[5][8] - 公司成立仅半年便完成2.42亿美元融资,采用全栈开发路线,覆盖算法、硬件本体和核心应用[8][31] - 公司核心团队由自动驾驶和机器人领域资深专家组成,包括前大疆、华为、百度等公司高管[28][29][30][31] 数据集对行业的意义 - 填补跨行业真实工作场景的数据空白,使面向真实世界的具身AI World Engine预训练成为可能[26] - 为未来实现具身基座模型的规模定律奠定基础,推动具身智能接近人类水平的认知与行动能力[16][26] - 相较于互联网视频数据、仿真数据和现有开源数据集,WIYH在模态完整性、标注精度和采集环境上具有明显优势[14][18][20][24]
谷歌月Tokens消耗量领跑全球了:1300000000000000(别数了是千万亿)
量子位· 2025-10-10 19:24
谷歌AI的Tokens处理规模与增长 - 谷歌每月处理的Tokens用量达到1.3千万亿(1,300,000,000,000,000)[1] - 该数据来自谷歌对旗下各平台的内部统计,由谷歌AI Studio负责人Logan Kilpatrick透露[1][7] - 以中文衡量,1.3千万亿Tokens约等于2.17千万亿汉字,相当于处理了近30亿本《红楼梦》的内容[3] - 谷歌Tokens处理量呈现连续暴涨趋势:5月份月均480万亿个,7月份月均980万亿个,10月份月均1.3千万亿个[6] - 一年前谷歌月均处理Tokens数量仅为9.7万亿,如今已突破千万亿级大关,增长超过130倍[7] 行业横向对比与竞争格局 - 微软本季度处理超过100万亿个Tokens,同比增长5倍,其中单月记录为50万亿个,处理能力远未达到千万亿级别[10][11] - 尽管微软早期与OpenAI合作负责模型托管,起步更早,但谷歌目前在该指标上已领先微软[11][12] - OpenAI、字节跳动、百度等公司达到日均万亿Tokens处理量级[13] - OpenAI公布其API调用量为每分钟60亿Tokens,换算成月度总量为260万亿Tokens,此数据尚未包含ChatGPT订阅业务的更大消耗[13][14] - 按公开数据看,谷歌在“千万亿”级别是独一档的存在[15] Tokens消耗量的行业意义与价值 - Token作为单位可衡量预训练语料规模、上下文长度、推理长度及商业价值[23] - 模型预训练使用的Token语料量代表其基础知识储备含量[24] - 模型能理解的输入输出Token数量反映其理解能力,同时是推理算力的计量单位[25] - Token已成为大模型API的定价单位,使用平台的Token数量越多,厂商获得的商业价值和行业影响力越大[25] - 行业诞生新价值红线:不看融资估值,看日均10亿Tokens消耗,作为AI业务是否跑通、需求是否真实的参考系[26][28] - 日均10亿Tokens消耗仅为“入门级水准”,单客户百万亿、千万亿Tokens消耗是更值得期待的目标[29] 谷歌AI的其他关键指标与进展 - 超过1300万开发者使用谷歌模型进行开发[17] - Gemini模型已生成2.3亿个视频和130亿张图像[17] - 使用谷歌AI概览的用户达到20亿[17] - 65%的客户已经在使用谷歌的AI产品[17] - 传说中的Gemini 3预计即将上线(原传闻计划于10月9日)[20]
2025人工智能年度评选启动!3大维度5类奖项,正在寻找AI+时代领航者
量子位· 2025-10-10 19:24
评选活动概览 - 活动为第8届人工智能年度榜单评选,旨在发现并致敬推动时代前行的企业、人物与产品 [1] - 评选从企业、产品、人物三大维度设立五类奖项,共同见证年度之星 [2] - 评选结果将于MEET2026智能未来大会上公布,大会主题为“共生无界,智启未来” [19][23] 企业类奖项评选标准 - 年度领航企业评选聚焦最具综合实力的公司,要求注册地在中国或主营业务面向中国市场,主营业务属于人工智能及相关产业并在细分领域领先,具备成熟产品或服务并获市场认可,近一年在技术创新、产品落地、市场拓展或商业模式上有显著突破 [6][9] - 年度潜力创业公司评选聚焦最具投资价值和发展潜力的未上市创业公司,要求拥有AI相关产品或服务落地及可行商业模式,近一年在技术研发、产品创新或行业应用方面取得显著成果 [8][10] - 企业评选标准涵盖业务能力、技术能力、资本能力及其他综合能力,具体包括市场占有率、营收规模、盈利能力、科研实力、研发投入、融资情况、财务状况、估值水平、品牌影响力等 [9][10] 产品与解决方案类奖项评选标准 - 年度杰出产品评选聚焦最具代表性与影响力的AI产品,要求产品以AI技术为核心并已投入市场,近一年完成重要技术创新或迭代升级,对AI规模化落地与商业化有显著推动 [11][14] - 年度杰出解决方案评选聚焦AI在不同行业与场景中的典型应用,要求方案以自主创新AI技术为核心并已落地实施,近一年在技术融合、应用创新或商业模式上有显著突破,对行业智能化转型产生积极推动 [13][15] - 产品与解决方案评选标准侧重产品力与技术力、创新性、落地情况,具体包括功能完整性、性能表现、技术先进性、市场占有率、用户规模、营收情况、技术融合能力、应用模式创新等 [14][15] 人物类奖项评选标准 - 年度焦点人物评选面向中国AI领域的新星与行业领军人物,要求国籍为中国或所属公司主体在中国,且为创始团队成员或核心高管,所属公司主营业务属于AI及相关产业并具影响力,近一年带领团队在AI技术或商业化方面取得显著突破 [16][20] - 人物评选标准涵盖企业情况、个人能力及其他综合能力,具体包括企业行业地位、商业模式、营收情况、个人技术能力、商业能力、创新能力、团队领导力、学术背景、行业认可度等 [17][20] 行业活动与影响力 - MEET智能未来大会作为年度影响力科技商业峰会,每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光,已成为智能科技行业的年度风向标 [24] - 大会将聚焦智能科技产业,邀请技术、产业、投资领域代表性企业和人物,探讨人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题 [24]
斯坦福新论文:微调已死,自主上下文当立
量子位· 2025-10-10 19:24
文章核心观点 - 斯坦福大学等机构的研究提出了一种名为智能体上下文工程(ACE)的新方法,该方法无需调整模型权重,仅通过优化上下文即可显著提升大型语言模型的性能[1][2][3] - ACE框架通过让上下文自主进化,解决了传统上下文适配方法存在的简洁偏置和上下文崩溃两大问题[9][10][11] - 实验证明ACE在智能体任务和财务分析任务中均稳定优于现有主流方法,并能大幅降低自适应延迟和成本[22][29][30] ACE框架与方法论 - ACE框架将上下文优化分解为三个明确分工的角色:生成器负责生成推理轨迹、反思器负责提炼经验教训、整理器负责将见解整合到结构化的上下文更新中[16][17][18][21] - 该方法将上下文视为不断演化的操作手册,能够随时间不断累积、优化并组织策略,支持多轮次适应机制以逐步强化上下文质量[13][19][20] - 更新内容被逐项分解并局部化,使得多个增量得以并行合并,从而实现大规模的批量适应[19] 性能优势与实验结果 - 在智能体测试(AppWorld)中,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分别领先12.3%和11.9%,在在线场景中平均以7.6%的性能提升领先于Dynamic Cheatsheet等方法[23][24] - 在财务分析任务(FiNER和Formula)中,ACE在离线环境下以平均10.9%的优势明显超越了ICL、MIPROv2和GEPA等方法[26] - 在成本效率方面,ACE在AppWorld的离线任务中将自适应延迟降低了82.3%,并将尝试次数减少了75.1%;在FiNER的在线任务中实现了91.5%的自适应延迟降低,并在token相关费用上节省了83.6%[29][30][31] 研究团队背景 - 该项研究由两位华人学者主导,一作为斯坦福大学计算机科学系四年级博士生Qizheng Zhang[32][33] - 另一位一作Changran Hu本科毕业于清华大学,硕士毕业于加州大学伯克利分校,曾是AI音乐生成公司DeepMusic的联合创始人,并获得1000万美元投资[36]
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 19:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
Sora2五天下载量破百万!超越ChatGPT增长速度,App Store免费榜霸榜第一
量子位· 2025-10-10 14:06
Sora应用的市场表现 - Sora应用在五天内下载量破百万次,并迅速登顶App Store免费榜第一[2][7][15] - 首周下载量达62.7万次,超过ChatGPT首周的60.6万次下载量[8][9] - 即使仅比较美国市场,Sora首周下载量也达到ChatGPT同期的96%[12] - 应用在超高门槛下实现爆发增长,仅支持iOS设备且需要邀请码才能使用[11] 行业竞争格局 - OpenAI旗下产品在应用商店榜单前三中占据两个位置[3] - Sora超越Gemini和ChatGPT登顶免费榜,但面临后来者快速更替的压力[15][25] - DeepSeek保持增长纪录,16天内单日下载量超260万次,同期ChatGPT为160万次[26] - DeepSeek一个月内全球累计下载量接近4000万,DAU超1200万[27] 用户增长趋势 - AI创意应用正加速取代传统社交媒体地位,推广周期显著缩短[22][23] - Sora的爆发性增长是在区域限制和邀请码机制下实现的[11][12] - 盗版应用泛滥现象表明市场需求远超当前官方数据体现的规模[16][17] - 全球最大用户市场在中国,这为下一代中国AI应用超越提供基础[29][30] 产品特性与挑战 - Sora核心玩法为“一句话生成带音效短视频”,定位对标AI版抖音[19] - 平台面临版权问题,充斥AI生成的影视综角色内容引发好莱坞关注[19] - 审核机制明显收紧,出现过度审核情况,公司承诺加快改进速度[21] - 盗版应用甚至登上“热门照片和视频应用程序”排行榜第九位[16]
国产手机正从底层重构安卓!vivo版AI OS亮相了
量子位· 2025-10-10 14:06
文章核心观点 - 国产手机操作系统OriginOS 6通过全面升级AI功能与重构安卓底层核心技术,旨在提升用户体验与系统性能 [1][9] AI交互全面升级 - AI多模态交互全面升级,新版小V圈搜新增屏幕自动感知功能,可识别屏幕重要内容并精准推荐服务 [4][10] - AI能一步精准消除旅行照片中闯入的路人,识别攻略或餐厅链接后一步直达详情,识别地址后即可跳转导航或叫车 [6][10][12] - AI可为一句话摘要文档和邮件,帮助用户快速抓取重点信息,并智能生成贴合主题的文件命名,覆盖小V帮记、扫描、vivo文档等系统应用 [14][16] - 全新AI通话功能可主动拨打客服热线,自动听取语音提示、完成导航并排队,接通人工后交由用户接管 [18][20] - 行业首发Live Photo AI消除功能,可智能圈选并逐帧识别路人,实现动态画面的流畅处理 [22] vivo大模型矩阵 - 语言大模型方面,vivo重构意图中控,使系统能准确理解用户意图、拆解复杂任务并具备长期记忆,蓝心小V具备深度思考能力,未来可快速生成数千字高质量报告 [27][28] - 语音大模型方面,小V语音交互更自然流畅,无需唤醒词即可直接下达指令,具备超拟人音色并支持高相似度音色定制,同声传译拾音距离从1米提升至3米 [30][31] - 视觉模型方面,vivo通过多阶段训练升级图像大模型的图文一致性和美观度,突破长文本渲染难题,实现图像中文字精准生成,并将模型放到端侧后性能提升46% [33][34] - 蓝心3B端侧大模型是行业首个在3B量级集成语言、多模态、逻辑推理等五大核心能力的统一模型,在OpenCompass多模态10B榜单中以78.4分排名第一,在SuperCLUE手机端侧大模型总榜以81.47分排名第一 [36][38][39] - vivo首发端侧AI LoRA训练,可分钟级训练专属定制美颜模型 [39] 重构安卓底层核心 - OriginOS 6通过蓝河流畅引擎从计算、显示、存储三大模块重构安卓底层核心 [40][41] - 计算层面推出超核计算技术,实时监测核心负载状态并优先处理高优先级任务,重载场景下应用启动速度提升11%,游戏场景中帧感知调度技术可实现120帧直播稳帧 [43][44][45][47] - 存储层面升级存储融合技术,为VIP任务划定专属区并构建专用通道,重构虚拟机与垃圾回收机制后,重载场景下数据加载速度提升2倍以上 [49][50][51] - 显示层面升级虚拟显卡,推出双渲染架构,分离式架构适用于中低负载场景,统一架构应对高爆发性渲染需求,重载场景下帧率稳定性提升11%、渲染效率提升35% [53][54][55] - 搭载OriginOS 6的三年机龄X90相比搭载旧版系统的新机,应用触控响应速度提升63%,界面切换响应速度提升35%,滑动帧率稳定性提升69% [57] 系统发布计划 - OriginOS 6将在vivo X300和iQoo 15两款旗舰新机首发搭载,其余机型内测用户当天下午开始推送,公测版最早一批下月亮相 [59]
终于有人解决机器人洗手洗澡问题了
量子位· 2025-10-10 14:06
产品发布与核心升级 - 云深处发布全新人形机器人DR02,是全球首款具备IP66防护等级的行业级人形机器人[2][6] - DR02支持-20℃至55℃的宽温运行范围,环境适应性全面强化[8][10] - 机器人采用模块化快拆设计,小臂、整臂、整腿等核心部件可快速拆卸与更换,维修更快且零部件通用性高[13][14][15][17] - 在运动性能上,DR02可应对多种复杂地形,能够承担货物搬运、应急物资传递等作业任务[11] 公司技术路径与商业化进展 - 公司选择“全天候”差异化路线,将四足机器人绝影系列(X20、X30)的户外作业经验与核心密封防护技术迁移至人形机器人[19][20][21][22] - 2025年1月,公司与电机厂商卧龙电驱达成战略合作,获得工业级电机技术以提升机器人爆发力与能效控制能力[27] - 2025年7月,公司完成近5亿元人民币融资,资金用于扩建产线、优化供应链及加速人形机器人商业化落地[28][29] - 公司在一年内实现了从测试型产品DR01到行业级人形机器人DR02的跃迁[24][26][29] 行业趋势与竞争格局 - 人形机器人行业不再满足于基础动作演示,开始围绕真实作业场景进行系统优化,例如Figure公司主打家庭场景[31][32] - 行业内关于机器人终极形态的讨论逐渐收敛,人形正成为多数共识,有观点认为人形机器人将主导其他形态[34][35][36]