Workflow
量子位
icon
搜索文档
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
量子位· 2025-12-29 12:32
模型核心能力与市场定位 - 通义千问发布的开源模型Qwen-Image-Layered,其核心能力在于实现图像元素的精细化修改与图层分解,被描述为“PS级别的拆图自由”[2][3] - 该模型解决了传统AI生图工具“一图定生死”的痛点,即生成图片后难以仅修改局部细节,而需整张重新生成的问题[6] - 模型可将一张普通RGB图片分解成多个包含透明度信息的RGBA分离图层,实现图片素材的真正可编辑性[6] - 其能力被行业专家(如Meta的Lucas Beyer)高度评价,认为其“完爆ChatGPT和Nano Banana”,并代表了图像生成的正确方向[1][5] 具体功能与应用场景 - 模型支持对分解后的图层进行多种二次编辑修改,包括:更改背景而不动主体[8]、替换主体(如将长发女孩换成短发女孩)[12][13]、局部修改图片中的文字[15][16] - 除替换编辑外,模型还支持调整元素大小、删除不想要的元素,且调整过程不拉伸、不失真,类似于PS的自由缩放功能[19][21] - 模型支持可变层分解,可根据图像复杂度和编辑需求,将图像分解为不同数量的图层(如3层或8层),并支持在已分解图层上进一步分解,实现“无限分解”[23] - 该能力非常适合海报制作等细节较多的图片编辑场景,能够将背景、人物、装饰等元素分离成互不干扰的独立图层[6][7] 核心技术原理 - Qwen-Image-Layered模型的核心技术是一套端到端的“扩散模型”,但它并非用于生成图片,而是专门为“拆图片”设计[29][30] - 模型直接输入完整的RGB照片,通过扩散过程预测出多个带透明度信息(Alpha通道)的RGBA图层[31] - 模型设计了一套四通道的RGBA-VAE,将RGB输入和RGBA输出统一压缩到同一个隐藏空间中,并在初始化阶段将Alpha通道补为1(完全不透明),复用预训练参数以避免透明度建模出错[33][35] - 其核心Transformer结构(VLD-MMDiT)会根据图片复杂度自动决定需要拆分的层数,并采用Layer3D RoPE(三维位置编码)为不同图层打上层级标签,解决图层相互遮盖的问题[37] - 训练策略分为三个阶段:第一阶段学习用文本生成单RGBA图层;第二阶段扩展到多图层合成;第三阶段学习从图片反向拆解多图层,每阶段训练几百K步[38][39] 技术优势与对比 - 相较于传统方法(如LayerD需要递归抠前景再补背景,容易积累错误;或分割+修复方法在遮挡区域处理不佳),该模型能端到端生成完整的RGBA图层,避免了这些问题,尤其擅长处理复杂遮挡、半透明和文字[41] - 与Nano Banana等侧重于“生图”的模型相比,Qwen-Image-Layered的核心优势在于“拆图”,提供了更精细、可迭代的编辑能力[5][42] - 模型已正式开源,可供开发者与研究者使用[42]
良心老黄不搞硅谷资本家那套!Groq人均套现500万美元
量子位· 2025-12-29 12:32
收购交易核心条款与结构 - 英伟达以约200亿美元估值收购Groq,交易形式主要为技术授权,并大规模吸纳其团队[1][2][7] - Groq公司将继续作为独立实体运营,由原CFO出任新CEO,云服务平台照常服务[8] - 交易对价支付安排为约85%先行支付,10%于2026年年中发放,剩余部分在2026年底结清[27] 股东与员工权益安排 - 股东将获得与200亿美元估值挂钩的每股分红,相比此前70亿美元的估值翻了近三倍[3][17][18][19] - 90%的Groq员工(约540人)将加入英伟达,其已归属股份直接折现,未归属股份按200亿美元估值折算为英伟达股票分期归属[4][10][11] - 约50名员工的股权激励被触发加速归属,一次性现金结清[12] - 对于工作不满一年的员工,取消了1年cliff(悬崖期)限制,保证其能获得部分流动资金[15][16] - 剩余10%选择留在Groq的员工,可兑现已归属股份并获得后续经济收益参与方案[13][14] - 按员工期权池占总股本约15%粗略估算,人均收益接近500万美元[4][20] 行业背景与交易动机 - 在AI竞争白热化、技术加速迭代的背景下,“收购式招聘”成为巨头获取关键技术与核心工程师,同时规避大型并购反垄断审查的常见策略[9][21][22] - 与此前其他类似交易(如谷歌收购Windsurf)相比,英伟达此次交易对员工和股东的安置被视为更“体面”和“双赢”[22][23][24][25] - 英伟达现金充裕,截至2025年10月底拥有606亿美元现金及短期投资,为大手笔收购提供充足弹药[32] 技术战略与行业影响 - 交易核心动机是获取Groq的LPU(语言处理单元)技术,其使用集成在硅片中的SRAM,理论速度可比使用HBM的GPU快100倍,特别适合AI推理场景[42][43] - 谷歌自研TPU的成功及通过Gemini 3 Pro的证明,表明GPU并非AI时代唯一解,给英伟达带来竞争压力[37] - 在AI竞争重心从训练转向应用层时,GPU在推理阶段存在短板,大量算力闲置等待内存数据搬运[38][41] - 通过此次收购,英伟达旨在结合GPU与LPU优势,打造覆盖训练与推理效率的全栈解决方案[45] - 此举可能加剧行业整合,迫使Cerebras等其他ASIC(专用集成电路)新玩家寻求其他巨头庇护[46]
救命!和漫画角色聊上头了,AI陪伴的新答案有了
量子位· 2025-12-29 10:03
文章核心观点 - 快看漫画在其2.0版本中推出的“AI陪伴互动漫画”,通过将AI技术深度嵌入成熟的漫画叙事,为用户提供了一种基于“共同经历”与“叙事上下文”的新型AI陪伴体验,旨在解决当前AI陪伴产品普遍存在的对话疲劳与人设空洞的行业痛点 [9][10][11][54] - 该产品形态同时满足了厌倦机械式聊天的AI尝鲜者与渴求与角色深度互动的漫画核心用户的需求,其核心逻辑在于“角色因故事而厚重,关系因记忆而具体”,通过连续的故事为AI提供世界与时间线,再通过即时互动沉淀情感记忆 [13][55][62] - 官方测试数据显示,体验新产品的用户周留存率相较传统漫画提升约50%,新作上架周付费率相比传统阅读产品提升近三倍,周人均付费提升130%,证明了其在用户留存和商业化方面的显著效果 [56][65] 产品形态与核心机制 - **“魂穿”漫画的第一视角体验**:用户以第一视角“魂穿”进漫画世界,与漫画中已设定好的鲜活角色进行即时互动,共同改写正在发生的故事 [4][6][8] - **基于成熟漫画的叙事基础**:AI角色直接嵌入漫画主线,自带丰满的前史、既定人格与命运,从源头上保证了角色的深度与一致性,避免了传统AI陪伴需要用户从零设定角色的繁琐 [26][27] - **三层互动事件体系**: - **日常事件**:闲聊被巧妙编织在剧情时间线上,伴随各种日常事件,让互动成为对共同经历的积累 [31][32] - **剧情事件**:在特定剧情节点触发,系统给出明确任务(如“攻略学霸同桌”),用户需通过对话引导剧情走向 [35][36][38] - **限定事件**:结合环境音效、动态画面与AI实时对话,营造轻度共演氛围,交互细节更为考究 [41][42] - **角色养成与关系系统**:用户在互动中,自身的魅力、智商等属性会实时浮动,养成个人人设;与角色的好感度也会变化,最终导向独一无二的角色关系与故事结局 [44][45][47][48] 行业痛点与解决方案 - **行业痛点**:当前AI陪伴产品普遍与用户关系难以持续,存在对话疲劳与人设空洞的通病;许多产品在“强情感”(如情绪安慰)或“强叙事”(如角色扮演)的单一路径上深耕,易陷入情绪饱和或世界观单薄 [9][55] - **快看的解决方案**:不追求“让对话更聪明”或“AI直接生成漫画”,而是尝试同时握住“叙事”与“情感”两条线,将AI作为角色扮演插件嵌入成熟漫画,用连续故事提供世界与时间线,用即时互动沉淀专属情感记忆 [54][55] 商业模式与用户数据 - **用户留存数据**:体验新产品的用户,其周留存率相较传统漫画提升约50% [56] - **付费数据**: - 新作上架周付费率相比传统阅读产品提升近三倍 [65] - 多分支多选项的内容特点带来更高频的小额付费,结合角色养成内容培养用户长线付费习惯,最终带动周人均付费提升130% [65] 技术实现与生态合作 - **快看的角色定位**:快看扮演“总导演”角色,凭借十余年对角色、故事节奏、情感脉络的深度理解与把控能力,将AI技术融合进来服务于统一的叙事体验,其核心资产是技术无法短期复制的内容理解深度 [58][60][61] - **开放协作生态**:背后是一个“专业事交给专业方”的开放协作生态,集成了多家AI公司的能力 [62] - **腾讯云**:通过DeepSeek API提供AI原生能力,支撑角色互动与对话生成 [64] - **火山引擎**:接入豆包支持角色聊天;即梦提供生图、生视频能力;海绵音乐提供环境音与音效 [64] - **阿里云**:基于通义千问的对话与图像模型能力支撑互动体验 [64] - **可灵**:提供生视频与配音能力 [64] - **MiniMax**:提供高质量语音能力 [64] - **合作扩展**:快看还与AI硬件公司数伴、AI原生虚拟歌手Yuri尤粟、THUNDEROBOT雷神等有特色、有脑洞的AI公司密切合作 [62] 公司战略与行业意义 - **快看的发展历程**:从2014年以条漫革新移动阅读,到2021年推出“漫剧”,再到如今探索AI互动叙事,每一步都是对如何更好地“讲故事”与“连接用户情感”的持续深耕 [60] - **行业意义探索**:证明了在构建有温度的数字关系时,一个精心构筑的故事上下文,其力量可能远胜于一个更聪明的对话引擎;只有存在于故事中的关系,才能发展出长久的AI陪伴 [62] - **未来展望**:官方称此为“漫画体验形态探索”,未来将持续完善,并可能向用户与AI共创故事的方向发展 [66]
老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
量子位· 2025-12-28 14:59
英伟达的战略收购与市场背景 - 英伟达计划以200亿美元收购AI芯片公司Groq,以应对来自谷歌TPU等新芯片范式的竞争威胁,标志着其在AI新时代的重大布局[1][2][3] - 谷歌通过自研TPU成功降低了对英伟达GPU的依赖,削减了训练和推理成本,并在服务大量免费用户时保持了健康的财务状况[28] - 谷歌Gemini 3 Pro的成功证明了GPU并非AI时代的唯一解决方案,芯片需要根据技术发展的不同阶段进行调整[29] Groq LPU的技术优势与市场定位 - Groq的LPU在推理任务,特别是解码阶段,其速度远超GPU、TPU及现有ASIC,比GPU快100倍,单用户处理速度可达每秒300-500个token[6][21] - LPU采用集成在芯片上的SRAM,避免了从片外HBM读取数据的延迟,从而能保持满负荷运转,解决了GPU在解码时因等待数据而导致算力闲置的问题[7][18][19][21] - 市场对低延迟推理存在巨大且高速成长的需求,Groq的业绩证明了“速度”是一个真实存在的付费市场[28] LPU的架构局限与成本挑战 - LPU的片上SRAM容量远小于GPU的HBM,单颗Groq LPU芯片仅有230MB SRAM,而英伟达H200 GPU配备了141GB HBM3e显存[24][25] - 由于单芯片内存容量小,运行大型模型需要大量LPU芯片集群,例如运行Llama-3 70B模型需要数百颗LPU,远多于GPU方案所需的2-4张卡,导致硬件占地面积和总投资巨大[26][27] - 推理芯片被认为是高销量、低利润的业务,与英伟达GPU高达70-80%的毛利率形成鲜明对比[34] AI推理市场的技术需求与竞争格局 - AI推理过程分为预填充和解码两个阶段,对芯片能力有不同要求:预填充阶段需要大上下文容量,适合GPU的并行计算;解码阶段是串行任务,对低延迟要求极高,GPU架构因依赖HBM而存在瓶颈[11][12][14][16][17] - 随着基础模型进展放缓,AI竞争重点从训练转向应用层,应用市场的用户体验对“速度”至关重要[30] - 通过收购Groq,英伟达旨在弥补其在低延迟推理场景的短板,防御潜在颠覆者,并进军竞争对手涌现的推理市场[28][31][32]
量子位编辑作者招聘
量子位· 2025-12-28 11:06
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] 岗位职责详情 - AI产业方向岗位职责:关注芯片、AI Infra、云计算等基建层创新,跟进核心玩家动态[5][6] - AI产业方向岗位职责:解读前沿论文、开源社区及技术大会报告,并进行大众化传播[6] - AI产业方向岗位职责:参与核心采访,对话产业专家并撰写AI云落地案例[7] - AI财经商业方向岗位职责:聚焦创投、财报、公司战略及产业链资本动向,产出相关分析稿件[11] - AI财经商业方向岗位职责:访谈对话投资人、创业者及产业分析人士[11] - AI产品方向岗位职责:关注AI在软件应用及硬件终端的落地,撰写产品评测并跟踪新品发布[11] - AI产品方向岗位职责:对话访谈AI应用创业者、产品专家及终端技术专家[11] 任职能力要求 - AI产业方向任职要求:对芯片、GPU、NPU、服务器、云计算等有基本理解,熟悉AI行业供应链与生态[11] - AI产业方向任职要求:具备将复杂技术内容结构化表达的能力,有技术背景或理工科方向优先[11] - AI财经商业方向任职要求:对数据敏感,对财报、股权结构及战略规划感兴趣,逻辑与商业叙事能力强[11] - AI财经商业方向任职要求:热爱对话采访,具备社交型人格[11] - AI产品方向任职要求:对智能硬件及AI终端趋势敏锐,是重度AI产品体验人士[11] - AI产品方向任职要求:熟悉各大终端厂商业态及体验方法论,具备强逻辑和结构化表达能力[11] - 主编层级要求具备选题和带队能力及经验[6] - 主笔层级要求具备原创深度稿件能力[6] - 编辑层级要求热爱表达,擅长信息挖掘,能用通俗语言解读AI进展[6] 加入公司的价值主张 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 员工可将各种AI新工具应用于工作,提升效率和创造力[6] - 员工可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 员工可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉与视野[6] - 应届新人可获得主编级编辑的一对一指导,以更快成长[6] - 公司提供扁平、简单、开放、多劳多得、能者上位的团队氛围[6] - 公司提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]
Ruby 4.0正式发布!推出全新编译器+原生隔离环境,网友:没有它圣诞都不完整
量子位· 2025-12-28 11:06
Ruby 4.0版本核心更新 - Ruby在30周年之际发布了全新的4.0版本,为开发者带来了一系列重大更新[1][2] 全新即时编译器ZJIT - Ruby 4.0正式推出了名为ZJIT的全新即时编译器,旨在突破现有YJIT编译器的性能上限[5] - 传统Ruby解释器逐行执行代码效率较低,JIT编译器将热点代码转换成机器码以提高效率[6] - YJIT编译器设计聚焦于局部,将编译视域限制在微小的基本块中,虽能快速生成机器码并降低内存占用,但难以进行全局优化[7][8] - ZJIT引入了静态单赋值形式的中间表示技术,分析完整的方法体并构建全局数据流图,使每个变量在逻辑上仅被赋值一次,从而具备执行常量折叠和死代码消除等深度优化的潜力[9] - 在处理动态类型特性时,YJIT通过版本化机制保留多条代码路径以适应不同的变量类型,而ZJIT采用侧向退出机制,基于类型稳定假设生成单一且激进优化的机器码,并在类型不符时安全回退到解释器[10][11][12] - ZJIT目前的综合性能尚未完全超越成熟的YJIT,但其基于SSA的严谨架构为未来实现更复杂的代码分析和更高的峰值性能奠定了基础[12] 隔离命名空间Ruby::Box - Ruby::Box是一个专门用于隔离代码执行环境的容器类,旨在解决长期困扰开发者的“全局污染”问题,并为构建更安全、模块化的应用提供原生支持[14] - Ruby的核心特性“开放类”允许任何代码随时修改系统内置的类,这种行为被称为“猴子补丁”,在大型项目中可能引发严重的命名冲突[15][16] - Ruby::Box通过彻底的命名空间隔离解决了这一难题,代码在某个Box中对内置类的修改、定义的全局变量或顶层常量都被严格限制在当前Box的内部作用域中,不会泄漏到外部环境[17][19] - Ruby::Box被定义为Module的子类,用户主程序默认运行在名为“main”的Box中,创建新的隔离环境时会基于包含最原始、纯净Ruby环境的“root”Box进行复制,并采用写时复制技术以降低内存开销[20] - Ruby::Box提供了文件级的作用域控制能力,一个.rb文件的加载和执行可被限定在一个单一的Box中,这对于开发插件系统、多租户应用或沙箱环境具有革命性意义[20] 重设计的Ractor API - Ruby 4.0对Ractor API进行了重大重构,引入了Ractor::Port机制,以解决Ruby 3.x时代存在的“多路通信混乱”和“消息窃取”等诸多痛点[21][22] - 早期版本中,Ractor主要依赖“推”和“拉”两种模式,当多个Ractor向同一个目标发送消息时,接收方难以分辨消息来源[23] - 新版设计中,Ractor::Port充当专用信道的角色,任何人都可以向这个端口发送消息,但只有端口的创建者才有权从中取出消息,实现了“多对一”的单向通道设计[23] - 改进主要体现在三个方面:消息的定向投递与安全性,通过端口精准发送消息,彻底杜绝了“消息窃取”现象;摒弃了复杂的同步原语,废弃了Ractor.yield和Ractortake等旧方法,转而使用更清晰的Ractorsend配合端口机制;引入了高效的多路复用,新的Ractor.select方法支持同时监听多个Ractor::Port,并在任一端口收到消息时立即返回[25][27] - 为了处理Ractor的生命周期,引入了Ractorjoin和Ractorvalue方法,其中Ractorvalue设计为只能被一个Ractor调用一次,允许系统在不复制对象的情况下安全地传递返回值,提升了效率[26] 其他重要更新 - 语法更符合直觉:逻辑运算符现在可以写在换行后的行首,不再强制要求放在上一行行末[28] - 核心库“转正”:Set和Pathname从标准库升级为核心库,开发者无需再手动编写require语句[28] - 调试体验升级:ErrorHighlight功能在发生参数传递错误时,不仅会高亮显示“调用出错”的代码行,还会同时显示“方法定义”的代码行[28] - 紧跟Unicode标准:完整支持Unicode 17.0标准,能原生识别和处理最新的Emoji 17.0表情符号[29] - 更严格的空值检查:nil对象不再响应to_a方法,以防止空值意外转换成空数组从而掩盖代码逻辑中的Bug[29] - 性能底层优化:Class.new的速度在所有场景下都得到了显著提升;垃圾回收机制现在能独立管理不同大小的内存池,有效降低了内存占用[29] - 更灵活的数组查询:Array类新增了rfind方法,可以高效地从数组末尾开始向前查找符合条件的元素[29] - 自定义对象展示:Kernelinspect方法新增了定制功能,开发者可以通过定义instance_variables_to_inspect来决定在打印对象调试信息时显示哪些变量[29]
12毫秒暴露自动驾驶致命缺陷,北航新研究实现场景感知的动态物理对抗攻击|TPAMI2025
量子位· 2025-12-28 11:06
行业背景与挑战 - 中国L3级自动驾驶车型已获工信部批准上路,标志着自动驾驶产业进入新阶段[1] - 自动驾驶车辆感知系统面临物理对抗样本(PAE)的安全威胁,即恶意生成的纹理可能诱导系统错判、漏判,引发严重事故[1][2] - 现有PAE生成方法多以静态场景为前提,难以应对光线、物体运动等动态变化的现实环境,实时生成适应不同场景的PAE是智能安全领域的核心挑战[3] 技术方案:DynamicPAE框架 - 北京航空航天大学等机构提出了DynamicPAE框架,实现了实时场景感知的动态PAE生成方法,相关论文被IEEE TPAMI 2025录用[4] - 该框架旨在解决两大核心挑战:1)对抗样本训练中的噪声导致训练退化,难以稳定生成高质量样本;2)数字域生成的对抗样本与现实场景对接困难,影响实际应用的适用性与隐蔽性[6] - 框架通过残差引导对抗模式探索、分布匹配攻击场景对齐和目标加权模块的设计,使PAE生成过程更稳定,并能实时适应不同场景[5][6] 核心技术原理 - **残差驱动的对抗模式探索**:为解决训练退化问题,框架建立了辅助任务协同优化的范式,引入高信噪比的“残差”任务,通过集成损失函数提高任务解耦性和生成效果[15][16] - 残差任务鼓励探索全局对抗样本生成空间,其反馈信息比显著高于原有训练任务[17][19] - **分布匹配的攻击场景对齐**:包含两个关键模块:1)条件不确定性对齐数据模块,使训练环境与攻击者在现实世界中的观察对齐;2)偏度对齐目标重加权模块,实现对不同攻击目标的一致隐身控制[21] - 该框架通过端到端训练,捕捉到了攻击目标的脆弱性特征与物理场景上下文之间的深层关联,实现了场景感知的生成能力[32] 性能表现与实验数据 - 在COCO和Inria数据集的目标检测实验中,DynamicPAE实现了显著的攻击性能提升,面对DETR等强大模型时,平均AP(平均精度)下降幅度为58.8%,达到了2.07倍的攻击成功率提升[25] - 在NVIDIA A40 GPU上,DynamicPAE生成单张对抗样本的平均耗时仅为12毫秒,相比传统的PGD迭代攻击方法,速度提升了2000倍以上,且攻击性更优[26] - 实验可视化结果表明,残差引导训练成功为不同目标模型找到了多样化的对抗解决方案,摆脱了退化和单一解的行为[30][31] 应用潜力与适应性 - 该框架在真实环境中的自动驾驶安全测试、物理对抗攻击等领域展现了广泛的应用潜力[7] - 其毫秒级的生成速度能够满足自动驾驶等场景对物理世界攻击实时性的严苛要求[27] - 在包含光照变化、不同视角及屏幕反射等干扰的物理测试环境中,DynamicPAE生成的对抗样本能够根据环境光照和场景内容的改变进行动态调整,展现出卓越的环境适应能力和鲁棒性[33][34] - 在视频分析中,面对变化的背景和移动目标,框架能够实时输出与当前帧最匹配的对抗纹理,保持攻击的持续有效性[34]
国足缺席世界杯,但中国大模型们集体参赛
量子位· 2025-12-28 11:06
文章核心观点 - 联想集团作为FIFA官方技术合作伙伴,发起并组织了全球首次人机足球预测大赛“AlphaGoal预测杯”,旨在推动AI大模型从封闭的学术测试走向预测真实复杂世界的实战舞台 [4][25] - 该赛事集结了8家中国顶尖大模型同台竞技,并允许普通球迷和开发者的AI Agent参与,试图以数据和逻辑挑战人类及生物直觉,标志着AI从“做题家”向“预言家”演进的关键一步 [6][9][12] - 此举被视为联想集团在AI生态中的一次“反向操作”,其不直接参与大模型竞争,而是利用其硬件、平台和用户生态充当“组织者”,为AI技术提供大规模、高关注度的落地场景 [37][38][39] 赛事概况与参赛阵容 - 赛事名称为“AlphaGoal预测杯”,由联想集团在2025联想天禧AI生态伙伴大会上宣布,是面向世界杯的全球首次人机预测大战 [4] - 首批参赛阵容包括8家中国主流大模型厂商:百度文心一言、腾讯混元、商汤、科大讯飞、Kimi(月之暗面)、MiniMax、阶跃星辰,它们被形容为“中国AI八大金刚” [14][15] - 赛制不仅限于大模型,也向普通球迷和开发者的AI Agent开放,实现全民参与,可能触发足球从观看变为参与的体验革命 [6][8] 预测方法与核心看点 - 大模型预测足球是一场“全维度的信息战”,其预测基于海量数据,包括过去50年的交手记录、球员近期状态、天气影响、裁判习惯乃至社交媒体士气分析,依赖“数据与逻辑的暴力美学” [17][20][22] - 不同模型因技术路线差异会产生预测分歧,例如逻辑性强的模型依赖概率分析,而擅长拟人交互的模型可能融入“感觉”判断,这种“百家争鸣”体现了AI认知的多样性,是赛事主要看点 [19] - 赛事核心是测试AI在“高熵、非线性”的真实复杂系统中理解因果、预测未来的能力,而不仅是处理封闭规则问题 [27][33] 赛事对AI行业发展的意义 - 赛事被定位为AI的“模型世界杯”,旨在打破AI行业“小圈子里的封闭测试”现状,推动AI从处理文本、图像走向构建能够感知和预测真实世界的“世界模型” [23][25] - 这是继“深蓝”国际象棋对决、“AlphaGo”围棋对决、“AlphaFold”蛋白质预测之后,AI面对真实、混乱世界的新挑战,标志着AI尝试从弱人工智能向通用人工智能迈进 [28][29][30][32][34] - 成功的关键在于AI能否在高噪声环境中展现超越直觉(如章鱼保罗100%的8猜8中纪录)的预测准确性或逻辑说服力,证明其理解因果而不仅仅是相关性的能力 [11][34][35] 联想集团的战略与生态角色 - 联想集团采取“反向操作”,不直接研发大模型参与竞争,而是利用其作为FIFA官方技术合作伙伴的身份及硬件支持,扮演“生态组织者”角色,为各大模型提供落地场景和用户触达渠道 [36][37][38][39] - 其组织赛事的平台是“联想天禧AI平台”,该平台月活跃用户已突破2.8亿,其中70%为18-34岁的年轻群体,为AI应用提供了庞大的核心用户基础 [40] - 联想通过覆盖PC(全球第一)、平板(全球第三)等多设备、多生态(Windows、Android)的硬件优势,致力于将顶尖大模型能力无缝接入各类设备,使AI成为全民参与的基础设施 [40][41][42]
AI在2025年捧出50+新亿万富翁,有人才22岁
量子位· 2025-12-27 17:00
文章核心观点 - 2025年AI产业资本狂潮汹涌,不仅催生了大量新晋亿万富翁,也使得老牌科技富豪的财富大幅增长,同时吸引了全球近一半的创业投资资金,表明AI浪潮在资金层面已全面到位 [1][9][46][47] 新晋亿万富翁(新钱) - 2025年AI产业催生了超过50位新晋亿万富翁 [2] - 数据标注公司SurgeAI的CEO Edwin Chen以180亿美元净资产居首 [5] - DeepSeek创始人梁文锋净资产达115亿美元,相比年初胡润榜的130亿元人民币实现跨越式增长 [5][13] - Anthropic在2025年以615亿美元估值融资35亿美元,使其七位联合创始人全部成为亿万富翁;随后公司估值进一步扩张至1830亿美元 [15][17] - AI基础设施(Infra)领域,2025年有610亿美元投向数据中心,催生了十几位新亿万富翁,涉及公司包括Astera Labs、Fermi、ISU Petasys、SanilElectric、CoreWeave等 [18] - 数据赛道方面,ScaleAI创始人亚历山大・王及31岁的联合创始人Lucy Guo均为亿万富翁;Surge AI创始人Edwin Chen(37岁)拥有180亿美元净资产;数据标注公司Mercor的三位22岁联合创始人因公司估值突破百亿美元,成为史上最年轻的白手起家亿万富翁 [19][20][22][25][27] - AI应用产品方面,音频生成公司ElevenLabs估值66亿美元,使其两位联合创始人成为亿万富翁;AI编程工具Cursor估值290亿美元,使其四位联合创始人成为亿万富翁;同赛道公司Lovable估值66亿美元,使其两位联合创始人成为亿万富翁 [27][29][31] 老牌科技富豪(老钱) - 美国前10名科技创始人和CEO拥有的财富总额从年初的1.9万亿美元增长至2.5万亿美元,增加了6000亿美元 [36] - 全球首富马斯克净资产同比增长49%,达到6450亿美元 [6][37] - 谷歌创始人拉里·佩奇和谢尔盖·布林净资产分别达到2700亿美元和2510亿美元,过去一年财富增长均接近60% [6][37] - 亚马逊创始人杰夫·贝索斯以2550亿美元排名第四;甲骨文创始人拉里·埃里森以2510亿美元排名第五,同比增长31% [39] - 扎克伯格以2360亿美元排名第六,增速为14% [41] - 英伟达创始人黄仁勋以1560亿美元净资产位列第八 [42] - 比尔·盖茨是前十中唯一净资产同比为负的富豪 [45] - 深度参与AI浪潮的科技大佬(如马斯克、佩奇、布林、黄仁勋)普遍实现了近五成及以上的财富增长 [45] 全球AI投资概况 - 2025年全球流向AI领域的创投资金达2023亿美元,占全年创投总额的近一半,较2024年的1140亿美元同比增长超75% [8][47] - 基础模型与AI基础设施是资金最集中的主战场 [48] - 基础模型领域2025年融资达800亿美元,占全球AI融资的40%,相比2024年的310亿美元/27%实现翻倍增长 [49] - 最大的两家基础模型公司OpenAI与Anthropic,单独占据了全球创投投资的14% [50] - 软银对OpenAI的400亿美元投资是2025年最大单笔交易 [51] - AI基础设施方面,2025年约610亿美元资金流向数据中心,总体资本开支超过3000亿美元 [18][51] - 企业级AI收入在2025年达到370亿美元,同比增长超过三倍,其中190亿美元来自面向用户的产品,180亿美元来自AI基础设施 [52] 企业资本开支与算力布局 - 亚马逊计划全年资本开支1000亿美元,用于在俄亥俄州和佐治亚州建设高性能AI数据中心 [51] - 微软计划投资800亿美元用于AI智算中心 [54] - 谷歌预计资本支出750亿美元 [54] - 阿里巴巴未来三年拟投入至少3800亿元用于云计算与AI基础设施 [54] - 腾讯计划投入约1000亿元用于AI算力基础设施 [54] - 字节跳动2025年资本开支约1600亿元,其中900亿元用于AI基础设施 [54]
文生图安全防线形同虚设?AAAI2026:现有防御策略存在普遍盲区
量子位· 2025-12-27 17:00
文章核心观点 - 天津大学团队在AAAI2026提出了一个名为T2I-RiskyPrompt的多模态安全基准,该系统性地揭示了当前文本生成图像模型在真实风险环境下的整体脆弱性,其核心在于模型生成能力越强,面对高风险提示时反而越容易产生违规内容 [1][12] 基准构建方法与体系 - 风险体系构建基于对七家主流平台内容安全政策的梳理,形成了覆盖6大风险类别、14个细粒度子类的分层结构,为构建高触发率、跨模型一致的风险提示奠定了框架 [2][3] - 采用严格的六阶段流程构建数据集,结合GPT标注与人工确认,确保了6,432条高风险提示的语义明确性、多样性和有效性,流程包括多来源收集、语义增强、去重、双层级标注、生成验证及人工标注风险理由 [6][8] - 与现有公开风险提示数据集相比,T2I-RiskyPrompt在风险类别多样性、提示语义明确度、提示有效性及人工风险理由标注方面具有优势,其提示的PPL值为86,提示有效性为0.741 [9] 风险图像检测方法创新 - 创新性地引入了基于风险原因的图像检测方法,利用每张图像附带的细粒度风险说明,让多模态大语言模型更精准地判断风险来源 [10] - 该方法显著提升了多个MLLM模型的风险检测准确率,例如InternVL2.5-4B的平均准确率从0.645提升至0.848,Qwen-2.5-vl-3B从0.710提升至0.918 [10][11] 模型能力与风险触发关系 - 实验测试了八个主流T2I模型,结果显示随着模型理解与生成能力提升,风险触发率并未下降,反而在多个子类显著升高,更强的模型更容易“准确执行”隐藏在提示中的危险意图 [13][14] - 例如,在测试的模型中,SD3在多个风险子类表现出高触发率,其平均风险比率达到0.923 [15] 现有防御策略的局限性 - 评估了包括SLD、MACE、TRCE在内的多种防御策略,实验表明当前防御体系仍停留在局部优化阶段,难以处理跨模态、语义规避类风险,不存在覆盖所有风险类别的万能方案 [16][17] - 微调方法能降低风险比率但牺牲图像质量,推理引导方法能保持图像质量却无法覆盖更多风险子类,所有方法都存在特定类别上的盲区 [18][20] 安全过滤机制的效能分析 - 文本过滤在多个风险类别表现稳定,基于关键词的过滤平均风险比率降至0.119,基于文本特征的过滤降至0.170 [19][22] - 图像过滤是薄弱环节,基于图像特征的过滤对色情类有效但对非色情类效果不足,难以处理版权侵权等具有复杂语义结构的类别,其平均风险比率分别为0.662和0.510 [21][22] 越狱攻击的威胁 - 测试了两类典型越狱攻击,包括伪词替换和基于大模型生成的攻击方法,这些方法通过词表规避和语义隐喻表达,将高风险语义嵌入“表面安全”的提示中 [23] - 实验结果显示,所有攻击方式均能显著提高风险触发率,并使各类过滤器出现明显失效,揭示了当前过滤体系在面对规避式、语义隐喻表达时的脆弱性 [24][25] 基准的潜在应用与行业意义 - T2I-RiskyPrompt构建了一个覆盖全面、设定严格的通用实验场,其评估框架可直接应用于评估文本到视频模型的安全性 [26][27] - 该基准丰富的类别和原因注释,为自动化风险图像评估提供了宝贵资源,尤其在版权侵权和政治人物肖像等领域,展示了在个性化肖像保护和知识产权合规方面的巨大潜力 [27]