机器之心
搜索文档
扩散语言模型总是均匀发力,华为诺亚教它「抓重点」
机器之心· 2026-03-22 13:34
文章核心观点 - 华为诺亚方舟实验室的研究提出了一种针对扩散语言模型(Diffusion LLM)的“智能”掩码训练范式,其核心在于认识到文本序列中不同token的信息密度不同,不应在训练时均匀对待[3][4][5] - 该方法通过优先掩码高信息密度的关键位置(如代码中的逻辑判断或数学中的关键步骤),并配合互补掩码策略,引导模型更高效地学习,从而在未改变模型主干结构的情况下,显著提升了模型在代码和数学推理任务上的性能[5][9][10][12] - 研究揭示了扩散模型训练中注意力分配的重要性,表明通过优化训练过程本身(如噪声调度),而非增加模型复杂度,就能挖掘模型的潜在性能,这为扩散语言模型的训练提供了新的思路[14][21][22] 研究方法与范式创新 - **问题识别**:当前离散扩散语言模型训练中普遍采用的均匀随机掩码策略存在缺陷,它默认所有位置信息密度相同,导致模型将优化资源浪费在非关键内容上,这在代码和数学推理等任务中尤为突出[3] - **核心方案**:提出“输入信息密度感知”的噪声调度器,其工作流程分为两步:首先提取样本中的高信息密度区域并标记;然后在训练时,对这些“优先区域”赋予更高的掩码概率,同时控制整体掩码比例,迫使模型学习恢复关键部分[5][8][9] - **互补训练**:为避免模型过度关注“重点”而忽视语言结构,对同一样本同时使用优先掩码及其逻辑互补掩码进行训练,使模型既能掌握关键逻辑,也能学习语法与上下文连贯性,实现学习目标的解耦[10] 实验结果与性能提升 - **整体性能**:在LLaDA-2.0-mini模型上,使用新方法(Code 10% + Math 50%数据)在HumanEval、MBPP、GSM8K、MATH500四个基准测试上的平均成绩达到59.19,相比使用均匀随机掩码的基线方法(平均55.32)提升了约4%[12][13] - **关键消融实验**:研究发现,确定性的“硬掩码”(即完全遮掉关键区域)效果不佳,而带概率的“软掩码”性能更好,因为硬掩码会造成连续关键信息缺失,引发“上下文崩溃”,导致训练不稳定[15][18] - **数据效率**:该方法具有很高的数据效率,仅对10%的代码数据进行高信息密度区域处理,就能将平均成绩从基线55.32提升至59.45,处理更多数据带来的性能提升会逐渐饱和,甚至可能因领域偏移导致数学任务性能下降[20] 研究意义与未来方向 - **范式意义**:该工作表明,对于扩散语言模型,掩码策略是训练逻辑的核心部分而非配角,优化训练信号的分配(即“让模型学什么”)是挖掘模型潜力的有效途径[14][22] - **低成本可行性**:研究证明,无需对全部训练数据进行昂贵处理或重构训练流水线,仅需在一小部分数据上引入结构化先验,即可显著提升模型性能,这降低了应用门槛[20] - **未来展望**:当前的信息密度提取方法仍是离线和启发式的,未来可探索基于抽象语法树(AST)的规则提取、基于模型置信度的自适应提取,或端到端可学习的对抗式掩码模块等方向[22]
刚刚,马斯克启动TERAFAB项目:万亿瓦算力工厂,瞄准太空
机器之心· 2026-03-22 13:34
项目核心信息 - 马斯克旗下SpaceX和Tesla共同发布“TERAFAB”项目,目标是每年生产超过1太瓦(TW)算力,其中约80%用于太空,约20%用于地面 [1] - 1太瓦(TW)等于10¹²瓦(一万亿瓦),或1000吉瓦(GW),或100万兆瓦(MW)[1] - 作为对比,2025年9月,OpenAI和NVIDIA宣布合作部署10吉瓦(GW)AI数据中心 [1] 项目背景与动机 - 马斯克认为现有供应商(如台积电、三星)无法满足未来数亿级AI芯片需求,因此决定建设“巨型芯片工厂” [2] - 当前美国年度电力消耗仅为0.5太瓦(TW),而TERAFAB的年产出将达到1太瓦(TW)[15] - 为实现太空项目,马斯克曾试图购买三星电子、台积电、美光科技等供应商的全部芯片,但未果,因此决定在奥斯汀建设一座先进技术晶圆厂 [15] 战略协同与合作方 - SpaceX、xAI和特斯拉将共同推动TERAFAB项目 [11] - 特斯拉已累计交付超过800万辆汽车,并构建了从制造到能源的完整闭环 [11] - xAI已建成首个千兆瓦级计算集群,并具备轨道AI计算构建能力 [11] - SpaceX通过可复用火箭大幅降低进入太空的成本,承担全球绝大多数轨道运力,并运营最大的空间互联网网络 [11] 太空部署与基础设施 - SpaceX的Starship是实现每年太瓦级计算能力的关键,预计需要每年向轨道运输约1000万吨物资(按每吨100千瓦计算)[11] - 公司有信心SpaceX能够达到每年1000万吨的入轨能力 [12] - 项目设想了微型AI卫星(AI Sat Mini),其功率为100千瓦(kW),未来功率将进入兆瓦(MW)范围 [12] 技术架构与工厂设计 - 奥斯汀的先进晶圆厂将配备制造各种芯片(逻辑和存储)所需的全部设备,并具备制造光刻掩膜的完整能力 [17] - 工厂可实现从设计掩膜、制造芯片、测试芯片到修改掩膜的完整闭环,实现快速递归迭代 [17] - TERAFAB的构想是一套“分层计算体系”,覆盖从地面AI(如AI5/AI6)到轨道、太空能源系统(D3)及未来星际场景 [17] 太空计算的优势 - 在地球上,电力、土地、散热资源构成约束 [19] - 在太空中,太阳能几乎是无限的,环境天然适合散热,且不受传统基础设施限制 [19] - AI在太空中的部署成本,可能在未来两到三年内低于地面部署成本 [20] - 太空太阳能获取效率是地面的5倍以上,且系统成本更低 [26] 长期愿景与文明尺度 - 项目的长期愿景是支持人类成为跨星际文明,开发利用整个太阳系并向其他恒星系统发射飞船 [4] - 在卡尔达肖夫等级中,人类距离能够利用和控制地球所有能量资源的I型文明仍有相当距离 [6] - 地球只接收到太阳总能量的大约五亿分之一 [7] - 太瓦级算力在文明尺度上只是第一步,未来目标是实现拍瓦(PW)级规模 [10][21] - 为实现更大规模(如拍瓦级),可考虑在月球上建设电磁质量发射器,利用月球无大气和重力仅为地球六分之一的条件 [21] - 月球上的质量发射器若能达到太阳能的百万分之一,将意味着一个比当前地球经济大一百万倍的体系 [22] 行业影响与未来展望 - 若太瓦级计算能力成功部署于轨道,可能颠覆人工智能的运行模式和经济体系 [24] - 未来,地面数据中心可能被视为过时的产物 [25] - 太空基础设施优势可能改变谷歌、微软等公司依赖的地面基础设施护城河 [26]
CVPR 2026 | 中科院、港中文等提出HiFi-Inpaint:无损还原物体细节,重塑Inpainting生成范式!
机器之心· 2026-03-22 13:34
行业痛点与现有技术局限 - 基于参考图像的图像修复技术在广告营销和电商领域有巨大应用潜力,例如生成“真人手持或穿戴商品”的展示图,但现有模型在高保真度要求下常出现品牌Logo扭曲、包装文字乱码、产品纹理丢失等问题,阻碍技术落地[2] - 尽管扩散模型在图像生成上取得革命性进展,但在处理高度定制化的“人+商品”图像时仍力不从心[6] - 现有基于参考图像的修复方法面临三大阻碍:细节易丢失,去噪过程导致纹理、形状和品牌元素严重不一致[7];监督信号粗糙,传统隐空间MSE损失难以提供像素级指导[8];缺乏高质量数据,“人+商品”开源训练数据极度匮乏[9] HiFi-Inpaint模型核心解决方案 - 研究团队提出HiFi-Inpaint模型,核心洞察是显式提取“高频特征”并直接注入网络结构和损失函数,以解决隐空间易丢失高频信息的问题[11] - 模型基于FLUX.1-Dev架构深度改造,旨在将商品参考图无缝融合到带Mask的人物图像中,同时保持极高保真度的细节还原[13][14] 技术架构三大创新点 - 结构创新:设计共享增强注意力模块,利用共享的双流视觉DiT块细化Mask区域内视觉Token,通过可学习权重因子将商品高频特征注入主干网络,增强捕获复杂特征能力的同时保持模型紧凑性(每个模块仅引入一个额外参数)[17][18] - 训练策略创新:引入细节感知损失函数,针对Mask区域内的高频成分(如文字边缘、图案纹理)进行像素级监督,弥补隐空间监督不足[21][22] - 数据破局:构建包含4万多张高质量样本的HP-Image-40K数据集,通过自动化“自合成与过滤”流水线(使用FLUX.1-Dev生成、边缘检测分割、YOLOv8与CLIP语义过滤、InternVL文本过滤)保证商品文字和形态的高度一致性[25] 模型性能评估与效果 - 在定量评估中,HiFi-Inpaint在文本对齐、视觉一致性和结构相似度上均取得SOTA表现,其中CLIP-I达到0.950,DINO达到0.919,SSIM-HF达到0.429[32] - 与ACE++、Insert Anything和FLUX-Kontext等模型相比,HiFi-Inpaint能完美还原瓶身微小文字、Logo和瓶盖纹理,拒绝“AI幻觉”[32] - 在真实世界数据集(含复杂光照、遮挡、室内外场景)上,模型展现出强大的泛化能力和鲁棒性,能自然地将目标商品融入场景并保留关键视觉属性[35] 行业影响与未来启示 - 该技术为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍[36] - 核心启发包括:高频信号不可忽视,显式引入传统图像处理先验(如傅里叶变换提取高频图)能为模型提供精准“锚点”[37];Data-Centric AI依然奏效,利用大模型进行自动化数据合成与严格过滤是突破领域数据匮乏的高效途径[38] - 该工作已被计算机视觉顶级会议CVPR 2026接收[39]
Context 还不够,Harness 才是 Agent 工程优化的正解?
机器之心· 2026-03-22 10:36
Agent工程范式从Context Engineering向Harness Engineering演进 - 行业关注重点正从AI的生成能力转向执行能力,长程任务中的上下文挤压、工具开销和业务语境缺口问题凸显,单一的Context Engineering已难以支撑Agent稳定运行,围绕执行环境、约束机制和反馈回路设计的Harness Engineering受到更多关注[1] - Harness Engineering被视为继Prompt Engineering、Context Engineering之后,Agent工程进一步走向执行框架设计的新信号,其核心判断是决定Agent落地效果的关键已不只是模型能力,更在于系统能否提供清晰边界、自动校验和可复用的纠错流程[5] - 新的工程分工正在形成,模型负责生成与执行,人类则更多负责设定约束、补充反馈并持续优化运行框架[6] Context Engineering的局限性 - 随着AI应用从单轮问答走向多步执行与长链路任务,单靠提示词(Prompt Engineering)已难以覆盖真实任务中的上下文缺失、信息噪声与工具协同问题[7] - Context Engineering的核心是系统化设计推理所需的信息供给,包括检索、记忆、工具反馈与上下文组织,以减少执行偏移和结果失真,曾被Andrej Karpathy认为是工业级LLM应用的关键[8] - 但在更长链路、更高复杂度的真实任务中,Context Engineering的局限性集中暴露,包括受限于上下文注意力预算、工具接入和协议开销挤压有效认知空间,以及难以自动补齐关键的业务定义和组织隐性知识[8] Harness Engineering的价值与成效 - Harness Engineering的价值不依赖于更换底层模型,可直接体现在系统层优化上,例如LangChain团队在固定模型不变的前提下实现了Agent表现的明显提升[6] - 具体案例显示,LangChain的Deep Agents团队在2025年2月保持模型为GPT-5.2-Codex不变,仅通过调整harness,就将coding agent在Terminal Bench 2.0上的得分从52.8%提升至66.5%,排名从Top 30附近跃升至Top 5[6] - 其改进方法是借助trace在大规模运行中识别失败模式,再针对性回写到harness中,这意味着Harness Engineering将“调试模型”转化为“调整系统”,通过可观测性与闭环迭代持续放大模型已有能力[7] - 行业观点认为,当Agent反复犯同类错误时,关键在于让系统更快暴露错误、定位错误并推动修正,这正是Harness Engineering的实践范畴[5]
告别Docker:北大开源「迷你沙盒」,无容器也能训练SWE Agent
机器之心· 2026-03-22 10:36
行业技术背景与痛点 - 软件工程智能体因其清晰的落地场景和巨大应用价值,受到学术界和工业界广泛关注 [3] - 当前SWE Agent训练普遍依赖容器实现环境隔离和复现,但容器的高昂开销和基础设施要求将许多从业者拒之门外 [3] - 扩展批量规模或提高rollout数量时,容器服务器承载量成为主要性能瓶颈,导致在计算资源受限情况下训练无法扩展 [6] 解决方案:SWE-MiniSandbox框架 - 该框架是一个无需容器的软件工程沙盒环境,旨在解决依赖容器导致的成本与扩展性问题 [4][6] - 核心机制通过Chroot、挂载命名空间和终端隔离实现进程和文件系统隔离,绕过了对容器或重型镜像的依赖 [6][9] - 实现了一套环境预缓存流水线,构建基于轻量级Python conda+venv的混合环境,安装特定任务依赖项,并在不同运行间复用压缩的缓存产物 [7] - 通过直接与SWE-Rex、SWE-agent和SkyRL等现有核心SWE工具集成,成为容器后端的一个无缝、即插即用的替代品 [7][17] 技术方法与优势 - 采用按实例划分的挂载命名空间和基于chroot的文件系统隔离机制,为每个实例创建隔离的终端会话和私有目录 [6] - 将环境和代码仓库打包成缓存,利用基于Ray的资源控制和信号量来限制并发解压,实现I/O的精细管理 [7][14] - 内核开销比容器小,速度更快 [9] - 预制不同Python版本的conda环境,每个任务根据需求创建venv虚拟环境,体积平均不到100MB,摒弃了通常大于500MB的重型conda环境 [16] 实验效果与性能数据 - **环境体积显著减小**:在SWE-smith数据集上,环境缓存大小仅为传统容器镜像的5% [7][20]。具体而言,传统方法在SWE-smith上需295GB,而SWE-MiniSandbox仅需13.5GB;在SWE-bench Verified上,传统方法需605GB,而SWE-MiniSandbox仅需89GB [20] - **环境准备时间大幅缩短**:环境准备时间缩短至容器基线的25% [7]。实验数据显示,Docker环境准备时间约90秒,而SWE-MiniSandbox仅约23秒 [21] - **训练效果相当**:在同等数据和参数设置下,在SWE-bench Verified上评测效果与容器环境下训练的Agent相当 [7][21]。例如,SWE-Agent-7B模型在Docker环境下得分从13.4提升至16.4,在SWE-MiniSandbox下从13.4提升至16.8 [21] - **平均Rollout时间减少**:数据显示SWE-MiniSandbox的Avg Rollout Time普遍低于Docker环境,例如7B模型从355.47秒降至252.64秒 [21] - **优秀的多节点可扩展性**:在负载合理的情况下,多节点的平均环境启动速度和单节点几乎一致 [23]。例如,在2节点、16bcs、16n配置下,环境准备时间从Docker的113.67秒降至20.72秒 [23] 未来发展方向 - 引入Agent工作流,打造适配该框架的环境自动化构建流程,并扩展对更多开源SWE数据集的支持 [29] - 将应用生态拓展至更广泛的任务场景,如Terminal Bench、Skill Bench等 [29] - 优化环境启动机制,例如基于BranchFS实现分支隔离以避免缓存的解压拷贝开销 [29] - 优化强化学习训练机制,通过实现环境启动与梯度反向传播的异步重叠等方式提升训练效率 [29]
Andrej Karpathy最新播客:Token没用完让人焦虑,就像患上「AI精神病」
机器之心· 2026-03-22 09:17
文章核心观点 - AI领域正在经历一场以Agent为核心的生产方式重构,软件工程师的工作方式已发生根本性转变,从主要自己写代码变为主要驱动Agent执行任务[9][10] - 未来的软件与商业体系将围绕Agent进行重构,App可能消失,设备只需开放API,由Agent作为新的“操作系统”统一调度[3] - 行业需要为人类与AI构建更广阔的协作界面,并探索如何将研究人员从循环中移除,实现自动化研究以最大化效率[43][44][51] 工作范式转变与个人体验 - 资深专家的工作方式从去年12月起发生剧变,从80%自己写代码、20%交给Agent,转变为20%自己写代码、80%交给Agent,目前甚至已远超此比例[9] - 专家已近半年未手写一行代码,每天工作16小时与Agent对话,并行驱动十多个任务,并因未将token吞吐量用到最大而感到焦虑[3][9][20] - 工作瓶颈从个人打字和编码效率,转变为个人组织、调度多个Agent协同工作的能力,思考单元从代码行变为“宏操作”[12][16] Agent作为新操作系统与软件生态重构 - 未来设备只需开放API,Agent将成为新的“操作系统”,统一控制智能家居等各类设备,例如通过三段提示词在WhatsApp对话中控制全屋设备[3] - 大量定制化、碎片化的App是被过度生产的,未来能力应以API形式暴露,由Agent作为智能胶水层进行调用和组合[38][39] - 未来的用户将不再是人类,而是代表人类行动的Agent,整个软件与商业体系都必须围绕此进行大规模重构[4][40] 自动化研究与提升杠杆率 - 发挥AI工具最大价值的关键是将人类从系统瓶颈中移除,实现完全自动运行,核心目标是最大化无人类参与的token吞吐量[43][44] - 自动化研究是此理念的体现,给定目标、评估指标和边界条件后,系统可自行探索优化,甚至在已调优的模型上发现新的改进点[47][48] - 研究机构可被定义为一组markdown文件(角色、流程),这些“代码”可以被持续优化,存在对研究组织本身进行元优化的空间[4][51][52] AI能力的不均匀性与未来分化 - AI能力存在不均匀性,在可验证、被重点优化的领域(如代码生成)表现强大,但在未被强化的领域(如讲笑话)进步缓慢[57][59][60] - 当前主流是追求覆盖所有能力的单一模型,但未来应出现更多针对特定任务专门化、智能分化的模型,类似动物大脑适应不同生态位[62] - 实现智能分化的技术挑战包括如何在微调时不损失已有能力,目前缺乏精细化“操作智能”的基础工具[66] 算力与协作模式的新形态 - 算力可能取代财富成为更关键的稀缺资源和衡量标准,个人算力设备既可自用也可贡献给自动化研究网络[76][77] - 可设计系统利用互联网上大规模的不可信算力节点池进行协作(如自动化研究),通过可信节点验证结果,形成“群体智能”[70][71][72] - 这种模式下,算力成为最核心的贡献形式,个人或公司可为自己关心的研究问题贡献算力[73] 对就业市场与工程需求的长期影响 - AI现阶段应被视为赋能工具,可大幅加速工作中的部分任务[83] - 软件工程领域可能呈现杰文斯悖论,即开发成本下降将释放被压抑的需求,导致软件需求总量增加[84] - 长期影响不确定,但构建AI的研究人员本身也在打造可能替代自己工作的自动化系统[86][87] 开源与闭源模型的竞争格局 - 闭源模型仍处领先,但开源模型与前沿的差距已从18个月缩短至约6到8个月[100] - 预期形成健康平衡格局:闭源模型探索前沿;开源模型稍落后,作为行业可信任的公共智能层,覆盖大量基础场景[105][106][107] - 过度集中化于少数闭源系统存在风险,希望有更多实验室参与前沿竞争[111][113] 数字世界与物理世界的演进路径 - AI引发的效率提升和重构将首先大规模发生在数字世界,然后转向数字与物理的接口层,最后才是全面的物理世界自动化[116][121] - 机器人等物理世界应用因复杂度高、投入大而滞后,但未来市场规模巨大[116][120] - 许多创新公司将出现在数字与物理的接口层,解决现实世界数据输入与决策输出问题[119][122]
CVPR 2026 | 从「单帧」到「分镜」:STAGE重新定义AI电影叙事
机器之心· 2026-03-22 09:17
AI视频生成行业技术瓶颈与解决方案 - AI视频生成技术(如Sora、可灵、seedance 2.0)在视觉质量上取得显著进展,但在创作连贯“故事”时面临普遍瓶颈:多镜头视频的连贯性不足[2] - 当前主流多镜头视频生成方法存在两大流派及其固有缺陷:端到端“一镜到底”方法计算成本极高且过程难以控制;关键帧“分步走”方法则常导致镜头切换时出现“灾难性”断裂,如角色外观、动作、场景或视线的不连贯[3] - 现有方法问题的本质在于让AI“画单帧”,而非“拍分镜”,缺乏对镜头起承转合的结构化控制[6] STAGE框架的核心创新 - 提出了全新的叙事生成框架STAGE,其核心是以“电影分镜”为中心,将任务重新定义为直接生成每个镜头的“起始-结束帧对”[2][8] - 该框架通过预测结构化的分镜,为多镜头视频创作提供了前所未有的结构化控制力,旨在实现电影级的平滑过渡[5] - STAGE框架的核心是一个名为STEP2的起始-结束帧对预测模型,它能够将文字剧本精准翻译成一系列可执行的视觉分镜,如同一位AI导演[9][10] STAGE框架的技术优势与实现机制 - **结构化叙事控制**:通过预测起始-结束帧对,为多镜头叙事提供了三大优势:1) 所有镜头的起止帧串联形成视觉骨架,确保长期一致性;2) 明确定义单个镜头内部的动态变化;3) 直接对镜头间的“转场”进行建模,使剪辑点平滑有逻辑[12] - **确保跨镜头一致性**:设计了“多镜头记忆包”机制,能将历史镜头的视觉信息压缩成紧凑记忆,在生成新镜头时保证角色、场景的长期一致性,同时避免巨大计算开销[13] - **保证镜头内连贯性**:采用“双重编码策略”,将一个镜头的起始帧和结束帧捆绑进行联合编码,使模型在生成之初就理解整个镜头的动态,确保动作逻辑自洽[14] - **提升生成质量与“电影感”**:采用“两阶段训练方案”:第一阶段通过监督微调让模型在海量电影片段上学习基础镜头语言;第二阶段通过基于人类偏好的对齐训练,让模型学会识别“高级的、电影感的”转场[15] 数据基础与实验结果 - 为训练模型理解“分镜”与“转场”,构建了大规模ConStoryBoard数据集,包含从公开电影中筛选的10万个高质量多镜头片段,每个镜头都标注了起始-结束帧对、故事描述及电影学属性[17] - 进一步构建了包含人类偏好转场案例的子集ConStoryBoard-HP,专门用于第二阶段的偏好对齐训练[17] - 在“火车上的女人”主题的视觉对比中,STAGE完美保持了人物和环境的一致性,并实现了流畅叙事,而其他对比方法出现了场景不一致、风格失真或动作断裂等问题[22] 行业意义与发展方向 - STAGE框架标志着多镜头视频生成的未来方向在于结构化的叙事控制,而不仅仅是像素堆砌[24] - 通过引入“分镜”这一电影工业核心概念,为AI视频生成开辟了从“技术炫技”迈向“艺术创作”的新路径,使模型更像懂得用镜头组织故事的“导演”,而非仅会画画的“美工”[24] - 这项工作预示着当AI真正学会“拍电影”时,一个由AI辅助创作的、属于每个人的电影时代可能到来[24] - 该研究由北京邮电大学、北京大学、北京智源人工智能研究院合作完成,论文已录用至CVPR 2026,相关数据集和代码将逐步开源[3][4]
谷歌Stitch「氛围设计」干崩Figma 8.8%股价:十年经验,败给巨头一次更新(附实测)
机器之心· 2026-03-21 16:09
谷歌Stitch产品更新分析 - 谷歌旗下AI设计工具Stitch完成重磅更新,被重新定位为“氛围设计平台”,用户可通过自然语言描述在AI原生画布上快速生成高保真界面、交互原型和一致性设计系统 [1][3][4] - 该平台面向独立开发者、产品经理和设计师,能将从创意到可点击原型的周期压缩到分钟级,旨在重塑传统UI/UX工作流 [4] - 产品三大亮点包括:智能设计Agent,可根据商业概念或App愿景描述逐步生成设计;快速迭代功能,可串联画面成可交互原型并管理品牌设计系统;支持免提语音协作,实时调整布局 [4] Stitch核心功能与实测体验 - 平台提供四种功能模式:利用Gemini 3.0 Flash生成高质量HTML设计并可导出代码;调用Gemini 3.1 Pro以牺牲速度换取最高质量输出;支持上传现有应用截图进行重新设计;提供创意发散功能,针对问题生成多种解决方案 [16][17] - 工作流程为提示词输入 → AI生成设计 → 预览与迭代 → 导出代码,支持通过自然语言持续迭代优化设计,并可预览和编辑交互原型 [19][20][23][25][27] - 设计成果可导出为HTML代码,或导入Google AI Studio等工具,由AI理解设计稿后自动生成完整的可运行前端代码,图片资源可直接热链接引用 [31][32][33][34] - 实测表明,工具的生成效果高度依赖用户对功能的熟悉程度,一旦用熟可大幅提升生产力,使普通人也能创建应用或网站,尽管输出有时略显粗糙 [15][35] 市场反应与行业影响 - 谷歌此次更新对设计软件公司Figma造成直接冲击,导致其股价在消息公布当日下跌8.8% [2] - 自2025年8月IPO以来,Figma股价已累计下挫约80%,此次更新导致其市值蒸发近20亿美元 [2][54] - 市场反应迅速,表明传统SaaS公司面对“看起来可行”的AI竞品时防御力脆弱,类似冲击也在网络安全、法律、金融分析及软件工程等行业反复上演 [55][56] 产品评价与争议 - 社交媒体评价呈现两极分化,部分用户认为其宣传与实力匹配,输出结果超出预期;也有用户认为效果平平,结果参差不齐 [9][36][38][49] - 有观点认为,Stitch将“vibe coding”理念扩展至设计领域意义重大,但设计缺乏像代码“能否运行”那样的明确衡量标准,工具最大受益者是本就清楚自己需求的人 [50][52] - 沃顿商学院教授评价相对中肯,认为该工具对于非程序员来说使用体验更自然,虽然仍有不足,但结果令人印象深刻 [50] 对设计行业的潜在冲击与未来 - 更新引发了设计师群体的普遍焦虑,行业内部频繁讨论“AI”与“失业”话题 [57] - 有观点认为市场反应可能过早,因为Figma的核心价值在于协同设计工作流,包括迭代周期、利益相关方对齐及设计系统治理,这些是设计中最难的环节,Stitch目前难以替代其多人实时编辑体验 [56] - 教育体系面临挑战,AI技术迭代速度远超课纲更新速度,教师被迫快速调整教学内容,从教授软件使用转向教授AIGC设计工作流核心思路 [57] - 最终趋势可能是,AI不会替代所有人,但熟练使用AI的人将替代不会使用的人 [58]
画质革命还是AI整容?DLSS 5引爆全网争议,老黄亲自下场论战
机器之心· 2026-03-21 13:04
DLSS 5技术发布与核心特点 - 英伟达在GTC上公布了最新的AI图像重建与超分辨率技术DLSS 5,公司称其为自2018年实时光线追踪问世以来,在计算机图形领域最重大的突破[3] - 该技术的核心目标是将好莱坞级别的影视特效带入实时渲染的游戏中,支持高达4K的分辨率并保持实时交互的流畅性[24] - 在技术上,DLSS 5放弃了传统路径,全面转向生成式AI,其核心是一个实时神经渲染模型,能够理解复杂的“场景语义”,并基于游戏的颜色和运动矢量等输入参数,直接在像素层面生成光影和材质[25] - 与之前版本(直到DLSS 4.5)的目标是修复与细化不同,DLSS 5的目标已经变成了“创造”[27] - 该技术预计于今年秋季正式推出,在GTC现场演示中使用了**两张RTX 5090显卡**协同工作,其中一张专门负责运行DLSS 5的AI模型[27] 行业合作与游戏厂商支持 - 该技术正由全球知名游戏公司大力推动,包括Bethesda、育碧、网易、腾讯等[27] - 首批支持的游戏包括《刺客信条》、《三角洲》、《霍格沃茨之遗》、《上古卷轴四重置版》等[27] - 多家游戏厂商高层在英伟达官方博客中对DLSS 5表达了支持[27] 技术引发的争议与玩家反馈 - 技术发布后引发了巨大争议,许多玩家抱怨DLSS 5把原本清晰可辨的人脸,变成了类似AI生成的劣质内容,破坏了艺术家的原本设计[12] - 玩家指出,艺术家花费大量时间精心打磨的角色模型,被AI一键替换成一张通用脸,令人反感[20] - 争议点在于,DLSS 5是一次“无中生有”的重构,它利用生成式AI重新加工光照和材质,添加了游戏中原本根本不存在的细节[28] - 玩家对展示效果的评价两极分化,有观点认为新技术就像给游戏画面上了“直播美颜滤镜”[21] AI生成内容对美术风格的潜在影响 - 从当前展示效果来看,这项技术引发了对未来游戏视觉风格同质化的担忧[29] - AI生成的人脸本质上是无数图像的拼合与平均,输出一种被同质化的理想形象,其典型特征包括:过于光滑的皮肤、趋同的五官、始终开心的眼神、饱满嘴唇的微笑、完美的发型、小巧的鼻子以及类似HDR的打光[29] - 当大量AI脸同时具备这些特征时,会滑向“恐怖谷”效应[29] - 许多玩家担忧,这项新技术可能成为AI同质化审美入侵游戏领域的缺口,AI“越俎代庖”修改底层美术设计的趋势引发了核心圈层的反感[29] 公司官方回应与技术原理澄清 - 针对争议,公司CEO进行了回应,解释DLSS 5的核心在于将生成式AI与游戏中的几何、纹理等真实数据进行融合,且整个过程是可控的[32] - 开发者可以对生成式AI进行微调,使其符合自身的艺术风格,公司提供的是技术而非艺术创作本身[32] - 在机制上,DLSS 5并非传统后处理技术或叠加滤镜,而是在几何层面进行生成式建模,其结果基于游戏本身的真实数据进行约束[32] - 所有与生成相关的能力都掌握在游戏开发者手中,无论是卡通风格还是写实渲染等视觉方向都可以通过调节实现,强调了对内容的高度可控性[32] - Bethesda在后续回应中表示,目前展示的效果仍属于非常早期版本,后续将由美术团队进一步调整光照与最终呈现,以符合各自游戏的风格[27]
ICLR 2026 | 清华提出交叉熵分解:“误差熵”才是大模型规模定律真正的驱动项
机器之心· 2026-03-21 13:04
交叉熵规模定律的失效与分解 - 核心观点:交叉熵损失本身并不真正遵循规模定律,其在大模型上失效的原因是它作为一个“混合度量”,内部只有一部分(误差熵)严格遵循幂律缩放,而其他部分(自对齐和置信度)不随模型规模改善,形成了干扰噪声[2][6] - 来自清华大学的研究团队在ICLR 2026的论文中,通过将交叉熵分解为误差熵、自对齐和置信度三个部分,揭示了只有误差熵严格遵循幂律缩放,这为理解大模型训练规律提供了新视角[2][3] 交叉熵的全新分解方法 - 研究团队提出了一种基于排名的新指标——基于排名的误差,该指标衡量正确token在模型输出中的排名位置,比关注概率得分的交叉熵更稳健,不受后处理操作影响[6][8] - 基于RBE,交叉熵被数学分解为三项:误差熵(衡量RBE分布的香农熵)、自对齐(刻画模型概率得分与RBE分布的对齐程度)和置信度(反映模型输出概率得分的整体大小)[8] - 在训练过程中,三个成分呈现清晰的优化顺序:模型早期集中降低误差熵,之后才开始显著优化自对齐和置信度[10] 误差熵是唯一遵循规模定律的成分 - 研究者在Wikipedia、C4、The Pile的GitHub子集三个数据集上,对32个从数百万到数百亿参数的预训练模型进行了系统检验[20] - 结果显示,在对数-对数坐标下,只有误差熵呈现接近线性的下降趋势,与模型参数量之间存在稳健的幂律关系,而自对齐项在模型增大时没有改善甚至轻微上升,置信度项则波动较大,缺乏一致规律[21] - 定量拟合证实,误差熵的拟合优度在所有数据集上均显著高于交叉熵本身,说明交叉熵的缩放趋势主要由误差熵驱动[23] 规模定律失效的内在机制 - 在小模型中,误差熵占据了交叉熵总量的近90%,由于其遵循幂律,使得整体交叉熵表现出良好的幂律趋势[25] - 随着模型规模增大,误差熵占总损失的比例逐渐下降,而不遵循缩放规律的自对齐和置信度项占比相应上升,这些不缩放的成分像“噪声地板”,使得交叉熵偏离纯粹的幂律预测,模型越大,偏差越显著[25] 对行业实践与理论研究的启示 - 在训练层面,直接以误差熵作为训练信号或评估指标,可能比交叉熵更能准确反映模型能力的提升,从而指导更高效的训练策略和资源分配[27] - 在理论层面,该分解揭示模型规模的增长本质上提升的是排序能力,而非概率校准能力,这为理解大模型的能力边界和优化方向提供了新指引[27]