FFU

搜索文档
WPP's dire profit warning is the last thing the ad business needs as it grapples with the impact of AI
Business Insider· 2025-07-09 22:24
广告行业现状 - WPP发布意外盈利预警 股价单日暴跌18% 同行Omnicom、Publicis、IPG和Havas股价同步下跌[1] - WPP预计2025年全年收入将下降3%至5% 主因客户流失、新业务放缓及经济不确定性导致的市场谨慎[2] - 行业新业务量同比锐减三分之二 反映广告主信心低迷 且新业务规模普遍小于往年[4] AI对行业的影响 - AI技术既带来业务机会 也威胁传统服务模式 可能颠覆按小时计费的传统商业模式[3] - 企业客户可能用内部AI解决方案替代部分代理服务 导致新业务量骤降[5][9] - AI搜索兴起减少出版商和品牌网站流量 对在线广告传播构成挑战[13] 主要公司动态 - WPP计划每年投入3亿英镑(约4.07亿美元)发展AI技术 已投资Stability AI并重点开发AI平台WPP Open[14] - Publicis和Omnicom承诺未来数年投入数亿美元布局AI 其中Publicis因业绩强劲未被巴克莱降级[11][17] - Omnicom与IPG即将合并 将成全球最大广告集团 导致WPP行业地位下滑[18] WPP面临的挑战 - 近期失去辉瑞和可口可乐北美等关键客户 业务重组伴随裁员造成运营干扰[16] - 任职30余年的CEO马克·里德宣布离职 继任者未定 管理层变动增加不确定性[17] - 分析师认为WPP需加速转型才可能重夺行业龙头地位 但短期内难以实现[18]
端到端笔记:diffusion系列之Diffusion Planner
自动驾驶之心· 2025-07-09 20:56
作者 | 瑶大 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1925984408785127117 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 paper:https://arxiv.org/pdf/2501.15564 自动驾驶算法两大模块:场景理解、决策。 场景理解:理解周围的环境、预测agents的行为; 做决策:生成安全舒适的轨迹、可定制化多样化(可保守可激进)的驾驶行为。 diffusion planner这篇工作关注 planner 做决策部分,关注闭环场景的性能。 对于自动驾驶规划这一部分有几种方式: rule-based :如PDM(https://arxiv.org/pdf/2306.07962),选择道路中心线,基于周车的行为预测,利用 IDM得到几种候选轨迹,利用nuPlan的评分标准查看哪条轨迹是最好的。 rule-based的迁移性不好,在某个环境、系统下调好的规则不一定适用于其他场景。大 ...
在湍流中寻找航向
华夏时报· 2025-07-07 21:26
人工智能对全球经济的影响 - 人工智能的迅猛发展正在以前所未有的速度重塑全球经济格局,技术奇点的加速临近催生了新一轮的"脉动速度",象征着技术迭代的指数级增长和数字经济时代竞争逻辑的根本性转变 [2] - 人工智能时代加速了行业和企业的"大洗牌"效应,曾经的"百年老店"可能一夜陨落,而新兴企业也可能在短短数年内成为行业霸主 [2] - AI技术的崛起重构了变化的本质,ChatGPT的用户在两个月内突破1亿,Stable Diffusion让艺术创作门槛归零,自动驾驶算法的迭代周期从"年"压缩至"周" [7] 脉动速度理论 - "脉动速度"定义为产业演进的节奏,拆解为三个维度:流程更新速度、产品迭代速度和组织变革速度,例如英特尔微处理器的生命周期以"月"计,而波音747客机的技术框架却横跨数十年 [4] - 脉动速度的差异决定了企业战略的优先级,在快节奏领域,灵活性和预见性胜于规模,微软通过捆绑策略快速响应网景的挑战 [4] - 当技术脉动速度突破临界点,竞争优势的半衰期将以指数级坍缩,算法重构规则、数据重塑权力 [7] 竞争优势的暂时性 - 所有竞争优势都是暂时的,传统企业追求"护城河"的思维在数字技术冲击下已显落伍 [3] - 柯达固守胶片技术而忽视数码相机趋势,其垂直整合的基因和对短期利润的执着使其在行业脉动速度骤增时无力转身,核心优势变为核心惰性 [3] - 在AI时代,OpenAI凭借GPT-3一度独占鳌头,但短短一年内,Meta的Llama、谷歌的Gemini、Anthropic的Claude已形成围攻之势,开源社区让技术壁垒加速瓦解 [8] 供应链设计的战略价值 - 供应链设计被视为企业的终极核心实力,从"成本中心"到"战略资产"的跃迁逻辑,戴尔的"零库存"模式是对PC行业极快脉动速度的精准适配 [5] - 三维并行工程(3-DCE)突破了传统线性思维,强调产品设计、制造优化和技术路线必须紧密缠绕、协同进化 [5] - 惠普病人监护系统通过三维并行工程将硬件设计、云端数据分析与医院工作流程无缝衔接,技术的价值在于其与业务架构、供应链能力的同频共振 [6] 商业双螺旋理论 - 产业结构的演变遵循"垂直一体化→水平模块化→再垂直一体化"的循环,如同DNA双螺旋的旋转 [6] - 企业拥抱工业互联网、人工智能时需警惕"为数字化而数字化"的陷阱,技术的价值不在于孤立的前沿性,而在于与业务架构的适配 [6] - 在AI时代,真正的竞争优势或许只能以"天"为单位存在,算法可以被复制、数据能够被迁移、算力逐渐商品化 [8]
DeepSeek给王一博道歉被当真,年度AI幻觉/马斯克Grok 4跑分曝光/华为盘古团队回应模型争议|Hunt Good周报
搜狐财经· 2025-07-06 11:35
Grok-4模型性能曝光 - Grok-4在HLE评估中基础得分35%,开启推理功能后提升至45%,显著领先OpenAI o3和Google Gemini系列[1] - 在GPQA测试中得分达87%-88%,代码能力评测SWE Bench得分72%-75%[2] - 新版本支持多模态输入、130k token上下文、结构化输出、数学推理和函数调用等功能[3] - Grok 4 Code将深度集成在Cursor编辑器,具备智能补全、调试和执行功能[3] 华为盘古模型开源争议 - 华为开源盘古7B稠密模型及72B混合专家模型,被质疑与阿里云通义千问Qwen-2.5 14B高度相似[4] - 华为声明盘古Pro MoE模型基于昇腾硬件平台独立开发,采用创新MoGE架构解决分布式训练负载均衡难题[5] - 承认部分基础组件代码参考业界开源实践,但严格遵循开源许可证要求[5] Cluely公司ARR快速增长 - AI面试辅助工具Cluely企业版推出后ARR一周内翻番至700万美元[7] - 产品实时分析用户在线对话生成隐蔽提示,应用于销售、客服和远程教学等场景[7] - 面临免费开源竞品Glass的挑战,增长持续性存疑[9] 特斯拉Optimus项目调整 - 暂停人形机器人零部件采购进行设计调整,预计耗时2个月[10] - 硬件存在关节电机过热、灵巧手负载低等问题,软件计划增加合成数据训练[12] - 原计划年产5000台目标恐难达成,目前仅完成约1000台[13] 百度搜索重大升级 - 搜索框升级为"智能框",支持超1000字文本输入和多模态交互[16] - 集成文心大模型和视频生成技术,可快速生成电影级短视频[17] AI基础设施投资热潮 - Amazon新建1200英亩数据中心与Anthropic合作,目标训练全球最大AI系统[21] - Oracle通过去中心化策略建立高效AI云基础设施[21] - 行业预计新建数据中心总投资超3200亿美元,年耗电量相当于百万家庭需求[23] Meta成立超级智能实验室 - 整合FAIR、大语言模型开发和AI产品团队,由Scale AI前CEO Alexandr Wang领导[24] - 吸引多位来自OpenAI、DeepMind和Anthropic的核心人才加入[26] - 计划未来几年投入数千亿美元发展AI基础设施和模型研发[26] 开源模型进展 - 百度文心4.5系列开源10款模型,包含47B和3B MoE模型及0.3B稠密模型[30] - 苹果开源DiffuCoder-7B-cpGRPO代码生成模型,EvalPlus基准性能提升4.4%[36] - B站开源AniSora V3动画视频生成模型,支持多种风格一键生成[34]
物理学家靠生物揭开AI创造力来源:起因竟是“技术缺陷”
量子位· 2025-07-04 12:40
核心观点 - AI的"创造力"本质上是扩散模型架构的确定性产物,而非高级智能表现[1][19] - 扩散模型的局部性和等变性限制(技术缺陷)反而成为其创造力的来源[13][16][19] - 该机制与生物形态发生学中的图灵模式高度相似,解释了AI生成图像常见缺陷(如多余手指)的成因[9][12][19] 研究背景 - 扩散模型(DALL·E/Stable Diffusion核心)设计初衷是精确复制训练数据,但实际表现出"即兴创作"能力[3][5] - 去噪过程中像素块的局部重组导致信息丢失,类似拼图丢失说明书后的创造性重组[6][8] - 物理学家团队(跨学科背景)从生物自组装过程获得启发,建立ELS数学模型验证假设[9][16] 关键发现 - ELS模型仅基于局部性+等变性规则,即能以90%准确率复现扩散模型输出[18][19] - 创造力源于系统动态:模型过度关注局部像素块而缺乏全局协调(类似生物发育中的多指畸形)[12][15][19] - 该机制可数学形式化,证明创造力是去噪过程的必然副产品[16][19] 未解问题 - 非扩散模型(如LLM)的创造力机制尚未被该理论覆盖[21] - 人类与AI创造力可能共享"不完整认知→填补空白"的底层逻辑[21][22] 行业意义 - 首次将AI创造力归因于底层技术架构而非抽象能力[1][19] - 为理解人类创造性思维提供新视角(神经科学类比)[19][21] - 可能推动新一代生成模型的设计范式转变[16][19]
AI改变了一切,除了猫咪
虎嗅APP· 2025-06-30 18:22
AI猫咪视频的流行现象 - AI猫咪视频分为两种类型:拟人化剧情类和技术展示类,前者如"大橘剧场"讲述连续故事,后者如奥运会跳水猫展示AI技术突破[6] - 数据表现亮眼:YouTube频道Batysyr通过20个AI猫咪视频月增77万粉丝获1亿播放量,Cat channel 91转型后月增200万订阅者且单视频播放量从数万跃至千万级[8] - 国内平台同步爆发:抖音、小红书等平台出现大量AI猫咪账号,单个视频点赞量普遍达数千至上万[8] 商业化变现模式 - 平台分成收益显著:创作者安胜运营的百万粉账号矩阵月收入达2万元人民币,单条千万播放TikTok视频可分账1200-2000元[12] - 广告植入成为主流:如"LT小狗日记"在短剧中植入宠物用品和食品广告,部分头部创作者开始收费提供制作流程教学[12][13] - 出现投机行为:包括批量生产低质内容骗取流量,以及借热度发行猫主题Meme币等加密货币[13] 技术驱动因素 - 工具门槛大幅降低:Midjourney、Stable Diffusion等绘图工具配合Pika等视频平台,使完整制作流程成本可控制在数十元,新手1小时可掌握[19] - 物理模拟能力突破:AI开始准确模拟水花飞溅、身体翻转等物理现象,技术公司如快手通过可灵平台主动打造"打工人猫"等模板示范[19] - 企业借势营销:MiniMax等公司因"猫咪跳水"视频获得TechRadar等媒体关注,被建议作为行业技术标杆[20] 文化心理基础 - 猫科动物具备先天优势:幼态持续特征触发人类保护欲,表情神秘性成为情感投射载体,有效规避AI人脸生成的恐怖谷效应[23] - 数据积累深厚:互联网数十年的猫内容沉淀为AI训练提供丰富素材库[23] - 情感共鸣机制:无论是逆袭剧情还是生活挫折,观众通过AI猫共情自身经历,形成情感宣泄出口[24] 行业意义 - 技术普及路径示范:显示尖端技术需通过贴近大众情感的方式实现规模化应用[24] - 用户习惯培养:以无害形式帮助用户适应AIGC内容,为更广泛的AI生成场景铺路[24] - 内容创作范式转变:验证"荒谬感+真实感"的内容公式在算法推荐时代的传播效力[16][19]
慕尼黑工业大学等基于SD3开发卫星图像生成方法,构建当前最大规模遥感数据集
36氪· 2025-06-30 15:47
卫星图像生成技术突破 - 德国慕尼黑工业大学和瑞士苏黎世大学团队提出结合地理气候提示与Stable Diffusion 3(SD3)生成卫星图像的新方法,并创建了最大遥感数据集EcoMapper [1][2] - EcoMapper数据集包含来自全球104,424个地点的290万张RGB卫星图像,覆盖15种土地覆盖类型及气候记录,空间覆盖面积达270万平方公里(占陆地面积2.05%)[5][7] - 该方法通过合成图像填补云层覆盖导致的观测空白,为全球气候适应和地理空间分析提供新工具 [2] 数据集与模型架构 - EcoMapper数据集按时间分批次采集,训练集含98,930个点位各24个月观测数据,测试集含5,494个点位96个月数据 [5][6] - 采用两种生成模型:微调后的SD3(支持1024x1024高分辨率)和专为遥感设计的DiffusionSat,后者通过元数据嵌入层增强时空属性编码 [8][9] - 多条件生成框架结合ControlNet技术,以历史卫星图像维持空间结构,气候提示反映环境变化,支持时间序列景观演变模拟 [10][12] 性能验证与行业应用 - SD3-FT-HR模型在文本到图像任务中FID最低(49.48),生成图像细节优于基线模型(SD3基线FID 157.36)[14][15] - 多条件生成模型FID进一步降至48.20,保持地理特征同时精准融合气候变化 [19][20] - 技术可应用于作物预测、土地利用监测及多云地区图像填补,推动气候变化可视化与情景探索 [22] 行业技术发展动态 - DiffusionSat为首个卫星图像专用扩散模型,支持多光谱输入和时间序列生成,由斯坦福团队开发并发表于ICLR 2024 [23] - MetaEarth模型通过自级联框架实现全球尺度无边界图像生成,北京航空航天大学团队成果 [24] - Earth Intelligence Engine结合物理模型生成洪水卫星图像,MIT等机构验证其物理一致性与泛化能力 [25][26]
AI改变了一切,除了猫咪
虎嗅· 2025-06-30 11:25
本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:周一笑,题图来自:AI生成 最近,你可能刷到过一些奇趣的猫咪视频。 主角通常是一只很胖的橘猫,像人一样在送外卖,或者刚看完电影就冲进健身房假装减肥。这些有点好 笑、有点可爱的"大橘剧场",配上魔性的"喵喵"音乐,正在抖音、小红书和TikTok上到处传播。 这些视频就是现在最火的AI猫咪内容。它们大概有两种路数。一种就像"大橘剧场",给猫加上拟人化的剧 情,核心是讲个小故事。有的甚至发展成了有连续剧情的"宠物短剧"。比如一个叫"Chubby"的AI胖橘猫, 在各种视频里被创作者安排了"进监狱"、"和孩子分离"的悲惨故事,赚足了全球网友的眼泪。 另一种就直接是技术展示,告诉你现在的AI到底有多厉害。那只跳水的猫就是最好的例子。一个叫"Pablo Prompt"的海外用户做了视频,发出来后,他自己都说"疯了",因为Instagram上的播放量冲着2亿去了。 如果说"大橘剧场"还在模仿人类的喜怒哀乐,那另一类刷屏的视频,则直接挑战起了物理定律。比如那只 在奥运会赛场上,从10米跳台完成一套专业动作的三花猫。它的姿势、翻转、入水,看起来都 ...
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
机器之心· 2025-06-28 12:35
视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流,但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加,成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性,计算量随token数量呈平方增长,生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中,注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速,但受限于稀疏度不足和稀疏模式设计刚性,效果不理想 [2] - 这些方法依赖固定稀疏算子,缺乏对输入内容的动态适应能力,难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention,实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性,指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中,无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试,DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速,加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分,SSIM一致性更强,LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术,继续优化长视频生成效率瓶颈,推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
机器之心· 2025-06-26 14:10
核心观点 - 中国人民大学高瓴人工智能学院和字节跳动Seed团队合作,将大语言模型训练中的μP理论扩展到diffusion Transformers的训练中,实现了不同大小模型共享最优超参,显著减少超参搜索耗费 [1][2] - 在DiT、PixArt和MMDiT上的实验验证表明,小模型搜索的超参可直接用于大模型训练,计算量仅为人工手调的3%左右,且效果优于人工基线 [2][21][24] - μP理论通过调整网络不同模块的初始化和学习率,使得超参在不同规模diffusion Transformers间可迁移,解决了大规模模型训练中超参调优难题 [7][10] μP理论背景 - μP全称为最大更新参数化,是Tensor Program无穷宽网络理论系列的重要成果,已被证明适用于标准Transformer架构 [7] - μP算法实现简洁,只需调整隐藏层学习率和输出层权重系数及初始化,即可实现不同大小Transformer共享最优超参 [7] - μP已被成功应用于大语言模型预训练,带来稳定的超参迁移性质 [7] diffusion Transformers的挑战 - diffusion Transformers在架构上引入了额外模块处理文本信息,任务目标也与语言模型不同,导致已有μP形式不一定适用 [8] - 团队从理论和实践上系统研究了主流diffusion Transformers(DiT、U-ViT、PixArt-α、MMDiT)的μP形式 [9][10] 实验验证 DiT网络验证 - 在ImageNet数据集上验证:当网络宽度、批量大小和训练步数足够大时,超参可稳定迁移 [12] - 将最优超参迁移到DiT-XL-2训练,收敛速度达原论文的2.9倍(2.4M步即超过7M步效果) [15] PixArt-α验证 - 在0.04B代理模型搜索学习率后迁移到0.61B模型,搜索计算量仅为一次训练的5.5% [20] - μP版本在训练中稳定优于基线效果 [20] MMDiT大规模验证 - 在18B规模验证,0.18B模型搜索超参计算量仅为人工手调的3% [21][24] - 学习率影响最关键,warmup步数影响不大,迁移到18B模型后效果稳定优于人工基线 [21][24]