transformer架构

搜索文档
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
AI三问③模型之问 | 直面模型之问,以大爱共塑 AI 未来 ——WAIC 2025 大模型论坛以问题破局引领技术革新
36氪· 2025-07-17 11:21
WAIC 2025 世界人工智能大会 论坛:2025年7月26日-28日 展览:2025年7月26日-29日 作为"模型之问" 系列活动的重要环节,本次活动以 "破解模型本质问题" 作为核心目标,打造跨国界、跨架构的全球顶尖科研、技术交流平台。来自领先 人工智能企业的技术专家与顶尖高校的学者将齐聚一堂,围绕 "泛化性瓶颈与模型底层范式的内在关联" 这一核心问题展开深度对话——解析模型泛化能 力不足是否源于架构设计与学习范式的固有局限,探索技术突破路径。不同国家、不同技术路线的智慧在此实现碰撞与融合,不仅推动人工智能模型前沿 成果的跨域交流,更通过针对性探讨为解决当前大模型发展中的技术瓶颈提供多元化视角,让 "模型之问" 成为技术突破的逻辑起点。 亮点二:架构革新与产业落地,以"模型之问"驱动范式跃迁 活动将 "模型之问" 作为技术探索的核心指引,深入探索Transformer与非Transformer架构的融合路径,致力于推动大模型技术从单一路径向多元范式演 进。一方面,聚焦 "跨模态智能的语义鸿沟" 问题——解析文本、图像等异构模态信息的语义失配症结,探索多模态融合架构的技术突破方向;另一方 面,直击 "性 ...
基于能量的Transformer横空出世!全面超越主流模型35%
量子位· 2025-07-08 15:30
模型架构突破 - 弗吉尼亚大学团队提出EBT架构,通过能量机制实现在跨模态及数据、参数、计算量、模型深度等维度全面超越Transformer++ [1] - EBT在离散文本和连续视觉模态下,数据量、批次大小、参数量、计算量等指标比Transformer++提升约35% [3] - EBT推理性能比Transformer++提高29% [7] 技术实现原理 - EBT通过能量最小化过程模拟思考:从随机预测开始,梯度下降优化至能量收敛,动态决定思考步数 [13][14] - EBT基于EBM原理,学习能量函数为输入配置分配标量值,能量越低表示输入兼容性越高 [15][16][17] - 研究者将EBM学习转化为优化问题,通过隐式正则化能量空间避免维度灾难,实现可扩展训练 [22][23] 性能优势与实验验证 - EBT在数据量、批量大小、网络深度等六个维度扩展实验中均优于Transformer++ [27][28] - 训练时间增加使EBT思考能力提升,验证性能增幅从4%-8%扩大到10%-14% [28] - EBT在图像去噪任务中性能优于扩散模型,且前向计算次数减少99% [32] 应用与扩展性 - EBT为系统2思维实现提供新思路,展现强扩展性和泛化能力 [34] - 支持两种变体:受GPT启发的解码器单向EBT用于自回归建模,双向EBT支持填充和掩码建模 [31] 研究者背景 - 论文一作Alexi Gladstone专注系统2思维、EBM及多模态学习,获NSF奖学金和ICML 2025最佳审稿人荣誉 [37][40] - 作者Yilun Du研究生成模型与具身智能,提出以EBM构建可组合生成模型突破数据依赖 [44][46]
特斯拉、英伟达机器人背后的“卖水人”
虎嗅APP· 2025-07-06 11:31
具身智能行业现状 - 具身智能行业目前处于"乱世"阶段,尚未形成稳定格局 [3][45] - 数据成为具身智能军备竞赛的核心资源,被比喻为"石油" [5][23] - 珠三角地区是全球机器人供应链核心,也是数据采集的重要基地 [3][5] Transformer架构的技术突破 - Transformer架构实现了从专用AI向通用AI的转变,使机器人具备环境理解和适应能力 [12][14] - 该架构通过大规模数据训练出现"涌现"效应,实现空间理解能力的质变 [12][13] - 特斯拉率先将Transformer应用于自动驾驶,验证了纯视觉方案的可行性 [15][16] - 架构支持多任务学习和在线学习,使机器人能处理复杂时空序列数据 [13][17] 机器人模型技术路线 - 世界模型路线(如谷歌PaLM)收敛快但泛化能力弱,适合特定场景 [18] - 分层混合架构(如Figure.AI)分工明确,适合复杂环境和高精度操作 [19] - 中美技术路线差异:美国擅长模型开发,中国强于硬件快速迭代 [20] 机器人数据业务模式 - 公司专注真实场景数据采集,已积累十万小时数据,目标百万小时级 [26][29] - 采用"人穿戴设备"方式采集,每小时可获500-1000条高密度数据 [28] - 商业模式类似Scale AI,但增加了数据采集和验证环节 [25] - 数据业务可能成为具身智能领域最快实现商业闭环的环节 [22][23] 创业策略与团队建设 - 创始人采用"第一性原理"思维,借鉴马斯克和黄仁勋的商业逻辑 [47][49] - 团队搭建注重长期信任关系和成员适应能力,耗时半年 [42] - 短期目标以季度为单位迭代,通过细化实现长期愿景 [46] - 创业面临从学术思维向商业思维转变的挑战 [31][39] 行业未来挑战 - 行业进入者增多导致竞争加剧,出现重复造轮子现象 [51] - 客户需求不断变化,需要快速调整业务方向 [51] - 需在"乱世"中找到独特定位,坚持数据核心战略 [45][51]
特斯拉、英伟达机器人背后的“卖水人”
虎嗅· 2025-07-06 07:01
具身智能行业现状 - 具身智能行业目前处于早期发展阶段,被称为"乱世"阶段[1] - 珠三角地区是全球机器人供应链的核心区域,聚集了大量硬件供应链和数据提供商[1] - 数据类"卖水人"正在崛起,专注于提供机器人与真实物理交互的数据[1] - 真实物理交互数据成为具身智能军备竞赛的核心资源,被比喻为"机器人是引擎,数据是石油"[3] 赛源公司概况 - 赛源是特斯拉、英伟达等公司在人形机器人领域的合作商之一[1] - 公司专注于提供机器人与真实物理交互的数据服务[1] - 客户包括英伟达、特斯拉、OpenAI的人形机器人项目,以及谷歌和斯坦福李飞飞的机器人模型训练实验室[1] - 公司计划成为特斯拉最大的数据端供应商[3] - 目前拥有约十万小时的真实场景数据,计划扩大到100万小时量级[29] 技术路线分析 - Transformer架构实现了具身智能的质变,主要体现在空间理解能力、泛化能力和范式转变等方面[10][11] - 特斯拉率先将Transformer架构应用于自动驾驶,为具身智能提供了重要借鉴[14][15] - 当前机器人模型主要分为两类:世界模型和分层混合架构模型,各有优劣[18][19] - 中国在硬件制造和快速迭代方面具有优势,美国更擅长大脑模型开发,两者可形成互补[20] 数据采集策略 - 公司专注于真实场景数据采集,而非仿真数据[25][26] - 通过开源社区和设备供应商合作建立数据采集共享平台[26] - 在工厂等真实生产环境中采集高密度数据,每小时可采集500-1000条有价值数据[28] - 已建立包含几十家合作公司的生态网络,包括工厂和小作坊等[29] 商业模式与竞争 - 数据可能是具身智能中最快完成商业闭环的环节[21][22] - 公司定位为具身智能界的Scale AI,但更注重数据采集和验证[24] - 商业模式包括数据采集、标注、清洗和模型初期验证等环节[24] - 面对大公司竞争,采取与头部机器人公司建立友好合作关系的策略[22][23] 创业历程与团队 - 创始人具有学术背景,曾参与NASA火星登陆项目和DARPA挑战赛[4] - 创业动机是获取更快速真实的业界反馈,推动具身智能发展[30] - 获得香港科技大学教授高秉强的天使投资[33] - 团队搭建耗时半年,注重成员适应能力和内驱力[40] - 采用"创始人模式",强调对行业的深入理解和清晰战略方向[34] 行业发展趋势 - 具身智能行业正在经历从"专用AI"向"通用AI"的转变[13] - 数据的重要性已成为行业共识,吸引更多公司进入该领域[48] - 行业仍处于早期阶段,存在大量机会和挑战[1][48] - 需要找到独特定位,专注于核心优势领域才能在竞争中脱颖而出[48]
华尔街嗅到量子投资机遇 热门“量子计算概念股”Rigetti Computing喜获“增持”
智通财经· 2025-07-02 22:20
量子计算行业动态 - 华尔街顶级投资机构Cantor Fitzgerald首次覆盖Rigetti Computing并给予"增持"评级 目标价定为15美元 盘初股价涨幅一度达6%至12美元 [1] - 全球量子计算仍处于萌芽阶段 但被视为最具潜力的技术里程碑之一 未来将产生巨大经济影响 [1] - 英伟达 微软 IBM等科技巨头已斥巨资布局量子计算赛道 相关公司股价与市值出现显著扩张 但当前估值处于"高企"模式 [1] - Rigetti Computing近期完成3 5亿美元按市价增发的新股发行 以增强资产负债表基本面 [2] 量子计算技术进展 - 谷歌Willow量子芯片在基准测试中展示惊人性能 5分钟内完成传统超级计算机需10^25年完成的任务 [3] - 目前尚未实现可精准控制量子态且能大规模商业化的量子计算 距离"最终形态"仍有很大差距 [3] - 量子纠缠是实现海量并行计算的关键 但当前技术无法实现大规模 长期稳定的量子纠缠 [4] - 英伟达CEO黄仁勋预测量子计算机处理能力将每5年增加10倍 每10年增加100倍 [4] - 思科推出用于量子计算机互联的芯片原型 并设立新实验室探索量子计算领域 [6] 科技巨头布局 - 英伟达宣布举办"量子日"活动 并计划与全球量子计算公司深度合作 [5] - 微软预测2025年为"量子就绪之年" IBM则致力于融合量子比特与传统算力硬件 [5] - 谷歌 IBM 微软 亚马逊等科技巨头持续深耕量子计算底层理论与硬件体系 [8] - IonQ新任CEO表示希望成为量子计算领域的英伟达 推动整个生态系统发展 [8] 商业化前景 - 量子计算领域可能出现类似AI领域Transformer架构的范式转变 从理论走向商业化应用 [7] - 离子阱技术 量子退火计算机等领域取得突破性进展 为商业化奠定基础 [7] - 科技巨头的人才储备 资金实力及政府支持或将加速量子计算商业化进程 [8]
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
机器之心· 2025-07-02 18:40
视频生成技术发展 - 近年来视频生成任务取得显著进展,尤其是从静态图像生成视频(Image-to-Video generation)因其能以最小信息输入生成具有时间连续性与空间一致性的动态内容而受到关注 [1] - 扩散模型(Diffusion Models)、Transformer架构与高性能视觉理解模型的发展推动了视频生成技术的进步 [1] 当前视频生成技术瓶颈 - 当前主流方法缺乏有效、直观、用户友好的运动控制方式,限制了创意表达和实际应用价值 [2] - 现有方法依赖预设模板、动作标签或风格提示,缺少自由又精准的方式来指定对象与摄像机的运动路径 [2] ATI框架核心创新 - ATI是一种以"轨迹为指令"的可控视频生成框架,将用户手绘轨迹转化为显式控制信号 [2] - ATI使视频创作从"参数调控"转变为"可视化创意",实现"画到哪,动到哪"的帧级精准控制 [2] - ATI通过高斯运动注入器将轨迹编码为潜在空间中的运动向量,注入扩散生成流程 [6] ATI技术实现细节 - ATI接受静态图像和用户手绘轨迹作为输入,支持任意形状轨迹 [6] - 采用高斯运动注入器在特征图上创建移动的"亮点",使模型理解轨迹与生成视频的关联 [8] - 通过编码图像、采样特征、生成高斯权重和注入特征四个步骤实现轨迹控制 [11][12][13][14] - 支持统一控制对象级动作、局部身体部位运动与摄像机视角变化,无需切换模型或模块结构 [14] ATI应用表现 - 可实时捕捉任意轨迹路径并生成连贯自然的动态视频 [17] - 在人物或动物肖像场景中能准确还原关节弧度与质心移动,生成符合生物力学规律的运动 [19] - 最多可并行处理8条独立轨迹,保证多对象身份信息互不干扰 [21] - 支持同步驱动摄像机视角,生成包含电影级镜头语言的视频 [23] - 物体与摄像机轨迹可同时注入,实现多条运动指令的无缝融合 [25][26] - 展示出良好的跨领域泛化能力,覆盖多种艺术风格 [28] - 支持生成超越物理边界的非现实动作效果 [29] - 提供高精度模型和轻量级版本满足不同需求 [30] ATI开源与生态 - Wan2.1-I2V-14B模型版本已在Hugging Face社区开源 [32] - 社区生态快速完善,包括ComfyUI-WanVideoWrapper插件和教学视频等资源 [32] - 完整代码与模型可在GitHub和Hugging Face模型库获取 [32]
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心· 2025-06-29 12:23
机器之心报道 机器之心编辑部 这两天 Andrej Karpathy 的最新演讲 在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具 体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。 回顾 LLM 的发展历程:自 2017 年 Transformer 架构问世以来,我们见证了 GPT 系列的一路高歌猛进,以及多模态能力和端侧应用的全面开花。整个 领域正以前所未有的速度演进。 要深入理解这场变革的本质,我们需要回到技术的源头。那些奠定今天 AI 能力的关键论文,不仅记录着算法的演进轨迹,更揭示了从传统编程到自然语言 交互这一范式转变的内在逻辑。 此前我们通过 50 个核心问题回顾了 LLM 的基础概念 。今天,我们将梳理自 2017 年以来 LLM 领域的重要论文。本文从 X 用户 Pramod Goyal 的论文 盘点中精选了 22 篇进行详细介绍,其余论文将在文末列出供读者参考。 奠基理论 Attention Is All You Need ...
新紫光集团董事、联席总裁陈杰:我国有移动互联网时代的成功经验,最有能力做好AI应用创新
每日经济新闻· 2025-06-28 18:33
中国AI产业发展策略 - 针对国际已达成共识且有效的技术卡点,如Transformer架构和COT技术,需集中力量进行正面突破 [1] - 在跟踪国际技术的同时,必须采用创新方式以避免长期落后 [1] 半导体领域创新方向 - 中国半导体工艺目前基本停留在7纳米节点,且将维持较长时间 [4] - 在工艺受限的情况下,应重视系统和芯片架构创新,如3D堆叠和存算一体,以缩小与国外大算力芯片的差距 [4] 端侧AI技术优势 - 端侧AI技术难度相对较低,可发挥中国研发人员众多和对应用场景理解深刻的优势 [4] - 端侧AI传统应用包括翻译、语音识别和目标检测,新兴应用包括智能驾驶、服务机器人和智能场景感知 [4] AI应用创新建议 - 中国在移动互联网时代的产业规模和应用场景创新表现突出,未来可借鉴此经验推动AI应用创新 [4] - 建议更多关注行业垂直领域AI应用,结合行业特性和需求进行定制化研发,以落地实践引领技术发展 [4]
你的扫描全能王,作价217亿冲刺港股IPO
量子位· 2025-06-27 18:57
公司概况 - 名片全能王、扫描全能王母公司上海合合信息科技计划以217亿市值赴港上市,实现"A+H"双重上市[2][3] - 公司2024年营收14.38亿元,净利润4亿元,毛利率高达84.3%[4] - 公司C端产品月活跃用户达1.71亿,在全球C端效率类AI"超级APP"公司中排名第五[5][6] 产品与技术 - 公司定位为人工智能及大数据科技企业,专注多模态大模型文本智能技术[7] - C端核心产品包括扫描全能王、名片全能王和启信宝,B端产品包括TextIn和启信慧眼[8][9][10][12] - 扫描全能王覆盖超200个国家和地区的10亿多用户,是全球最大图像文本处理AI产品[11] - 技术底座以文本智能感知与认知技术为核心,构建天枢、天璇、天玑三大技术平台[14][16] 商业模式 - C端产品主要通过付费订阅实现商业化,2024年付费用户占比4.3%[18][21] - B端产品将场景knowhow转化为标准化AI模块,覆盖近30个行业约160家世界500强公司[19][20] - 2024年C端业务占总收入83.8%,其中扫描全能王贡献77.3%[27][28] 财务表现 - 2022-2024年营收复合年增长率21%,分别为9.89亿、11.87亿和14.38亿元[25] - 同期净利润分别为2.84亿、3.23亿和4亿元[36] - 研发投入持续增加,2024年达3.9亿元占营收27.2%,研发人员占比60.6%[33][35] 市场地位 - 按2024年收入计,在中国MAU超1亿的C端效率类AI产品公司中排名第一[21] - 全球市场份额2.5%,排名第五,前四位为OpenAI、谷歌、Adobe和微软[22][23] 行业前景 - 全球AI产品市场规模预计从2024年465亿美元增长至2029年2280亿美元,复合增长率37.4%[66] - 中国B端AI市场2024年规模52亿美元,预计2029年达257亿美元,复合增长率37.6%[69][70]