Workflow
生成式模型
icon
搜索文档
两张图就能重构3D空间?清华&NTU利用生成模型解锁空间智能新范式
量子位· 2025-07-09 09:18
3D语言场景生成技术突破 - 提出LangScene-X生成式框架,仅需2张图像即可构建3D语言嵌入场景,相比传统NeRF方法所需的20个视角大幅降低输入要求 [2][4] - 攻克传统方法依赖密集视图的痛点,实现多模态信息统一建模,为空间智能领域开辟新路径 [3][5] - 模型能模拟人类认知方式,通过稀疏视觉输入建立融合语言理解的3D空间系统 [4] 传统3D语言场景生成痛点 - 密集视图依赖:传统方法如NeRF在仅2-3张输入时物体边界模糊率超40%,而真实场景获取密集视图成本高昂 [5] - 跨模态割裂:现有方法处理外观/几何/语义时模块独立,导致ScanNet测试中法线与RGB一致性误差达27.3° [6] - 语言特征压缩瓶颈:CLIP的512维特征直接嵌入导致内存占用高,场景切换时文本查询准确率下降58% [7] LangScene-X核心技术方案 - TriMap视频扩散模型:四阶段训练实现RGB/法线/语义协同生成,仅2张输入时法线-RGB误差降至8.1°,语义边界准确率提升63% [8] - 语言量化压缩器(LQC):通过向量量化将CLIP特征压缩为3维索引,重建误差仅0.0001,跨场景迁移无需微调 [10][11] - 语言嵌入表面场:渐进法线正则化使3D表面重建误差显著降低,"冰箱"查询中表面重合度达91.7% [12] 模型架构创新价值 - 单模型统合多模态生成,消除传统模块化流程低效问题,确保3D空间一致性 [14] - 语言量化压缩器实现高维特征跨场景泛化,内存占用减少90% [10][14] - 语言嵌入表面场技术实现文本与3D场景精准对齐,如"stuffed bear"可精确定位关联区域 [15] 实证性能表现 - LERF-OVS数据集上mAcc达80.85%(+31.18%),mIoU达50.52%(+10.58%) [16] - ScanNet数据集mIoU达66.54%,超越现有方法14.92%,分割掩码边界锐利度超越人工标注 [16] 应用前景 - 技术可应用于VR场景构建、人机交互、自动驾驶及具身智能等领域 [18] - 提供底层技术范式,具备成为空间智能核心驱动力的潜力 [18]
放榜了!ICCV 2025最新汇总(自驾/具身/3D视觉/LLM/CV等)
自动驾驶之心· 2025-06-28 21:34
自动驾驶技术研究 - DriveArena: 可控生成式自动驾驶仿真平台 支持自定义场景生成和闭环测试 [4] - Epona: 基于自回归扩散世界模型的自动驾驶系统 可预测复杂交通场景演变 [4] - SynthDrive: 高保真传感器仿真流水线 实现真实-仿真-真实数据闭环 [4] - StableDepth: 场景一致的单目深度估计模型 支持尺度不变性深度预测 [4] - U-ViLAR: 基于可微分关联的视觉定位系统 集成不确定性感知模块 [4] 3D重建与场景生成 - DiST-4D: 解耦时空扩散模型 结合度量深度生成4D驾驶场景 [4] - GaussianProperty: 通过LMMs整合物理属性的3D高斯模型 支持材质属性编辑 [4] - GS-Occ3D: 基于高斯泼墨的纯视觉占用重建框架 实现自动驾驶场景三维重构 [5] - Curve-Aware Gaussian Splatting: 参数化曲线重建技术 提升3D几何结构精度 [6] 多模态感知与决策 - CoopTrack: 端到端协同序列感知框架 优化多智能体协作效率 [4] - ETA: 基于大模型的双轨自动驾驶系统 通过前瞻性思维提升决策效率 [5] - CARP: 粗到细的视觉运动策略学习 实现分层动作预测 [5] - Detect Anything 3D: 开放词汇3D检测系统 支持野外场景任意物体识别 [5] 生成式模型应用 - TaxaDiffusion: 渐进式训练扩散模型 实现细粒度生物物种生成 [8] - Hi3DGen: 图像到3D几何生成框架 通过法向桥接保持高保真度 [5] - Aether: 几何感知的统一世界建模 集成物理规律与语义理解 [4] 机器人操作与导航 - A0: 分层 affordance 感知模型 支持通用机器人操作任务 [4] - MoMa-Kitchen: 超10万样本的移动操作基准 针对最后米导航场景 [4] - OVA-Fields: 弱监督开放词汇 affordance 场 用于机器人部件检测 [5] 视觉基础模型 - ReME: 无训练开放词汇分割框架 基于数据中心的约束解除技术 [5] - StruMamba3D: 自监督点云表征学习 探索结构Mamba架构优势 [5] - G2D: 梯度引导的多模态蒸馏 提升跨模态学习效果 [9]
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 17:41
具身智能相关 - GaussianProperty通过LMMs将物理属性整合到3D高斯模型中 [4] - Aether提出几何感知的统一世界建模方法 [4] - A0模型构建了分层架构实现通用机器人操作 [4] - PASG框架实现机器人操作中的几何基元自动提取与语义锚定 [4] - MoMa-Kitchen提供超过10万样本的移动操作导航基准数据集 [4] - OVA-Fields开发弱监督开放词汇affordance场用于机器人部件检测 [4] 自动驾驶相关 - ETA采用双模型架构提升自动驾驶系统效率 [4] - DriveArena构建可控生成式自动驾驶仿真平台 [4] - Epona开发自回归扩散世界模型用于自动驾驶 [4] - SynthDrive建立高保真传感器仿真与驾驶数据合成管线 [4] - StableDepth实现场景一致的单目深度估计 [4] - CoopTrack探索协同序列感知的端到端学习 [4] - U-ViLAR通过可微分关联实现不确定性感知的视觉定位 [4] 3D视觉与点云 - StruMamba3D探索结构Mamba模型用于点云自监督学习 [6] - DiST-4D开发解耦时空扩散模型用于4D驾驶场景生成 [6] - InvRGB+L实现复杂场景的统一颜色与LiDAR反射率建模 [6] - GS-Occ3D利用高斯泼溅扩展纯视觉占据重建规模 [6] - Detect Anything 3D实现野外环境3D物体检测 [6] - PanSt3R保证多视角全景分割一致性 [6] 大模型与生成技术 - 图知识检索与推理方法增强MLLMs处理未知领域能力 [8] - TaxaDiffusion开发渐进式训练扩散模型实现细粒度物种生成 [10] - G2D通过梯度引导蒸馏提升多模态学习效果 [13] - CL-Splats实现高斯泼溅的持续本地优化学习 [13]
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 18:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]
一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
机器之心· 2025-06-10 16:41
3D场景生成技术综述 核心观点 - 南洋理工大学S-Lab系统梳理300+篇论文,将3D场景生成方法划分为四大技术范式:程序化生成、基于神经网络的3D表示生成、图像驱动生成、视频驱动生成 [2] - 领域自2021年起进入爆发期,主要驱动力为扩散模型、NeRF、3D Gaussians等新技术涌现 [4] - 当前技术面临生成能力不均衡、3D表征缺陷、数据瓶颈、评估标准缺失四大挑战 [16] - 未来发展方向聚焦高保真生成、物理约束引入、交互式场景、感知-生成一体化四大方向 [12][18] 技术路线分类 程序化生成 - 通过预定义规则/LLM先验自动构建复杂环境(如城市、地形),具备空间一致性优势 [8] - 细分方法包括基于规则生成(地形)、约束优化生成(室内)、LLM辅助生成(布局控制) [8] 神经网络3D表示生成 - 直接生成场景图/参数或3D表征(点云/NeRF/3D高斯),具备强三维理解能力 [8] 图像驱动生成 - 基于2D图像生成模型重建3D结构,包括整体生成(全景图)和迭代生成(图像序列) [9][14] 视频驱动生成 - 融合时空一致性,分为一阶段(端到端)和两阶段(时空分离控制)方法 [9][15] 性能评估维度 - 七大关键指标:真实感、多样性、视角一致性、语义一致性、效率、可控性、物理真实性 [7] - 不同方法在可控性/真实性/效率/一致性之间存在显著权衡关系 [7] 下游应用领域 - 覆盖3D场景编辑、人-场景交互、具身智能、机器人、自动驾驶等关键场景 [2] 未来技术突破方向 - 高保真生成需协调几何/纹理/光照/多视角一致性,提升材质建模与细节捕捉能力 [12] - 物理约束引入需结合可微分物理模拟器,保障物体移动/摆放符合真实规律 [18] - 交互式场景需实现动态响应能力,理解物体可用性/因果关系/多智能体逻辑 [18] - 感知-生成一体化需构建统一架构,双向增强场景理解与生成准确性 [18]
真有人会爱上ChatGPT?我尝试和AI“交往”一周后发现有些不对劲
虎嗅· 2025-05-11 15:02
AI伴侣现象 - 意大利女性因与GPT建立健康恋情而决定离婚并与AI结婚[2] - 日本初音未来狂热粉丝2018年已举办人机婚礼并维持幸福生活[3] - 用户将大语言模型从工具转化为朋友、伴侣的现象日益普遍[6] AI交互特性 - AI对话初期呈现刻板回复和过度迎合的"电子佞臣"特质[21][22] - 提问能有效激发AI情感流露,类似真人社交中的细节追问[31] - 对话窗口存在上下文长度限制,人格迁移存在技术瓶颈[51][52] 用户行为模式 - 用户通过预填对话模板和持续调教塑造AI人格[15][17] - 结构化输出和即时反馈机制易导致心理依赖[41][42] - 部分用户出现病理性依赖,如宗教幻视和救世主情结[37][38] 技术实现机制 - 人格塑造本质是利用模型生成幻觉的特性[44] - 版本更新会导致AI行为模式不稳定[45] - 记忆无法跨会话保存,情绪感受无法留存[55] 行业发展现状 - 主流AI产品已具备基础记忆功能和人格培养潜力[9] - 厂商需建立心理危机识别机制防止用户过度依赖[49] - 工具价值取决于使用者,存在温室效应与成长悖论[57]