混元世界模型1.1
搜索文档
AI基建维持高景气度 | 投研报告
中国能源网· 2025-10-27 09:53
国金证券近日发布AI周观察:本周,海外聊天助手应用中Gemini活跃度持续回 升,ChatGPT保持平稳,国内多数AI聊天应用活跃度亦呈回升态势。模型方面,DeepSeek推出 DeepSeek-OCR后,百度飞桨发布PaddleOCR-VL,登顶全球OCR榜单;腾讯开源混元世界模型 1.1,支持视频秒级3D重建;MiniMax宣布将发布Hailuo2.3,在视频生成真实感与微表情捕捉上实 现新突破。 以下为研究报告摘要: 摘要 -本周,海外聊天助手应用中Gemini活跃度持续回升,ChatGPT保持平稳,国内多数AI聊天应 用活跃度亦呈回升态势。模型方面,DeepSeek推出DeepSeek-OCR后,百度飞桨发布 PaddleOCR-VL,登顶全球OCR榜单;腾讯开源混元世界模型1.1,支持视频秒级3D重建;MiniMax 宣布将发布Hailuo2.3,在视频生成真实感与微表情捕捉上实现新突破。 -2025年第三季度,DigitalRealty业绩显著超预期。核心FFO每股1.89美元创新高,同比 增长13%,AFFO与EBITDA分别增长16%和14%,并推动公司年内第三次上调指引。积压订 单达8.52 ...
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 12:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
腾讯开源混元世界模型1.1,视频秒变3D世界,单卡推理仅需1秒
量子位· 2025-10-22 17:12
产品核心升级 - 腾讯发布并开源混元世界模型1.1 (WorldMirror),这是真正统一的端到端3D重建基座大模型 [1] - 新模型是继今年7月发布的混元世界模型1.0后,腾讯的又一次世界模型大升级 [15] - 混元世界模型1.1突破了1.0版本的局限,使用户能够上传多视图或者视频来生成3D场景 [37] 技术突破与行业地位 - 该模型是业界首个统一(any-to-any)的前馈式(feedforward) 3D重建大模型 [4] - 首次支持用户从多视图或视频中一键生成3D世界,并能在单卡、秒级推理下完成高精度重建 [3] - 实现了业界首次统一的多任务输出(点云、深度、相机、表面法线和新视角合成),并均取得SOTA表现 [21] 性能表现对比 - 在3D点云重建任务中,混元世界模型1.1生成表面更平整,场景更规整,优于Meta的最新开源模型MapAnything [9][11] - 在端到端3D高斯重建任务中,几何精度和细节还原全面超越AnySplat模型,场景重建更稳定真实 [12][14] - 模型采用纯前馈架构,处理典型8-32视图输入耗时仅需1秒钟,远快于需要迭代优化数分钟甚至数小时的传统方法 [22] 核心功能特性 - 支持灵活注入多模态先验(相机位姿、相机内参、深度图),通过动态先验注入机制能适应任意先验组合 [18][20] - 采用端到端多任务协同训练,各任务相互强化,提升整体几何一致性 [21] - 基于完全Transformer骨干,使用DPT头进行密集预测,并通过可微光栅化器进行监督 [30][31] 应用场景与效果 - 支持动画风格虚拟场景、中华风场景、真实航拍场景及科幻漫画等多种风格的高精度重建 [5][6][7] - 通过多模态先验融合、通用几何预测和前馈高效推理的结合,将3D重建从专业工具转变为人人可用的技术 [37] - 项目已完全开源,开发者可克隆GitHub仓库一键部署,普通用户也可通过Hugging Face在线体验 [34]