Forge渲染器

搜索文档
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 20:02
创业一年后 World Labs 的愿景 - World Labs 在成立一年内完成两轮融资累计募资2 3亿美元 估值突破10亿美元 成为AI领域独角兽企业 [5] - 公司已发布「世界生成」模型和Forge渲染器等技术成果 其中「世界生成」技术仅需单张图片即可生成可交互3D物理世界 [5][6] - 空间智能被定位为理解重建生成物理世界的核心能力 超越语言模型局限 目标构建可创造无限虚拟宇宙的AI系统 [5][6] - 技术路径依赖跨学科整合(AI+计算机图形学) 当前算力数据工程能力提升使「世界模型」攻关具备可行性 [7] 空间智能对AI完整性的意义 - 语言模型存在三维物理世界描述的天然缺陷 空间智能作为更古老的智能形式可弥补这一关键缺口 [6][8] - 公司技术路线选择与主流LLM分野 专注让AI理解3D物理世界运作方式 涉及机器人设计社交等多领域应用 [5][8] - 空间智能被视为智能的核心组件之一 其突破将推动AI从单一现实向多元宇宙演进 [5][6] 空间智能与多元宇宙愿景 - 「多元宇宙」指通过AI创造无限虚拟宇宙 需依赖3D物理世界的理解与生成能力 [4][6] - 技术反直觉发展体现在:早期忽视3D表征 现通过数据驱动方法实现空间智能突破 [4][7] - Forge渲染器支持Web端实时渲染AI生成3D场景 标志技术落地取得实质性进展 [7] 世界模型的发展现状 - 前置技术如算力提升数据积累工程优化为世界模型创造发展时机 [7] - 公司方法论借鉴LLM的数据驱动和神经网络经验 但强调需结合计算机图形学等跨学科知识 [7] - 下一步重点攻关方向包括3D物理世界的理解重建及生成技术的场景化应用 [4][7]
腾讯研究院AI速递 20250604
腾讯研究院· 2025-06-03 22:49
微软Bing Video Creator - 微软发布由OpenAI Sora技术支持的Bing Video Creator,可通过自然语言生成多种类型视频 [1] - 该服务免费提供快速和标准两种生成模式,初始有10次快速生成机会,生成视频长度为5秒 [1] - 系统内置安全保障措施并为视频添加内容凭证和溯源信息,目前国区未开放 [1] Manus幻灯片功能 - Manus新幻灯片功能可在10分钟内生成8页专业PPT,支持导出为Google Slides [2] - 实测显示功能支持自动搜索资料、规划结构、生成内容,但存在页面显示不完全问题 [2] - 与Genspark对比速度更快(10分钟vs20分钟),被网友评为当前PPT制作最佳工具 [2] Character.ai AvatarFX - Character.ai推出AvatarFX功能,使静态图片人物能说话唱歌并支持多轮对话 [3] - 基于DiT架构实现高保真度和强时间一致性,复杂场景中表现稳定 [3] - 同步推出沉浸式叙事体验Scenes、动画聊天Imagine Animated Chat等新功能 [3] Fellou 2.0智能体 - Fellou 2.0作为Agentic Browser实现AI任务7x24小时批量化生产 [4] - 新版本速度提升1.2-1.5倍,成功率从31%升至80%,支持多任务并行处理 [5] - 基于Eko 2.0架构,未来将推出Windows版本并取消邀请码 [5] YouWare氛围编程平台 - YouWare让非程序员通过AI将创意转化为网页并一键上线分享 [6] - 平台实现"所想即所见"体验,由自研AI Agent和Sandbox技术支撑 [6] - 建立类似Instagram的创作社区,设计"Knot"奖励机制鼓励优质内容 [6] 智源Video-XL-2模型 - 智源开源轻量级Video-XL-2模型,单卡可处理长达万帧视频 [7] - 模型采用四阶段渐进式训练方法,编码2048帧视频仅需12秒 [7] - 在主流评测中超越所有轻量级开源模型,适用于影视分析和异常监测 [7] Salesforce收购Moonhub - Salesforce收购AI Agent平台Moonhub,团队将开发Agentforce平台 [8] - 目标2025年底通过Agentforce开发十亿个智能体,现有3000家企业客户 [8] - Moonhub招聘智能体功能将与Salesforce HR智能体形成互补 [8] 李飞飞Forge渲染器 - World Labs开源Forge渲染器,可在普通设备流畅渲染AI生成3D世界 [10] - 作为Web端3D高斯泼溅渲染器,支持多摄像头及实时动画编辑 [10] - 关键技术包括高效画家算法和可编程数据流水线 [10] ChatGPT模型选择 - 卡帕西建议简单问题用GPT-4o,复杂任务用o3,代码完善用GPT-4.1 [11] - 使用场景分配:40%日常问题用4o,40%重要问题用o3 [11] - 选择原则基于任务重要性和响应速度需求 [11] ChatGPT记忆机制 - 记忆系统由保存记忆和聊天历史(含会话历史/对话历史/用户洞察)构成 [12] - 技术实现涉及向量空间索引和聚类优化算法,用户洞察贡献占比或超80% [12] - 机制使模型从被动应答转向主动理解,显著提升智能感 [12]
李飞飞空间智能独角兽开源底层技术!AI生成3D世界在所有设备流畅运行空间智能的“着色器”来了
量子位· 2025-06-03 12:26
核心技术Forge渲染器 - Forge是一款Web端3D高斯泼溅渲染器,无缝集成three.js,实现完全动态和可编程的高斯泼溅渲染 [2] - 底层为GPU优化设计,地位相当于传统3D图形领域的基础组件"着色器" [3] - 支持多splat对象、多摄像头及实时动画/编辑,仅需极少代码即可启动 [4] 技术突破与行业定位 - 解决3D高斯溅射(3DGS)在传统渲染引擎中的兼容性问题,克服现有网络库的单对象限制、遮挡错误等缺陷 [7] - 采用类似现代着色器系统的可编程架构(Dyno函数块),支持程序化生成、修改Splat并转换为GLSL在GPU运行 [11][16] - 通过ForgeRenderer和高效bucket sort算法实现实时排序(画家算法),支持多视角同步渲染及用户可编程数据流水线 [13][14][15] 应用场景与战略规划 - 目标将多模态AI从二维提升至三维世界,2025年推出首款产品,覆盖游戏开发、影视制作等专业领域 [17] - 当前Forge定位为开发者工具组件,未来将扩展为面向艺术家、设计师的专业工具生态 [18] 技术评价与行业影响 - 联创Ben Mildenhall评价该技术"使开发者处理AI生成3D世界如同操作三角形网格" [5] - 3D高斯溅射已成为生成式AI和3D重建主流方案,Forge通过实时交互能力推动技术落地 [6][12]