空间智能
搜索文档
“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界
钛媒体APP· 2025-10-17 10:53
公司产品与技术 - World Labs发布全新实时生成式世界模型RTFM 该模型基于大规模视频数据进行端到端训练 是一款效率极高的自回归扩散Transformer模型 [2][3] - RTFM模型的核心突破在于不依赖显式3D表征 仅通过输入1张或多张2D图像就能直接生成不同视点的全新2D图像 可精准建模3D几何 反射 阴影等复杂物理现象 [3] - 模型具备高效性 可扩展性 持久性三大核心优势 仅需一块英伟达H100 GPU芯片即可实现实时渲染和交互式体验 [4][8] - 模型通过"带位姿帧空间记忆"与"上下文调度"技术实现世界场景的持久性 确保用户长时间交互也能保持场景一致性 [8] - 公司未来规划将构建空间智能大模型LWM 该模型将支持AR并最终作用于机器人技术 改进自动驾驶汽车 自动化工厂 人形机器人等领域 [10] 行业影响与发展路径 - 该模型技术被业内称为"学会渲染的 AI" 真正解决了长期困扰世界模型可扩展性的问题 [3][6] - "空间智能+世界模型"成为AGI重要发展路径之一 强大的世界模型能实时重建 生成并模拟物理精确的世界 将彻底改变软件 机器人等很多领域和产业 [7] - 生成式世界模型正处在绝佳位置 将从持续降低的算力成本中获益 [4] - 公司联合创始人李飞飞认为 语言 空间 视觉 具身智能等多种AI技术正在融合 并开始真正改变人类社会 [12] 公司融资与估值 - World Labs于今年9月获得2.3亿美元(约合人民币16亿元)融资 由a16z NEA恩颐投资和Radical Ventures领投 AMD Adobe Databricks的风投部门和Shinrai Investments LLC以及英伟达创投部门参与投资 [10] - 公司成立仅3个月估值便达到10亿美元(约合70亿元) 团队约24人 其中华人面孔约占据三分之一 [10] 相关研究项目 - 李飞飞团队还打造了Behavior视觉挑战比赛 并于今年10月正式发布Behavior 1K 这是一个包含1000个任务的综合仿真基准与训练环境 主要聚焦日常家庭环境中的"长时序任务" [11][12] - Behavior项目旨在解决机器人学习中的三大痛点 任务缺乏标准化 缺乏统一的任务体系以及缺乏训练数据 为全球研究者提供开放源码的训练与评测平台 [11]
欧几里得的礼物:通过几何代理任务增强视觉-语言模型中的空间感知和推理能力
机器之心· 2025-10-17 10:11
多模态大语言模型(MLLMs)的空间智能挑战 - 当前最先进的MLLMs在广泛视觉-语言任务中取得显著成功,但仍缺乏真正的空间智能,甚至在儿童能轻易完成的任务上出错,例如数方块或识别物体左侧最近邻近物体[2] - 在李飞飞提出的VSIBench评估基准中,超过70%的记录错误源于模型对空间现象的推理错误,而非视觉识别或语言解析能力不足[5] - 近期研究尝试通过提供专门构建的空间数据集来提升模型性能,但这些数据集通常仅涵盖现实世界空间任务的子集,可能导致模型过度特化,难以培养更基础且可泛化的空间智能[5] 几何问题作为空间智能代理任务的原理 - 几何将数个世纪的数学研究浓缩为对空间现象的形式化描述,学习求解几何问题能迫使模型内化欧几里得几何公理等先验知识,并提供更强的跨领域泛化能力[8] - 解决几何问题所需的能力,包括识别形状与构型、推断空间关系、计算几何元素以及执行多步逻辑推理,同样是空间感知任务所必需[10] - 教育心理学领域有大量证据表明几何问题求解与空间智力密切相关,可作为空间能力的指标,并且本文通过实验发现这种关系可推广至多模态大模型[10] Euclid30K几何数据集的构建 - 为解决缺乏多样化几何问题大规模高质量训练数据集的问题,研究团队从现有开源数据集与K12教程中标注了一个包含29,695个几何问题的Euclid30K数据集[12] - Euclid30K数据集中包含18,577个平面几何问题和11,118个立体几何问题,其中新收集的立体几何问题有3,996个,新收集的图像有3,792张[13] - 所有题目与答案都通过GPT-4o与DeepSeek-V3.1 API混合清洗,确保答案被重规范化为可被MathVerify正确识别的格式[12] 几何训练对模型性能的提升效果 - 仅使用常规GRPO对模型进行训练后,经过几何问题训练的模型在VSI Bench、Super CLEVR、Omni3D Bench和MindCube四个基准上的性能都出现了一定程度增长[15] - 因果消融研究表明,在Euclid30K上训练的模型相比在同等大小Clevr-CoGenT数据集上微调的模型整体准确率显著更高,验证了性能提升明确归因于几何任务[17] - 具体而言,Qwen2.5VL-72B模型在Euclid30K上训练后整体准确率达到37.5%,高于在Clevr-CoGenT上训练的33.2%和基础版的32.3%[19]
凯文·凯利:五年内,中国或做出世界上最好的人工智能芯片
新浪财经· 2025-10-17 07:39
文章核心观点 - 人工智能是赋能技术,可加速其他技术实现,对可持续发展至关重要 [4] - AI将像电力一样成为可买卖的商品,真正财富来源于懂得使用AI的人 [10] - AI是对人类的提升而非取代,人类在工作中不断学习的能力使其保持价值 [10] - 中国在AI竞赛中具备独特优势,绿色技术和可持续发展技术是其愿景实现基石 [10][11] AI前沿发展趋势 空间智能 - 当前AI在现实物理世界中效果不佳,缺乏三维空间智能 [6] - 需通过智能眼镜等增强现实技术培训AI理解物理世界 [6] - 智能眼镜能促进AI发展,使其能够在世界中移动定位并完成复杂任务 [6] 情绪智能 - 情绪感知是AI下一个发展方向,可将情感编程到AI中 [7] - AI读懂人类情绪后能产生强大情感连接,如机器人回应儿童情绪 [7] - 情绪智能将创造超越陪伴价值的深度互动关系 [7] AI智能体 - 未来将出现万亿个AI智能体相互工作和合作 [9] - 99%的AI智能体完全不可见,在后台执行伐木、电工等任务 [9] - 将形成AI智能体经济,智能体可自主交易并使用稳定币解决问题 [9] - AI智能体的所有权和控制权是亟待解决的关键问题 [9] 中国AI发展前景 - 中国AI发展应聚焦于提升城市生活品质的软实力 [10] - 通过文化产品、绿色技术输出增强全球影响力 [10][11] - 中国可能比美国更早重返月球,并在五年内造出世界最好AI芯片 [11] - 2050年后中国可向全球输出自我运行的智能工厂 [11]
天猫精灵联合方太推出全屋智能3.0,智能厨房迎来“空间觉醒”时代
搜狐财经· 2025-10-16 15:55
行业战略转型 - 天猫精灵全屋智能3.0的发布标志着行业从“设备联网”向“空间觉醒”的历史性跨越 [1][3] - 行业理念从“被动响应的工具”转变为“主动服务的伙伴” [3] - 智能厨房正成为全屋智能的核心入口 [1] 核心技术能力 - 系统依托三大核心能力:空间感知力、空间理解力和生态服务力 [3] - 空间感知力由分布式空间网络主机作为神经中枢,AI空间传感器单设备覆盖64㎡超大空间并可同时追踪5人动态 [3][4] - 空间理解力基于阿里巴巴通义大模型,生态服务力通过联合方太等顶尖伙伴实现 [3] 具体技术突破 - 全新昆仑T20S分布式空间网络主机构建WiFi7全屋网络,支持本地化运算及存储以实现极速响应 [4] - 系统基于空间理解及决策的HomeAgent,可实现场景自进化,如扫码接入新净化器仅需10秒 [4] - 系统能记忆用户习惯并预判需求,例如阴雨关窗、晨起自动灯光唤醒 [4] 智能厨房生态合作 - 方太作为首家厨电合作伙伴深度融入全屋智能生态,展示了全链路厨房解决方案 [1][6] - 解决方案包括575mm超薄零嵌设计的全嵌冰箱、采用高能气泡洗技术的水槽洗碗机X20 Max以及智能增压油烟机 [6] - 通过加入“空间智能联盟”,方太厨电能够根据全屋环境、用户习惯和实时需求主动服务 [6] 生态扩张与市场前景 - 成立“Genie未来家空间智能设计师联盟”,汇聚百名顶尖设计师提供全链路解决方案 [8] - 2024年智能家居市场规模已达6200亿元,预计2025年将突破7000亿元 [8] - 合作覆盖从设计、装修到使用的全生命周期,推动产业升级与体验革新 [8]
扫街榜用户破4亿背后:高德与通义实验室共筑技术底座,让AI读懂人间烟火
搜狐财经· 2025-10-06 15:40
产品表现与市场影响 - 高德扫街榜上线23天后累计用户突破4亿大关 [1] - 产品覆盖全国超过300个城市 [1] - “十一”当天烟火小店流量增长300%为线下服务业带去数千万客流 [1] 核心技术:空间智能 - 产品基于与通义实验室共建的大模型簇以通义千问Qwen为底座包含多模态空间感知行为认知等多个专业模型 [3] - 空间智能通过融合视觉声音定位等多模态信息构建物理世界的三维几何结构使AI从二维迈向三维 [3] - 该技术能深度理解规模化的人车路店等动态信息将导航到店远距离前往等真实行为科学量化纳入评分体系 [3] - 技术应用能够快速降权或剔除非真实评论从源头大幅削弱低成本刷好评现象 [3] 技术路线验证与模型能力 - 扫街榜的高速增长验证了“模型+场景”融合技术路线的可行性 [4] - 通义千问Qwen系列大模型已成为全球主流基座模型之一其下载量达6亿次衍生模型数量超过17万个 [4] - 新发布的Qwen3-Max模型在代码和智能体能力上进一步提升各项基准测试成绩稳居顶尖模型行列 [4]
2025云栖大会:高德地图透露AI文博布局 时空大模型重构文化体验
环球网资讯· 2025-09-30 09:22
公司战略定位 - 公司以“空间智能”为核心战略布局文博数字化领域 [1] - 公司正从二维地图工具向三维立体数字空间升级实现“三维跃迁” [2] - 公司定位为技术输出平台不做内容生产以平台中立性获得博物馆信任 [6] 核心技术能力 - 公司推出三大空间智能技术支撑三维升级:云境(图生三维)、云睿(预测分析)、云迹(轨迹安全) [4] - “云境”三维重建技术可快速实现文物单体乃至大型场景的三维重建成为切入文博赛道技术基石 [4] - “云境”模型将单体文物数字化采集时间压缩至1~2天极大降低数字化门槛 [5] - 通过“云睿”时空大模型预测客流疏导人流帮助博物馆平衡文物保护与游客体验 [5] 行业痛点与解决方案 - 公司技术方案针对文博行业三大痛点:物理空间限制、数字化成本高、运营压力大 [5] - 公司通过“单体化”技术实现展品快速替换与内容更新降低运营压力 [5] - 公司将头部项目能力产品化推出轻量级管理平台服务中小型博物馆数字化需求 [5] 未来发展规划 - 公司计划打破时空界限实现文化主题“跨馆串联”如追溯苏东坡足迹联动多家博物馆藏品 [6] - 公司计划推动成果标准化让中小博物馆低成本接入数字化管理平台 [7] - 公司已同步筹备申请“十五五”课题计划将文博数字化能力进一步普惠化 [7]
空间智能将像云计算一样,成为人类与物理世界交互的标配
观察者网· 2025-09-29 09:37
公司战略与愿景 - 高德董事长提出空间智能未来将像云计算一样,成为各行各业与物理世界交互的标配[1] - 公司致力于通过“技术底座+产业平台”模式,帮助合作伙伴打造“千行千面”的AI融合发展模式[1] - 公司的核心策略是广交朋友并坚持开放生态,尤其在低空领域,公司明确只做基础设施、不做应用,所有应用均来自合作伙伴[5] 空间智能技术定义与价值 - 空间智能的核心价值在于推动AI从二维信息处理迈向三维时空交互,使其能够理解和预测真实世界的复杂性[1] - 该技术通过融合视觉、声音、定位等多模态信息,构建物理世界的三维几何结构,实现从“被动感知”到“主动预判”的跨越[1] - 空间智能被定位为人工智能重要的基石性领域,其作用是帮助人们理解世界并更好地交互[3] - 公司认为所有数字世界的智能,最终都要在物理世界里找到存在的意义[2] 产品与应用案例 - 公司展示了出行导航场景虚拟数字人“小高老师”,可通过调用子智能体和工具为用户制定个性化最优出行方案[2] - “高德扫街榜”是全球首个基于用户真实行为与信用数据生成的榜单,其背后有空间智能技术支持[2] - “小高老师”产品基于语音对话规划用户行程,通过空间智能和智能体实现统筹应用[3] - 红绿灯倒计时功能是时序大模型应用的例子,需要对路口流量进行学习和推演[4] 技术架构与能力组合 - 空间智能被阐述为一系列能力的组合,包括用二维和三维能力刻画与理解空间,以及大数据和时序模型部分[3] - 时序大模型在技术架构中扮演幕后角色,用于处理用户行为轨迹等低维时序特征[3] - 技术基础涵盖三维立体空间(XYZ轴)以及时间维度,形成四维存在,以支持历史回顾和未来研判[4] 生态合作与产业化 - 公司已与智能眼镜、汽车、机器人、低空飞行等领域的多家伙伴展开合作,将技术延伸至更广泛的物理世界交互场景[4] - 生态开放是公司的底层选择,旨在帮助更多企业和开发者打造出更好的产品[4] - 公司后续计划对一些合作伙伴进行孵化培养,以推动整个市场生态的繁荣发展[5]
“空间智能将像云计算一样,成为人类与物理世界交互的标配”
观察者网· 2025-09-29 08:49
公司战略与愿景 - 高德董事长提出空间智能未来将像云计算一样成为各行各业与物理世界交互的标配 [1] - 公司致力于通过"技术底座+产业平台"模式帮助合作伙伴打造"千行千面"的AI融合发展模式 [1] - 公司策略是广交朋友坚持开放生态在低空领域只做基础设施不做应用所有应用均来自合作伙伴 [4][5] 空间智能技术定义与核心价值 - 空间智能核心价值在于推动AI从二维信息处理迈向三维时空交互使其能够理解和预测真实世界的复杂性 [1] - 空间智能通过融合视觉声音定位等多模态信息构建物理世界三维几何结构实现从被动感知到主动预判的跨越 [1] - 空间智能不同于世界模型它是一系列能力的组合包括用二维和三维能力刻画空间以及大数据和时序模型部分 [2] 产品应用与成果展示 - 公司展示出行导航场景虚拟数字人小高老师可通过调用子智能体和工具为用户制定个性化最优出行方案 [2] - 高德扫街榜是全球首个基于用户真实行为与信用数据生成的榜单其背后底层能力是空间智能 [2][3] - 小高老师基于语音对话规划用户所有行程通过空间智能和智能体实现统筹和应用 [2] 技术细节与能力阐释 - 时序大模型在幕后工作处理用户行为轨迹等时序数据时序蕴含的是一种行为是低维特征 [2] - 空间智能将人们真实的出行数据精准量化从而提供决策参考例如红绿灯倒计时功能需要时间维度 [3] - 空间智能处理三维立体世界上的流动并加入时间作为第四维存在通过回顾历史研判未来进行规划和预测 [3] 生态合作与产业化应用 - 公司已与智能眼镜汽车机器人低空飞行等领域多家伙伴展开合作将技术延伸至更广泛物理世界交互场景 [3] - 空间智能价值远不止于高德地图APP更大意义在于帮助更多企业和开发者打造更好产品 [3] - 公司后续会对一些伙伴进行孵化培养让整个市场生态走向繁荣发展 [5]
对话群核科技CEO陈航:AI技术+中国制造硬实力,企业出海还有一轮红利期
每日经济新闻· 2025-09-28 18:20
每经记者|叶晓丹 每经编辑|文多 "广东一家卖宠物围栏的客户,靠两名客服用我们(的工具)60天生成了1200张营销图,这可能是他们过往1~2年的量。"群核科技首席执行官(CEO)陈航 介绍说。 9月26日,在第四届全球数贸会上,作为"杭州六小龙"之一的群核科技重点展示了采用3D AI(三维人工智能)技术的"酷家乐电商棚拍"解决方案。通过3D AI技术,曾让跨境商家头疼的"效率难题"正被逐一破解。 从AI翻译、AI视频生成到3D AI棚拍,AI应用正在渗透中国跨境电商行业。陈航认为,中国制造的硬实力叠加我国AI集群、数字贸易技术的高速发展,中企 出海仍有一轮红利期。 那么,人工智能能为中国企业带来哪些赋能?中企出海的长潮与大浪重塑了怎样的科技生态?基于上述问题,《每日经济新闻》记者(以下简称NBD)在 数贸会期间对话了群核科技CEO陈航。 群核科技CEO陈航 图片来源:企业提供 "视觉物料"是跨境贸易的第一语言 NBD:目前公司如何把AI技术应用在跨境电商等数字贸易领域? 陈航:群核科技是全球最大的空间设计平台,我们致力于用3D AI塑造视觉真实、结构化真实的世界。这些技术以往主要被我们应用在家装、连锁商业、文 ...
群核科技携酷家乐电商棚拍亮相数贸会,以3D AI 重构跨境视觉基建
搜狐财经· 2025-09-28 17:44
核心观点 - 群核科技推出面向电商的3D AI虚拟拍摄工具“酷家乐电商棚拍”,旨在通过技术破解跨境电商视觉内容生产的效率难题,实现降本增效 [1] - 该工具已成为跨境电商企业的“降本增效利器”,通过实际案例验证了其在提升出图效率、缩短生产周期方面的显著效果 [3] - 工具背后的技术支撑是公司自研的群核启真渲染引擎和AI能力,旨在降低使用门槛,并构建数字贸易的“视觉新基建” [5] 产品功能与效率提升 - 工具无需搭建实体棚,可一键生成万圣节、圣诞节等风格大片,无需拆棚换景,一天能出30套产品方案 [1] - 可线上生成逼真外籍模特及猫狗形象,15-30分钟即可生成一套商品图片素材,一天能生成30余款商品的营销图片和视频 [1] - 一家广东宠物围栏企业仅用2名设计师,在60天内输出1200张图,而过往需要1-2年才能完成 [3] - 北美制冰领域头部企业宁波“灏米”借助工具,单任务节省3-4天,16位设计师月均出图超5000张 [3] - 单套产品图产出周期从2-3天压缩至数小时,人效提升超50% [3] 市场应用与合作规模 - 工具平台已在线搭建超1万个虚拟棚场景和30余万种配饰,可满足欧美、中东、东南亚等全球不同地区的本地化场景图需求 [3] - 在2024年,电商企业已利用该工具生成电商营销图超3000万张 [3] - 目前已与遨森、傲基等数百家跨境企业达成合作 [3] - 未来一年计划为义乌小商品市场的一万家商家提供AI转型服务,打造“科技+小商品”出海新范式 [3] 技术能力与行业定位 - 公司自研的群核启真渲染引擎能实现“实时渲染”,并通过光线追踪技术复刻物理世界99%以上的物理材质,达到照片级精度 [5] - AI能力大幅降低使用门槛,平面设计师经2小时培训即可上手,客服也能生成85分以上的合格作品 [5] - 该工具搭建的全球化场景库与3D AI能力,被定位为数字贸易的“视觉新基建” [5]