Oasis
搜索文档
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽· 2025-12-17 15:53
我们相信 26 年会是多模态技术的大年,其中视频生成会快速进步让应用大规模落地,而世界模型 则会有研究上的科学突破,甚至开始从 research 走向 production。 在相当长的一段时间内, World Model 这一概念始终处于较为混沌的状态;直到近半年,随着技术 路径逐渐收敛,尤其是在具身智能与真实交互场景中出现了初步落地的案例,世界模型的轮廓开始 变得清晰。 作者:Cage、Haozhen 如果和语言模型对比:语言模型解决的是语义层面的压缩和推理,预测下一个 token;世界模型是 在解决下一步更根本的问题,AI agent 是否能真正理解时间与空间,并进行预测下一帧、下一个行 动。如果和视频生成模型对比:世界模型在交互性、实时性、长时记忆和物理合理性这四点上都需 要更进一步。 于是行业中的玩家开始在这些提升方向有了各自的 bet, World Model 领域逐步分化出两条路线: 一条以实时视频生成为核心,服务文娱、游戏等 for human 的消费者场景;另一条以显式 3D 结构 为中心,服务机器人、自动驾驶等 for AI 的领域。 本文沿着这个路线分化展开,拆解两条路线的技术趋势和落地 ...
DXC Technology(DXC) - 2026 Q2 - Earnings Call Transcript
2025-10-31 06:00
财务数据和关键指标变化 - 第二季度总收入为32亿美元 有机基础上同比下降42% [14] - 第二季度调整后息税前利润率为8% 高于指引区间上限 同比下降60个基点 [15] - 第二季度非GAAP稀释后每股收益为084美元 高于指引区间 低于去年同期的093美元 [15] - 第二季度自由现金流为24亿美元 显著高于去年同期的048亿美元 上半年自由现金流为337亿美元 同比增加244亿美元 [18] - 总债务下降107亿美元至约40亿美元 现金余额增加至19亿美元 净债务减少约770亿美元 [20] - 资本支出占收入比例为53% [19] - 全财年收入指引收窄至1267亿至1281亿美元 有机收入下降幅度收窄至35%至45% [22] - 全财年自由现金流指引从约6亿美元上调至约65亿美元 [23] 各条业务线数据和关键指标变化 - 咨询与工程服务业务占总收入40% 有机收入同比下降34% 订单同比下降 订单出货比为092 过去12个月订单出货比为115 [16] - 全球基础设施服务业务占总收入50% 有机收入同比下降63% 订单小幅增长 订单出货比为082 过去12个月订单出货比约为11 [17] - 保险服务与软件业务占总收入10% 有机收入同比增长36% 主要由软件和现有账户业务量增长驱动 预计全年保持中个位数增长 [18] - SAP业务拥有15000名顾问 计划在未来三年内使SAP收入翻倍 [5] - 保险业务SaaS产品组合从30个扩展到45个 计划在未来两年每年使SaaS收入翻倍 [9] 公司战略和发展方向和行业竞争 - 公司采用双轨制运营模式 核心轨道专注于优化现有业务 快速轨道专注于开发AI原生或高度融合AI的新解决方案 [4] - 快速轨道解决方案目标是在36个月内占业务的10% 这些基于AI的SaaS解决方案具有高度可复制性 净利润率目标高于现有核心组合 [6] - 推出了名为"指数"的新AI框架 旨在帮助客户将AI试点转化为实际业务影响 [9] - 公司在多项行业研究中被认可为领导者 包括ISG的ServiceNow生态系统合作伙伴研究 IDC的工业物联网端到端工程市场景观 以及Everest集团的定制应用开发服务峰值矩阵 [10] - 公司定位正从稳定的技术资产运营者转向企业技术和创新合作伙伴 [11] 管理层对经营环境和未来前景的评论 - 对第二季度的收入和订单表现感到失望 但对调整后息税前利润率和每股收益超过指引以及强劲的自由现金流感到满意 [4] - 预计下半年订单出货比将回到1以上 基于不断扩大的渠道和几个有明确关闭时间表的大额交易 [11] - 咨询与工程服务业务预计在第三季度表现与上季度相似 第四季度将有所改善 全球基础设施服务预计有机下降中个位数 保险服务与软件预计增长中个位数 [22] - 第三季度指引为有机收入下降4%至5% 调整后息税前利润率7%至8% 非GAAP稀释后每股收益075至085美元 [23] - 定价环境稳定 未出现需要提供重大让步的竞争性定价压力 [45] 其他重要信息 - 公司作为"客户零号"在内部广泛部署AI工具 包括法律部门使用GCAI Harvey和Legora 销售和营销团队使用Agent Force Lupio Midjourney等工具 内容制作效率提升10倍 [12] - 财务团队使用AI Foundry UiPath Robot和Copilot等代理AI来转变后台活动 [13] - 公司在本季度回购了7500万美元的股票 上半年总计回购125亿美元 董事会授权的股票回购计划剩余467亿美元 [21] - 公司计划继续投资于业务 进一步加强资产负债表 并回报股东资本 [21] 问答环节所有提问和回答 问题: 咨询与工程服务业务在新领导下的表现和改进领域 以及第四季度增长是否已确定 [25] - 核心轨道方面 正在改善SAP等核心业务的运营和市场份额转化 快速轨道方面 基于Hogan核心银行平台开发新解决方案 如DXC Core Ignite [26][27][28] - 第四季度的改善基于过去几个季度的强劲订单 拥有坚实基础 但仍有待争取更多业务 [29][32] 问题: 自由现金流增长的驱动因素是可持续的还是暂时的 [33] - 营运资本的改善是可持续的 现金税优惠预计也将持续 资本支出将保持类似水平 但如有机会会增加投资 [33][34] 问题: 全球基础设施服务业务的趋势 以及Hogan如何融入该业务 [36] - Hogan属于咨询与工程服务业务 全球基础设施服务业务客户评分提高 流失率降低 运营稳定 新产品管道正在建立 [37][38] 问题: AI投资的跑道和程度 [39] - 当前技术浪潮下 创意实现的总拥有成本大幅下降 公司乐于作为企业消费者使用这些工具 资产负债表有能力进行必要投资 [39][40] 问题: 收入和利润率展望中对宏观环境和项目爬坡的考量 [41] - 指引中未假设宏观经济环境的重大变化 基于公司自身数据 积压订单 管道和转化率 [42] 问题: 对关闭大额交易的信心来源 以及是否需要提供价格让步 [43] - 管理层对客户对新产品的兴趣感到振奋 定价保持稳定 未出现需要让步的压力 [43][45] 问题: DXC Core Ignite产品是针对现有Hogan客户还是新机会 收入模式变化的影响 [47] - DXC Core Ignite是创造性和增加性的 不侵蚀现有条款 基于对Hogan代码的独特了解 能够快速部署企业级解决方案 [47] - AI和产品推动是打破线性增长的转折点 未来收费模式将更倾向于基于价值 [48][49] 问题: 各业务板块利润的后续展望 [50] - 各板块利润轨迹没有重大变化 与第二季度一致 [50] 问题: 快速轨道业务将如何运营和管理披露 [52] - 新财年初将分享更多关于试点和产品的信息 并非所有都会成功 但少数成功即可改变公司收入轨迹 关键在于解决方案的可复制性和更高利润率 [52][53] 问题: Hogan业务的规模和现状 [54] - Hogan是核心银行平台 新财年将分享现有客户案例 DXC Core Ignite是对Hogan的轻量级扩展 旨在以更低成本和更快速度为银行客户提供新服务 [55][56] 问题: 成本削减措施的可持续性以及对长期利润率增长的看法 [58] - 公司已展示出持续管理成本以维持利润率的能力 AI工具的内部启用将有助于继续控制支出并提高生产率 [59][60] 问题: AI嵌入业务后的人员策略 [62] - 传统劳动力金字塔模式将过时 未来将更多依赖AI代理 公司正确保员工技能向价值链上游移动 同时根据需求平衡资源并推动职能部门的生产率 [63][64] 问题: 本季度赢率是否有变化 [65] - 赢率季度间保持稳定 没有显著变化轨迹 [65] 问题: 推动快速轨道解决方案计划的里程碑是什么 [67] - 关键转折点是引进了具备相关技能的新人才 这些人才提出了产品框架并正在构建部署 [68] 问题: 今年65亿美元自由现金流是否为明年奠定了基线 [69] - 这将是连续第三年自由现金流达到该范围水平 预计在没有重大干扰的情况下将持续下去 [70]
26岁,创业两年,他的公司估值超200亿
创业邦· 2025-08-23 11:25
融资与估值 - 公司完成1亿美元B轮融资,投后估值达31亿美元,约合人民币222.5亿元 [4] - 累计募资金额达1.53亿美元,约合人民币11亿元 [4] - 估值在8个月内从5亿美元增长至31亿美元,涨幅超过6倍 [4] - 投资方包括红杉资本、Benchmark、Zeev Ventures等老股东,以及新投资方Aleph VC [4] 创始团队背景 - 联合创始人兼CEO Dean Leitersdorf 23岁获得博士学位,具有学术天赋和军队背景 [5][9] - 联合创始人Moshe Shalev来自极端正统派家庭,未上大学,在以色列精英情报部队8200服役14年 [5][9] - 团队在8200部队结识,2023年共同创立公司,初始团队15人,两年扩展至60人 [9][10] - 旧金山研发中心由前Snap、谷歌专家Kfir Aberman领导 [10] 技术与产品 - 推出全球首个无限长视频生成模型MirageLSD,实现小于40毫秒超低延迟实时转换 [6][15] - 模型采用扩散强制技术,解决长视频生成误差累积问题,保持画面稳定 [16][17] - 支持实时响应新指令,如中途修改场景要求 [21] - 首款产品GPU优化工具将AI模型推理成本从100美元/小时降至25美分/小时 [11] - 面向消费者的AI游戏Oasis发布几天内吸引上百万用户,社交媒体观看量达数亿次 [11] 商业与战略 - GPU优化工具已实现盈利,带来数百万美元收入 [11] - 公司目标成为市值万亿美元企业,聚焦娱乐和创意领域 [25][26][28] - 计划开发十亿用户级APP,改变科技互动方式 [25][26] - 实际运营成本低,过去11个月仅花费不到1000万美元融资资金 [26] 行业影响与评价 - 技术有望重塑游戏、直播、视频通话、影视制作、AR/VR等领域生态 [7][21] - 红杉资本合伙人评价团队为超精英AI工程师,技术天赋顶尖 [13][22] - 前特斯拉AI总监Andrej Karpathy称其为实时魔法,认为技术具有通用性和强大潜力 [21]
每 2 周新增 100 万美金 ARR GEO 已来,实时 AI 2 年 31 亿美金估值
投资实习所· 2025-08-12 13:42
融资与估值 - Decart完成1亿美元B轮融资 估值达31亿美元 11个月内完成3轮融资 上一轮估值仅5亿美元 半年多估值增长6倍 [1] - 本轮融资由Aleph VC新加入 Sequoia、Benchmark和Zeev Ventures等原有投资方继续跟投 [1] - 公司由以色列情报单位8200部队退伍军人Dean Leitersdorf和Moshe Shalev联合创立 [1] 核心产品技术 - Mirage实时AI视频转换模型实现40毫秒响应时间 突破传统AI视频10秒以上延迟限制 支持无限视频流实时转换 [3] - Oasis实时生成式AI开放世界模型 前3天用户突破100万 通过"下一帧预测"技术实现用户操作实时影响环境 [4] - 两项技术将AI应用从静态内容扩展到动态交互领域 显著降低3D内容创作门槛 [5][6] 商业模式 - 当前两大收入来源:GPU加速服务已产生数千万美元收入 Mirage模型API将成为未来核心收入 [9][10] - GPU专有优化技术将视频生成成本从10-1000美元/小时降至0.25美元/小时 相比Google Veo 3 Fast模型的1400美元成本优势显著 [10] - 计划打造开放生态 即将推出Mirage API赋能开发者 [9] 市场定位 - 瞄准AI改造互联网娱乐与创造领域的机遇 认为知识、电商、沟通三大类已被AI Agent改造 [8][9] - 目标成为拥有10亿用户的消费级应用 愿景是打造万亿美元市值公司 [8] - 产品应用场景包括视频会议实时风格转换、游戏画面实时渲染、广告内容动态调整等 [3] 行业趋势 - GEO(生成式AI搜索优化)成为新兴热点领域 已有产品实现每两周新增100万美元ARR [11] - AI基础设施和工具类产品融资活跃 如智能戒指Oura融资2亿美元估值52亿美元 [12]
一款80个粉丝的小游戏,让我看到了人类的未来
36氪· 2025-07-31 08:24
游戏形态变革 - 纯文字冒险游戏《Tower-Crawl》通过AI生成动态剧情,玩家可自由输入行动指令,系统基于规则和常识实时反馈不同剧情走向 [6][8][10] - 游戏机制继承DND桌游精髓,AI替代传统地下城主角色,实现高度自由化和非预设剧情 [9][13][14] - 与传统3A游戏相比,AI文字冒险突破线性叙事框架,每次游玩产生独特体验,无固定攻略或隐藏内容 [17][19][20] 商业模式创新 - 采用订阅制收费,基础会员5美元/月,高级会员10美元/月,按输入次数消耗游戏币 [22] - 开发成本极低,开发者仅需设定基础世界观,AI完成剧情生成和美术素材,单人数周即可完成作品 [25][26][27] - 欧美市场存在DND情怀用户群,中年玩家付费意愿强,单个游戏数百玩家即可盈利 [29][31][35] 行业技术演进 - AI已应用于传统游戏开发环节,如NPC对话生成、场景建模和宣传素材制作,大幅提升效率 [38][40] - 初创公司推出实时AI游戏引擎Oasis和Mirage,实现动态场景生成和自然语言交互,但存在画面连续性缺陷 [42][44][46] - 技术方向聚焦解决生成一致性难题,未来可能转向算力付费模式,玩家通过氪金获取更高质量生成内容 [48][50][51] 市场竞争格局 - 欧美独立开发者密集涌入AI文字冒险赛道,主流平台AI dungeon收录数千款作品,头部产品Discord粉丝超3万 [31][33] - 题材从魔幻向多元扩展,包括科幻IP改编、恋爱模拟等,同质化严重但试错成本近乎为零 [34][35] - 传统大厂加速AI工具应用,动视等公司在宣传物料制作中已采用AI生成 [40]
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
量子位· 2025-07-19 13:15
核心技术突破 - 推出全球首个零延迟无限实时视频生成模型MirageLSD,采用自定义实时流扩散模型Live-Stream Diffusion(LSD),攻克传统自回归视频模型中误差累积的核心难题[4][9][11] - 通过因果自回归结构和Diffusion Forcing技术实现逐帧生成时保持时间连贯性,支持无限时长视频生成[14][15] - 历史增强策略主动添加模拟伪影训练模型预判纠正能力,推理阶段明确告知历史帧可能不准确以持续纠错[16][17] - 改进Transformer架构搭配视觉编码器和位置编码优化,处理速度比前代模型快16倍,达每秒24帧[6][18] - 应用KV缓存技术和蒸馏策略减少延迟,动态输入系统支持超低延迟响应玩家指令[20][21][22] 产品性能优势 - 实现40毫秒以下延迟,支持直播/游戏/视频通话等多形式输入,无时长限制实时生成[5][6] - 前代产品Oasis已实现每秒20帧零延迟生成,MirageLSD性能提升至24帧/秒[26][28] - 集成帧级提示词处理机制,可即时解析键盘指令和自然语言,实现"抖衣换装"等实时交互效果[21][23] 公司发展动态 - Decart为2023年成立的加州AI初创公司,获AI专家Karpathy天使投资[7][25] - 2024年推出首款实时生成式AI开放世界模型Oasis,MirageLSD为最新迭代产品[26][28] - 计划定期升级模型功能,包括面部一致性/语音控制等模块[28] 应用场景展示 - 支持用扫帚/盒子等日常物品替代专业设备进行沉浸式直播[1] - 实时修改游戏画面风格满足个性化需求[2] - 全双工通信通道实现输入输出并行处理,消除数据传输延迟[22]
ICCV2025 | One image is all you need,多模态指令数据合成,你只管给图,剩下的交给Oasis
机器之心· 2025-07-18 11:14
多模态指令数据合成方法Oasis - 核心观点:提出一种新型多模态指令数据合成方法Oasis,仅需用户提供图片即可自动完成指令合成、质量控制和回复生成,显著降低人工成本并提升数据多样性[1][6][21] - 方法优势:打破依赖预设文本提示词的传统模式,利用图像输入诱导MLLM自主生成多样化指令,完全无需人工前置文本提示[6][14][15] - 质量控制:设计四维度筛选标准(可解性/清晰度/幻觉程度/无意义性),高质量指令接受率为50.9%[19][49][50] 技术流程 - 三步法:构造钩子提示词诱导自回归采样→LLM分类保留指令型数据→质量控制与回复生成[11][16][18] - 分类机制:采样结果分为指令型(保留)和描述型(舍弃),通过率为49.9%[15][16][46] - 垂域合成:基于OCR相关图片合成70k垂域数据,在OCR任务benchmark上提升显著[43] 数据特性 - 规模与扩展性:基于Cambrian-10M图片合成500k训练数据(Oasis-500k),数据量可线性增长[21] - 语言多样性:覆盖英文(78.52%)、中文(18.66%)及多种小语种[27] - 任务多样性:指令平均长度76.8(LLaVA-NeXT为55.03),动词-名词组合覆盖更广[24][28][33] 性能验证 - 基准测试:在14个benchmark上平均提升Vicuna1.5/Qwen2.5/Llama3模型性能3.1%/1.8%/3.2%[36][38] - 增量实验:500k Oasis数据使LLaVA-100k模型性能提升5.2%,300k→500k阶段增益达4.0%[40][41] - 消融结果:指令质量控制使模型整体性能提升1%,DocVQA/InfoVQA任务提升超7%[45][50] 开源生态 - 代码库MM-INF:集成Oasis及常用多模态数据合成方法,支持模块化数据合成流程[2][52] - 资源开放:提供论文、代码及数据集链接,涵盖Qwen2-VL等模型实现细节[4][12][52]
生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界
机器之心· 2025-05-13 10:37
世界模型技术进展 - 开源世界模型Oasis首次实现实时可交互虚拟环境,包含画面及物理规则理解[1] - 微软开源MineWorld提升视觉效果和动作生成一致性[2][3] - 创业公司开源"多元宇宙"支持多玩家在同一世界模型游戏[4] - 英伟达提出"物理图灵测试"作为具身智能新标准[4] Matrix-Game技术突破 - 昆仑万维开源17B参数世界基础模型Matrix-Game,实现完整可交互游戏世界生成[6][10] - 模型特点包括细粒度交互控制(键盘指令准确率超90%)、高保真视觉物理一致性、多场景泛化能力[17][20][25][26] - 建立GameWorld Score评估体系,在视觉质量(0.72)、时间一致性(0.97)、交互可控性(0.95)、物理规则(0.76)四大维度超越竞品[30][31][35] 技术实现路径 - 采用两阶段训练策略:无标签数据预训练+标注数据可控训练[41] - 构建Matrix-Game-MC数据集,包含2700小时中质量+870小时高质量无标签数据及1000小时有标签数据[41][42] - 模型架构基于图像到世界建模,通过DiT生成潜在表示并由3D VAE解码为视频序列[44][45] 应用场景与行业影响 - 应用领域涵盖游戏开发、具身智能训练、影视与元宇宙内容生产[7][51] - 可与公司其他AI产品(天工大模型、Mureka、SkyReels)联动构建完整创作生态[51][52] - 代表空间智能发展方向,推动国内在交互式视频生成领域的技术突破[50][51] 行业趋势 - 三维世界AI研究加速发展,计算平台可能从处理token转向处理原子级单位[4] - 空间智能被视为生成式AI下一个发展方向,将推动更高级的智能实现[48][49] - 行业呈现技术全面兴起态势,类似大模型爆发的局面可能重演[4]