Genie 3

搜索文档
谷歌OCS(光交换机)的技术、发展、合作商与价值量拆解
傅里叶的猫· 2025-09-17 22:58
谷歌AI发展势头 - 谷歌推出Gemini 2.5 Flash Image 上线不到一个月新增2300万用户并生成超过5亿张图片 助力Gemini APP在多国应用商店登顶下载榜 [2] - 谷歌发布多项多模态大模型更新 包括Veo 3音视频同步生成 Genie 3实时交互世界 Imagen 4图片生成以及Pixel 10系列AI硬件整合 凸显AI研发领先优势 [2] - Gemini 3.0预计于2025年底推出 有望进一步提升模型能力 [2] 反垄断影响 - 美国地区法官公布谷歌搜索反垄断惩罚措施 强调恢复竞争而非惩罚 未采纳分拆等激进提议 好于市场此前悲观预期 [4] - 谷歌业务基本盘保持稳固 算法能力 生态优势和品牌口碑依然领先 流量获取成本TAC有望优化 整体影响可控 [4] OCS技术背景 - 传统Scale out网络中数据传输需要多次光电转换和电光转换 以H100千卡IB集群为例 数据从一台服务器传输到另一台通常需要经过8次转换 显著降低集群效率并增加延迟和能耗 [6] - 光信号在远距离高带宽传输场景下表现优于电信号 但现有技术无法直接对光信号进行灵活数据处理 必须先转化为电信号才能完成地址处理等操作 [8] - AI大模型数据流转具有高度可预测性 无需拆包查看地址 通过反射直接传输至目标服务器即可构建高效全光网络 相比传统互联网数据传输类似快递 AI数据中心全光网络更像地铁 [9] OCS主流技术方案 - MEMS方案是市场绝对主流占比超过70% 技术成熟参与企业多 性能指标均衡 端口扩展能力达320×320 成本较低切换速度快 [10] - MEMS通过微型反射镜角度调整实现光信号路径动态调整 每根输入光纤光信号经过MEMS反射镜引导到目标输出光纤 反射镜配备二维转轴通过调节角度改变反射方向 [10] - DRC方案采用全固态设计无运动部件 通过控制液晶分子结构变化实现光路折射 驱动电压极低可靠性和寿命明显提升 寿命达MEMS方案十倍 成本约4万美元低于MEMS方案5万美元 但切换速度仅毫秒级 [11][12] - 压电陶瓷方案目前没有详细信息阐述具体特点和优劣势 [13] OCS部署策略 - OCS技术核心优势场景是端口间映射关系稳定不需要频繁调整传输路径的网络环境 优先使用OCS可最大程度利用低功耗极低传输时延特性 [13] - 避免将OCS部署在需要高频率动态调整路径或有高度随机化流量模式的场景 这类场景会放大OCS切换时间长的问题导致网络整体效率下降 [13] - 通过合理规划网络拓扑结构提升OCS使用效率 如把高带宽需求且通信关系稳定节点集中到同一物理区域 通过OCS建立直接连接减少跨区域通信资源消耗 [13] 光交换机与传统电交换机差异 - 性能上光交换机通过直接提供稳定光通道传输数据时延极低接近光速 无需频繁进行光电转换 传统电交换机需多次光电转换并解包识别目标地址重新转发 大大增加数据传输时延 [14] - 功耗上光交换机不用进行信号转换能量损耗更少功耗优势明显 灵活性上传统电交换机更有优势 端口间全连接模式每个数据包能根据包头地址直接定位目标端口无需配置固定线路 仅需纳秒级数据处理时间 而光交换机重新配置内部固定线路适应流量变化目前切换时间毫秒级 [14] - 光交换技术更适合流量模式相对稳定端口间映射关系明确且不用频繁切换场景 传统电交换机更适合流量动态变化大需要频繁调整数据传输路径场景 [14] 成本与长期使用优势 - 长期使用下OCS交换机可实现约30%成本节约 因OCS寿命长如硅基液晶方案寿命约为MEMS方案十倍 MEMS方案寿命又长于传统电交换机 且无需频繁更换 同时单位端口能耗成本更低 [16] - OCS交换机初始成本较高当前设备单价通常在4-5万美元甚至更高 传统电交换机单价仅为几千至3万美元 对预算有限中小型数据中心初始投入压力较大 [16] - 时延方面OCS通过光通道直接传输数据时延可接近光速 相比传统电交换机时延提升约60%-70% 功耗上OCS相比传统电交换机可降低约40%功耗 [16] OCS端口数量问题 - 不同OCS技术方案端口数量存在限制 核心原因是技术实现难度和制造工艺水平差异 不同方案核心部件结构加工精度要求不同导致端口扩展天花板不一样 [17] - MEMS方案端口数量直接和光纤数量挂钩 每根光纤需对应一个微型反射镜 小镜子数量决定端口数量理论上限 [18] - 小镜子加工良率是关键限制因素 因MEMS芯片上小镜子需要极高加工精度 实际生产中难保证所有小镜子正常工作 例如谷歌某款MEMS芯片设计包含176个小镜子 但40个因加工不良被屏蔽 剩下136个中还有8个用于通道校准 最终实际有效端口数只有128个 [18] - 芯片尺寸与制造工艺矛盾也限制端口数量 增加芯片尺寸能容纳更多小镜子提升端口数 但随着芯片尺寸增大加工良率会明显下降 同时面临精度控制散热等技术挑战 [18] 光路系统关键部件 - 激光注入模块和摄像头模块核心目的是实现实时校准功能 不是直接参与数据传输 是保障光路长期稳定运行关键不是冗余设计 [19] - 校准系统用于调整MEMS小镜子偏转角度 确保光路始终处于预设精准状态 避免因设备老化导致光路偏移 [19] - MEMS小镜子偏转角度由焊盘上电压控制 随着设备使用时间增加机械转轴会出现老化磨损 导致偏转角度减小影响数据传输准确性 [19] - 激光注入模块发射专用波长光束对每个光路持续检测 摄像头模块捕捉光束实际传播路径判断是否存在偏移 一旦发现偏差系统自动调整控制电压使小镜子恢复到预设偏转角度 [19] - 校准过程依赖两套独立发射和接收单元 分别对应系统中两个MEMS芯片 实现对所有光路全面覆盖 [19] MEMS制造难点 - MEMS小镜子制造难点不是集中在镜面本身 而是体现在机械结构与电子控制集成环节 源于MEMS技术机电一体化核心属性 [20] - 每个MEMS芯片通常包含超过100个小镜子 每个小镜子不仅需要简单镀膜结构保证光反射效率 还必须集成复杂机械部件 最关键的是用于实现角度调整的小型转轴 尺寸极小在微米级别 对加工精度要求极高 [20] - 机械部件与电子控制芯片高度集成增加制造难度 小镜子角度调整依赖电子控制信号 需将机械转轴与电子控制电路在极小芯片空间内实现无缝衔接 既要保证机械结构灵活性又要确保电子信号稳定传输 [20] - 复杂集成结构导致加工良率较低 因涉及机械电子光学等多领域工艺要求 任何一个环节出现问题都会导致整个小镜子失效 例如谷歌某款MEMS芯片设计176个小镜子 最终因加工问题屏蔽40个 有效率不足80% [20] 发射和接收模组 - OCS中发射和接收模组是光路校准系统核心组成部分 主要涉及激光芯片探测器芯片无源光学器件等关键组件 用于保障校准激光信号稳定发射与精准接收 [22] - 有源组件包括激光芯片用于发射校准用激光束和探测器芯片用于接收校准激光束判断光路是否偏移 这两类芯片是模组核心功能部件 直接决定校准精度和稳定性 [22] - 无源光学器件包括滤光片过滤杂光确保校准激光纯度 准直透镜将激光束校准为平行光 棱镜改变激光传播方向 隔离器防止激光反射干扰保护激光芯片 这些器件用于优化激光束传输路径提升校准效率 [22] - 单套发射或接收模组总成本约1000美元 有源组件激光芯片加探测器芯片成本最高约占总成本60%-70% 无源光学器件成本约占15%-20%约150美元 其余成本为模组装配测试和封装费用约占10%-15% [23] 二色向分光片 - 二色向分光片是OCS光路校准系统中波长筛选关键部件 通过对特定波长光信号选择性透射或反射 实现校准光路与数据光路分离 确保校准功能精准运行 [24] - 核心功能是区分OCS系统中校准光信号和数据光信号 避免两者相互干扰 校准系统使用激光波长通常为850纳米 数据传输使用光信号波长通常为1310纳米 [24] - 二色向分光片通过特殊镀膜工艺实现对这两种波长选择性处理 对于850纳米校准光信号允许透射通过进入校准系统探测器芯片 对于1310纳米数据光信号则反射回数据传输路径阻止进入校准系统 [24] - 核心技术壁垒在于复杂镀膜工艺 需在镜片表面镀上多层不同材质不同厚度薄膜 每层薄膜对特定波长光信号产生干涉效应 实现850纳米透射1310纳米反射效果 镀膜工艺对薄膜材质纯度厚度均匀性层数控制要求极高 [25] - 二色向分光片还需具备高透光率对850纳米光信号透光率需达90%以上 高反射率对1310纳米光信号反射率需达95%以上 和长期稳定性镀膜层不易磨损氧化 [25] 微透镜阵列 - 微透镜阵列MLA是OCS设备刚需部件 核心功能是准直发散激光束 确保光信号在传输过程中稳定性 [26] - 光信号从光纤输出后会自然发散 若不进行准直会导致光信号衰减光路偏移影响传输效率和稳定性 MLA通过阵列化微型透镜将发散激光束校准为平行光 确保光信号在传输和反射过程中稳定性 [26] - 随着OCS设备出货量增长如谷歌每年部署1万台以上未来预计增长至10万台 MLA需求也将同步刚性增长 [27] - 国内厂商炬光科技是OCS领域MLA核心供应商之一 已进入部分头部OCS设备厂商供应链作为二级供应商二供提供MLA产品 部分OCS设备厂商如谷歌为保障供应链安全自行建立MLA生产线实现部分MLA自主供应 [27] - 单个MLA通道价格约1美元 一台OCS设备通常包含约270个通道 单台设备MLA成本约260美元占OCS设备总成本约6% 价格波动对OCS设备整体成本影响较小 [28] - 若按未来OCS设备出货量预测2030年可能达5-10万台长期有望达30万台 MLA市场规模将从当前数百万美元增长至数亿美元 随着OCS设备端口数量增加如从136×136扩展至300×300 每台设备所需MLA通道数量也将增加提升MLA单位设备价值量 [28] CPO与OCS区别 - CPO核心思路是把交换芯片和光模块封装在同一壳子里 光信号从芯片到光模块距离大大缩短时延和功耗降低 且能实时跟着数据流量变调整传输路径速度达纳秒级灵活性高 尤其适配英伟达GPU集群NVLink NVSwitch技术 [29] - OCS走全光路子靠MEMS反射镜或硅基液晶分子控制光信号路径 全程不用光电转换 时延接近光速功耗比电交换机低40% 但光路需提前配置调整路径速度仅毫秒级应对频繁变流量吃力灵活性差 [29] - CPO适合数据流向老变需要快速响应场景如AI大模型实时推理和云计算给不同租户分配资源 特别是英伟达GPU主导AI数据中心 [30] - OCS适合流量模式固定不用老调路径场景如大模型深度训练和数据中心上层网络冗余保护 像谷歌TPU集群特别适合用OCS既能满足低时延需求长期用还能省电 [30] 谷歌OCS模式 - 谷歌使用MEMS芯片采用自主设计加委托代工模式 芯片设计环节由谷歌自行完成 生产制造环节委托给瑞典专业代工厂Silex负责 [31] - 早期谷歌曾尝试从市场直接采购现成MEMS芯片 但因对端口数量切换速度可靠性等指标有定制化要求 市场通用产品无法满足其OCS系统适配需求 [31] - 谷歌决定组建团队自主设计MEMS芯片 从底层架构确保芯片与自身OCS设备TPU集群兼容性 同时优化芯片性能参数如提升小镜子角度控制精度降低驱动电压 [31]
DeepMind哈萨比斯最新认知都在这里了
量子位· 2025-09-15 13:57
文章核心观点 - 谷歌DeepMind CEO哈萨比斯认为AGI将在未来十年内实现 并开启科学的黄金时代和新文艺复兴 在能源 健康等领域带来巨大益处 [2][7][51] - 当前AI系统仍存在关键瓶颈 包括缺乏真正的创造力 无法提出新假设 以及在某些领域表现优异但其他方面犯简单错误 [4][5][33] - 实现AGI需突破多模态理解 世界模型构建和持续学习能力等核心技术障碍 [6][21][36] DeepMind战略定位与团队规模 - DeepMind与谷歌完成合并 整合Alphabet所有AI团队 成为谷歌和Alphabet的"发动机舱" 负责构建核心Gemini模型及视频模型 交互式世界模型等多种AI模型 [15] - 团队规模约5000人 其中80%以上为工程师和博士研究员 约有三四千名顶尖技术人才 [16] - 模型已全面接入谷歌生态 包括Workspace和Gmail等全线产品 每日服务数十亿用户通过AI概览 AI模式或Gemini应用进行交互 [15] 世界模型技术突破 - Genie 3世界模型通过分析数百万段YouTube等平台视频 自主推导现实世界运行逻辑 能即时生成可交互的沉浸式环境 [17][19] - 模型无需预编程物理规则 仅通过观察学习即掌握光影反射 物体运动等复杂原理 生成持续一两分钟的高度一致性交互场景 [19][20] - 技术突破点在于实现逆向工程学习物理规律 生成范围远超人类活动 包括操控沙滩小狗或与水母互动等多元世界模拟 [19] 机器人技术发展路径 - 采用"安卓模式"战略 打造跨机器人的通用操作系统层 同时探索垂直整合 将最新模型与特定机器人类型深度结合 [25] - 人形机器人对日常任务极具价值 因人类环境基于人体工学设计 但专用机器人形态在工业等领域仍有不可替代性 [26][27] - 当前处于类似70年代PC初期阶段 未来两三年将实现算法突破 关键挑战在于硬件规模化时机选择 需平衡成熟度与量产需求 [28][29] AGI核心能力缺失与衡量标准 - 当前AI缺乏真正创造力 无法像爱因斯坦提出狭义相对论那样实现直觉飞跃或类比推理 [33][34] - 真正AGI需在所有领域保持博士级表现 而非仅在某些领域优异 同时需具备持续学习能力以实时吸收新知识 [35][36] - 关键测试包括给AI设置1901年知识截止点 检验其能否提出类似1905年爱因斯坦的创新理论 [34] 创意工具变革与行业影响 - Nano Banana等工具的核心优势在于惊人一致性 能理解指令并保持其他元素不变 实现高效迭代 [14][38] - 工具双轨赋能:降低大众创作门槛 同时为顶级创作者提供十倍百倍效率提升 但输出质量仍依赖使用技巧和审美素养等专业因素 [38][39] - 未来娱乐将出现融合共创的新艺术形式 顶级创意先锋主导高质量动态叙事 数百万人可参与部分内容共创 [39][40] 药物研发加速前景 - Isomorphic Labs依托AlphaFold技术 旨在将药物研发周期从数年或十年缩短至几周或几天 [41] - 目前与礼来 诺华等重要合作 推进癌症 免疫学和肿瘤学研究 预计明年进入临床前阶段 [43][44] - 采用混合模型架构 结合学习组件与化学物理规则约束 以解决生物学数据不足问题 [45] 能源效率与AGI贡献 - 通过模型蒸馏等技术 相同性能下模型能效过去两年提升10倍甚至100倍 [49] - AI系统在电网效率 材料设计和新能源等领域的贡献将远超其自身能源消耗 [50] - 当前总需求未降低因前沿模型仍需扩大规模实验 但服务端能效持续优化 [49]
腾讯研究院AI速递 20250915
腾讯研究院· 2025-09-15 00:01
OpenAI与微软合作及发展前景 - OpenAI与微软发布非约束性合作备忘录 涉及云服务托管 知识产权归属和AGI控制权等核心问题 但最终合作条约仍未确定[1] - OpenAI预计成立估值超1000亿美元的公益公司(PBC) 非营利机构将持有股权并保持控制权 成为全球资源最充足的慈善组织之一[1] - OpenAI面临巨大成本压力 预计2029年前烧掉1150亿美元 仅2030年就需花费1000亿美元租赁服务器 未来几年几乎没有容错空间[1] AI影视内容创作突破 - 前谷歌X团队创立全球首家AI原生影视工作室Utopai 两部电影项目已带来1.1亿美元收入 锁定戛纳电影节[2] - Utopai突破AI视频生成三大难题:一致性 可控性和叙事延续性 实现毫秒级精准对口型 模型内置物理规律的3D数据训练[2] - 公司定位为内容+AI而非纯工具供应商 已获好莱坞顶级资源支持 为电影《科尔特斯》邀请奥斯卡提名编剧 八集科幻剧《太空计划》成功预售欧洲市场[2] 音乐生成技术进展 - MiniMax发布新一代音乐生成模型Music 1.5 支持长达4分钟的完整歌曲创作 具备强控制力 人声自然饱满 编曲层次丰富和歌曲结构清晰四大突破[3] - 模型支持"16种风格×11种情绪×10个场景"自定义音乐特征 能生成不同声线唱腔 并支持中国民族乐器生成 真正实现Intro/Verse/Chorus段落分明[3] - 基于MiniMax多模态自研能力积累 同步面向全球开发者提供API 适用于专业音乐创作 影视游戏配乐 虚拟偶像单曲和企业品牌专属音频内容多种场景[3] 本地生活AI应用发展 - 美团首个AI Agent产品"小美"开启公测 通过自然语言指令点咖啡 找餐厅 规划早餐菜单 大幅简化点餐流程[4] - 小美基于美团自研Longcat模型(5600亿总参数) 能根据用户口味偏好和地理位置实现从选品到支付的全自动操作 并记忆用户习惯[4] - 与Agent热潮相呼应 但目前仍有局限性:无法处理复杂模糊需求 无法进行语音回复 未来将在个性化和主动服务能力上进一步优化[4] 语音合成技术创新 - 小红书智创音频技术团队发布新一代对话合成模型FireRedTTS-2 解决现有方案灵活性差 发音错误多 说话人切换不稳定和韵律不自然等问题[5] - 模型在数百万小时语音数据上训练 支持逐句生成与多说话人音色切换 能够通过一句语音样本模仿音色和说话习惯 流式解码可实时输出音频[6] - 在主客观评测中均达行业领先水平 开箱即用支持中文 英语 日语等多语言 是AI播客等对话合成应用的工业级解决方案 已开源代码与模型权重[6] 开源语音合成技术突破 - 哔哩哔哩开源新一代零样本语音合成模型IndexTTS2 实现毫秒级精准时长控制 让AI配音能严丝合缝对上口型[7] - 模型采用"通用且兼容自回归架构的语音时长控制方法" 达到0.02%的时长误差率 同时通过两阶段训练策略实现情感和说话人身份的"解耦"[7] - 系统由T2S(文本到语义) S2M(语义到梅尔频谱)及BigVGANv2声码器三大核心模块组成 支持用大白话控制情绪 在跨语言产业应用上具有重大意义[7] 小型高效模型发展 - Meta AI发布MobileLLM-R1系列小参数高效模型 包括140M/360M/950M三种规模 专为数学 编程和科学问题优化[8] - 最大的950M模型仅使用约2T高质量token预训练(总训练量不足5T) 性能却与使用36T token训练的Qwen3 0.6B相当或更佳[8] - 在MATH基准上比Olmo 1.24B高五倍 比SmolLM2 1.7B高两倍 Token效率和性价比极高 完全开源模型中创造新标杆[8] AI数学研究突破 - 名为"Gauss"的AI Agent仅用三周时间完成了陶哲轩团队18个月未能完成的数学挑战——在Lean中形式化强素数定理(PNT)[9] - 该Agent由Math公司开发 生成约25000行Lean代码包含上千个定理和定义[9] - Gauss能协助顶级数学家进行形式验证 突破了复分析核心难题 团队计划在未来12个月让形式化代码总量提升100到1000倍[9] AI产业格局演变 - OpenAI推出GPT-5 首次真正让人感觉与博士级专家对话 内置"思考"能力 统一模型取代复杂选择界面 显著减少幻觉[10] - 发布前其他玩家也纷纷推出战略性新品:Anthropic推出Claude Opus 4.1瞄准高风险企业场景 Google推出Gemini 2.5 Deep Think和Genie 3分别强化推理和模拟能力[10] - 新AI版图已重新排布:OpenAI同时占据开放与封闭AI生态主导地位 Anthropic专注企业级精准稳定 Google专注基础研究长期布局 Agentic AI 先进推理和端侧能力已成顶尖模型核心特性[11] 科研AI战略布局 - DeepMind科学团队只瞄准三类问题:具有变革性 公认5-10年内无人能解 但DeepMind有信心快速攻克的"不可能任务"[12] - 团队从专用模型到通用智能的进化:将AlphaProof等专用数学模型的能力成功转移到Gemini通用模型 使DeepThink实现IMO金牌水平[12] - 未来目标是打造"科学API" 让全球科学家共享AI能力 从AlphaFold数据库到AI Co-scientist 降低科研门槛 使普通人也能做出诺贝尔奖级贡献[12]
英伟达财报披露,DeepMind发布Genie 3
中国能源网· 2025-09-14 11:56
全球科技股指表现 - 2025年8月美股指数小幅上涨 标普500指数累计上涨1.91% 纳斯达克综合指数上涨1.58% 费城半导体指数上涨1.09% [1] - 港股及中概股显著上涨 纳斯达克中国金龙指数上涨6.03% 恒生科技指数上涨4.06% [1] - A股计算机板块表现突出 单月大涨17.49% [1] 重点科技公司股价变动 - 苹果公司月涨幅达14.71% 英特尔表现最为强劲 月涨幅达26.10% [2] - 部分科技股出现下跌 META下跌1.51% 微软下跌3.32% AMD下跌5.28% [2] - 英伟达微涨0.26% 特斯拉上涨10.32% 谷歌上涨12.57% 亚马逊上涨6.64% 高通上涨8.46% [2] 利率与汇率市场 - 美国10年期国债利率保持稳定 8月29日报4.23% 较8月1日无变动 [2] - 中国10年期国债收益率上升13.2个基点 8月29日报1.84% [2] - 美元兑人民币中间价累计调升466个基点 8月29日报7.10 [2] 英伟达财务业绩 - 2026财年第二财季总营收467.43亿美元 同比增长55.60% 净利润264.22亿美元 同比增长59.18% [3] - 数据中心业务营收410.96亿美元 同比增长56.43% 其中计算板块营收338.44亿美元(增长49.73%) 网络板块营收72.52亿美元(增长97.71%) [3] - 游戏业务营收42.87亿美元 同比增长48.85% 主要受益于Blackwell产品供应增加 [3] 人工智能技术突破 - 谷歌DeepMind发布通用世界模型Genie 3 能够根据文本提示生成动态世界 以每秒24帧速度实时导航 分辨率达720p并保持数分钟一致性 [4] - Genie 3具备视觉记忆能力 可回溯1分钟前内容 相比Genie 2的10-20秒交互时间实现质的飞跃 [4] - 该技术为AI Agent提供无限丰富的模拟训练环境 被视为迈向通用人工智能(AGI)的重要里程碑 [4]
摩根士丹利:美国投资者对中国市场兴趣升至三年高位
天天基金网· 2025-09-11 18:57
美国投资者对中国市场情绪 - 超过90%投资者明确表示愿意增加对中国市场敞口 比例达2021年初以来高位[2] - 投资者兴趣在指数投资和主题性机会方面均维持高位[2] - 中国在类人形机器人 生物科技和药物研发等前沿领域保持全球领先地位[2] 投资策略与市场趋势 - 建议采取深挖Alpha收益 等待Beta收益的投资策略[5] - 成长风格仍然在趋势中 风格延续流动性驱动主逻辑[3][4] - 指数波动会放大但趋势形成后短期内难以逆转[4] 行业投资方向 - 创新药企盈利进入爆发阶段 AI医疗标的普遍处于低位 非创新药赛道行业龙头估值处于历史较低水平[6] - 国产算力和应用相关领域具备巨大想象空间 全球头部模型厂商在编程能力等方面有显著提升[11] - 消费者持续向悦己型场景倾斜 产品力取代品牌声量和渠道覆盖成为消费公司核心竞争力[9][10] 市场价值重估 - 中国资产面临新价值重估 高端制造业公司与海外对标公司市值相差一个数量级以上[4] - 政策制定者以渐进方式出台稳定经济举措并释放呵护资本市场信号[2] - 流动性状况改善及全球资产配置多元化需求为投资意愿提供支撑[2]
6000字复盘:Google AI变猛记——从 Nano Banna、Genie 3、Veo 3到Gemini 2.5的绝地反击
创业邦· 2025-09-04 11:37
以下文章来源于十字路口Crossing ,作者镜山 十字路口Crossing . AI 正在给各行各业带来改变,我们在「十字路口」关注变革与机会,寻找、访谈和凝聚 AI 时代的「积 极行动者」,和他们一起,探索和拥抱,新变化,新的可能性。「十字路口」是乔布斯形容苹果公司站 在科技与人文的十字路口,伟大的产品往往诞生在这里。 来源丨十字路口Crossing 作者丨镜山 编辑丨Zeo 一年前,Google 在 AI 赛道上还是「追赶者」的形象。ChatGPT 席卷硅谷时,它显得迟缓。 但短短几个月后,情况突变。 Gemini 2.5 Pro 横扫各大榜单,「香蕉」模型 Nano Banana 让生图、修图成了轻松事;视频模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句话生成一个虚拟世界。 Google 用 一串「王炸」产品 ,重新站回牌桌中央。 这不禁让人好奇: Google 最近怎么突然这么猛了? 这其实并非一次突然的爆发,而是一场「大象转身,技术变现」,Google 正以前所未有的决心和效 率,将自己数十年积累的 AI 技术储备,转化为产品力。 更直白点说: Google 不是突然变强了, ...
【招银研究|House View】政策空间打开,风偏仍处高位——招商银行研究院House View(2025年9月)
招商银行研究· 2025-08-29 17:55
大类资产配置建议 - 美元债高配 美元维持震荡趋势[11] - 高股息权益高配 呈现偏强震荡态势[11] - 港股科技标配 处于偏强震荡格局[11] - 可转债标配 维持震荡走势[11] - 中国国债标配 呈现偏弱震荡[11] - 美股及纳斯达克标配 整体震荡[11] 海外经济展望 - 美国财政赤字7月达$2890亿 三季度总赤字额预计$5280亿[15] - 美联储预计9月降息 2026年政策利率或降至3.5%附近[15] - 美国消费年化增速从Q1的0.5%修复至Q3的2.2%[21] - 欧元区制造业PMI回升至50.5 重回扩张区间[37] - 日本二季度GDP季环比0.3% 超出预期0.1%[43] 美国就业与通胀 - 5-6月新增非农就业仅1.9万和1.4万[26] - 核心PCE通胀稳定在2.8%附近[31] - 私人服务平均时薪同比增速稳定在4%[32] - 住房服务通胀处于下行通道[32] 美股与美债策略 - 标普500市盈率28.5倍 高于10年均值15%[49] - 企业盈利同比增长11.8% 超预期5%[48] - 建议回避长久期美债 维持中短久期配置[55] - 9月降息概率超80%[57] 汇率走势判断 - 美元指数预计区间震荡95-103[59] - 欧元兑美元走势取决于美联储决策[62] - 人民币短期偏强 中美利差倒挂收敛[134] - 日元受套息交易制约延续偏弱震荡[63] 商品市场展望 - 黄金受益于美联储降息及央行购金趋势[65] - 布伦特原油短期或挑战75美元/桶[70] - 铜价获降息预期与基本面支撑[71] - 俄乌和谈进展可能加剧金价波动[65] 中国经济与政策 - 7月出口同比增长8% 社零增速降至3.7%[77] - M2同比增速上升0.5pct至8.8%[79] - 反内卷政策推动供需结构优化[80] - 财政贴息政策规模预计十亿级[93] 中国固收市场 - 10年期国债利率1.8%以上具备配置价值[109] - 信用利差略有扩大 违约风险溢价降低[100] - 建议持有中短久期品种 规避长久期风险[101] - 固收+策略配置价值凸显[110] A股市场展望 - 上证指数创10年新高超3800点[111] - M1同比增速上行1.0pct至5.6%[79] - 成长风格占优 科技板块景气度提升[123] - 计算机行业市净率分位数达99%[127] 港股投资策略 - 南下资金持续流入 受益于低利率环境[129] - 恒生科技板块具备配置价值[129] - 弱美元环境支撑新兴市场表现[132]
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 09:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]
全球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
36氪· 2025-08-22 17:17
行业技术发展 - 开放世界游戏如GTA系列被广泛用作AI训练数据 目标是通过AI生成完整虚拟世界 [1] - AI驱动的视频生成、三维生成和世界模型领域将生成类GTA世界作为长期目标 [1] - 全球首个实时世界模型驱动的AI原生UGC游戏引擎Mirage推出迭代版本Mirage 2 [2] - Mirage 2被定位为生成式世界引擎 不仅适用于游戏 还能创建任何可想象的互动世界 [2] 产品技术特性 - Mirage 2支持图片上传并转换为可交互游戏世界 支持实时对话和文本指令修改 [5] - 新架构实现更灵敏的提示控制 更低的游戏延迟和通用领域建模能力 [5] - 支持多种风格场景生成 包括吉卜力风格村庄、儿童画彩色城市和繁星之夜等 [7][9][11] - 交互时间超过10分钟 延迟水平为200毫秒 可在单个消费级GPU上运行 [11] - 相比Mirage 1的700毫秒推理时间 Mirage 2显著改善至200毫秒 [14] 产品性能表现 - 物体比例问题显著改善 场景理解和精度明显提升 人和车模型更合理 [14] - 在线体验延迟较高 但导出视频流畅 动作控制精度仍需提升 [13][16] - 存在视觉一致性问题 快速切换场景时可能出现细节变化 [16] - 通过提示工程可在较长时间内保持画面一致性 [16] 市场竞争对比 - Mirage 2具备与DeepMind Genie 3竞争的能力 支持跑、跳、攻击等动作 [11] - 相比Genie 3的未知延迟和计算需求 Mirage 2已上线可立即体验 [11][13] - Genie 3在视觉一致性方面表现优于Mirage 2 [17]
全球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
机器之心· 2025-08-22 15:55
GTA 6 跳票与 AI 生成游戏世界的进展 - GTA 6 再次跳票至明年 成为行业调侃焦点 尤其与 AI 生成游戏世界的速度形成对比 [1] - 研究者以 GTA 场景为训练数据 并将生成类 GTA 完整世界作为长期目标 [1] - Decart AI 等尝试显示 AI 生成 GTA 可能快于 GTA 6 发布 [1] Mirage 游戏引擎的技术迭代 - Mirage 作为全球首个实时世界模型驱动的 AI 原生 UGC 游戏引擎 仅一个多月即迭代至 Mirage 2 [3][5] - Mirage 2 被定位为生成式世界引擎 适用于任何互动世界 不仅限于游戏 [6] - 从 Mirage 1 到 Mirage 2 仅一个月 公司加速推进技术进化 [8] Mirage 2 的核心功能与性能提升 - 支持上传图片转换为可交互游戏世界 并可通过文本指令实时修改游戏世界 [8] - 生成性能显著进步:更灵敏的提示控制 更低的游戏延迟 通用领域建模支持任何风格 [13] - 交互延迟从 Mirage 1 的 700ms 改善至 200ms 且可在单个消费级 GPU 上运行 [19][20] - 支持 10 分钟以上的交互时间 并具备跑、跳、攻击等动作控制 [17] 多风格场景生成能力 - 提供吉卜力风格、儿童画风格、繁星之夜等多种非传统城市场景 [10][12][15][17] - 生成场景可通过视频分享 且 UI 设计更加精致 [8][10] - 与 DeepMind Genie 3 对比:Mirage 2 已上线可体验 而 Genie 3 尚未开放 [17] 实际测试效果与改进 - 机器之心测试显示 Mirage 2 显著改善物体比例和场景理解 车流模型接近 GTA 4 水平 [19] - 视觉一致性仍存问题:如视角遮挡后角色切换、建筑物细节变化等 [21][24] - 动作控制精度需提升 右转等操作偶尔响应偏慢 [24] 行业竞争与技术前景 - Mirage 2 具备与 Genie 3 叫板的底气 尤其在交互时间和硬件要求上优势明显 [17] - 公司认为技术仍有加速空间 未来进展值得关注 [20] - AI 驱动 UGC 游戏引擎发展迅速 可能与 GTA 6 发布窗口形成有趣对比 [22]