Workflow
RTFM
icon
搜索文档
李飞飞最新长文火爆硅谷
量子位· 2025-11-11 08:58
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心在于构建能够理解、推理、生成并与物理世界交互的“世界模型”,这将推动AI实现从处理抽象知识到理解物理现实的质的飞跃 [1][6][28] - 当前以大语言模型为代表的AI在空间智能方面存在根本性局限,无法像人类一样进行空间推理、物理规律预测和连贯的世界生成 [22][23][24] - 具备空间智能的世界模型必须拥有三项核心能力:生成性(创造物理一致的世界)、多模态(处理图像、视频、动作等输入)、交互性(预测世界随互动演变的状态) [5][31] - 空间智能的应用潜力巨大,将彻底革新创造力(如叙事、游戏设计)、机器人技术、科学发现、医疗和教育等多个领域 [4][27][51] 空间智能的定义与重要性 - 空间智能是支撑人类认知的脚手架,驱动着人类的推理、规划及与世界互动的方式,体现在日常动作(如停车、接钥匙)和极端情况(如消防员救援)中 [14][15][20][21] - 人类通过空间智能推动文明进步,历史案例包括埃拉托色尼计算地球周长、珍妮纺纱机的发明、DNA双螺旋结构的发现 [18][19] - 空间智能是人类想象力与创造力的基石,从原始洞穴壁画到现代电影、电子游戏,都依赖于以空间为根基的想象 [17] 当前AI在空间智能方面的局限 - 多模态大语言模型虽具备初步空间感知能力,但在估计距离、方向、大小等任务上表现不佳,无法进行“心智旋转”或预测基本物理规律 [23] - 顶级AI擅长阅读、写作和模式识别,但在对物理世界的表征或交互上存在根本性局限,生成的视频常在几秒后失去连贯性 [23][24] - AI缺乏人类整体性理解世界的方式,即同时理解物体在空间上的关系、语义意义及现实重要性 [25] 世界模型的核心能力与构建挑战 - **生成性**:模型需能生成具有几何、物理与动态一致性的虚拟世界,其输出应允许生成显式、可观测的世界状态,并保持时间上的连贯 [31][32][33] - **多模态**:模型需能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并以多样的方式输出 [34][35][36][37] - **交互性**:当动作或目标作为输入时,模型需能生成与世界先前状态、物理规律相一致的下一个状态,未来甚至能预测下一步行动 [38] - 构建世界模型面临巨大技术壁垒,因其需要协调语义、几何、动力学与物理等远比语言复杂的多维规则 [39][40][41][42] World Labs的研究进展与方向 - 公司致力于世界模型的基础性突破,研究方向包括定义新的通用训练任务函数、利用大规模图像视频数据、开发新的模型架构与表征学习 [43][44] - 开发了基于帧的实时生成模型RTFM,以空间为基础的帧作为记忆形式,实现高效实时生成并保持一致性 [45] - 推出了Marble的早期版本,这是全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,旨在让用户探索和构建创意世界 [46] 空间智能的应用潜力 - **创造力**:工具如Marble平台将空间表达能力赋予电影人、游戏设计师等,使其能快速创造、迭代三维世界,实现多维叙事体验 [51][52][53] - **机器人**:空间智能是实现具身智能的关键,将使机器人能理解、导航并与世界交互,中期目标是完善感知与行动的闭环 [54][55][60] - **科学**:具备空间智能的系统可模拟实验、验证假设,探索从深海到外星的环境,变革气候科学、材料研究等领域的计算建模 [56] - **医疗**:AI可通过多维建模加速药物研发,辅助影像诊断,支持环境感知式监护系统,并发挥机器人在辅助医护方面的潜力 [56] - **教育**:能实现沉浸式学习,让抽象概念可感知,学生可多维探索细胞或“亲历”历史,专业人士可在仿真环境中练习技能 [57] 行业影响与未来愿景 - 空间智能模型将推动造世界的权力从专业团队扩展到个体创作者、教育者,结合VR/XR设备带来全新的沉浸与互动体验 [59] - 世界模型生成的仿真数据将极大促进机器人学习,缩小模拟与现实的差距,使其能在海量状态和环境中学习 [60] - 未来的创新将来自多样化的机器人设计(如纳米机器人、软体机器人),世界模型需对环境与机器人感知进行一体化建模 [60] - 该技术旨在增强而非取代人类,目标是让AI成为拓展人类能力、加速发现、放大关怀的力量,提升生命价值 [47][50][57][62][63]
传媒行业周报:谷歌发布Veo3.1,吉比特业绩高增-20251021
国元证券· 2025-10-21 12:41
行业投资评级 - 报告对媒体Ⅱ行业的投资评级为“推荐”,并维持此评级 [7] 核心观点 - 报告看好AI应用、文化出海等主题方向,重点关注游戏、IP、短剧、出版等子板块 [5][37] - 建议关注巨人网络、恺英网络、姚记科技、神州泰岳、吉比特、浙数文化、完美世界、快手、美图公司、心动公司、上海电影、芒果超媒、南方传媒、皖新传媒等标的 [5][37] 行情回顾 - 报告期内(2025年10月11日至10月17日),传媒行业(申万)下跌6.27%,在申万一级行业中排名第30名,同期沪深300指数下跌2.22% [2][13] - 主要细分板块均下跌,其中游戏Ⅱ板块跌幅最大,为8.21%,出版板块跌幅最小,为2.28% [13] - 个股方面,*ST返利、粤传媒、天威视讯、名臣健康和荣信文化表现较优,周涨幅分别为+10.05%、+9.51%、+9.12%、+4.63%和+4.53% [21] AI应用数据 - 最近一周(10月10日至10月16日),主要AI应用iOS端下载量环比变化显著:Deepseek为49.31万次,环比增长48.63%;豆包为209.88万次,环比下降0.16%;夸克为74.95万次,环比增长15.99%;腾讯元宝为123.93万次,环比增长36.69% [3][25] - 腾讯元宝于10月9日上线混元图像3.0,生成的图片效果和画质提升明显 [3][25] - 报告期内多家公司发布AI模型更新,包括微软推出自研图像生成模型MAI-Image-1,蚂蚁发布万亿思考模型Ring-1T,阿里通义千问推出视觉语言模型系列Qwen3-VL,Anthropic发布Claude Haiku 4.5,谷歌发布视频生成模型Veo 3.1等 [3][35][36] 游戏数据 - 截至10月16日,iOS游戏畅销榜前三名分别为《王者荣耀》、《三角洲行动》和《金铲铲之战》 [4][27] - 《超自然行动组》开启与“赞萌露比”联动并发布新武器,本周畅销榜排名在10-25名;吉比特《杖剑传说》排名40名上下,计划十月底开启与“罗小黑战记2”联动 [4][27] - 吉比特发布2025年前三季度业绩预增公告,预计扣非归母净利润为10.3亿元到12.2亿元,同比增加68%到99% [4][36] - 恺英网络宣布与顺网科技、顺玩网络达成合作,共建传奇游戏社区生态 [4][36] - 后续新游方面,10月20日至25日期间预计有11款游戏上线,包括腾讯的《卡厄斯梦境》等 [28][29] - 重点游戏活动方面,腾讯《王者荣耀》将于10月25日开启十周年庆 [31][32] 电影数据 - 报告期内(10月11日至10月17日)全国电影总票房为2.62亿元 [4][32] - 票房冠军为《志愿军:浴血和平》,周票房5588万元,占总票房的21.2% [4][32] - 后续(10月21日至26日)将有10部影片待映,其中《下一个台风》和《世界计划:无法唱歌的初音未来》猫眼想看人数较高,分别为8.2万和3.7万人 [4][33]
锦秋基金领投企业Manifold AI流形空间连获两轮共亿元融资,打造下一代具身智能世界模型|Jinqiu Spotlight
锦秋集· 2025-10-20 20:18
投资事件 - 锦秋基金已完成对Manifold AI(流形空间)的投资 [2] - 锦秋基金是一家12年期的AI Fund,以长期主义为核心投资理念,专注于寻找具有突破性技术和创新商业模式的通用人工智能初创企业 [3] - Manifold AI近期的天使轮融资由锦秋基金领投,同创伟业、英诺天使基金跟投,种子轮由英诺天使基金领投、水木清华校友种子基金跟投,两轮融资共亿元,资金将用于下一代具身世界模型的训练与场景落地 [4] 公司技术与定位 - Manifold AI聚焦世界模型与具身智能,原创的具身世界模型技术旨在推动机器人大脑的规模化落地 [6] - 公司提出WorldScape具身基座世界模型方案,具备Reasoning-Dreaming-Acting三位一体能力,利用海量第一人称视角视频数据进行预训练,有望实现物理空间智能涌现 [10] - 预训练模型能力的提升使得绑定本体的动作映射只需极少量In Context Learning数据即可实现,大幅降低部署成本 [10] - 其技术孵化自清华大学电子系未来智能实验室,是世界范围内首个全域布局室外、室内、空域具身世界模型的团队,相关工作DriveScape、RoboScape、AirScape已发表于CVPR2025、NeurIPS2025、ACM MM2025等顶级会议 [10] - Manifold AI已率先接入NVIDIA Jetson Thor开发者套件用于具身世界模型的本体部署 [12] 行业背景与趋势 - 通用机器人面临本体多、数据少、应用分散的落地困局,基于视觉-语言-动作模型的方案存在预训练精度低、需大量本体数据进行模仿学习的问题 [6] - 海外如Tesla Optimus、Figure AI团队已转向使用海量第一人称视角视频数据的技术路线,从第一性原理出发模拟人类学习过程 [6] - 世界模型技术被视为本质解法,可使互联网上所有第一人称视角视频数据成为机器人学习素材,达到类GPT预训练范式所需规模 [7] - 近期行业进展包括OpenAI发布Sora2视频生成模型周活跃用户达8亿,Google发布Genie3世界模型将物理一致上下文视频窗口拉长至分钟级别,李飞飞World Labs发布RTFM世界模型实现单图实时生成可持久化交互3D空间,NVIDIA Cosmos和Meta V-JEPA2世界模型也在具身场景取得突破 [7] - 世界模型路线能撬动更多网络视频和人类训练数据,具有更大规模化潜力,其时空预测能力驱动交互更符合人类物理直觉 [16] 团队背景 - 创始人兼CEO武伟博士为前商汤科技高管,2015年加入商汤初创,有数百人团队管理经验,曾主导商汤开悟世界模型的研发和落地 [13] - 联合发起人包括清华大学教授、教育部长江学者,在AI模拟和世界模型方向早期整体布局,发表过包括十余篇Nature子刊在内的数百篇学术论文 [15] - 另一位联合发起人为清华大学信息学院助理教授,15岁考入清华,多次入选全球前2%顶尖科学家 [15] - 核心团队成员毕业于清华、北大、上交、港中大、UCLA等高校,曾在快手、Momenta、商汤等企业构建过超千万级用户的AI产品,具备机器人与大模型双重背景 [12] - 团队融合智驾产业落地经验和清华前沿实验室技术资源,是国内探索世界模型方向的先锋 [16]
前瞻全球产业早报:又一个“国家级都市圈”获批
前瞻网· 2025-10-20 18:49
海南离岛免税政策调整 - 扩大离岛免税商品范围,增加宠物用品、乐器、微型无人机、小家电等,免税商品由45大类增至47大类 [2] - 允许服装服饰、鞋帽、陶瓷制品、丝巾、咖啡、茶等国内商品进入离岛免税店销售,并退(免)增值税、消费税 [2] - 将离岛旅客免税购物年龄由年满16周岁调整为年满18周岁 [2] - 允许离境旅客享受离岛免税政策,其购物金额计入每年10万元人民币免税购物额度,不限次数 [2] - 对有离岛记录的岛内居民,在自然年度内可按"即购即提"方式不限次数购买免税商品 [2] 专精特新企业发展 - 前三季度专精特新"小巨人"企业销售收入同比增长8.2%,增速较2024年加快4.1个百分点 [3] - 其中高技术制造业企业销售收入同比增长11.8% [3] 科技研发与创新 - 全球首台中红外波段太阳磁场专用观测设备AIMS望远镜正式启用,将磁场测量精度提升到优于10高斯量级 [4] - 李飞飞团队发布全新实时世界模型RTFM,具备实时运行、持久性和3D一致性,单张H100 GPU即可运行 [16] - OpenAI新一代多模态视频生成模型Sora 2在微软Azure AI Foundry(国际版)上线,进入公共预览阶段,定价0.1美元/秒 [15] 企业动态与战略合作 - 阿里巴巴集团和蚂蚁集团共同投资9.25亿美元(约66亿元人民币)购置香港铜锣湾写字楼,设立两家公司的香港总部 [6] - 谷歌与Salesforce扩大AI领域合作,将谷歌Gemini模型引入全新Agentforce 360平台 [13] - 曹德旺宣布退休,表示退下来对福耀更有好处,让新一代人接手 [7] 新能源汽车与智能网联产业 - 工信部将研究制定十五五智能网联新能源汽车产业发展规划,规范企业OTA升级活动,完善相关标准体系建设 [5] - 智界回应电池供应商变更,称10月-11月集中交付的车辆将采用宁德时代82度电池,后续批次全部切换为中创三元锂电池 [10] 消费市场与行业数据 - 美团核心本地商业CEO王莆中表示餐饮行业堂食客单价已接近2015年水平 [8] - 今年新增外卖订单中75%来自15元以下的低价区间,5月外卖大战催生的增量订单有近一半是饮品 [8] - 苹果官方旗舰店参加天猫双11,iPhone 17 Pro系列可使用300元惊喜券并享受至多12期免息 [11] 半导体与供应链 - 荷兰政府干预闻泰科技旗下安世半导体,欧洲汽车制造商协会对此深感担忧,称芯片供应中断可能威胁欧洲汽车生产 [12] - 西班牙电信塔运营商Cellnex以3.91亿欧元(约合4.58亿美元)出售其法国数据中心业务Towerlink France的99.99%股权 [18] 人工智能行业影响与融资 - IMF总裁警示人工智能可能扩大各国内部及国家间的发展差距,同时AI投资热潮为全球经济增长带来乐观情绪 [14] - AI视频企业爱诗科技完成1亿元人民币B+轮融资 [18] - 杭州数聚链科技有限公司完成千万级A+轮融资 [19] 资本市场与IPO - 可口可乐考虑对印度瓶装业务进行10亿美元IPO [20] - 深圳天溯计量检测股份有限公司首发获深交所上市委通过 [21]
腾讯研究院AI速递 20251020
腾讯研究院· 2025-10-20 00:01
英伟达与台积电合作推进先进制程本土化 - 英伟达与台积电在美国亚利桑那工厂历史性亮相首片用于AI的Blackwell芯片晶圆,首次实现先进芯片的"美国本土造"[1] - 台积电亚利桑那工厂总投资达1650亿美元,计划生产2纳米、3纳米、4纳米和A16等先进制程芯片[1] - Blackwell芯片采用定制4NP工艺,拥有2080亿晶体管,两个子芯片通过NV-HBI连接速度高达10TB/s[1] Anthropic提升AI代理能力与模块化 - Anthropic发布Agent Skills功能,允许将提示词、代码包等专业能力打包成可按需加载的skills,支持多个skills叠加且Claude自动识别所需能力[2] - Skills可在Claude apps、Claude Code和API三个平台通用移植,包含核心指令、可执行脚本和资源文件,仅在需要时加载最小必要信息[2] - 官方预设包括9个处理常见文档格式的skills,用户可自定义上传,并提供辅助工具帮助创建新skills[2] 生成式AI模型在3D内容创建取得突破 - 李飞飞团队发布实时生成式世界模型RTFM,仅需单块H100 GPU即可实时渲染持久且3D一致的世界[3] - RTFM采用自回归扩散Transformer架构,通过端到端学习大规模视频数据,无需构建显式3D表征,直接从2D图像生成新视角图像并模拟反射等复杂效果[3] - 模型通过带位姿的帧作为空间记忆实现无限持久性,配合上下文调度技术可在长时间交互中保持大型世界几何形状持久性[3] AI代理在软件开发与测试自动化进展 - Manus 1.5版本引入具备操作能力的"内建浏览器",允许AI像用户一样点击网页按钮、测试功能、修复bug,将上线部署等传统人工环节纳入Agent执行能力[4] - 新增Library文件库统一管理生成内容,开放多人协同编辑,平均任务完成时长从15分36秒缩短至3分43秒,效率提升约77%[4] - 实测通过自然语言完全无代码完成音乐网页应用构建,包括歌词改写、情绪调节、音频上传等交互功能[4] 操作系统集成AI实现人机交互革新 - Windows 11大更新引入"Hey Copilot"语音唤醒功能和Copilot Vision屏幕理解能力,可实时查看屏幕内容并指导用户操作[5] - Copilot Actions可在本地文件上执行操作如整理照片、提取PDF信息等,Copilot Connectors打通OneDrive、Outlook和Google等主流应用[5] - 文件资源管理器集成Manus AI操作,可右键文档选择自动生成网站,还整合了视频编辑和会议安排功能[6] 多模态文档解析技术达到新水平 - 百度开源PaddleOCR-VL多模态文档解析模型,仅0.9B参数量在OmniDocBench V1.5榜单获92.6分全球第一,在四大核心能力全部拿下SOTA[7] - 模型支持109种语言,覆盖手写、竖排、艺术字体等复杂形态,公式识别CDM得分0.9453,表格理解得分89.8,阅读顺序预测误差仅0.043[7] - 采用两阶段架构融合动态分辨率视觉编码器与语言模型,在单张A100上推理速度达1881token/s,发布16小时内登顶HuggingFace Trending全球第一[7] AI加速核聚变能源研发进程 - Google DeepMind与核聚变能源巨头CFS合作,利用AI加速"人造太阳"SPARC装置研发,其开发的TORAX等离子体模拟器可运行数百万次虚拟实验[8] - 合作聚焦三大方向:构建快速精准可微分的聚变等离子体模拟系统、寻找最大化聚变能量输出的高效路径、运用强化学习探索实时控制策略[8] - TORAX能在CPU与GPU灵活运行并无缝集成AI模型,通过强化学习AI Agent可在模拟环境中探索海量潜在运行场景[8] AI对劳动力市场产生结构性影响 - 哈佛大学研究通过追踪6200万劳动者和超2.45亿招聘信息发现,采用AI的企业初级岗位显著下降,主要通过放缓招聘而非裁员实现[9] - AI冲击最大的人群是强校和普通名校毕业生,顶尖精英大学和末流院校反而受影响较小,呈现"U型"格局[9] - 批发零售行业初级岗位风险最大,内容审核员、财会行政等办公室底层职位面临替代,技能呈现"两极化"趋势[9] AI生成内容引发互联网生态担忧 - Reddit联合创始人预警互联网被AI生成内容淹没失去真实生命力,OpenAI CEO认为该理论可能有道理,现在存在很多大模型驱动的账号[10] - 监测显示机器人流量约占整体应用流量31%,自动化流量达51%,AI生成文章数量在2024年11月首次超过人类撰写文章[10] - 研究指出模型在AI生成数据上继续训练会导致"模型崩溃",AI内容成为训练数据可能带来模型能力下降[10] 对AI发展路径与AGI前景的行业观点 - AI专家Andrej Karpathy直言智能体存在认知缺陷,强化学习很糟糕,认为AGI仍需十年时间[11] - 强调强化学习通过噪声极大,人类并不真正使用强化学习,预训练是"糟糕的进化",LLM被预训练文档记忆所困扰[11] - 预计AGI将融入约2%GDP增长而非爆炸式增长,认为AI本质是计算的延伸,教育是让人类在AI时代保持价值的关键[11]
谷歌更新视频生成模型 Veo 3.1,阿里通义千问推出其最强视觉语言模型系列
国盛证券· 2025-10-19 21:54
行业投资评级 - 对传媒行业评级为“增持”(维持)[5] 核心观点 - 当前临近三季报披露期,传媒行业继续看好游戏等基本面驱动板块,关注底部在新政策驱动下困境反转的影视剧板块,同时弹性方向看好AI应用及IP方向[1] - AI应用聚焦能实现数据兑现公司,同时需注意商业模式在大模型能力迭代下的壁垒,重点关注AI陪伴、AI教育及AI玩具方向[1] - IP变现聚焦有IP优势及全产业链潜力的公司,传统文化IP价值挖掘是重点方向[1] 行情概览 - 本周(2025年10月13日至10月17日)传媒板块下跌6.28%[10] - 在中信一级行业中,涨跌幅排名后三的板块分别是电子(-7.10%)、传媒(-6.28%)、汽车(-6.24%)[10] - 传媒板块本周涨幅前五为:粤传媒(9.5%)、天威视讯(9.1%)、中原传媒(3.1%)、歌华有线(2.3%)、天下秀(1.4%)[11] - 传媒板块本周跌幅前五为:大晟文化(-11.9%)、昆仑万维(-12.5%)、紫天科技(-13.2%)、吉比特(-15.0%)、利欧股份(-16.6%)[11] 板块观点与关注标的 - 游戏板块重点关注ST华通、巨人网络、吉比特、恺英网络、神州泰岳、完美世界、心动公司等[1][16] - 影视板块关注芒果超媒、华策影视、欢瑞世纪等[1][16] - IP板块关注创源股份、上海电影、华立科技、姚记科技等[1][16] - AI板块关注豆神教育、盛天网络、荣信文化、中文在线、易点天下、视觉中国、盛通股份、焦点科技、世纪天鸿、佳发教育等[1][16] - 教育板块关注学大教育、粉笔、天立国际控股等[1][16] - 港股关注阿里巴巴、腾讯控股、泡泡玛特、快手、网龙,以及产业爆发在即的阜博集团[1][16] 重点事件回顾 - 谷歌于2025年10月16日发布视频生成模型Veo 3.1,核心升级聚焦更强叙事与音频控制及更丰富输入与编辑能力,支持1080p/24fps分辨率,原生视频时长4-8秒,通过Extend功能最长可扩展至148秒[2][20] - Veo 3.1已接入Gemini API与Vertex AI,其驱动的AI电影制作工具Flow上线5个月用户已生成超2.75亿个视频[2][20] - 阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型[3] - Anthropic于2025年10月16日发布小模型Claude Haiku 4.5,其在编程核心测试SWE-bench Verified中得73.3%,接近Sonnet 4(72.7%)与GPT-5(72.8%),计算机操作任务(OSWorld测试50.7%)甚至超越Sonnet 4(42.2%)[3][20] - World Labs于2025年10月17日发布实时生成式世界模型RTFM,仅需单块H100 GPU就能实时渲染3D一致的虚拟世界[20] 子板块数据跟踪 - 游戏:根据AppStore现可预购游戏,近期热门的重点游戏包括《功夫熊猫:神龙大侠》、《汤姆猫总动员2》等[21] - 院线:2025年10月13日至10月17日电影市场总票房为1.18亿元(不含服务费),票房前列电影为《志愿军:浴血和平》(2617.7万元)、《浪浪人生》(2101万元)、《刺杀小说家2》(1422.1万元)[22][23] - 影视视频:2025年10月13日至10月17日全平台剧集播映表现前三为《许我耀眼》(全网热度83.8)、《一笑随歌》(全网热度80.9)、《沉默的荣耀》(全网热度80.4)[23][24] - 综艺播映表现前三为《再见爱人第五季》(全网热度77.6)、《喜人奇妙夜第二季》(全网热度77.4)、《花儿与少年同心季》(全网热度76.6)[23][25]
AI周报 | 英伟达中国市场份额从95%降到0% ;OpenAI被曝8亿活跃用户只有5%付费
第一财经· 2025-10-19 08:51
AI芯片与算力市场动态 - 英伟达CEO黄仁勋表示,公司在中国市场份额从95%降至0%,目前已100%离开中国市场[2] - 寒武纪前三季度营收达46.07亿元,同比增长2386.38%,净利润为16.05亿元[8] - 台积电第三季度净利润创历史新高,达4523亿元新台币,同比增长39.1%,管理层称AI需求比3个月前更强[13] - 由贝莱德、英伟达和微软等组成的投资联盟,以400亿美元收购数据中心运营商Aligned Data Centers[10] AI大模型与生成式AI竞争 - OpenAI拥有超过8亿活跃用户,但付费订阅者比例仅为5%,公司目标是将该比例翻倍[3] - 谷歌推出视频生成模型Veo 3.1迎战OpenAI的Sora 2,后者专业用户可生成长达25秒的视频[6][7] - 斯坦福大学教授李飞飞团队发布实时生成式世界模型RTFM,该模型可在单个H100 GPU上运行[5] AI应用与商业化进展 - 百度搜索旗下AI短剧生成平台启动公测,称可辅助创作者完成80%以上的内容创作,并提供亿元创作基金支持[4] - Omdia分析师指出,AI功能尚未成为消费者更换手机的主要驱动因素,但中国市场关注度已显著提升[11] - 商汤科技与寒武纪达成战略合作,重点推进软硬件联合优化,消息宣布后双方股价分别上涨5.44%和3.85%[9] 机器人与具身智能领域 - 优必选获得一笔价值超3200万元的人形机器人订单,其Walker系列人形机器人已获得近5亿元合同[14] - 具身触觉企业千觉机器人在一年半内完成第三轮融资,本次PreA轮融资达亿元级别[15]
李飞飞发布全新世界模型RTFM;德勤向澳洲政府退钱;OpenAI放宽成人内容引发争议|一周AI要闻回顾
36氪· 2025-10-18 17:07
世界模型与生成式AI技术突破 - 斯坦福大学李飞飞团队发布实时生成式世界模型RTFM,仅需单张或多张2D图像即可生成3D一致场景,无需显式3D表征,并能精准建模几何、反射等物理现象 [2] - RTFM模型在单块H100 GPU上即可实现实时渲染,解决了世界模型长期存在的可扩展性难题,其研发公司World Labs已获2.3亿美元融资,计划于2025年推出产品 [2] - OpenAI完成Sora2模型重大升级,免费用户视频生成时长提升至15秒,Pro用户可生成25秒视频,并新增音频生成功能,可自动匹配环境音、对话及背景音乐 [4] - 谷歌发布Veo 3.1视频生成模型,新版本在音频输出、精细化编辑控制以及图像转视频效果方面均有提升,允许用户向视频中添加对象并使其自然融入原有画面风格 [5] - 上海AI Lab推出科研智能体FlowSearch,该智能体在多个权威科研基准上表现突出,通过动态结构化知识流构建科研任务的多层依赖图,实现任务的并行探索与自适应优化 [5] AI基础设施与硬件创新 - 微软推出新一代热交换单元(HXU),在物理尺寸基本不变的情况下散热性能比上一代产品提升一倍,可支持单机架超过240千瓦的功率密度 [6] - 甲骨文披露AI基础设施项目毛利率可达35%,举例一个为期六年、总收入600亿美元的项目,公司剩余履约义务(RPO)超过5000亿美元 [12] - 谷歌宣布将在印度安得拉邦投资150亿美元建立一座1吉瓦的数据中心和AI中心,该投资将在未来五年内完成,标志着谷歌在印度的最大投资 [12] - 谷歌DeepMind与Commonwealth Fusion Systems合作,利用深度强化学习和开源等离子体模拟器TORAX,开发AI驾驶员实时控制SPARC核聚变装置 [11] AI应用商业化与市场动态 - 淘宝新增6款AI导购应用,包括"AI万能搜"、"AI帮我挑"、"AI试衣"等,AI美工月均生成2亿张图片及500万个视频,带动商品点击率提升10% [4] - 字节跳动旗下AI助手豆包月活跃用户达1.57亿,超越DeepSeek的1.43亿,成为中国最受欢迎AI应用,其成功源于字节跳动打造"爆款应用"的成熟经验 [6][7] - OpenAI的Sora应用上线首周在美加两地通过邀请制获得62.7万次iOS下载,已超越ChatGPT首发同期表现,并迅速登顶美国AppStore免费榜 [4] - 自今年5月谷歌视频编辑平台Flow上线以来,用户已在该应用上创作了超过2.75亿个视频 [5] AI模型训练与成本优化 - 腾讯提出名为Training-Free GRPO的无训练组相对策略优化方法,该方法无需调整模型参数,只需在提示词中学习简短经验即可显著提升模型性能 [7] - 独立研究机构报告指出,大型语言模型训练成本急剧上升,GPT-3训练成本约为5000万美元,GPT-4升至5亿美元,而GPT-5则耗资50亿美元,但性能提升并不显著 [14] - OpenAI年化经常性收入约为130亿美元,其中约70%来自ChatGPT用户的订阅费用,但付费用户比例仅为5%,公司今年上半年运营亏损高达约80亿美元 [8] AGI发展与行业标准 - 图灵奖得主Yoshua Bengio联合多机构提出AGI新定义,将其定义为能匹配或超越受过良好教育成年人的认知广度和熟练度的人工智能 [13] - 研究团队设计量化评估方法,评估显示2023年GPT-4得27分,2025年GPT-5提升至58分,但距离100分的AGI标准仍有较大差距,尤其在视觉、听觉和长时记忆存储领域存在显著短板 [13] 行业竞争与人才流动 - 苹果公司AI搜索业务负责人Ke Yang离职并加入Meta,这是苹果AI团队近期一系列高管离职中的最新一例,此前苹果AI模型负责人Ruoming Pang也已转投Meta [9][10] - 微软正将其Windows操作系统全面重构为围绕AI的新生态,为所有Win11 PC注入AI能力,公司愿景是"围绕AI重写整个操作系统",打造真正的AI PC [11]
9点1氪|多方辟谣“杨振宁逝世传闻”;黄仁勋称英伟达中国份额从95%降至0;多家银行公告:长期不动账户将被清理
36氪· 2025-10-18 09:03
半导体行业 - 英伟达CEO黄仁勋表示,由于美国出口管制,公司已100%退出中国市场,其中国市场份额从95%降至0% [2] 银行业 - 多家银行开始清理长期不动账户,兴业银行标准为账户余额低于10元且连续一年无交易 [2] - 部分农商行及村镇银行的清理标准为账户余额低于100元且连续6个月无交易 [3] 消费电子行业 - 苹果iPhone Air在中国大陆开启预购后5分钟内官网首批产品售罄,零售店已无现货,送货交付期推迟至一周后 [3][4] 汽车行业 - 国家市场监管总局建立新能源汽车火灾事故企业报告制度,截至9月全国实施汽车召回3230次,涉及车辆1.2亿辆 [3][5] - 比亚迪召回部分唐系列汽车44,535辆及部分元Pro纯电动汽车71,248辆,总计115,783辆 [4][5] 黄金零售业 - 老铺黄金宣布将于10月26日进行年内第三次价格调整 [4][6] - 受现货黄金价格创新高影响,国内金饰价格逼近1300元/克,老庙足金报价1290元/克,单日上涨42元/克 [7] 互联网与科技行业 - 阿里巴巴与蚂蚁集团联合投资9.25亿美元购置香港商业写字楼,设立香港总部以拓展国际业务 [6] - 微软宣布正在Windows 11中测试人工智能功能 [4][17] - OpenAI新一代视频生成模型Sora 2在微软Azure AI Foundry上线,公共预览版定价为0.1美元/秒 [18] 人工智能与云计算 - 斯坦福大学李飞飞团队发布实时生成式世界模型RTFM,该模型可在单个H100 GPU上运行 [17] - 甲骨文公司称其AI云基础设施项目毛利率可达35%,上季度新签云基础设施合同价值650亿美元 [18][19] 快速消费品与零售 - 山姆会员店因销售不合格FILA牌滑板车及兰精天丝儿童三件套被罚没约1.9万元 [7] - 蒙牛因"精选牧场"系列包装与伊利"金典"系列近似构成不正当竞争,被判赔偿伊利500万元并停止使用相关包装 [8] - 迪奥客服回应丰唇蜜产品含小米椒果提取物,称初次使用产生的火辣感属正常现象 [4][8][9] 资本市场与公司上市 - 南网数字集团获证监会批准在创业板首次公开发行股票 [11][12] - 映恩生物计划发行人民币股份并在上海证券交易所科创板上市 [13] - 海大集团计划分拆其控股子公司海大控股至香港联交所主板上市 [14] - 汉威科技筹划发行H股并在香港联交所主板上市 [15] - 拉卡拉支付向港交所提交上市申请书 [16] 酒类市场 - 电商平台"双十一"促销期间,53度飞天茅台补贴价跌破1700元/瓶,汾酒青花30价格跌破700元/瓶 [11] 公司动态与调查 - 海南华铁收到中国证监会立案告知书,因涉嫌信息披露违法违规被立案调查 [9] - 小红书官方客服否认商家能看到下单人的个人主页信息 [9][10] - 保时捷已就CEO奥利弗·布鲁姆的继任者达成一致,布鲁姆将于明年卸任 [10]
单块GPU上跑出实时3D宇宙,李飞飞世界模型新成果震撼问世
机器之心· 2025-10-17 10:11
文章核心观点 - World Labs公司发布名为RTFM的生成式世界模型,该模型可在单个H100 GPU上实时运行,实现3D一致性渲染 [2] - RTFM作为一种学习型渲染器,无需显式构建3D表示,仅通过输入2D图像即可生成新视角的2D图像,模糊了重建与生成的界限 [5][20] - 生成式世界模型被认为是未来渲染和空间智能的关键方向,其计算需求可能超过当今大语言模型,但将受益于计算成本的持续下降 [8][11][14] 技术原理与创新 - RTFM是端到端训练的自回归扩散Transformer,基于大规模视频数据训练,学会建模3D几何、反射、阴影等特征 [5][17] - 模型通过为每一帧建模其在三维空间中的姿态,配合上下文调度机制,实现世界的持久性,解决自回归帧生成模型的记忆挑战 [24][25] - 该技术将输入图像转换为神经网络的激活(KV缓存)以隐式表示世界,通过注意力机制生成与输入视角一致的新视图 [17] 性能与效率突破 - 模型在单个H100 GPU上即可运行,保持交互式帧率,并能提供持久的世界体验 [2][15] - 生成4K分辨率、60帧每秒的交互式视频流需要每秒输出超过10万个token,而保持一小时以上交互一致性需处理超过一亿个token的上下文 [11][12] - 团队设计目标是构建一个足够高效、今天就可部署的模型,并能够随着算力增长持续扩展 [15] 行业意义与发展前景 - 生成式世界模型契合计算成本指数级下降的趋势,将在未来充分受益 [13][14] - 该技术代表了计算机图形学方法的转变,从依赖人工设计的传统3D渲染转向数据驱动的学习型渲染器 [17] - RTFM与Marble空间智能模型结合,可从单幅图像创建3D世界,渲染通过端到端学习而来的复杂效果如光照和反射 [18]