Workflow
Veo 3
icon
搜索文档
中美AI巨头都在描述哪种AGI叙事?
腾讯研究院· 2026-01-14 16:33
文章核心观点 - 2025年人工智能领域的技术发展标志着“暴力美学”时代的终结,行业从单纯依赖堆砌参数转向深化基础研究,以突破通用人工智能的瓶颈 [5] - 技术进步主要集中在流体推理、长期记忆、空间智能和元学习四大领域,旨在解决模型在即时推理、长期记忆和视觉处理等方面的能力偏科问题 [6] - 通过测试时计算、新型记忆架构、世界模型和元学习等方向的突破,行业在“补短板”方面取得了显著成功,为模型能力的整体提升和未来演进奠定了基础 [7] 流体推理的进化 - **测试时计算的范式革新**:智能被重新定义为不仅是参数的函数,也是时间的函数,以OpenAI o1和DeepSeek R1为代表的模型通过在推理阶段投入更多计算资源进行“慢思考”,实现了推理能力从0到8的质变 [11][12][13] - **强化学习工程优化**:强化学习在提升推理能力中扮演关键角色,其工程可拆分为探索策略、评分系统和参数更新算法三部分,2025年后两部分有明显发展 [15] - **评分系统革新**:基于可验证奖励的强化学习和稀疏奖励指标全面崛起,通过给予模型对错结论作为奖励信号,使其能自发探索推理过程,大幅提升了在数学、代码等领域的能力 [16][17] - **参数更新算法革新**:GPRO算法流行,它通过让模型生成一组答案并计算平均分来替代传统的评论家模型,节省了50%的显存,成为国内各家公司在2025年延展的基础框架 [19] - **强化学习存在天花板**:研究发现强化学习的性能增长符合S型曲线而非幂律,存在性能天花板,但其工程实践(如使用长思维链和大批量大小)已变得更加精确和可预测 [21][23] 记忆与学习 - **记忆能力是短板**:长期记忆存储是通往通用人工智能得分中仍为0的能力分支,缺乏记忆导致模型无法在现实中自我学习,且个性化体验难以实现 [25][26] - **Titans架构突破**:这是一个深度的神经长期记忆模块,能在推理时实时更新自身参数,根据输入信息的“惊奇度”决定存储内容,并引入遗忘机制,从根本上挑战了Transformer的无状态假设 [28][29][30][31] - **Nested Learning架构**:将模型参数按低、中、高频率分层更新,使整个模型参数非冻结,能够持续学习和保有长期记忆,其成本低于传统的监督微调和强化学习方法 [31][33] - **RAG的模型化演进**:检索增强生成系统从静态资料库演变为具备反思与进化能力的系统,例如ReMem引入了“行动-思考-记忆-优化”的全链路处理,能对记忆进行修剪、重组和清理,实现经验复用 [35][36][38] - **克服灾难性遗忘**:通过稀疏记忆微调等方法,模型在注入新知识时仅更新部分参数槽位,在TriviaQA任务中仅导致11%的旧知识遗忘,远优于全量微调的89% [39][40] - **策略蒸馏进步**:在策略蒸馏结合了强化学习的采样和监督微调的密集反馈,让学生模型在自己的“犯错分布”中学习,提供了一种低成本且避免遗忘的参数更新方式 [42] 空间智能与世界模型 - **视觉处理能力提升**:在Sora 2、Veo 3等视频生成模型爆发的推动下,视觉处理能力从2024年的0分提升至2025年的5分,模型开始展现出对物理规律的掌握 [45] - **自监督生成模型的缩放定律**:视觉自回归模型和扩散Transformer被证实遵循特定的缩放定律,例如DiT模型对批量大小和学习率高度敏感,但遵循特定定律后能力可大幅提升 [46][47] - **原生多模态的优势**:研究发现,尽管训练效率较低,但原生多模态架构在参数利用率上可能比晚期融合架构有更高的性能上限 [49] - **VAE的替代方案**:SVG模型通过直接用图像理解模型代替变分自编码器,统一了语义空间,据称训练效率提升6200%,并在多项指标上击败了扩散Transformer和SDXL [50] - **符号主义的世界构建**:以李飞飞团队Marble平台为代表,其基于3D高斯泼溅等技术,从多模态输入生成可探索的3D空间表示,追求更稳定和可控的生成效果 [53][55][56] - **预测即理解的路径**:Meta的V-JEPA 2通过预测被遮挡的视觉内容来学习物理规则的表征,在使用超100万小时视频训练后,模型展现出了反事实预测的能力 [57][58][59] 元学习 - **元学习的核心价值**:赋予模型“学习如何学习”的能力,使其能通过少量样本快速适应新问题,是实现低成本快速适应和应对未知世界的关键 [62][63] - **对上下文学习的重新审视**:有研究认为上下文学习可能只是激活了预训练知识而非真正学习,这与元学习理念不同,但2025年出现了利用改进的上下文框架进行元学习的新尝试 [64][65] - **测试时计算催生隐式元学习**:研究证明模型在推理时的长思维链探索本质上是寻找最优路径,通过优化探索策略(如最小化累积遗憾)可以引导模型学会如何分配算力进行有效思考 [66][69] - **显式元学习系统的探索**:例如DiscoRL系统,通过内外双层循环让AI自主发现学习算法,其发现的Disco57算法在雅达利基准上击败了人类设计的顶级算法,并展现出强大的泛化能力 [70][72] - **中训练路径**:介于预训练和强化学习之间,让智能体通过自主探索产生后果并反思,以建立因果模型,在复杂环境中的成功率平均提升9.6% [72][73] 其他关键技术进展 - **对抗数据与算力瓶颈**:行业通过混合专家模型、合成数据与强化学习结合来突破瓶颈,例如利用DeepSeek-R1生成的长思维链数据对小模型微调,效果优于人类专家编写的数据 [81][82] - **数据质量重于数量**:研究表明数据达到一定规模后存在冗余,筛选前10%最长、最复杂的推理路径样本进行训练,其效果可匹配甚至超越全量数据集 [83] - **合成数据与模型崩溃**:大规模使用合成数据可能导致模型崩溃,但通过自我验证机制过滤(如设定置信度阈值)或使用另一个模型作为裁判进行清洗,可以有效缓解此问题 [85][86] - **小模型能力的飞跃**:蒸馏技术的进步是关键,包括针对混合专家模型的特化蒸馏方案(学习所有专家的“暗知识”)以及思维融合蒸馏(提取多个教师模型的稳健推理逻辑) [88][90][92] - **注意力机制演进**:多头潜在注意力及其变体普及,用于降低显存占用;线性注意力通过混合架构(如Kimi Linear的3:1设计)在性能上首次全面超越全注意力,并在1M上下文解码时吞吐量达到全注意力的6.3倍 [94][96] - **连续空间建模**:大型概念模型和连续自回归语言模型等尝试打破离散词元的限制,通过预测连续概念向量来提升语义带宽和推理速度 [97][100] 2026年可能的技术方向 - **记忆工程化实践**:记忆技术预计将在2026年迎来大规模工程化落地,涉及架构层革新或现有RAG、监督微调技术的精修,以实现持续学习和个性化智能体 [103][104] - **标准架构变革**:模型架构可能向分区、分层、增加功能层(如记忆层)的混合架构演进,以更贴近人脑运作模式,补齐能力短板 [105][106] - **自进化AI的探索**:在记忆、合成数据和元学习等技术完善的基础上,能够让AI进行自我对弈、自我算法优化的自进化研究将在2026年产生更多可能性 [107][112]
2026年度最佳 AI 工具指南
36氪· 2026-01-08 07:23
AI工具行业概览与分类 - 行业将AI工具按性能与适用性划分为S级(全民必备)、A级(大多数人应使用)和B级(特定领域最佳)[4] - 过去三年,行业经历了数十款AI工具的测试与迭代,部分表现惊艳,部分已退出市场[1] S级:通用型AI工具 - ChatGPT、Gemini和Claude被列为最顶尖的S级AI工具,能胜任日常问答、网页搜索和辅助写作等任务[2] - ChatGPT在深度研究与语音模式方面表现突出[5] - Claude在写作与编程方面能力最强[5] - Gemini是图像与视频生成领域的佼佼者,并适合辅助学习[5] A级:研究与生产力增强工具 - NotebookLM是一款基于Gemini技术的AI研究工具,能基于用户上传的PDF、Google文档等生成摘要、提供带引用的解答,甚至转化为播客[3] - 该工具严格限定回答在文档范围内,几乎不产生“幻觉”,每条回复均标明原始出处[3] - Perplexity和其推出的AI驱动浏览器Comet被推荐用于AI搜索与浏览,可自动化任务、进行网络调研和整理邮件[7] - Comet浏览器具备侧边栏助手和智能体模式,能感知浏览内容并代为操控浏览器完成多步骤任务[8] B级:特定领域专业工具 - 在深度研究功能上,ChatGPT、Perplexity和Gemini均能提供自动网页搜索并在5到30分钟内生成带完整引用的报告,其中ChatGPT的该功能被认为最为出色[9] - 对于严谨的学术研究,Consensus可能是比通用工具更好的选择[9] - Claude在写作领域表现卓越,能通过用户上传的范例精准模仿其沟通方式,并对指令遵循能力极强[9][10] - Gamma是一款能根据简单提示直接生成完整演示文稿的工具,可在几分钟内根据页数、风格和语言要求生成文稿[11][12] - Nano Banana(尤其是Pro版本)被认为是目前最佳的AI图像生成工具,在理解提示词、角色一致性和美学设计方面表现出色[13][16] - ElevenLabs是用于生成逼真语音、音效和音乐的AI工具,核心功能包括文本转语音、声音克隆(即时克隆仅需10秒音频,专业克隆需至少30分钟音频)和自动配音[14] - Heygen是一款文本转视频AI,擅长生成视频数字人,并能将视频翻译成175多种语言和方言,同时保留原说话者音色与口型同步[15][17] - n8n是一款低代码工作流自动化工具,采用可视化节点编辑器连接不同应用和服务以实现任务自动化,因其开源和私有化部署特性受技术人员青睐[18][20] - Napkin AI是一款能将文字转化为思维导图、流程图等视觉图表的工具,可在几秒钟内根据文本生成相关图表[21] - Suno是一款能根据文本提示生成包含人声和乐器伴奏歌曲的AI音乐工具[22] - 在视频生成领域,Sora 2和Veo 3是极佳选择,生成的视频符合物理规律、真实感强且瑕疵少,Sora 2还具备“客串”功能允许用户将自己放入视频[23][24] - Cursor是一款备受欢迎的AI代码编辑器,支持通过聊天界面快速生成代码,推动了“氛围编程”这种无需深厚编程背景即可构建应用的新开发模式[25]
美股科技行业周报:CES2026将召开,建议关注端侧AI、PhysicalAI等方向-20260104
国联民生证券· 2026-01-04 20:02
报告行业投资评级 * 报告未明确给出对美股科技行业的整体投资评级 [1][6][24] 报告核心观点 * 报告核心观点围绕CES 2026展会前瞻与近期重要AI技术进展展开,认为应重点关注AI在消费端的落地场景,并看好由此带来的算力基础设施需求 [6][24] * 对于CES 2026,建议关注端侧AI、Physical AI等方向,具体包括AI PC、具身智能、自动驾驶与智能座舱、XR等领域的进展 [1][6][24] * 在技术层面,Google DeepMind的Veo 3视频模型正演变为通用的视觉基础模型和物理世界模拟器,具备零样本解决复杂视觉任务的能力,将提升具身智能与高阶自动驾驶的认知能力 [5][6][14][15][24] * DeepSeek提出的mHC架构旨在解决大模型扩大规模时增强表达能力与训练稳定性之间的矛盾,为训练更大规模模型铺平道路,意味着Scaling Law或将持续,模型参数继续增长将为算力基础设施提供更高确定性 [5][6][18][19][24] * 基于以上,投资建议重点布局算力硬件上游,以及能率先将多模态推理能力落地于实体场景的平台型公司,报告列举了建议关注的标的包括英伟达、特斯拉、LITE、AVGO、GOOG等 [6][24] CES 2026前瞻总结 * **芯片**:重点关注头部公司新芯片产品推出 [2][11] * AMD:或在主题演讲上推出锐龙系列芯片新版本,包括锐龙7 9850X3D及基于Zen 5架构的锐龙9000G系列 [2][11] * 英特尔:将推出基于2纳米18A工艺打造的酷睿Ultra 3系列Panther Lake芯片,面向高端笔记本市场,其处理性能较前代提升**50%**,内置Arc显卡性能也较上一代提高**50%** [2][11] * 高通:聚焦笔记本电脑领域,预计展示搭载Snapdragon X2 Elite芯片的终端设备,推出拥有**18个**CPU核心的旗舰型号X2 Elite Extreme [2][11] * **自动驾驶**:重点关注L3自动驾驶和车内AI座舱 [3][12] * Sony Honda Mobility:将公布AFEELA 1的最新进展并展示全新概念车型,AFEELA 1计划**2026年**向加利福尼亚州客户交付 [3][12] * BMW:将展示全新纯电iX3车型,搭载全景式iDrive系统及整合了Alexa+技术的全新AI智能个人助理 [3][12] * Mercedes-Benz:展示全新纯电CLA,展示搭载英伟达AI全栈自动驾驶软件与加速计算平台的新一代MB.DRIVE技术 [3][12] * **具身智能**:重点关注国内外头部厂商新产品/技术进展 [4][13] * 英伟达:展示重心或将转向Physical AI,包括机器人技术与大规模仿真的交叉融合,市场预计其Isaac机器人平台和Omniverse仿真引擎将迎来重大更新 [4][13] * 其他厂商:智元或将展示全系列产品线及发布灵巧手新版本;宇树或将带来人形机器人最新交互演示;加速进化或展示Booster T1、Booster K1等核心产品;波士顿动力的人形机器人Atlas或将进行首次公开演示;LG电子将首发家用机器人LG CLOiD;银河通用、云深处、傅利叶、众擎、松延动力等或将参展 [4][13] * **XR**:重点关注基于Android XR平台的Project Moohan [4][13] * Project Moohan是三星将推出的扩展现实头显设备,专为安卓扩展现实平台打造,该平台由三星、谷歌与高通联合研发,整合Gemini后能处理设备控制指令并解读周围环境,为用户提供情境化辅助 [4][13] 科技行业动态总结 * **Google DeepMind发布视频模型论文** [5][14] * 论文核心论证生成式视频模型(特别是Veo 3)正在演变为通用的视觉基础模型 [5][14] * 经过大规模网络数据训练的视频生成模型已涌现出零样本通用能力,可在无特定任务训练的情况下,仅通过提示词和图像输入解决复杂视觉任务 [5][14] * 视频模型通过生成一系列连续视频帧(Chain-of-Frames,帧链)来进行视觉推理,类比于大语言模型的思维链 [5][14] * Veo 3在**62种**不同任务上展现出四大核心能力:感知、建模、操作和推理 [15] * **DeepSeek发布大模型架构论文** [5][18] * 论文核心目标是解决大模型在扩大规模时“增强表达能力”与“训练稳定性”之间的矛盾 [5][18] * 提出mHC架构升级,旨在让大模型既能拥有“多车道”宽阔信息通路(高表达力),又能像传统ResNet一样稳定训练 [5][18] * 在**270亿**参数规模的MoE模型上验证,mHC在BBH、DROP等推理和语言基准测试中的表现全面超越传统Baseline和普通HC模型,且训练损失和梯度更稳定 [19][21]
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」
量子位· 2025-12-29 17:01
文章核心观点 - 谷歌DeepMind的研究论文《Video models are zero-shot learners and reasoners》及其提出的视频模型Veo 3,标志着计算机视觉领域的“GPT时刻”即将到来 [1][2][3] - 该研究通过借鉴大语言模型(LLM)的成功路径,使视频模型具备了跨任务的通用能力和零样本学习优势,有望解决视觉AI长期存在的任务碎片化问题 [12][15][16] - 论文提出的“思维链”变体Chain-of-Frames(CoF),让视频模型在逐帧生成视频的过程中进行可视化的推理,为统一处理多种视觉任务提供了基础 [17][18][23] 计算机视觉领域的现状与困境 - 在自然语言处理领域,大语言模型(LLM)通过大规模数据训练和生成式架构,实现了“一个模型通吃所有”的零样本学习,彻底改变了该领域 [7] - 相比之下,计算机视觉领域长期处于任务碎片化的困境,不同任务需要不同的专用模型,例如目标检测用YOLO,语义分割依赖SAM,图像超分和3D重建又需其他工具 [8][9] - 这种针对不同任务采用不同模型架构的模式,导致开发成本高,严重限制了视觉AI的泛化能力,其进步长期是单点突破,未能解决“多任务统一”的根本问题 [10][11] 视频模型Veo 3的技术突破 - 谷歌DeepMind的Veo 3模型通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,使模型具备了跨任务的通用能力 [12][13] - Veo 3完美复刻了LLM的零样本学习优势,面对未经专门训练的任务,仅需用文字描述需求,模型就能直接输出结果,无需额外调参或数据微调 [15] - 该模型利用其感知、建模、操控、推理四大核心能力,能够处理62种未经学习过的视觉任务 [26] Chain-of-Frames(CoF)与可视化推理 - 论文指出视频模型的一个关键变化是:视频不再仅是输出形式,也开始体现推理过程,这一现象被称为Chain-of-Frames(CoF) [17][18] - CoF类似于语言模型中的思维链(CoT),但视频模型是通过连续生成的视频帧,将整个推理过程“演”出来,用可见的画面变化替代抽象的符号推理 [18][19] - 在解决如解迷宫、路径规划、规则外推等任务时,模型并非一次性输出结果,而是在连续的视觉变化中逐步逼近正确答案,推理过程被隐含地编码在视频序列中 [21][22] 统一生成框架带来的范式变革 - “逐帧生成即推理”的方式为视觉任务的通用性提供了基础,模型不再为具体任务计算结果,而是在统一的生成过程中不断更新对场景状态的理解 [23] - 在此框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,被统一到“生成下一帧视频”这一套生成机制中,模型始终只做这一件事 [24] - 在逐帧生成过程中,模型自然完成了感知、推理与决策的协同,因此不再需要为每类任务单独设计模型或系统 [24][25] - 论文观察到,无需针对具体任务进行专门训练或引入额外监督,视频模型已能通过不同形式的提示,在多种视觉任务中展现出零样本泛化能力 [25]
电子行业2026年投资策略:AI创新与存储周期
广发证券· 2025-12-10 17:08
核心观点 - 报告核心观点认为,AI创新与存储周期是电子行业2026年投资策略的两大主线 AI模型创新与资本开支是产业发展的核心动力,驱动AI产业链协同发展 同时,AI推理需求驱动存储价格上涨和架构升级,存储周期持续向上 [1][4] AI创新:模型创新与CAPEX筑基,AI产业链协同发展 需求:模型创新与CAPEX筑基 - AI产业链包括AI硬件、AI CAPEX和AI模型与应用三大环节,其中AI CAPEX是驱动上游硬件发展的核心动力源 [12] - 模型创新是AI发展的核心动力,大模型在Chatbot、Coding、多模态等场景快速渗透,持续拓展应用领域 [14] - AI CAPEX构筑AI周期的基石,云厂商、头部企业及主权国家的资本开支具有刚性与延续性,为上游硬件环节提供订单与现金流支撑 [14] - 海外云厂商及Oracle的CAPEX/OCF在2025年第三季度环比有所下降,但仍处于可控范围,未来AI周期持续向上 [36] 模型创新进展 - **谷歌**:持续突破多模态模型边界,产品矩阵覆盖内容理解、生成到虚拟世界交互全链条,多模态生成在清晰度、动作可控性与叙事连贯性上已具备商业化价值临界点 [19] - **OpenAI**:通过记忆功能、GPT-5.1及群聊功能升级个性化体验,内部预测2025年收入将达130亿美元,同比增约350%,2030年收入预期上调至2000亿美元 [25][28] - **Anthropic**:在企业级LLM API市场份额达32%,内部预测2025年营收38亿美元,2028年目标700亿美元,毛利率有望从-94%跃升至77% [29] 算力:GPU与ASIC共舞 - AI算力竞争已转向“专用硬件+计算平台”的生态构建,展现从通用计算到专用AI计算的产业演进路径 [42] - **谷歌**:发布TPU v7 Ironwood,单芯片峰值算力达4614 TFLOPs,性能较前代提升4倍以上,支持单SuperPod扩展到9216个芯片,构建了从芯片集群到云服务的完整生态闭环 [45][48] - **英伟达**:确立年度产品更新节奏,发布Vera Rubin NVL144和Rubin Ultra NVL576平台,后者性能可达Blackwell Ultra GB300 NVL72平台的14倍,通过“硬件+软件+网络”垂直生态巩固市场地位 [52][56] - **AWS**:宣布研发下一代定制芯片Trainium4,将集成英伟达NVLink Fusion互连技术和UALink,旨在提升计算、内存和互连性能 [58] - **国产算力**:从“单点突围”转向“系统升维”,华为、阿里等厂商推出超节点解决方案,华为昇腾芯片规划以一年一代、算力翻倍的速度演进 [61][63][64] PCB:价值量提升与扩产 - **单GPU PCB价值量持续提升**:英伟达Rubin系列新增midplane、CPX板及正交背板等设计,驱动PCB规格升级 测算显示,Vera Rubin NVL144若包含正交背板,单GPU PCB价值量预计达1313美元,较A100/H100时代提升显著 [70][74] - **单ASIC PCB价值量持续提升**:谷歌TPU v7和AWS Trainium3的架构升级对PCB提出更高要求 测算显示,2025年AWS T系列单ASIC对应PCB价值量预计超700美元,Google TPU约363美元 [78][86] - **AI PCB市场规模高速增长**:预计AI服务器PCB市场规模将从2025年的49亿美元增长至2026年的102亿美元,同比增长108% 其中ASIC AI服务器PCB市场规模预计从32亿美元增至63亿美元,同比增长94% [89] - **国内PCB厂商积极扩产**:沪电股份、生益电子、景旺电子等国内头部厂商通过海外建厂、国内技改等方式积极扩充AI PCB产能 [90][93] 存储:AI推理驱动增长 - AI推理采用分级存储架构,HBM、DRAM、SSD、HDD协同支撑高效计算 [101] - AI推理,特别是超长上下文和多模态需求,驱动AI存储快速增长 测算显示,2026年10个谷歌级推理应用所需存储容量将达48EB [106] - 英伟达GPU配置持续升级,单GPU对应的HBM容量从H100的80GB提升至VR300 Ultra的1024GB,同时CPX系列新增GDDR7内存 [108] 电源:800V HVDC升级 - 为满足MW级机柜功耗需求,英伟达提出800V HVDC供电架构,可减少电能转换环节、降低损耗并简化热管理 [111] - SiC和GaN功率半导体是实现800V HVDC架构的关键,能实现更高功率密度与能效 [112] - 采用超高压SiC MOSFET的固态变压器可将高压交流电直接转换为800V直流,进一步提升能效 [119] - 预计至2030年,全球SiC&GaN功率器件市场规模将达25.64亿美元 [121] 存储周期:AI驱动价格上涨,扩产与升级同发力 价格与盈利 - AI驱动云侧和端侧存储搭载量显著增长,存储价格持续上涨,存储原厂毛利率显著提升 [4] 扩产:优先投向HBM - 海外存储原厂资本开支进入上行区间,产能优先投向HBM,传统DRAM和NAND投产较为谨慎 [4] 架构升级与设备需求 - **DRAM升级**:4F2+CBA工艺延续主流DRAM升级趋势;3D堆叠DRAM显著提升带宽,指向AI推理市场 [4] - **NAND升级**:3D NAND堆叠层数持续升级 [4] - 存储架构升级为设备需求带来新机遇 [4] 产业模式与接口芯片 - 存储代工模式迎来产业变革机会 [4] - 接口芯片如MRDIMM和VPD为产业打开新空间 [4] 投资建议 - 建议关注AI产业链相关标的,包括模型创新与CAPEX驱动下的算力、存储、PCB、电源等环节 [4] - 建议关注存储产业链相关标的,聚焦AI驱动下的价格上涨、架构升级及产业模式变革机会 [4]
AI初创公司Runway推出影片生成模型Gen 4.5;字节Seed发布GR-RL,首次实现真机强化学习穿鞋带丨AIGC日报
创业邦· 2025-12-03 08:08
可灵AI产品发布 - 公司正式发布全新产品可灵O1,该产品基于全新的视频和图像模型,整合文字、视频、图片、主体等多模态输入 [2] - 可灵O1将所有生成和编辑任务融合于一个全能引擎,解决了AI视频生成中角色、场景等一致性难题 [2] - 产品为影视、自媒体、广告电商等应用场景提供深度适配的一站式解决方案 [2] OpenAI商业模式探索 - ChatGPT应用的最新安卓测试版中存在被标记为"特色广告"的代码,包含引用商业广告的字符串,例如"搜索广告"和"集市内容" [2] - 公司正考虑根据ChatGPT对用户交互的记忆投放个性化广告 [2] - 公司正从Google和Meta等竞争对手处挖走顶尖广告人才,并在LinkedIn发布与广告相关的招聘信息 [2] 字节跳动机器人技术突破 - 公司Seed团队发布研究成果GR-RL,着力于拓展VLA模型在长时程精细灵巧操作方面的能力边界 [2] - GR-RL提出从离线数据筛选到在线真机微调的强化学习框架,首次实现让机器人给整只鞋连续穿鞋带 [2] - 相较前作监督学习模型GR-3,GR-RL在穿鞋带任务上将成功率从45.7%提升至83.3%,失败情况减少近70% [2] Runway模型性能领先 - AI初创公司Runway推出最新影片生成模型Gen 4.5,能依照文字指令生成高画质影片 [3] - 新模型在第三方评测平台Video Arena排名第一,超越谷歌Veo 3(排名第二)和OpenAI的Sora 2 Pro(排名第七) [3] - Gen 4.5擅长理解物理效果、人类动作、镜头运动与因果关系,能更精准模拟真实世界情境,并于本周向所有用户全面开放 [3]
Runway rolls out new AI video model that beats Google, OpenAI in key benchmark
CNBC· 2025-12-01 22:05
新产品发布 - 人工智能初创公司Runway发布新一代视频生成模型Gen 4 5 [1] - 新模型允许用户根据描述动作和行为的文字提示生成高清视频 [1] - 该模型在理解物理原理、人体运动、摄像机移动及因果关系方面表现出色 [1] 行业竞争地位 - Gen 4 5在独立基准测试平台Video Arena排行榜上位列第一 [2] - 该排行榜由独立AI基准测试与分析公司Artificial Analysis维护 [2] - 排名通过匿名比较不同模型输出并由用户投票决定 [2] - Google的Veo 3模型排名第二 OpenAISora 2 Pro模型排名第七 [2] 公司运营亮点 - Runway以约100人的团队在竞争中超越了市值万亿美元的公司 [3] - 公司认为通过极度专注和勤勉即可达到技术前沿 [3]
刚刚,神秘模型登顶视频生成榜,又是个中国模型?
机器之心· 2025-11-28 16:05
神秘模型Whisper Thunder登顶AI视频榜 - 一个名为Whisper Thunder (aka) David的神秘模型登上了Artificial Analysis视频榜榜首,超越了包括Veo 3、Veo 3.1、Kling 2.5以及Sora 2 Pro在内的所有公开AI视频模型 [1] Artificial Analysis榜单排名详情 - 在Artificial Analysis全球公开权重模型排行榜上,Whisper Thunder (aka) David以1,247的ELO评分位列第一 [2] - 排名第二的是谷歌的Veo 3 (无音频版),ELO评分为1,226 [2] - 快手KlingAl的Kling 2.5 Turbo 1080p以1,225的ELO评分位列第三 [2] - 谷歌的Veo 3.1 Preview (无音频版)和Veo 3.1 Fast Preview (无音频版)分别以1,223和1,219的ELO评分位列第四和第五 [2] - Luma Labs的Ray 3排名第六,ELO评分为1,210 [2] - OpenAI的Sora 2 Pro (无音频版)以1,205的ELO评分位列第七 [2] - MiniMax的海螺02 Standard O和海螺2.3 O分别以1,198和1,188的ELO评分位列第八和第九 [2] - Lightricks的LTX-2 Pro (无音频版)以1,187的ELO评分位列第十 [2] Whisper Thunder模型特性与市场反应 - 该模型生成的视频时长固定为8秒,且运动幅度肉眼可见更强 [3] - 目前其在平台上的出现频率有所降低,用户可能需要反复刷新尝试才能遇到 [3] - 由于测试平台无音频测试机制,该模型是否具备原生音频能力仍是未知 [3] - 不少网友从其生成效果和审美倾向推测,这个神秘模型很可能来自中国 [4] - 尽管在高动作场景下会出现一些抖动,但其生成效果仍然非常令人印象深刻 [11] - 作为榜单头名,该模型在Artificial Analysis Arena的用户投票机制下,仍然存在不少的生成瑕疵 [13] - 行业关注度极高,在下一次刷新之前,所有人都在等待它闪亮登场 [14] Whisper Thunder模型生成示例 - 能够生成复杂的延时摄影场景,如起重机吊装钢梁、城市天际线快速变化的建筑工地 [5] - 可处理特殊镜头效果,如产生变形镜头光斑的沙漠高速公路经典汽车飞驰场景 [6] - 擅长动漫风格内容生成,如将钢琴键转化为彩色音符环绕角色的情感化音乐表演场景 [7] - 能够生成具有电影感的城市景观,如从圣保罗屋顶拍摄的洗衣绳、天线与城市网格 [8] - 可创建环保主题场景,如太阳能电池板追踪日光、风力发电机转动的宁静山谷 [9] - 能够生成超现实主义内容,如月光泻湖中鳞片闪烁的美人鱼 [10] - 可精确生成动物行为细节,如针鼹用长舌捕捉蚂蚁时刺的颤动 [12]
深度讨论 Gemini 3 :Google 王者回归,LLM 新一轮排位赛猜想|Best Ideas
海外独角兽· 2025-11-26 18:41
文章核心观点 - Google发布的Gemini 3标志着公司在pre-training算力投入上首次追平OpenAI,并在数据体系、多模态能力、系统架构和产品体验上实现协同突破,意味着大模型竞争格局加速演变为Google、Anthropic与OpenAI三家交替领先的动态结构[4][5][14] Gemini 3的核心优势 - 模型训练FLOPs达到6 × 10^25级别,首次在pre-training算力上追平OpenAI,证明scaling law依然有效[5] - 充分利用自身TPU集群效能,实现算力规模指数级跨越,解决算力利用率瓶颈[6] - 训练数据量相比Gemini 2.5可能增加一倍,凭借二十多年积累的用户搜索历史、视频观看记录等构成不可迁移的数据护城河[7] - 采用稀疏化混合专家架构,稀疏度可能超过50%,以更少计算资源调用更广阔知识储备,依托自研TPU和OCS互联技术实现软硬高度耦合的系统级优势[8][10][11] - 展现独特的产品经理式编程思维,先深度分析问题并输出任务需求书,再设计测试方案,最后执行代码编写,有效避免错误代码回滚成本[12] - 内部组织与研发模式成功转型,克服DeepMind与Google Brain整合的阻力,探索出适合大公司的模型研发机制[13] 大模型竞争新格局 - 行业形成Google强于pre-training和Infra、OpenAI优势在post training的共识,但随着Gemini 3在pre-training阶段追平甚至反超,OpenAI的护城河不再稳固[18] - OpenAI在agentic任务和工具调用上仍是绝对王者,GPT-5.1在复杂指令执行与工具使用能力基准测试中分数高于Gemini 3,并拥有2000万付费用户构成的优质反馈数据源[18][20] - Anthropic采取聚焦差异化策略,Claude系列在Coding和Agent稳定性上表现良好,更适合处理编程自动化及企业内部工作流[24] - 红杉中国XBench测评显示Gemini 3 Pro在500道博士级题目上准确率比GPT-5.1高约10%,处理速度是后者的3倍,成本仅为十分之一[22] 多模态能力突破 - Gemini 3在多模态理解上断档领先,能精准识别非正常图片手指数量、复杂图片特定按键,视觉编码器与语言模型实现高精度对齐[25] - 在还原撕碎购物小票案例中,Gemini 3完美还原所有菜名、单价及总金额,展现惊人逻辑闭环能力,而GPT-5.1存在明显误差和遗漏[27][31] - Google Veo 3.1追求极致物理一致性,能在1分钟以上生成过程中保持人物特征、场景布局高度一致,画面质感接近实拍素材,可能服务于电影工业专业工具[40][41] - OpenAI Sora 2聚焦创意优先,引入语音与视觉同时生成能力,降低内容创作门槛,更符合社交平台审美需求[43] TPU系统成本与架构优势 - 使用自研TPU进行训练和推理的成本约为Nvidia GPU方案的一半,通过掌控光模块、交换机等系统生态绕过组件层层加价[46][49] - TPU为Transformer架构量身定制,软硬高度协同形成长期能效优势,同时通过模型粘性反哺GCP市场份额[50] - 架构设计上押注scale-out横向扩展,依靠OCS技术构建超大规模Superpod,优于Nvidia的scale-up纵向扩展思路,光通信架构具长期演进优势[51][52][54] - Anthropic宣布使用Google TPU多达100万个芯片,标志着算力供应多平台策略,有助于Google生态扩张并获得顶级模型团队反馈[56] Gemini商业化路径 - 公司将Gemini提升至最高战略优先级,通过推广Antigravity IDE、Chrome浏览器插件功能及学生优惠等措施构建生态[62][64][65] - 移动端策略侧重将智能蒸馏至10B-20B参数量级小模型,支撑AI Overview达到10亿级DAU,通过升级Google Assistant快速触达海量用户[66] - 商业化变现持审慎态度,首要考核指标为用户满意度而非短期变现率,已构建大规模模型评测模型飞轮进行自动化评估[67] - 在广告归因、PMax及广告主生态上拥有深厚护城河,Meta和腾讯引入大模型技术后广告收入增长约20%,而字节跳动增长维持在个位数[69][70] AI Native产品形态演进 - Gemini 3引入Generative UI功能,根据用户意图实时生成可交互定制化界面,重塑Web交互形态,应用场景包括物理仿真、金融决策等[71][72][74] - 功能演进可能经历单次查询展示、静态内容结构化生成、具备深度交互能力的即时软件三个阶段,本质是让AI拥有生成HTML/JS并即时渲染的能力[74] - OpenAI在DevDay展示类似能力,选择由合作伙伴构建UI嵌入ChatGPT对话,两种模式未来演化值得关注[75]
一档AI生成的综艺爆红
投资界· 2025-11-21 17:18
AI长视频内容的市场接受度与潜力 - 一部完全由AI制作的近7分钟综艺视频《把远古沧龙做成六道菜》在B站获得超过700万点击量,部分观众最初未察觉为AI制作[2][4] - 该作品成功转化了部分原本对AI内容持排斥态度的观众,此前约50%网友对AI内容存在排斥心理[3] - 视频弹幕中超过90%的评论对AI制作精良度表示惊叹,显示高质量AI内容能有效提升用户粘性[5] AI视频创作的技术流程与核心挑战 - 创作者采用人机协作模式,主要负责核心创意构思(如六位厨师人设、核心剧情),具体执行交由AI工具完成[7][8] - 制作过程中累计撰写约20万个提示词,复杂镜头提示词长度达一页Word文档,简单镜头则为三分之一页[6][8][9] - 为实现7分钟成片,实际生成视频片段超过1000个,远超理论所需的42个片段(按10秒/片段计算)[10] - 最大技术难点在于保持人物形象和菜品外观的一致性,解决方案包括通过括号强调关键元素以提升AI识别优先级[12] AI视频生成工具生态与使用策略 - 创作过程混合使用十余种AI工具,包括谷歌Veo 3(承担80%视频画面生成)、阿里Wan 2.2(动作生成优势)、快手可灵(擅长东方人物及中餐场景)[10] - 工具选择需注重风格统一性,例如Veo 3和Sora 2不建议混用以避免影片风格割裂[11] - 硬件投入约2万多元(含英伟达显卡、CPU、主板),制作成本约4000元(主要为付费模型会员及token费用)[12] 平台生态与内容创作趋势 - B站出现AI内容爆发趋势,除AI综艺外还有AI生成的NPC歌唱大赛等新形式,播放量从数万级跃升至数百万级[17][18] - 快手计划通过可灵模型重点赋能平台内创作者,百度则推出"魔法漫画"功能推动AI连载漫画发展[18] - 行业呈现从片段式AI应用(如早期"甄嬛吃汉堡")向完整长视频内容升级的明显趋势,AI长内容未来可能形成独立专区[16][19] 创作者能力要求与行业方向 - 成功创作需具备多项复合能力:多语言提示词撰写、工具特性掌握、创意策划等,AI驱动技能成为创作者新标配[17] - 核心在于平衡科技与内容规律,坚持创作者主体性而非被动跟随AI输出,优质内容创意仍是吸引观众的首要因素[16][19] - 未来竞争将聚焦于AI掌控力与人类创意力的深度融合,形成集团化作战模式[19]