Workflow
HappyOyster
icon
搜索文档
谷歌向左、李飞飞往右,阿里世界模型「快乐生蚝」杀出第三条路
机器之心· 2026-04-18 14:00
阿里发布新产品HappyOyster - 阿里旗下Alibaba Token Hub创新事业群继推出“欢乐马”后,近期发布了名为HappyOyster(快乐生蚝)的新产品[1][2] - 该产品是一款可实时构建和交互的开放式世界模型产品,基于原生多模态架构,支持多模态输入与音视频联合生成的流式生成[3][4] 产品核心功能 - **漫游功能**:是首个支持任意风格、无限互动的通用世界模型,用户输入文本或图像即可生成无边探索的世界场景,支持1分钟以上的实时位移和镜头控制[7] - **导演功能**:是基于世界模型的实时AI视频导演引擎,可连续生成长达3分钟的720p实时视频,用户可通过文字指令实时操控镜头、调度角色、改变剧情[8] 产品实测体验 - 漫游功能生成场景迅速,能在十几秒内构建出细节符合物理规律的完整场景,用户可使用WASD或方向键控制角色或镜头移动,画面实时响应且流畅无卡顿[17][18][19] - 系统能自动为场景配上契合氛围的BGM,实现音画同步[20] - 产品能基于上传的静态图片生成具有连贯空间结构和运动逻辑的完整场景,在视角推进时保持景物层次变化的连贯性与风格一致性[21][22][23] - 导演功能允许在视频任意节点实时改变内容,例如在生成的场景中通过追加文字指令,让新角色出现或改变人物动作,模型能即时响应且画面变化自然流畅[25][26][28] 技术路径与行业对比 - 世界模型与Sora、可灵等文生视频模型的底层逻辑不同,文生视频是给定条件后一次性生成封闭结果的系统,而世界模型学习的是世界如何演化,没有预设终点,可随时被用户指令打断和干预[30][31] - 世界模型的训练难度更高,需解决实时响应速度与长时序生成一致性的挑战,HappyOyster采用流式生成框架降低计算延迟,并引入持续状态复用机制以在长时间跨度上维持场景稳定[32] - 在音画协同上,产品采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号[32] - 与Google的Genie或李飞飞团队的World Labs等现有世界模型研究方向相比,HappyOyster选择在像素空间内进行长时序、实时可交互的动态世界模拟,并加入了音视频联合生成能力[33][35] 行业意义与发展阶段 - AIGC赛道正从“生成内容”向“构建世界”演进,HappyOyster的出现展示了可随时进入、修改并实时反馈的“自定义数字世界”的轮廓[36] - 产品的应用场景广泛,包括文旅展陈、互动短剧、影视概念验证、品牌营销、直播共创等需要实时感知、生成与反馈闭环的场景,长远看可与硬件结合成为由现实信号驱动的生成式环境系统[36][37] - 世界模型整体仍处于早期阶段,面临长时序物理一致性、复杂场景因果推理等硬核挑战,HappyOyster是当前最接近“可用产品”形态的探索之一[37]
AI 提效了,老板觉得自己又行了:可代码行数和 Token 排名,真该拿来裁人吗?
AI前线· 2026-04-18 13:39
文章核心观点 - AI在软件研发领域的应用正引发行业剧变,其带来的“提效”主要集中在编码等局部环节,但整体交付效率的提升面临挑战,并引发了关于生产力衡量、成本控制及人力资源策略的深刻讨论 [2][3][5][11][12][17][21][30] 行业现状与趋势 - AI编程工具大规模普及,行业整体节奏被迫提速,管理层因AI提升效率的预期而要求更快交付结果 [2][11] - 行业讨论焦点从“是否采用AI”转向“能否提速”,AI在研发流程中的介入深度已远超早期的代码补全 [5] - 企业,尤其是互联网公司,正将AI使用情况与员工绩效直接挂钩,AI从可选项变为考核的一部分 [30] 企业应用与提效数据 - **腾讯**:九成员工使用编程助手,编码时间缩短40%,整体效率提升20% [7] - **快手**: - 将“需求交付周期”作为生产力提升的北极星指标 [7] - L1阶段(代码补全)提效15%-25% [7] - 标杆团队中L2/L3需求占比超20%,交付周期下降58% [7] - 人均有效代码行(进入生产环境的净增代码)从134行/人天提升至213行/人天,涨幅59% [24] - **昆仑万维**: - 项目平均交付时间大幅缩短,研发速度提升50%以上,架构师等岗位提升达3-5倍 [7][8] - 每月消耗Token约10000亿至12000亿,分摊至员工约每人每月700元,按1500名研发人员计,月均Token支出约105万元 [7] - 该投入被视为高回报,相当于约20名员工的成本 [8] - **金融行业(以神州信息为例)**: - 对AI应用持审慎态度,强调与现有技术体系的无缝衔接及代码质量可控 [9] - 在测试用例编写等单点环节提效显著:从5人团队耗时1个月变为1人审核AI结果;文档补全工作从10人月缩短至3-5人月,效率提升50%以上 [10] AI提效的挑战与悖论 - **局部提速与整体瓶颈**:AI主要提升占研发流程20%-30%的编码环节,但沟通、对齐、测试等环节成为瓶颈,导致整体提效幅度有限(约15%-25%)[11][12] - **效率“错位”**:编码提速后,需求对齐、测试、联调等后续环节时间未被压缩,压力转移至开发者 [11][12] - **技术债风险**:AI生成的代码可能不符合原有架构风格或引入重复实现,增加后续维护成本和技术债务 [13][14] - **组织鸿沟**:个人提效(AI写代码快)不等于团队或组织提效,受代码评审排队、测试环境等待、流程瓶颈等因素制约 [13] 不同规模与类型企业的差异 - **小型公司/轻量项目**:AI提效效果显著,易出现“一人顶一团队”的现象,但因项目周期短,技术债等问题未暴露,可能被误读为裁员信号 [6][15] - **大型复杂系统(如金融、工业软件)**:系统复杂、协作链条长、质量要求极高,AI带来的整体提效不显著,企业不会因AI而急于裁员,更重视经验、责任与系统稳定性 [12][16] - **互联网与金融行业成本观差异**: - 互联网公司视Token成本低于人力,鼓励使用(如昆仑万维)[25] - 金融行业出于安全合规常采用私有化部署,GPU算力成本占比有限且可控 [25] - 大厂员工Token成本占薪酬比低,可“不计代价”;小公司Token成本相对敏感,可能成为真实痛点 [26] 开发者生产力衡量体系的演变 - **传统指标回潮与问题**:代码行数、Token消耗量等易于测量的指标重新流行,但其不能准确反映价值,且AI易生成更“膨胀”的代码 [17][18][21][22] - **经典框架的适应与调整**: - DORA(部署频率、变更前置时间、变更失败率、平均恢复时间)等核心指标依然有效,但基准需要重新校准(如从追求每日部署到每小时部署)[22][23] - SPACE框架(满意度、绩效等)内涵变化,需衡量人与AI的协同,如引入AI交互次数、生成内容采纳率等新指标 [23] - **企业的实践探索**: - 快手在DORA基础上增加AI维度:用“交付需求数”替代人均代码行,关注AI代码率、L2/L3需求占比、研发NPS,并采用“人均有效代码行” [24] - 衡量重点转向AI代码采纳率、单位Token产出、认知负担减轻程度(如工程师并行项目数从1.7升至2.8)等 [23] AI成本管理与ROI评估 - **成本计量单位变化**:从计算“人工小时”转向计算“Token成本”,需评估AI Agent作为“虚拟员工”的时薪与回报率 [27] - **分层评估模式**:不同AI应用模式(L1辅助、L2协同、L3自主)消耗与产出价值不同,需区别对待 [27] - **ROI综合评估框架**:将输入侧(人力时间+Agent的Token/时间消耗)与输出侧(交付需求数、质量、周期)结合计算综合ROI [28] - **场景化预算管理**:按场景和级别设定Token预算,将Token消耗与工程产出绑定,计算“Token效率比”,超预算告警但不截断 [28] 人力资源与未来展望 - AI放大了组织与个人之间的能力差异,资深工程师的判断力被放大,初级工程师的失误也可能加快 [17] - AI节省出的人效应用于承接更多项目、覆盖更多场景,而非单纯减少人员编制 [31] - 在复杂软件系统中,人类经验、背责制度和对稳定性的敬畏不可替代,人类深入思考的能力可能成为企业宝贵的“固定成本资产” [30][31]
Life of a Token:像调试代码一样看懂大模型如何生成 Token
AI前线· 2026-04-17 15:33
文章核心观点 - 文章通过追踪一个具体提示“The capital of France is”在GPT-2 Small模型中的处理过程,详细拆解了大语言模型(LLM)从输入文本到输出下一个token的完整计算管线,揭示了其核心工作原理是纯粹的数值计算,而非基于规则的逻辑判断[1][2][3][4] - 模型的核心能力,如知识存储和逻辑推理,并非通过显式的代码或条件分支实现,而是编码在1.24亿个浮点数组成的权重矩阵中,通过12层Transformer Block的矩阵乘法与非线性变换逐层计算得出最终答案[10][11][12] - 整个处理流程可以类比为一个运行在GPU上的特殊程序:权重是只读的常量数据,每次推理是一次函数调用,输入token序列,输出下一个token的概率分布[12] 模型架构与处理管线 - **管线全景**:处理流程可概括为Tokenization(CPU)→ Embedding(GPU)→ 12层Transformer Block(GPU,每层包含Self-Attention和FFN)→ LM Head(GPU)→ 采样,最终输出一个Token ID[19][20] - **数据形态变换**:输入文本“The capital of France is”(24字节)经分词变为5个Token ID(如464对应‘The’),再通过Embedding层膨胀为形状为[1, 5, 768]的浮点张量(约15 KB),最终经12层计算后坍缩回一个代表“Paris”的整数Token ID 6342[19][24][29] - **关键参数**:GPT-2 Small模型拥有1.24亿个参数,隐藏维度为768,词表大小为50257,采用12层Transformer结构,每层包含12个注意力头[4][26][32][61] 分词与向量化 - **分词(Tokenization)**:模型使用Byte Pair Encoding(BPE)算法将文本切分为子词单元,GPT-2的词表包含50257个token,分词过程是将字符串映射为整数ID的查表操作,例如“The capital of France is”被编码为[464, 3139, 286, 4881, 318][24][26][27] - **词嵌入(Embedding)**:将离散的Token ID通过一个形状为[50257, 768]的嵌入矩阵(`wte`)映射为768维的连续向量,该操作本质上是GPU上的内存聚集(gather)操作,使语义相近的token在向量空间中方向接近[29][32][33] - **位置编码(Positional Encoding)**:通过一个形状为[1024, 768]的位置编码矩阵(`wpe`)为每个token的向量注入位置信息,使模型能区分同一token在不同位置的出现,最终输入向量是词嵌入与位置编码的逐元素和[41][42] 注意力机制 - **自注意力(Self-Attention)功能**:让序列中每个位置的向量能够“看见”并聚合来自其他位置(主要是前序位置)的上下文信息,以进行语义消歧和关系建模,例如让“is”通过看到“France”和“capital”来明确此处“capital”应取“首都”之义[44][45][69] - **多头注意力(Multi-Head Attention)机制**:在每一层,768维的输入被均分给12个独立的注意力头,每个头拥有独立的查询(Q)、键(K)、值(V)投影矩阵(形状均为[768, 64]),并行学习不同的信息路由模式,最后将12个头的输出拼接回768维[49][62][66] - **注意力计算过程**:每个头计算Query与所有Key的点积得分,经过缩放(除以√64)和因果掩码(屏蔽未来位置)后,通过softmax归一化为注意力权重,最后对Value进行加权求和得到该头的输出,整个过程是一个可学习的信息路由网络[51][52][54][55] 前馈网络与知识存储 - **前馈网络(FFN)功能**:在注意力机制完成跨token信息路由后,FFN对每个位置的向量进行独立的、非线性的加工,负责检索和注入具体的世界知识,是模型参数的主要承载者[71][72] - **FFN作为键值查找表**:FFN可视为一个写死在权重中的键值记忆表,其计算分为三步:输入向量与`W1`矩阵([768, 3072])中的3072个“模式”键进行点积匹配;通过GELU激活函数过滤掉不匹配的负分数;将过滤后的分数与`W2`矩阵([3072, 768])中对应的“知识”值加权求和,注入到输出中[74][75][76][78] - **参数量与知识容量**:在GPT-2 Small中,每层FFN的参数量(约4.72M)约为注意力部分(约2.36M)的两倍,12层FFN总计占模型约三分之二的参数,更多的层和更宽的中间维度(如3072 = 768 × 4)意味着更大的知识存储容量[72][75][78] 深层处理与残差流 - **残差连接(Residual Connection)机制**:模型主干是一条从嵌入层直通输出层的“残差流”,注意力(Attn)和前馈网络(FFN)每个子层只计算一个增量(delta),并通过残差加法叠加到主干流上,这解决了深度网络中的信息遗忘和梯度消失问题[83][86][89] - **分层加工趋势**:研究表明,Transformer的不同层存在粗略的功能分工,浅层(如0-3层)倾向于处理基本语法和局部绑定,中层(4-7层)识别语义结构,深层(8-11层)则富集具体的预测信号,各层增量接力,共同将隐藏状态雕刻成指向目标答案的方向[91][96] - **最终预测的形成**:以追踪的句子为例,经过12层变换后,代表“is”的768维向量从仅编码系动词含义,逐步累积了句法、语义关系(“法国-首都”)等信号,最终在词表空间中强烈指向“Paris”的方向[92][96] 输出生成与推理优化 - **语言模型头(LM Head)与采样**:只取序列最后一个位置(唯一看过完整上下文)的768维向量,与一个形状为[768, 50257]的LM Head矩阵相乘,得到词表中所有50257个候选token的logits,经softmax转为概率分布,本例中“Paris”以74.67%的概率断崖式领先,最后通过采样(如贪婪解码)确定输出token[98][100][103][106] - **自回归生成**:LLM以自回归方式生成文本,每次前向传播只预测下一个token,并将该token追加到输入序列中作为下一步的输入,生成N个token需进行N次串行推理,这导致了推理的“解码(Decode)”阶段[110][111][114] - **KV缓存(KV Cache)**:为避免在解码阶段重复计算已生成token的Key和Value向量,系统将其缓存起来,每一步只需为新token计算Q、K、V,并将新K、V追加到缓存中,此举以显存空间换取计算时间,是提升推理效率的关键,但长上下文会带来巨大的显存压力[118][119] - **批处理(Batching)优化**:将多个请求批量处理,使一次从显存搬运的模型权重能被多个输入共享复用,大幅提升GPU计算单元的利用率(算术强度),连续批处理(Continuous Batching)技术进一步允许请求动态进出批次,优化了资源利用和吞吐量[127][130][132] 工程启示与行业洞察 - **模型本质与调试**:LLM是一个高维黑箱数值系统,其内部状态虽可获取但难以直接解释,当前可靠的评估方法仍是基于输入输出的行为测试,而非内部状态分析[137][138] - **系统优化方向**:在实际部署中,应善用KV缓存和提示词缓存(Prompt Cache)提升性能,将固定前缀(如系统提示)置于输入开头以最大化缓存复用,同时意识到输出token的推理成本远高于输入token[120][140] - **提示词工程本质**:提示词工程本质上是操控模型内部数值计算的起点和路径,通过提供示例(few-shot)或指令(system prompt)来影响矩阵乘法的结果走向,而非改变模型本身[141] - **硬件利用瓶颈**:在解码阶段,由于每个token的计算量小但需搬运整个模型权重,GPU的瓶颈在于内存带宽而非计算能力,算术强度极低,导致GPU利用率常常不足1%,这是当前推理成本结构(输出token更贵)和优化方向(如批处理)的根本原因之一[116][125][126]
阿里首个世界模型:快乐…生蚝
量子位· 2026-04-17 14:45
产品发布与核心功能 - 阿里新成立的ATH事业群发布全球首个主动式实时交互的世界模型产品“HappyOyster”(快乐生蚝)[2][5] - 产品核心主打四大功能:漫游(Wander)、导演(Direct)、创造(Create)、分享(Share)[5][10] - “漫游”模式允许用户通过文本或图片输入生成可交互小世界,并使用WASD和方向键实时控制角色位移与镜头视角,沉浸式探索[5][7] - “导演”模式是一个实时AI视频导演引擎,允许用户在视频生成的任意节点,用文字指令实时控制镜头、调整角色、改变剧情走向,实现“边拍边改”[8][9] - “创造”功能将体验从“生成一段视频”进化到“创造一个世界”,用户成为深度参与的创造者[9] - 用户创建的世界可以分享,供他人探索和二次创作[10] 产品技术规格与体验 - “漫游”模式支持最长1分钟探索,分辨率为480p,时间结束后需重新进入[13][18] - “导演”模式支持最长3分钟视频生成,分辨率可选480p或720p[13] - 两种模式均支持多模态输入,以及音频和视频输出[13] - 产品生成速度快,且生成的世界自带背景音乐(BGM)并包含动态NPC,增强代入感[16][21] - 在“导演”模式下,用户可调整分辨率(720p、480p),设定叙事风格与情感基调(常规、平和、戏剧化),控制运镜方式与画面稳定度(稳定、快速)[26] - 产品目前处于邀请制体验阶段,需要申请邀请码[11] 核心技术突破 - 产品基于原生多模态架构与流式生成世界模型,重点突破三大核心技术难点以实现“实时交互、长时连贯、音画同步”[35] - 第一项突破是**长时世界建模**:采用长时间跨度的世界演化建模方式,通过海量长视频数据学习世界运行规律,并加入持续状态复用机制,通过历史注意力状态的连续传递来维持长时间生成时的场景结构与动态连贯性,解决“生成久了就错乱”的问题[36][37][38] - 第二项突破是**实时交互控制响应**:在建模初期设计多样控制信号(文本、动作、图像等),使外部指令能持续影响世界演化,实现生成质量、长时一致性与实时可控性的协同优化,模型从“被动生成内容”升级为“主动模拟世界”[40][41] - 为实现实时性,模型采用流式生成框架,通过对世界状态进行高度压缩的隐式建模来降低单步计算开销,并将控制信号设计为可在线注入的条件变量,确保无需重置生成过程即可实时响应[43] - 第三项突破是**音视频联合生成**:采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号,通过共享条件约束与协同解码机制,保障音画同步与语义一致,提升沉浸感[44] 战略定位与未来应用 - 阿里ATH事业群于2024年3月16日成立,核心目标是“创造Token、输送Token、应用Token”,旗下涵盖从基础模型研发到个人与企业端AI应用的完整布局[35] - HappyOyster的核心能力是对开放世界状态进行持续建模、预测与响应,天生适合延伸到需要“实时感知—实时生成—实时反馈”闭环的现实场景中[32] - 潜在应用方向包括文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等[32] - 模型可作为实时演化的世界引擎,与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接,根据人的位置、动作、语言和环境变化动态生成内容或交互结果[32] - 与硬件系统结合后,产品将承载一个能被现实输入持续驱动的生成式环境系统,打开未来的应用场景[33] 行业意义与产品愿景 - 该产品标志着从传统“文生视频”模型向“生成可交互世界”的跃迁,旨在打破用户与数字世界之间的“第四面墙”[45][46] - 下一代生成式AI的目标是生成一个完整的、可进入的世界,这个世界包含空间、物理、因果、角色和故事,用户可以进入、改写、离开并邀请朋友进入[46] - 产品名称“HappyOyster”灵感来源于莎士比亚的名言“The world is your oyster”,寓意通过一句话就能拥有一个完整的、可漫游、可导演、可分享的数字世界[48]
AI日报丨阿里发布世界模型HappyOyster;腾讯混元世界模型2.0开源;MiniMax发布全球首个云端自我进化AI助手MaxHermes
美股研究社· 2026-04-16 20:58
AI技术产品发布 - 阿里巴巴发布基于原生多模态架构的世界模型产品HappyOyster,支持多模态理解与音视频联合生成,具备漫游和导演两大核心能力,可实时构建可互动的AI数字世界 [5] - 腾讯正式发布并开源混元3D世界模型2.0,该多模态世界模型能理解文字、图片、视频输入,自动生成、重建和模拟3D世界,并支持多格式3D资产导出,可与游戏工作流无缝对接 [6] - MiniMax发布全球首个基于Hermes Agent构建的云端自我进化AI助手MaxHermes,将Agent学习闭环与自我进化能力与MiniMax M2.7模型结合,用户可在10秒内于云端拥有AI智能体 [7][8] - 觅蜂科技发布一站式物理AI数据服务平台,旨在解决物理AI数据稀缺、标准缺失的行业瓶颈,通过打通硬件、平台及运营全链路,实现真机遥操、无本体采集、仿真数据全范式覆盖 [9] 科技巨头动态 - 微软正在挪威租用最初计划用于OpenAI星际之门项目的数据中心场地,并将在Nscale Narvik园区租赁3万块Nvidia的Vera Rubin显卡,同时扩大其在怀俄明州的数据中心布局 [11][12] - 据业内消息,苹果很可能在下一代iPad Air上采用OLED屏幕,面板可能来自三星显示,大规模生产预计在2026年底或2027年1月,产品预计2027年初发布 [13][14] - 博通与Meta Platforms达成为期三年的合作关系,将协助Meta开发并部署人工智能芯片至数据中心,协议包括交付支持元训练与推理加速器芯片的技术直至2029年,初始承诺超过1GW [15][16]
阿里“快乐马”团队再出手!正面叫板谷歌 Genie 3,世界模型 HappyOyster 来了
AI前线· 2026-04-16 17:00
公司产品发布与核心能力 - 阿里巴巴于4月16日发布了名为HappyOyster(快乐生蚝)的世界模型产品,该产品由阿里ATH创新事业部团队研发,与之前的产品HappyHorse(快乐马)同属一个团队 [2] - HappyOyster基于原生多模态架构构建,支持多模态理解与音视频联合生成,目前产品具备“漫游(Wander)”和“导演(Direct)”两大核心能力,允许用户实时构建可互动、可演绎、可探索的AI数字世界 [4] - 用户生成的数字世界可以被完整保存,并开放给其他用户进行二次创作 [4] 技术架构与流派定位 - HappyOyster与谷歌的Genie3同属于“世界模拟器”流派,该流派采用长时间跨度上的世界演化建模方式,区别于传统文生视频模型的被动生成流程 [5] - 该技术通过学习海量长视频数据以及文本、动作指令、图像参考等多样控制信号,使模型能够主动理解空间、物理与因果规律,预测情节和画面的演变,从而将“被动生成内容”转变为“主动模拟世界演化” [5] - 官方表示,HappyOyster采用了时间跨度更长的世界演化建模方式,使模型能够保持高保真、长时序的动态场景生成,并在建模初始就设计了多样的控制信号,以实现生成质量、长时序与实时可控性的协同优化 [6] 产品差异化优势与具体功能 - 在产品能力上,HappyOyster不仅支持Wander漫游探索,还独家提供实时导演功能,用户可通过自然语言指令随时介入世界演化、调度角色事件,实现从被动探索到主动创作的跨越 [6] - 在视觉表现上,HappyOyster漫游模式的画面质量更高,风格泛化能力更强 [6] - 在漫游模式中,用户仅需一句话或一张图,即可生成具备物理一致性的完整空间,物体位置稳定、场景持久存在,视角与光照也能跟随第一人称视角持续移动 [9] - 用户能自由切换方向与镜头运动,突破初始画框的边界,目前支持长达1分钟的连续实时位移与镜头控制,并支持多样化的风格切换 [9] - 在导演模式下,用户能够在视频的任意节点,通过文字、语音或图像等多模态输入,随时实现镜头切换、剧情改写、角色调度 [8][11] - 导演模式支持连续生成3分钟以上的480p或720p实时画面 [11] - 当前漫游与导演两大模式尚未完全打通,但未来有望实现用户在漫游过程中直接与世界深度互动、实时改写场景规则的无缝融合体验 [11] 行业技术背景与对比 - 相比大语言模型相对成熟的模型架构和技术范式,世界模型仍属于前沿探索领域 [5] - 谷歌DeepMind团队提出的Genie模型包含三大部分:时空视频tokenizer、自回归dynamics模型和隐式动作模型,该系统在训练阶段不需要任何显式动作标签或环境规则,只依赖海量未标注视频进行无监督学习 [6][7] - Genie可以不依赖特定游戏引擎,从多模态提示生成可玩世界,并实现逐帧交互,这些特性使其被视为早期的世界模拟器 [6]