Workflow
Veo 3
icon
搜索文档
OpenAI推出安卓版Sora:进入多个市场,使用仍需邀请码
36氪· 2025-11-05 09:59
OpenAI通过社交媒体平台X宣布,其AI视频生成应用Sora已正式登陆Android平台,目前已在美国、加拿大、日本、韩国、泰国和越南等 谷歌应用商店Google Play上线。此举标志着这款以生成"超现实视频(Hyperreal Videos)"著称的AI应用,正式进入全球最大的移动生态 系统。 安卓版Sora登陆美国、加拿大、日本、韩国、泰国和越南等Google Play OpenAI今年9月底在iOS平台推出Sora独立应用,上线后短短五天下载量便突破100万次,并曾连续近三周位居苹果应用商店App Store免 费榜首。目前,Sora仍位列苹果应用商店前五名,排名逊于谷歌的 Gemini,以及长期霸占榜首位置的ChatGPT。 此次Android版Sora的发布,不仅实现了OpenAI在移动端的全面布局,也为更多创作者和普通用户带来了使用门槛更低的AI视频创作工 具。OpenAI表示,与iOS版的情况相同,安卓用户仍然需要邀请码才能实际使用Sora应用。OpenAI Sora负责人比尔·皮布尔斯(Bill Peebles)还在X上发帖表示,公司正在努力推进该应用在欧洲市场的上线。 Sora的推出正值 ...
Google's First AI Ad Avoids the Uncanny Valley by Casting a Turkey
WSJ· 2025-10-31 18:00
公司技术应用 - 公司成为利用其Veo 3及其他人工智能工具完全生成广告的最大知名企业 [1]
AIGC如何“破界”?看行业大咖拆解,从模型能力到商业增长的全球落地法则
搜狐财经· 2025-10-28 19:06
AI技术重塑全球产业格局 - AI技术从辅助工具进化为驱动业务增长的核心引擎,AIGC的崛起打破了传统出海业务中语言、文化和媒介形式的限制,重新定义了全球化的边界 [2] - 多模态生成大模型迎来系统性可用窗口,视频生成技术发展尤为迅速,以Sora 2为代表的模型突破为视频社交玩法带来颠覆性创新 [4] - AI技术深刻改变工作方式,其价值实现关键在于明确人机协作的边界,当前AI的应用更多是辅助人力实现半自动化生产,而非直接产出精品内容 [13] 视频生成技术进展与应用 - 生数科技的Vidu模型支持文生视频、图生视频、参考生视频等多模态生成,具备语义理解镜头规划、音视频直出等核心技术,一致性能力全球领先 [6] - Vidu模型在Q2版本中实现重大突破,包括视频延长、大幅度动作模拟、情绪精准渲染等能力,支持1-8秒任意时长视频生成,并实现音视频同步输出 [6] - 视频生成技术在实际应用中展现出强大潜力,可在真人社交场景实现实时互动,在潮玩手办领域赋予静态产品生命力,并支持多主体生成动态头像和表情包 [9] - 通过参考视频生成技术,用户上传多张图片即可生成包含特定角色、场景和物品的连贯视频,极大降低了内容创作门槛 [9] - 全球约10家头部公司在视频生成领域持续迭代模型,技术门槛主要体现在过亿级训练成本、人才储备和工程能力三个方面 [11] - 随着模型生成速度提升至5-10秒内产出低分辨率视频,实时互动应用成为可能,为游戏、虚拟陪伴等场景开辟新空间 [11] AI在商业场景的具体价值 - 在IAA游戏领域,AI应用通过Imagen 4快速生成创意广告素材实现8倍效率提升,通过个性化推荐算法增加用户粘性,通过Veo 3生成口播广告替代传统KOL模式 [16] - 在AI+社交场景,AI Agent通过多轮对话将用户画像准确率从60%提升至90%以上,付费转化率提升6倍 [18] - Gemini 2.5 Pro能提升训练数据质量,通过预处理为自研模型提供高质量标注,在算力不变基础上提升效果30%以上 [18] - AI赋能使得零基础人员也能快速上手动画制作,大幅降低了入门门槛和制作成本,让初级人员快速达标,同时帮助资深专家突破业务上限,实现规模化生产 [13] 跨境支付的挑战与解决方案 - 跨境支付面临三大核心挑战:支付体验本地化差异导致转化率骤降、风险控制与欺诈防范不足造成营收损失、支付授权成功率低影响收入 [23] - 全球已有80多个国家对数字商品征收VAT或GST,各国申报门槛、频率、语言和表格格式各不相同,税务合规风险可能导致补税、滞纳金、高达2倍的罚款等严重后果 [25] - 支付平台可分为三大类别:三方支付提供支付通道但风险与合规由商户自行承担、四方支付整合多个PSP提供技术灵活性但合规仍由商户负责、记录商户模式代表商户完成销售并承担所有税务风控和合规责任 [28] - FastSpring作为记录商户,通过预建的全球支付体系实现本地化收单提升支付成功率,提供包括订阅管理、专业风控和全球自动报税在内的托管服务 [30]
A16Z最新洞察:视频模型从狂飙到分化,产品化是下一个机会
36氪· 2025-10-28 08:18
在过去一年,几乎每周都有一款新的视频生成模型登场,不断刷新基准成绩:更长的视频、更真实的物理、更一致的角色与镜头语言。我们习 惯了模型性能一路狂飙、不断突破。 但今年,节奏变了。如果你密切关注基准测试,可能会感觉"进步"放缓了:大多数主流模型都能生成 10–15 秒带同步音轨的视频,效果已经相 当惊人,但也不再令人惊讶。 这并不是坏事。在A16Z合伙人贾斯汀·摩尔看来,我们正在进入一个新的阶段:视频模型的"产品时代"。 简单来说,视频模型的进步,不再体现在模型参数或基准分数上,而是体现在多样性和专业化上。比如,我们开始看到不同模型在特定能力上 各自突破:物理模拟、卡通风格、多镜头剪辑……没有哪一个模型能"通吃全场",但每一个都在变得更擅长某一个维度。 与此同时,更大的机会开始从模型本身,转向"围绕模型"的产品构建:那些能简化创作流程、抽象出复杂操作的工具,正变得比模型本体更有 价值。 今天,就让我们跟着贾斯汀·摩尔来看看视频模型在过去一年的变化。 其实,大语言模型也走过类似的路径。2023到2025年,主流模型性能持续上升,之后在各种评测中逐渐趋于稳定。到了这个阶段,各家研究机构开始把重 心放在具体场景和垂直 ...
新模型组团出道,多项机器人技术开源,近期AI新鲜事还有这些……
红杉汇· 2025-10-17 08:04
AI科研发现自动化 - 西湖大学开发的AI科学家系统DeepScientist在AI文本检测任务中,仅用两周时间就取得了相当于人类科学家三年的研究进展,并在多个领域刷新纪录 [6] - 该系统实现了除目标设定外无需人工干预的科研闭环,成为首个被大规模实证研究证明能在前沿科学任务上渐进式超越人类最先进水平的AI系统 [6] OpenAI开发者大会与平台生态 - OpenAI开发者大会现场有约1500名开发者参与,线上观众突破数万,平台已聚集400万开发者,ChatGPT周活跃用户达8亿,API每分钟处理近60亿token [8] - 大会发布多款开发工具,包括Apps SDK、全能工具集AgentKit和正式版Codex,同时开放Sora 2的API,其生成内容在物理规律呈现和提示一致性上显著提升,并新增同步对话、音效及现实元素注入功能 [8] 多模态图像生成模型竞争 - 腾讯的混元图像3.0在LMArena榜单登顶,得分1167,超越Google Gemini 2.5 Flash Image Preview(1151分)和字节跳动Seedream-4-2k(1144分)等26个全球模型 [11][12] - 该模型是业界首个开源工业级原生多模态生图模型,参数量达800亿,拥有64个专家网络,具备世界知识推理和极致美学表现等核心能力 [12] 机器人关键技术开源与生态 - 英伟达在机器人学习大会上开源物理引擎Newton、推理模型Isaac GR00T N1.6和世界模型Cosmos,旨在解决机器人研发中的仿真、推理和训练难题 [14] - 这一系列工具的开源有望显著缩短机器人开发周期,其中世界模型Cosmos通过文本、图像和视频提示生成多样化训练数据,减少对昂贵真实世界数据采集的依赖 [14][15] 大语言模型性能升级 - 智谱GLM-4.6总参数量达355B,激活参数为32B,上下文窗口从128K扩展至200K token,token效率提升超过30%,平均token消耗比GLM-4.5节省30%以上 [17] - 模型代码能力较GLM-4.5提升27%,在公开基准与真实编程任务中已对齐Claude Sonnet 4,整体性能超过DeepSeek-V3.2-Exp [17] 代码模型能力突破 - Anthropic发布的Claude Sonnet 4.5在权威编程基准SWE-bench Verified上取得82.0%的准确率,超过其前代Opus 4.1(79.4%)、GPT-5(72.8%)和Gemini 2.5 Pro(67.2%) [22] - 模型在复杂多步骤任务中可保持超过30小时的专注执行,正常请求拒绝率从Sonnet 4时的0.15%下降至0.02%,并同步发布了Claude Agent SDK [20][22] 视频模型零样本学习能力 - DeepMind的Veo 3视频模型展现出“无师自通”的零样本学习能力,能够处理一系列未经过专门训练的视觉任务,如边缘检测、物体分割、超分辨率等 [24][27] - 模型展现出对朴素物理规律(如刚体、软体、光的折射)和三维世界的理解能力,并能通过“帧链”能力解决复杂的视觉推理任务,有望发展为视觉基础模型 [27][28]
全网最后一批躺赚博主,也被Al挤兑失业了
创业邦· 2025-10-14 11:12
来源丨新周刊(ID: new-weekly ) 作者丨阿绿 编辑丨陆一鸣 图源丨 《冒牌天神》 "十一"假期回来 后 ,比起调休上班, 一个 更加 伤感的消息是,2025年的公共假期已经全部过完 了。 在"金九银十"的时间节点上,学生们陆续开学,打工人 也即将迎来Q4季度的考核和验收,似乎各行 各业的人们都会感受到一些微妙的压力——它不是惊天动地的创伤,而是由无数琐碎、持续的无力感 汇聚而成:工作中应接不暇的Deadline、社交媒体的信息轰炸、人际关系的微小摩擦和无力 , 以及 对未来的不确定性。 以下文章来源于新周刊 ,作者阿绿 新周刊 . 中国最新锐的生活方式周刊。 为了逃离这种弥漫性的压力源,人们 或 主动 、 或被动地遁入虚拟的幻境中。 早在前几年, 各类ASMR解压视频 就已经风靡互联网 , 而 随着AI时代的到来,各类ASMR视频已 经进化到了堪称魔幻的程度——比如,用菜刀切割玻璃、钻石,算得上是早年间"手切肥皂"的升级 版。 A I 生成视频 能魔幻到什么程度? 有的视频 把星球做成冰冻的水晶造型,再切割融化成果酱一样涂 抹在面包上,甚至"生吃岩浆"的另类AI吃播,让人在眉头紧皱和长舒一口气之 ...
马斯克旗下xAI加入“世界模型”竞赛,“视觉模型”会是下一个“大语言模型”吗?
硬AI· 2025-10-13 22:23
行业趋势:AI竞赛新焦点 - 人工智能领域的竞争正从大语言模型扩展至能够理解并模拟真实物理世界的"世界模型" [2][3] - 谷歌研究人员推断未来的视频模型将变得和语言模型一样智能 [2][4] - 英伟达表示世界模型的潜在市场规模可能接近当前全球经济的总量 [4] xAI的战略布局 - xAI从英伟达聘请了人工智能专家Zeeshan Patel和Ethan He,专门从事世界模型研发 [3][6] - 公司计划将世界模型技术首先应用于游戏领域,用于生成可交互的3D环境 [6] - xAI正在探索世界模型在机器人系统中的应用 [2] - 公司为"omni团队"招聘图像和视频生成技术人员,薪资范围高达18万至44万美元 [8] - 公司以时薪45至100美元招聘"视频游戏导师"以训练其AI模型Grok制作视频游戏 [9] 技术范式转移 - 谷歌视频模型Veo 3展现出与大语言模型相似的"涌现能力",通过"下一帧预测"零样本解锁物体分割、边缘检测等能力 [11] - 机器视觉领域可能通过视频模型发生向通用模型的转变,迎来"视觉领域的GPT-3时刻" [14] - 视频逐帧生成的过程被称为"帧链",使视频模型能够跨越时空进行推理 [14] - 发展更智能的视频模型可能获得能力极强的机器人"代理" [15] 面临的挑战 - 世界模型技术面临的主要挑战是为模拟真实世界寻找和处理足够训练数据的成本极其高昂 [17] - 业界存在对AI作用的冷静审视,认为AI无法解决游戏行业的"领导力和愿景"等大问题 [17] - 纯粹的技术突破本身并不能保证创造出能够真正打动人心的商业产品 [17]
CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?
机器之心· 2025-10-13 17:24
文章核心观点 - 链式帧推理(CoF)作为一种新兴范式,借鉴了语言模型中的思维链(CoT)思想,旨在通过显式地将帧级语义推理融入生成过程,从根本上改善视频生成与理解模型中的帧间一致性问题 [1][6] - CoF将视频生成的每一帧视为动态推理过程的一步,使模型能够进行逻辑演化而不仅仅是细节补全,这为视频模型提供了类似LLM的泛化能力,有望成为解决时序一致性问题的关键 [6][7][11] - 与传统依赖隐式特征对齐或平滑过渡的方法相比,CoF通过显式推理链确保逻辑连贯性,代表了视频模型处理框架的重要演进方向 [5][12] 01 帧间一致性不足,CoF为视频生成和理解模型带来新思路? - 思维链(CoT)在提升语言模型复杂任务表现后,其本质受到质疑,有观点认为CoT更像是语言表层的连贯叙事而非真实推理,其作为推理透明度指示的作用不可靠 [5] - 在此背景下,研究者将CoT思路延伸至视觉领域提出CoF概念,以解决视频模型因逐帧生成特性导致的帧间一致性问题,传统方法在复杂场景中难以保证跨帧逻辑连贯性 [5][6] - Google DeepMind团队首次从理论层面引入CoF,认为大规模训练的视频生成模型(如Veo 3)正成为通用视觉基础模型,其逐帧生成结构适合通过帧链式推理提升一致性 [6] - CoF让视频模型“观看即思考”,每一帧成为动态推理的一步,形成帧链推理结构,使模型在物理建模和复杂逻辑任务上表现出色,具备强大的泛化能力 [6][7][8][9][10] 02 帧级语义显式融入能否成为解决视频模型temporal consistency的关键? - CoF利用视频模型的逐帧生成特性,将CoT的多步推理思想移植过来,以帧为单位进行推理,为核心优势 [11] - 与传统隐式特征对齐方法不同,CoF通过显式推理链确保每一帧遵循逻辑演化,能有效减少跨帧不连贯和细节丢失,这是解决时序一致性问题的关键机制 [12] - 该机制的核心在于将帧级语义信息显式融入模型,从而显著提升推理能力和跨帧一致性 [13] - 学术界已出现多种显式利用帧级推理链的技术方案,如引入帧选择、链式推理追踪等机制,将逻辑推理嵌入视频处理流程 [13] 03 CoF前,视频帧间一致性如何保障? - 在CoF出现之前,视频模型主要依赖平滑过渡和隐式特征对齐等传统方法来维系帧间一致性 [5]
Adobe 的护城河正在被Sora2侵蚀
美股研究社· 2025-10-06 10:14
Sora 2的技术突破与产品定位 - 核心功能超越简单视频生成,能生成符合物理规律的运动场景、保持多镜头状态一致、并生成同步语音与音效 [1] - 相比前代版本,在逼真度、可控性、视听表现上均有显著提升 [1] - 产品形态为社交化创作应用,用户可进行趋势二次创作,并通过“客串”功能使用好友形象和声音,支持共同管理,当前视频时长上限为10秒 [1] 生成式视频技术的行业进展 - 技术进化速度极快,从“玩具级演示”走向“可用于广告或叙事”,人类经验的动作建模正以季度为单位加速 [3] - 物理表现全面升级,例如球体正常弹跳、刚体真实碰撞、漂浮物自然漂移 [3] - 行业进入“连续发车”模式,谷歌的Veo 3也已上线消费级应用和专业工具 [4] Adobe的战略定位与产品应对 - Adobe产品正转向“聚合器”,在其Firefly Web端可调用Veo、Luma、Runway、Topaz等非Adobe引擎,自身更像“高质量外壳”而非最强模型源头 [7] - 订阅计划拆分为标准版/专业版,采用“生成点数”计费模式,并明确允许用户选择OpenAI GPT、Google Imagen、Veo、Flux等非Adobe AI模型 [7] - 公司护城河从模型本身转向计费、捆绑与界面 [7] Adobe面临的商业模式与竞争挑战 - Sora应用是创意分发平台,打破了传统视频制作流程(拍摄→编辑→发布),使生成与分发在同一时间完成,控制了文化潮流的发源地 [9] - Adobe的“按量计费”模式(每月点数刷新,超出需额外购买)与竞争对手的“免费额度+会员升级”模式相比,产品体验存在差距,引起用户抱怨 [9] - 若AI视频竞争核心是“模型选择”而非“编辑器选择”,公司当前6~7倍市销率的估值可能难以维持 [12] Sora 2作为行业拐点的意义 - Sora 2将质量、可控性、声音、分发四个Adobe赖以生存的核心维度集中在一起 [14] - 其模拟现实的能力强大,并通过社交应用形成闭环,使Adobe从“发明者”转型为“整合者”的战略风险凸显 [15] - 公司优势在于品牌、文件格式和企业市场渗透率,但若新模型使传统格式不再必要,这些优势可能失效 [15] Adobe的财务表现与估值风险 - Adobe Q3 FY25实现59.9亿美元营收,同比增长11%,市值约1500亿美元,估值享有“软件型溢价” [11] - 如果内容生产质量高地被外部模型掌控,公司作为“包装层”的利润率与增长空间将受挤压 [11] - 公司被上下游挤压:上游模型厂商掌握技术迭代,下游用户需求快速变化,模型质量每次跃升都会削弱其差异化优势 [12]
Adobe的护城河正在被Sora2侵蚀
智通财经网· 2025-10-05 11:24
Sora 2的技术突破与产品定位 - 模型能力显著超越前代,能生成符合物理规律的运动场景、保持多镜头状态一致、并生成同步语音与音效,在逼真度、可控性、视听表现上均有提升[1] - 产品形态为社交化创作应用,已通过iOS应用在美国和加拿大开放邀请测试,支持用户对流行趋势二次创作及通过“客串”功能引入好友形象声音,视频时长上限为10秒[1] - 生成视频质量从“玩具级演示”走向“可用于广告或叙事”,人类经验的动作建模正以季度为单位加速[1] 行业竞争格局与谷歌动向 - 行业进入“连续发车”模式,谷歌的Veo 3已上线消费级应用和专业工具[2] Adobe面临的挑战与战略调整 - Adobe的Firefly Video公测仅支持5秒的1080p视频生成,在雄心和视觉真实度上相比Sora 2等新一代模型显得局促[3] - 公司产品转向“聚合器”模式,在Firefly的Web端允许用户调用Veo、Luma、Runway等非Adobe引擎,其护城河从模型本身转向计费、捆绑与界面[3] - 订阅计划拆分为标准版/专业版,采用“生成点数”计费模式,并明确允许用户选择非Adobe的AI模型[3] - “按量计费”模式与竞争对手的“免费额度+会员升级”模式相比体验差距明显,已付费Creative Cloud用户需为视频生成功能再次付费,导致产品摩擦和用户流失[4] Adobe的财务与估值风险 - 公司Q3 FY25实现59.9亿美元营收,同比增长11%,市值约1500亿美元,估值享有“软件型溢价”[5] - 若内容生产质量高地被外部模型掌控,公司仅作为“包装层”,其利润率与增长空间将受挤压,难以支撑6~7倍市销率的估值[5] - 作为“包装层”被上下游挤压,上游模型厂商掌握技术迭代,下游用户需求快速变化,每次模型质量跃升都会使其差异化优势消失[5] Sora 2作为行业拐点的意义 - Sora 2将质量、可控性、声音、分发四个Adobe核心维度集中一体,并通过社交应用形成创作分发的闭环[7] - 公司优势在于品牌、文件格式和企业市场渗透率,但若新模型使传统格式不再必要,这些优势将失效[7] - 公司正从“发明者”转型为“整合者”,其应对措施(点数、捆绑、第三方接入)未能解决根本问题——智能不在自己手里[7] - 最乐观情况下公司是“精美外壳”,最悲观情况下将沦为“导出端口”,Sora 2加快了这一进程[7]