Workflow
OpenAI Sora 2
icon
搜索文档
Artificial Analysis 榜单第二,SkyReels-V4 宣告 AI 视频进入「全栈统一」阶段
Founder Park· 2026-03-02 17:30
昆仑天工 SkyReels-V4 在权威评测中表现突出 - 在AI视频生成领域权威第三方评测平台Artificial Analysis最新的“文生视频榜单(带音频)”中,昆仑天工的SkyReels-V4 Preview模型排名第二,ELO评分为1090分,仅落后第一名快手Kling 3.0 Pro 3分 [1] - 在该榜单中,SkyReels-V4的排名超过了Google Veo 3.1 (ELO 1084)、OpenAI Sora 2 (ELO 1077) 以及xAI grok-imagine-video (ELO 1080) 等国际大厂模型 [1] - 在包含所有历史版本的全量模型排名中,SkyReels-V4同样位列第四 [3] - 该榜单评估的是包含画面、声音及两者同步程度的完整视频质量,而非仅看画面 [4] SkyReels-V4的核心能力与特点 强大的“运动参考”能力 - 模型能够将参考图像中角色的外观,精准迁移到另一段视频的动作骨架上,实现角色替换 [7] - 该能力不仅适用于人形替换,还能将人类舞蹈动作流畅映射到四足动物(如狼)身上,并保持动作重心转移和节拍卡点与原视频一致,表明模型理解了动作的语义 [10][11][12] - 模型能够同时跟踪并替换视频中的多个主体,例如将《低俗小说》中的两位舞者分别替换为狗和猫,且动作互不干扰 [14][16][17] - 该功能大幅提升了短视频创作中动作素材的复用率和商业价值,同一段动作可快速适配不同形象,用于广告、粉丝二创或节日版本 [18][19] 覆盖全视频工作流的“全栈能力” - 模型旨在覆盖从生成到编辑、从画面到声音的整条视频创作工作流 [20] - 在短剧生成方面,输入几张人物照片和一段对话剧本,模型能直接输出带对白、背景音乐及正反打镜头切换的短片片段,具备基础镜头语言 [21][25] - 生成的音频部分台词清晰、口型对齐,并能体现剧本指定的紧张、警惕等情绪,同时配有契合剧情的背景音乐 [26] - 模型原生支持生成中文、英文、法语、日语等多种语言的语音,便于同一套角色素材快速产出多语言版本,提升海外内容制作效率 [26] - 在视频编辑方面,模型能轻松完成去水印、抹掉硬字幕、清理台标等操作 [28][30] - 模型支持复杂的视频编辑,如为舞蹈视频中的C位舞者凭空添加一顶与参考图一致的帽子,或从多人视频中自然删除人物并补全背景 [31][32][33] - 该模型将过去需要多个软件协作的复杂工作流,简化到在一个模型内通过指令完成 [34] SkyReels-V4的关键技术架构 - 模型采用“统一拼接框架”,将各种视频任务(文生视频、图生视频、编辑等)转化为同一种操作:通过配置不同的“遮罩”来指定视频中需要保留和重新生成的区域,并将参考素材编码后拼入生成序列作为参考手册,从而实现一个模型处理多任务 [38][39] - 模型采用“双流 MMDiT”架构,视频和音频各有一条生成线,两者通过双向交叉注意力机制在每一步互相校准,实现音视频的底层同步生成,而非后期对齐 [40][42] - 为解决视频(每秒32帧)与音频(每秒44100采样点)信息密度差异大的难题,模型应用了RoPE频率缩放技术,将音频的时间坐标系压缩至与视频对齐,确保注意力计算时两者时间轴对应 [43] - 上述技术保障了多角色对话中唇形与语音的毫秒级精准对齐 [44] 行业趋势与潜在影响 - SkyReels-V4体现了AI行业向“统一”演进的大趋势,即模型从单项能力走向全流程覆盖 [45] - 对创作者而言,该模型将过去串联的工具链变为一个统一的“框”,降低了创作门槛并提升了创作连贯性 [45] - 对影视和内容制作行业,尤其是短剧、短视频、品牌内容等中腰部市场,模型能覆盖过去分属不同工种(特效、配音、音效、字幕等)的任务,可能重新定义“最低可行团队”,大幅提升产出效率并降低成本 [46] - 昆仑天工SkyReels系列的迭代路径清晰:V1主攻人物表演与影视级质感;V2实现无限时长生成;V3强化多模态参考驱动;V4则整合音视频联合生成与全场景统一编辑,每一步都在将更多能力纳入统一框架 [46] - 尽管统一架构的研发挑战巨大,但SkyReels-V4在权威评测中的成绩表明,这条“全能力统一”的技术路线已被验证可行 [47]
塑造自己的下一个版本2026前沿科技趋势报告解读(40页附下载)
搜狐财经· 2026-02-23 17:39
文章核心观点 报告以用户视角展望2030年,提出前沿科技将从**生命力、体力、脑力、创造力、追求**五个维度深刻塑造个人与社会的未来,核心在于利用科技增强人类能力的同时,引导人们思考如何保持人的主体性并塑造更好的自己[1][18][23] 一、生命力2030:从“活得久”到“活得好” - **人类生命正经历“第三次转型”**:从追求单纯延长“寿命”转向追求延长“健康寿命”,即在无严重慢性病或功能衰退下维持高质量生活的年限[2][30] - **延长健康寿命经济价值巨大**:据世界经济论坛报告,将人类健康寿命延长1年,产生的全球经济价值高达38万亿美元[2][30] - **基因疗法进入“生命代码优化”时代**:CRISPR技术进入2.0时代,Verve Therapeutics通过碱基编辑技术在家族性高胆固醇血症患者中实现单次注射平均降低LDL-C 53%,部分患者降幅达69%[2][35] 首例个性化CRISPR疗法成功治愈患有致命代谢疾病的婴儿[2] - **RNA疗法实现慢性病长效控制**:Alnylam Pharmaceuticals开发的RNA干扰技术仅需每六个月一次皮下注射即可控制高血压[2][37] 斯坦福大学开发的mRNA CAR-T技术在小鼠淋巴瘤模型中实现75%的长期无瘤生存[2][37] - **人工智能成为医疗“操作系统”**:生成式AI将药物研发周期从10-15年压缩至数年甚至数月[2][44] AI与多组学技术结合助力疾病早筛,例如Gene Solutions利用AI分析循环肿瘤DNA,单次抽血可筛查75种癌症,灵敏度78%,特异性99%[2][47] - **衰老时钟技术迭代**:中国科学院开发了单细胞精度衰老时钟,能分辨不同组织中特定细胞类型的衰老速度[2][49] 二、体力2030:外骨骼、飞行器与潜水技术的三重进化 - **外骨骼技术普及化**:正从医疗向工业、个人消费领域全面渗透[2] - **医疗领域**:傅利叶智能的ExoMotus M4集成动态减重系统和力反馈技术,帮助患者早期康复训练[2][54] 美国Medicare在2024-2025年对外骨骼设备报销政策的突破,标志其进入主流医疗器械行列[2][54] - **工业领域**:German Bionic的Cray X和Exia外骨骼提供高达30kg助力增强,并通过“智能安全伴侣”系统提醒不当姿势[2][54] 福特汽车引入外骨骼技术后,全球工厂损工工伤事故率下降75%[3][54] - **个人消费领域**:极壳2025年推出的Hypershell X Ultra外骨骼重量仅1.8公斤,每块电池续航30公里,售价仅几千元[3][55] - **eVTOL(电动垂直起降飞行器)处于商业化前夜**:宁德时代研发的凝聚态电池能量密度达500Wh/kg,几乎是现有电池的两倍,有望几年内使航程增长到现有的3倍[5] 美国《先进空中交通国家战略2026-2036》目标在2027年实现初步运营[5] - **无人机进化为空中机器人**:大疆Air 3S集成LiDAR实现夜间精准避障,零零科技的HoverAir X1 PROMAX利用端侧AI实现60km/h瞬时速度跟踪,Skydio X10在无GPS环境下可实现厘米级精准悬停[5] - **水下探索技术边界拓展**:潜水员增强视觉显示系统可在零能见度水域重构实时3D海底模型[6] 北京大学团队研发的便携式柔性水下外骨骼使潜水员平均空气消耗量减少22.7%,作业时间延长20%以上[6] 中国“奋斗者”号等深海载人潜水器在2025年完成314次下潜,累计下潜1746次,显示深潜已进入常态化作业阶段[6] 三、脑力2030:AI成为“能自主学习的外脑2.0” - **通用人工智能(AGI)进化**:AI正在补齐“锯齿状智能”的四块拼图:会思考(如OpenAI o1)、好记性(如谷歌Titans架构)、懂世界(如OpenAI Sora 2)、自学习(如DeepMind的自我博弈AI)[6][7] - **2025年是AI智能体(Agent)元年**:智能体执行的感知、决策、组装、执行四大“崩溃点”正通过Advanced Tool Use等技术修复[8] 未来形态呈现两大趋势:基础模型即智能体,以及AgentOS(操作系统层实现跨应用协同)[8] - **脑机接口从修复走向增强**: - **侵入式**:Neuralink的N1植入物包含1024个记录电极,截至2025年9月已有12名受试者完成植入,可凭意念控制电脑[9] 2024年FDA授予其“盲视”项目“突破性设备”认定[9] - **非侵入式**:Meta利用AI模型从脑磁图信号重构语音内容,解码准确率超70%[9] 德克萨斯大学研究人员用非侵入式设备将大脑活动“翻译”成连贯句子[9] - **脑机接口与AI融合带来新协作模式与伦理挑战**:可能实现“意念驱动”的人机协作,智利已将神经数据保护写入宪法,UNESCO在2025年通过了全球首个神经技术伦理建议书[10] 四、创造力2030:个人、团队与企业的三重变革 - **个人创造力×3**:通过AI眼镜、AI智能体、机器人三重技术增强[11] - **AI眼镜**:碳化硅波导与MicroLED推动眼镜向极薄、极轻、高亮度演进,肌电与眼动追踪实现“眼到意到”的控制[11] - **AI智能体**:如ChatGPT、Manus(可从零完成PPT)成为知识工作者助手,预计到2030年,人机协作将经历从“任务执行+人类兜底”到“AI先做一版”,再到AI完成复杂工作闭环的三个阶段[11] - **具身智能机器人**:2025年进入“工业验证”阶段,高分辨率触觉传感让机器人感知0.1毫米形变和毫牛顿级微力[12] 智元A2定价9.9万元、宇树G1约1.6万美元,正逐步进入市场[12] - **小团队大能量,重新定义“大公司”**:AI放大个体能力,催生“超级个体”,已有开发者借助AI工具独立完成产品开发运营,实现月入几十万甚至百万美元[13] 小团队凭借高效率和创新能力取得巨大成功,如Notion早期不足十人、Figma以小团队规模以200亿美元被收购[13] 未来“大公司”的定义将取决于小体量能否创造超常业务成果[13] - **大型企业的组织重塑**:AI时代下,人力资源的“选、育、用、留”全面重塑[14] - **选人**:从看学历年资转向看“AI-Native”素养等能力[14] - **育人**:个性化学习与在岗成长为主流,利用VR/AR仿真和AI教练[14] - **用人**:岗位边界模糊,人机协作常态,超级小团队成为主流[14] - **留人**:从雇佣走向共生,企业转向“人才与伙伴的平台”[15] 五、追求2030:能力倍增后的自我反思 - **报告引导在科技赋能下进行自我反思**,提出三个核心问题:在AI能完成多种任务的背景下,个人的独特性何在;哪些关键判断权不能外包给AI;在能力被科技放大后,个人应去向何方[16][17] - **报告最终指向核心命题**:在科技能力倍增的时代,如何保持人的主体性,做更好的自己[18] 并预测到2030年,80岁的人拥有60岁的体魄和活力将成为触手可及的现实[18][51]
国产之光Vidu Q3加冕新王!全球首个16秒音视频直出模型,超越Sora领跑AI视频下半场
搜狐网· 2026-02-02 10:57
行业演进与拐点 - AI视频行业正从“生成玩具”演进为真正的“内容生产力工具”,创作门槛持续降低 [1] - 2025年,行业迎来关键拐点,AI视频首次可作为“可直接使用的叙事内容单元”进入内容生产全链条 [2] - 生数科技Vidu系列模型持续推动行业能力边界前移,从视频生成、演技生成到打通完整工作流 [1] Vidu Q3模型核心能力与突破 - Vidu Q3是全球首个支持16秒音视频直出的AI视频模型,以“为剧而生”为核心理念 [1] - 模型实现16秒声画同出,音频与画面一体生成,口型精准对齐,具备电影级视听张力 [6] - 模型具备“导演思维”,可根据剧情自动切换不同镜头,实现多镜头自由切换 [6] - 模型支持中、英、日等多语种文字自然嵌入视频画面,无需后期逐帧跟踪与拼贴 [6] - 模型将传统后期流程系统性前置至生成端,实现“一镜到底”的工业化突破 [6] 技术里程碑与行业意义 - Vidu Q3的发布标志着AI视频首次能作为“可直接使用的叙事内容单元”进入生产全链条 [2] - 16秒时长跨过叙事阈值,足以完成情绪起承转合,可作为独立叙事段落被直接使用 [4] - 声音与画面实现端到端直出,AI开始理解多模态影视语言,而不仅是视觉语言 [4] - 生成结果具备可直接使用的稳定性,可不经复杂加工直接进入分发与商业使用链路 [5] - 这终结了AI能否成为内容生产链条中叙事参与者的长期核心问题 [4] 市场地位与竞争格局 - 在国际权威AI基准测试机构Artificial Analysis最新榜单中,Vidu Q3排名中国第一,全球第二 [1] - Vidu Q3的ELO评分为1,241,超越Runway Gen-4.5 (1,235)、Google Veo 3.1 Fast Preview (1,225)和OpenAI Sora 2 Pro (1,209) [2] - Vidu Q3 Pro的API定价为每分钟9.60美元 [2] 对内容产业的影响 - 对短剧、漫剧行业,创作模式从“堆人力”转向“提效率”,内容更新周期从“月更”压缩至“日更”级 [7] - 对广告营销行业,实现了营销素材与产品迭代、市场热点的实时同步,提升营销敏捷性与创意测试效率 [7] - 大幅降低了高质量内容的量产门槛,为短剧、漫剧、影视剧行业的AI应用按下快捷键 [7]
硬刚马斯克,超越Sora2的国产模型强势登场了!支持16秒声画同出
搜狐财经· 2026-01-30 22:40
行业地位与技术突破 - 生数科技的AI视频模型Vidu Q3 Pro登上国际权威AI基准平台Artificial Analysis榜单,位列中国第一,全球第二,是首个打入国际第一梯队的国产视频生成模型 [2] - 该模型在榜单上的ELO评分为1,241分,仅次于xAI的Grok(1,246分),领先于Runway Gen-4.5(1,235分)、Google Veo 3.1(1,225分)和OpenAI Sora 2 Pro(1,209分)[3] - 模型完成了三项关键突破,成为全球首个支持16秒音视频直出的模型,并实现了镜头自由切换控制与画面内精准文字渲染 [5] 核心功能与性能 - 模型支持最长16秒的音视频一体生成,语音、旁白、对话、音效和音乐可同步输出并精准对口型,已覆盖中文、英文、日文 [9] - 具备镜头调度能力,可根据内容自动切换镜头视角,从远景到特写,模拟专业导演的调度方式,让生成的故事更有视觉语言 [10] - 可直接在画面中生成中、英、日三种语言的文字内容,支持广告语、环境标识等多种文字场景自然融入画面,无需后期贴图 [11] 应用场景与市场潜力 - 模型能够还原复杂的情节表达,支持分镜与情绪变化,适合用于制作短剧、漫剧等叙事类内容 [16] - 在广告与产品展示场景中,其“语音+镜头”联动生成能力可显著提升创作效率,免去脚本-拍摄-剪辑的多轮反复 [17][18] - 在自媒体、播客等轻制作领域展现出较强实用性,支持风格与人物设定,搭配对白和动态镜头,可批量生产具备良好观看体验的内容 [19][20] - 目标用户不仅包括内容创作者,还扩展至广告人、营销人、产品人,正在重新定义创作角色 [21] 实测表现与行业意义 - 实测生成一段16秒国漫风格短片,结果显示节奏自然,镜头切换清晰,角色对白与口型匹配度较高,画面构图和氛围协调 [13] - 不同镜头间的切换能精准对应动作转换节点,背景音乐层次分明,冷兵器碰撞声与角色台词均有良好呈现,未出现跳帧、错位等问题 [13][14] - 用户可通过提示词对人物对白、画面风格、动作节奏等多维度进行控制,可控感明显提升,出片效率较高,画面渲染稳定 [14] - 这标志着AI视频生成能力完成了从“能动”到“会讲”的关键跨越,AI正从“摄像机”转向真正的“导演”,进入工业级内容生产新阶段 [21][24]
马斯克还在卷10秒,中国AI直接掀桌!16秒一镜到底,全球唯一
搜狐财经· 2026-01-30 19:04
行业竞争格局 - 硅谷巨头在AI视频生成赛道竞争激烈,谷歌Veo 3.1凭借“素材生视频”功能、超强一致性和4K画质登场[2] - 马斯克的Grok Imagine已上线生成10秒视频功能,实现音画双飞跃[4] - Runway全新Gen 4.5模型同样致力于连贯叙事和高一致性,生成时长可达10秒[4] Vidu Q3核心产品发布 - 中国AI公司发布下一代旗舰模型Vidu Q3,定位为全球首个一键直出16秒音视频的模型[7] - 该模型能同时处理画面、声音、剧情推进和镜头调度,支持镜头控制与自由切换、多语言文字渲染以及专业级漫剧、短剧、电影制作[7] - 在Artificial Analysis最新榜单中,Vidu Q3位列中国第一、全球第二,超越了Runway Gen-4.5、谷歌Veo3.1和OpenAI Sora 2[7] 技术突破与关键能力 - Vidu Q3解决了AI视频生成领域时长过短(多为几秒)和缺乏声音(“哑剧”)的痛点[11] - 相比谷歌Veo 3最长支持8秒,OpenAI Sora 2最长支持15秒,Vidu Q3是业界唯一能做到单次生成16秒时长的模型,无需拼接或后期合成[11] - 模型实现了精准的镜头控制,允许用户像导演一样控制运镜节奏和视角切换,并能根据画面内容自动切镜[17][19][20] - 在文字渲染上实现质的飞跃,能够精准呈现中、英、日三种文字,解决了以往字母变形、笔画缺失等问题[23] 应用场景与行业影响 - Vidu Q3标志着AI视频从“演技生成”(让画面动起来)迈入“视听生成”新时代,交付完整的、声画共振的视听体验[8][23] - 对于影视行业,模型具备真正的“叙事密度”,能在16秒内构建完整戏剧冲突,处理复杂对白和情感递进,为从剧本到可视化提供极速通道[23] - 对于广告行业,模型在画面一致性和文字渲染上的突破,提供了一套“可控的商业化解决方案”[24] - 对于自媒体创作者,模型的音视频一体化生成彻底简化了高质量视频制作流程,将释放创造力并可能催生更多“超级个体”[26][28] 产品功能与体验 - Vidu Q3已上线文生音视频和图生音视频功能,用户可通过Vidu.cn或Vidu API平台体验[9][10] - 演示案例显示其能力包括:根据六格分镜图生成步骤视频、复刻电影经典瞬间并匹配口型与音色、生成具有胶片质感和精准对白的“对手戏”场景、以及创建包含复杂运镜和音效的动画打斗场景[13][15][21]
传媒行业人工智能专题:从“生产力”到“变现力”,GEO重构流量入口与AI商业化拐点
国信证券· 2026-01-16 15:03
报告行业投资评级 - 行业投资评级:优于大市(维持评级) [2] 报告核心观点 - AI正在重塑用户入口形态与底层流量分发机制,从传统搜索引擎(SEO)向生成式引擎优化(GEO)时代转变,产业链价值分布有望重构 [4] - 2026年是AI应用从“生产力”向“变现力”转化的关键拐点,GEO是核心引擎,中国市场的“信任红利”为AI商业变现提供了肥沃土壤 [5] - AI在内容产业的价值已超越降本增效,开始创造新供给,尤其在视频和游戏领域开辟了新的增长蓝海 [6] - 投资主线已从2023年的“降本增效”与“数据资产重估”,转向2026年GEO催化下的商业落地预期,市场关注点转向“收入侧的增长可能” [7] AI重塑入口形态与流量生态 - AI搜索以自然语言为核心,用户交互路径从“关键词匹配-点击链接-自行筛选”缩短为“提出问题-得到结论”,导致“零点击”趋势常态化 [4] - AI交互方式正深度渗透各类应用(如小红书、微博、微信)内的信息获取流程,将碎片化信息整理成可直接消费的结构化答案 [22] - 以阿里巴巴“千问”为代表的超级APP正成为直接驱动用户行为与消费的超级流量入口,实现从需求表达到支付执行的全流程闭环 [27] - 截至2025年9月,海外AI应用月活跃用户(MAU)突破12亿,同比增长76.7%;中国AI应用MAU达4.9亿,同比增长172.3% [34] - AI搜索应用正在蚕食传统搜索流量,2024年1月至2025年6月,国内AI搜索应用月活从6929万提升至1.06亿,增幅超50% [34] GEO重塑产业价值链与商业化加速 - GEO(生成式引擎优化)的本质是通过优化数据的结构化和权威性,争夺AI模型的“被引用率”和“答案占有率”,而非传统SEO的搜索排名 [4] - 当AI生成答案(如AI Overview)出现时,传统网页的自然点击率从2%-5%骤降至1.0%-1.3%,付费点击率从2023年初的20-25%降至2025年初的不足10% [45] - 中国消费者对AI应用的总体信任度高达80%,远超美国的35%和欧洲的40%,在个性化购物推荐领域尤为突出 [5][42] - 据预测,2026年全球GEO市场规模将达240亿美元,到2030年有望达到1000亿美元;2026年国内GEO市场有望达到111亿元,到2028年有望达365亿元 [5][52] - 流量入口的结构性变化导致传统投放中介价值被压缩,掌握MarTech能力、能帮助品牌进行AI语料库建设和GEO优化的营销服务商将获得高成长机会 [55] 内容产业升级:AIGC创造新供给 - 在视频领域,AI全流程制作已成现实,AI动漫短剧制作成本仅为传统模式的1/5,并实现了人群破圈,核心受众90%以上为24-30岁的男性Z世代用户 [6][70] - 2025年1-8月,各平台累计上线AI动画微短剧2902部,供给持续提速 [70] - 主要平台(如抖音、快手、B站、爱奇艺)已推出针对AI漫剧/动画短剧的扶持政策,提供现金补贴、流量支持和成本覆盖 [74] - 在游戏产业,AI驱动的智能NPC具备动态叙事、情感记忆和复杂战术配合能力,有望提升玩家沉浸感和生命周期价值(LTV) [6][81] - 游戏厂商正将AI深度应用于开发效率提升(如腾讯GiiNEX引擎使资产创作提效40倍以上)和玩家个性化体验创造 [82] 市场复盘与展望:从2023到2026 - **2023年市场主线**:交易逻辑围绕“降本增效”(游戏、影视)和“数据资产重估”(出版、文字媒体),游戏、文字媒体、教育出版是累计涨幅最强的三个细分赛道 [88][93] - **2023年资金流向**:游戏板块占据传媒板块40%-50%的成交额,是绝对的流动性中枢和主战场 [95] - **2026年市场主线切换**:逻辑转向GEO带来的流量重构与商业价值变现,营销代理、文字媒体、图片媒体、门户网站成为领涨方向 [101][111] - **2026年资金流向**:主战场从游戏切换至营销(GEO产业链),营销代理成交额异军突起,并快速扩散至图片媒体、门户网站 [106] - 市场不再为单纯的“降本”逻辑买单,而是极度渴求并追逐“收入侧的增长预期” [7][101] 投资建议与方向 - **核心投资方向**:持续聚焦商业化先锋的GEO方向,重点关注营销服务商及高质量、权威语料方向 [7] - **GEO营销服务商**:相关公司包括蓝色光标、易点天下、浙文互联、引力传媒、光云科技等 [52][55] - **优质语料与IP资源**:拥有版权、专业数据库、独家IP的公司,如人民网、新华网、中文在线、值得买、知乎等 [55] - **平台(流量入口)**:生态链中心环节,如昆仑万维、腾讯、阿里巴巴等 [55] - **关注低位补涨可能**:关注影视IP、游戏、出版等方向因AI应用深化带来的补涨机会 [7][116]
2026十大AI技术趋势报告
搜狐财经· 2026-01-12 16:10
文章核心观点 人工智能正从参数竞赛转向重构物理世界,告别狂飙突进,向认知升维、集群协同、产业深耕方向演进,十大核心趋势勾勒出智能时代新蓝图 [1] 基础模型与认知范式演进 - 基础模型演进的核心是从“预训练+后训练”范式转向“Next-State Prediction”范式,使AI能学习物理动态、时空连续性和因果关系,实现“理解-预测-规划”的完整能力闭环,成为从“感知”迈向“认知”的核心标志 [1] - 海外方面,World Labs的RTFM模型可从单幅图像创建3D空间,OpenAI Sora 2展现出对真实世界规律的深度模拟 [2] - 国内方面,智源研究院作为NSP范式开创者,其悟界・Emu3.5将多模态数据统一编码为离散Token,实现对物理世界动态与因果关系的精准理解,蚂蚁百灵大模型系列也在NSP方向持续进化 [2] 具身智能产业发展 - 2024年是具身智能“百机大战”元年,2025年行业已迈入“出清”阶段,技术难度与资金需求远超以往,同质化竞争加速行业洗牌 [2] - 当前中国具身智能企业超230家,其中人形机器人企业过百家,商业进程已从实验室验证转向量产交付,客户主力从高校研究机构转向B端产业场景,人形机器人销量已突破万台,亿级订单频现 [2] - 海外市场,Physical Intelligence的n*0.6模型通过自主经验训练降低复杂任务失败率,特斯拉Optimus 2.5已应用于工厂生产、农场运营等场景 [3] - 国内市场,智源发布RoboBrain2.0具身大脑与RoboBrain-X0小脑基座,蚂蚁灵波科技推出的Robbyant-R1机器人已落地餐饮、导览、医疗问答等场景,多家企业加速推进IPO进程,行业格局即将成型 [3] 智能体系统演进 - AI应用正从单智能体系统向多智能体系统演进,Langchain报告显示当前客服、代码生成等SAS应用占比达63%,但复杂场景下MAS在工作流拟合、降低幻觉等方面优势显著 [3] - Anthropic数据显示,57%的组织已部署智能体处理多阶段工作流,2026年这一比例将升至81%,其中39%计划开发多步骤流程智能体 [3] - MAS的核心突破在于通信协议的统一,2025年MCP与A2A协议先后捐赠给Linux基金会并实现分层融合,成为微软、谷歌、Anthropic等头部厂商的原生支持选择,构成Agent时代的“TCP/IP” [4] AI for Science发展 - AI for Science已从辅助工具升级为AI Scientist,实现“假设提出—实验设计—数据分析—结论推断”的完整科研链路,推动科研模式发生质变 [4] - 2025年以来,谷歌Co-Scientist、斯坦福大学BOMARS等全球各类AI Scientist系统密集发布 [4] - 国际竞争激烈,美国2025年11月启动“创世纪计划”,依托17个国家实验室数据、AuroraGPT模型等存量资产,加速AI4S规模化落地 [5] - 中国呈现“应用强、基座弱”特征,在应用层面具备STEM人才与产业链优势,但在算力、数据、模型三大基础设施上仍有差距,截至2025年国家基础数据中心保有数据量达4.6PB,科学基础模型研发亟待资源整合 [5] C端AI应用竞争 - C端AI竞争聚焦“Super App”,以“All in One”为核心特征,通过一个入口实现信息获取、任务规划到问题解决的闭环 [5] - 海外方面,ChatGPT、Gemini等APP已达成过亿日活,谷歌Gemini已取代Maps原生语音助手,实现功能内化 [5] - 国内方面,蚂蚁灵光上线6天下载量破200万,支持30秒生成小应用与全模态输出,字节豆包依托生态优势MAU位居全球第二 [5] - 垂直赛道潜力巨大,多模态模型展现出“低频高价值”特征,Nano Banana Pro单次调用价格是文本模型的70-120倍,仅需1.5%的调用量即可实现同等收入 [6] - 国内市场,蚂蚁阿福月活超1500万,成为第一大健康管理APP,即梦AI、快对AI等在视频生成、教育等赛道成功突围 [6] ToB AI应用挑战与转机 - 2025年多数ToB AI应用仍停留在PoC阶段,MIT研究显示95%的GenAI Pilot项目未能产生可衡量影响,数据质量、MAS成熟度、成本失控成为主要瓶颈 [6] - 46%的企业将“现有系统集成”列为首要障碍,典型案例中4个Langchain智能体因死循环通信11天损失4.7万美元 [6] - Forrester预测,25%的AI支出将推迟至2027年,40%的Agentic AI项目可能失败 [6] - 反转信号已现,2026年H2将成为ToB应用MVP落地关键期,“Data Gov先行,OTel/MCP并行”的实施路径已明确,核心业务数据治理需3-4个月,简单API连接2-3周即可完成,三大模块并行推进下MVP产品至少需6个月投入 [7] - 医疗、电信、金融等行业已加速推进标准API建设,美国医疗行业CMS新规要求2026年1月部分功能上线,为规模化落地奠定基础 [7] 合成数据发展 - 合成数据正成为AI 2.0时代的“无限燃料”,有效破解真实数据短缺难题 [7] - NVIDIA通过合成数据优化3D检测与机器人轨迹生成,与Sandbox AQ合作构建含520万个新三维分子的训练集 [7] - 银河通用凭借10亿帧合成数据训练出GraspVLA模型,降低具身智能对昂贵真实数据的依赖 [7] - 群核科技基于4.41亿个3D模型构建空间智能飞轮,推动合成数据在工业设计等场景规模化落地 [7] - 合成数据的演进路线已清晰,模型作为反事实数据生成引擎,强化学习作为数据毒性过滤器,二者结合使合成数据的价值与安全性大幅提升,随着修正扩展定律的理论证实,合成数据有望在2026年彻底打破“数据枯竭魔咒” [8] 推理优化与硬件成本 - 推理优化仍是2026年AI大规模应用的关键支撑,算法层面微软BitNetb1.58模型验证了极端量化的可行性,DeepSeek V3.2将长序列推理复杂度从O(L2)降至O(Lk),阿里Qwen3引入混合推理实现成本与质量的平衡 [8] - Epoch AI数据显示,消费级GPU上的开源模型仅需6-12个月即可追平前沿模型能力 [8] - 硬件领域变革加速,ASIC芯片因适配Transformer结构分流GPU负载,存算一体架构在边缘端落地,Google TPU、Groq芯片对英伟达形成挑战 [8] - 成本持续下降印证技术价值,2022年11月至2024年10月,每百万个token推理成本从20美元降至0.07美元,18个月内降幅达280倍 [8] 异构算力基础设施 - 当前全球超5%的AI训练负载依赖NVIDIA+CUDA体系,构建异构全栈基础设施成为破局关键 [9] - 2025年以来,算子开发语言从5种增至9种,MLIR技术的成熟形成“多语言汇一编译器”的漏斗型架构,实现从手写汇编到自动化编译的跨越 [9] - CUDA 13.1版本引入Tile功能提升易用性,Triton生态则凭借多元贡献者优势,实现对多厂商芯片的无缝支持 [9] - 国内方面,智源FlagOS平台构建全栈解决方案,FlagGems纳管18款异构芯片,FlagScale集成并行推理与训练加速能力,通过软硬解耦统领异构算力 [9] AI安全挑战与治理 - AI安全风险持续攀升,2024年全球报告安全事件233起,同比增长56.4%,2025年11月底前已超330起 [9] - 深度伪造、AI监控滥用等事件频发,8家头部企业大模型在“防范灾难性滥用”方面均未达标,Agent系统进一步引入外部模块不稳定性与通信安全风险 [9] - 技术层面,自演化攻防演练扩展监管边界,红蓝智能体集群通过持续博弈可发现人类认知盲区的未知风险 [10] - Anthropic发布回路追踪工具实现偏见精准修正,OpenAI推出Aardvark自动挖掘代码漏洞,“以AI治AI”成为常态 [10] - 产业端,70%的大企业将数据主权与抗注入攻击能力列为一票否决项,蚂蚁推出ASL智能体可信互连技术,360构建类脑分区协同安全大模型,场景化安全护盾加速形成 [10]
华安证券:AI技术转向推理 驱动硬件产业链迎来新一轮成长周期
智通财经· 2025-12-17 11:37
核心观点 - 全球AI技术正从训练主导转向推理主导 驱动硬件产业链迎来新一轮成长机遇 多模态大模型迭代与AIAgent规模化落地显著提升推理算力需求 [2] - 云服务商资本开支上调与各国主权AI计划共同推动全球AI基础设施高景气建设 带动服务器、存储、光互连等云侧硬件价值提升与技术创新 [1][2] - AI手机与AR眼镜等端侧设备加速智能化演进 正在重塑产业格局 [1][5] 总量趋势 - 预计2025年全球八大云服务提供商资本开支将达4310亿美元 同比增长65% 2026年有望进一步增至6020亿美元 [2] - 各国主权AI计划启动 例如美国“星际之门”计划投资约5000亿美元 欧盟拟投入215亿美元建设AI超级工厂 [2] - 预计到2030年 全球AI数据中心容量将达156GW 占数据中心总需求的71% [2] 云侧硬件产业链 PCB - AI服务器带来明确的价值量提升 例如英伟达DGX H100单GPU对应PCB价值量达211美元 较前代提升21% GB200 NVL72将单GPU价值量推高至346美元 [3] - 随着Rubin架构采用无缆化设计及交换机向800G/1.6T演进 PCB正朝着高层数、使用如M9等低介电材料的更高性能方向升级 [3] - 2026年国内高端PCB产能将迎来集中释放 以支撑下游需求 [3] - 上游材料同步升级迭代 包括M9级别中碳氢树脂比例提升、第三代石英玻纤布引入、以及HVLP4铜箔使用 国产材料厂商正在各环节加速实现替代与突破 [3] 存储 - 2025年因AI需求导致的结构性供需失衡 已推动DRAM与NAND Flash价格显著上涨 [3] - 预计2026年行业资本开支增速放缓 投资重心转向高附加值产品 [3] - 3D DRAM技术通过TSV与4F2垂直结构为国内厂商提供了绕开先进光刻限制的机遇 [3] - 服务于大模型推理优化的KV Cache技术 正推动QLC SSD加速替代HDD 预计其2026年在企业级SSD市场的渗透率将达到30% [3] 光互连 - 光互连技术作为AI算力集群的关键 正步入新时代 光交换机凭借高带宽、低时延、低功耗特性 适配大规模AI集群互联需求 [4] - 以MEMS为主的技术路线已占据主导 产业链条长且壁垒高 [4] - 从上游核心器件到中游设备集成与解决方案 国内已有厂商在各个环节积极布局并切入全球供应链 [4] 端侧设备产业链 AI手机 - 2025年AI手机市场整体保持温和增长 竞争焦点转向端侧AI能力 [5] - 手机操作系统正从“应用启动器”向“系统级智能体”演进 以豆包手机为代表的创新产品尝试实现底层AI融合与跨应用操作 [5] - 苹果与安卓阵营的旗舰芯片持续提升NPU算力 共同推动端侧AI的普及与体验升级 [5] AR眼镜 - AI与AR融合的智能眼镜被视为可穿戴设备的未来形态 市场正处于高速增长期 产品形态从无摄像头眼镜持续演进至具备完整显示功能的AR眼镜 [5] - 光波导因其在清晰度与体积上的优势 有望成为AR眼镜光学成像模组方案的主流选择 [5] - 光机方案呈现多元化趋势 LCOS是目前消费级产品的主流 MicroLED凭借其性能优势被公认为未来的发展方向 [5] 建议关注细分领域及标的 - PCB及上游材料:胜宏科技、沪电股份、景旺电子、广合科技、东材科技 [5] - 存储及设备:北京君正、兆易创新、聚辰股份、精智达 [5] - 光互连:英唐智控、赛微电子 [5] - 端侧AI:歌尔股份、立讯精密 佰维存储 龙旗科技、水晶光电、中科蓝讯、豪威集团、舜宇光学科技 [5]
Ad Agency Stocks Seen Turning AI Disruption to Their Advantage
MINT· 2025-12-14 17:13
核心观点 - 2025年广告代理行业因人工智能冲击而股价承压 但分析师认为行业能够将颠覆转化为优势 在复杂的媒体环境中发挥战略价值 [1][2][6] 行业现状与市场表现 - 2025年广告代理股成为受人工智能冲击而下跌的关键市场主题 英国WPP股价年内暴跌60% 阳狮集团和宏盟集团等同行股价亦下跌 [1] - 行业估值受到AI相关争论的压制 WPP的远期市盈率跌至历史新低 宏盟的估值接近2020年以来最低点 阳狮的估值则更接近其10年平均水平 [7] - 部分代理商面临更大压力 例如WPP因一系列知名客户被竞争对手夺走而在年内两次下调业绩指引 并将27年来首次从富时100指数中剔除 [8] 人工智能带来的挑战与冲击 - AI图像和视频生成工具如谷歌的Nano Banana和OpenAI的Sora 2发展势头强劲 可口可乐公司连续第二年播放由AI制作的圣诞广告 [3] - 大型科技公司如Alphabet和Meta正在推出工具 帮助品牌自行设计广告活动 减少对第三方咨询的依赖 [3] - 主要担忧在于企业可能选择使用自动化工具来建立内部营销团队 例如网络安全公司Palo Alto Networks在9月表示其完全自主开发了整个广告活动 [4] 广告代理机构的潜在优势与价值主张 - 分析师认为行业虽被颠覆但不会被去中介化 主要品牌在日益复杂、多平台的媒体环境中将更加依赖代理商 [2] - 代理商的核心价值在于帮助品牌跨渠道分配广告预算 避免在Instagram Reels和谷歌搜索等渠道之间重复支出 这是谷歌或Meta无法提供的服务 [4] - 代理商的价值建立在可追溯至20世纪80年代直邮活动时期的消费者行为数据基础上 擅长理解多种特征并据此定制营销信息 [5] - 随着AI可能允许为每个消费者“几乎实时”创建个性化数字内容 广告环境将变得更加复杂 代理商将在整体营销或媒体战略方面提供有价值的战略建议 [6] - 摩根大通分析师认为 降低的生产成本应允许最大品牌投放更多广告和进行更多投资 当AI普遍提高广告质量门槛时 可能激励顶级广告主锁定在创造“难忘体验”的“军备竞赛”中 [6] 行业整合前景 - 交易可能为落后者带来一线希望 日本电通集团正在评估其海外业务 据报道WPP曾引起Havas NV的兴趣 但后者予以否认 [9] - 广告代理机构已为整合做好准备 因其在数字主导的世界中“为生存而战” [9]
杀回来了?威马宣布「好事将近」,评论区排队讨债;阿里前高管接管山姆后APP被吐槽满满阿里味;三七互娱因信披违规被罚3255万
雷峰网· 2025-11-04 08:28
威马汽车破产重整与复产计划 - 威马汽车于2023年10月申请破产重整,留下450亿债务 [4] - 深圳翔飞汽车成为威马新股东,计划投资10亿元复产EX5和E5车型,目标今年产销1万台,并计划在2028年前启动IPO筹备 [4][5] - 公司现存售后网点有90多家,后续计划扩充,但评论区大量员工讨薪、车主投诉车机系统及充电桩兑换问题 [4] 山姆会员店APP更新引发用户争议 - 前阿里巴巴高管刘鹏接管山姆会员店后,APP进行大更新,用户吐槽界面充满"阿里味",包括高饱和精修图、商品详情页混乱等问题 [7] - 更新后APP支持凑满减、先用后付等功能,部分会员表示若继续此类改动将不再续费 [7] - 山姆回应称将对会员建议持续改进 [8] 智能手机行业超薄机型竞争动态 - 荣耀研发工程师确认公司将推出超薄机型,加入三星、苹果、华为等厂商的竞争行列 [12] - 华为Mate 70 Air真机曝光,配备6.9-7英寸居中单孔等深四曲屏,有昆仑玻璃 [12] - 小米17 Air手机评估中,预计明年发布,vivo、OPPO等厂商也将跟进超薄机型 [12] 中国汽车行业格局与人才战略 - 小鹏汽车CEO何小鹏预测10年后中国汽车品牌将剩下5家强企和Others,淘汰赛预计持续5年 [13] - 小鹏汽车引入AI专家周舒畅出任自动驾驶算法高级总监,公司计划在500亿总投入中分配300亿用于AI技术 [18][19] - 吉利汽车租赁沈阳原上汽通用工厂进行改造,以补充银河车型产能,该工厂年产能超30万辆 [25] 科技公司股权激励与合规动态 - 字节跳动试点"豆包股"虚拟股激励计划,授予价格参考业务投入成本,旨在长期激励大模型人才 [14][15] - 小红书调整员工入职期权归属方式为15%、25%、25%、35%,自2024年1月1日执行 [21] - 三七互娱因信披违规被罚3255万,董事长李卫伟被罚1400万,涉及2014年至2021年多项关联交易隐瞒 [15][16] 存储芯片市场供应紧张与成本压力 - 三星、SK海力士、美光三大原厂暂停DDR5报价,导致现货价格一周内飙升25% [40] - 小米产品行销总监透露2026年成本预估"有点惊悚",PC内存成本影响显著 [23] - 研究机构将第四季度一般型DRAM价格涨幅预估从8%-13%上调至18%-23% [40] 人工智能与自动驾驶技术进展 - 华为鸿蒙5终端设备数量突破2300万,鸿蒙6发布24小时升级300万 [27] - 特斯拉被曝Model Y L车型存在车机乱打电话的软件bug,有车主一天内给老板拨打12次电话 [34] - 微软CEO纳德拉称公司或在一年内重启招聘,前提是员工掌握与AI协作技能,公司近期裁员约9000人 [36] 全球科技巨头AI战略与市场动态 - OpenAI CEO奥尔特曼否认公司收入为130亿美元的报道,称实际收入远高于此,并澄清暂无IPO具体计划 [41] - OpenAI取消Sora 2视频工具邀请码限制,开放美、加、日、韩用户下载,并推出4美元点数包应对成本压力 [46] - 英特尔正初步谈判收购AI芯片独角兽SambaNova,后者估值可能低于2021年的50亿美元 [42] 其他行业要闻 - 赛力斯确定H股发行价为每股131.50港元,预计2025年11月5日在港交所上市,公司2024年营收1451.76亿元,同比增长305.04% [30][31] - 上海市通信管理局下架27款APP,包括韵达、申通、中通等快递企业应用,因未按要求整改侵害用户权益问题 [32] - 特斯拉CEO马斯克透露新款Roadster跑车将具备飞行功能,可能应用SpaceX提供的冷气推进套件 [44]