Workflow
多模态AI
icon
搜索文档
视频生成进入精准控制时代,创作平权带动B/C两端加速渗透
东方证券· 2026-02-08 22:19
行业投资评级 - 行业评级为“看好”(维持)[4] 报告核心观点 - 核心观点:年初至今,多模态视频生成赛道国产模型加速迭代,推动行业技术整体上行,与海外差距显著收窄[1] - 最大的边际变化在于,智能分镜降低用户进入门槛,多模态统一架构支持创作意图表达更高效灵活且可控性提升[1] - 判断2026年B端和C端拓展均会有较大进展,模型厂商在卷技术的同时,重点观测景气内容赛道的AI渗透[1] 行业动态与技术演进 - 视频生成赛道迭代提速,推动行业技术跃升,海内外技术差距持续收窄[7] - 国内视频生成厂商进一步加速模型研发节奏,例如快手可灵从2.0版本(2025年4月)迭代至3.0版本(2026年2月),即梦Seedance从1.0版本(2025年6月)迭代至2.0版本(2026年2月)[7] - 随着最新模型发布,国内供给侧技术天花板提升,物理规律合理性、运动流畅性、指令遵循能力等基础属性均显著增强[7] - 分镜能力、音画同出功能缺位补齐且效果更好更可控[7] - 与海外差异化在于支持图片、音频、视频等多模态输入的参考生成,和视频二次编辑能力[7] - 视频生成赛道进入类似2025年大语言模型(LLM)的竞争状态,各家基础能力均达到较高水准,后续差异化或在于具体落地场景[7] 技术边际变化与影响 - 视频生成进入精准可控“仪表盘时代”,门槛降低带动B端和C端用户扩容[7] - 近期迭代的最新模型(如Vidu Q3/可灵 3.0/Seendance2.0)基本支持多模态输入架构,即可上传图片、视频、音频进行参考生成,相较去年的随机生成,可控性更强,抽卡成品率也显著提升[7] - 单次生成时长更友好(增至15秒左右),进一步降低了B端和C端用户的创作门槛[7] - 国产模型基本补齐多镜头叙事功能,对于泛C端小白用户,只要具备好想法就能借助工具创作;对于B端创作者,模型自主设计每个分镜头,降低了对创作者分镜功底的要求[7] - 模型支持对生成内容进行精细化的增、删、改操作,快速完成二次调整[7] - 判断2026年模型的技术迭代更往生产流程落地,帮助创作者高效表达意图、实现可控创作[7] 投资建议与相关标的 - 投资建议:应重视垂类多模态AI应用机会,看好技术突破、成本优化带来产业趋势加速发展,带动用户增长、付费渗透和商业化再上台阶[2] - 尤其关注有多模态AI应用出海布局的公司,起量速率或更快[2] - 相关标的包括:谷歌(ALPHABET)-A(GOOGL.O,未评级)、快手-W(01024,买入)、MINIMAX-WP(00100,未评级)、美图公司(01357,买入)[2]
走出屏幕,多模态智能硬件如何承载最新的 AI?
机器之心· 2026-02-08 09:30
各阵营的多模态智能硬件玩家都在争什么? - 多模态AI的发展缓解了智能硬件“感知单一、交互生硬、场景适配有限”的痛点,使其具备理解、推理和响应复杂现实场景的潜力,成为科技行业热门赛道[4] - 全球多模态AI市场预计到2030年将达到108.9亿美元,复合年增长率为36.8%,硬件设备是技术落地和增长的核心驱动力[4] - AI厂商正试图通过深度介入操作系统层争夺新型交互主导权,而手机厂商致力于将AI内化为产品的原生背景和默认功能[4] - 到2026年,全球AI支出将突破2万亿美元,其中将AI集成至智能手机、PC及基础设施是增长主推力,预计2026年生成式AI手机支出将达到3933亿美元[4] - 字节跳动通过豆包手机助手获取操作系统高权限实现跨应用调度,阿里巴巴探索MAI-UI与A2A跨应用调取路线,腾讯推出1.8B端侧翻译模型并联动小程序生态[4] - 手机厂商聚焦系统级AI、端侧推理和端云协同,例如三星计划在2026年底前为8亿台设备集成Galaxy AI,华为通过HarmonyOS 6推进端侧AI Agent框架公测[4] - 机器人行业正从“实验演示”向“工程化量产”跨越,摩根士丹利估算到2050年全球将有超过10亿台人形机器人投入使用,市场规模有望达5万亿美元,其中约九成服务于工业和商业场景[4][5] - 特斯拉计划于2026年量产搭载22自由度机械手的Optimus Gen 3,目标2030年年产百万台,而1X Tech专为家庭场景设计的双足人形机器人NEO已开放预订,计划2026年交付[5] - 智能眼镜成为厂商争夺交互主权、实现主动服务场景的关键载体,2025年全球智能眼镜领域共记录融资36起,融资总额估算约为43.67亿元,流向26家创企,其中终端品牌方融资占比过半[5] - Meta、阿里巴巴、百度及Rokid等厂商的智能眼镜向“轻量化”、“多模态化”发展,通过集成多模态模型实现拍照识物、跨语言同传和大模型多意图执行等功能[5] 近半年涌现了哪些「新型」智能硬件? - 智能硬件正向更精细的形态演进,出现了戒指、胸针等轻量化穿戴硬件,以及针对办公场景的卡片录音设备,旨在通过更隐蔽、高效的感知方式融入个人生活、健康管理和职场协作等场景[6]
奇富科技开启直播 探讨信贷多模态AI如何定标准
证券日报· 2026-02-06 17:44
文章核心观点 - 金融AI的落地面临缺乏统一评测标准的挑战,行业需要建立公平、公开、实战导向的基准来推动发展 [1][3] - 奇富科技联合高校发布了首个面向信贷场景的多模态评测基准FCMBench-V1.0,旨在为模型评估提供“尺子” [3] 产业实践视角 - AI是工具,金融等高门槛行业是“肥沃的土地”,AI与场景的结合至关重要 [1] - 当前金融机构选择模型时面临困惑,不同模型声称的高分(如95分和98分)难以直接比较,决策易失焦 [1] - FCMBench的价值在于将模型置于同一起跑线,在真实业务条件下检验能力 [1] - FCMBench设计强调“实战性”,包括在合规前提下重构数据体系、映射真实业务流程、模拟光线角度反光等十余种真实干扰场景,直指金融风控中最具挑战性的推理问题 [1] - 构建评测基准非短期收益项目,但从长期看,行业共识和开源力量的形成将反哺业务本身 [1] 学术研究视角 - AI在金融领域的存在感被低估,其已深度参与保险定价、资产评估和量化交易等领域,只是价值未直接呈现在ToC产品中而“看不见” [2] - 好的数据集本身是对“好问题”的定义 [4] - 金融AI不能停留在通用模型的预训练与微调阶段,而应构建内生的金融思维链,让模型天然理解利率、规则与风险,以实现安全可信的推理能力 [4] - 构建具备金融思维链的AI是学界与产业必须协同解决的问题 [4] 行业活动与动态 - 奇富科技于2月5日举办了一场聚焦“信贷多模态AI如何定标准”的直播讨论,汇集了产业与学术前沿观点 [3] - 直播的核心议题是奇富科技联合复旦大学、华南理工大学研究人员近期发布的首个面向信贷场景的多模态评测基准FCMBench-V1.0 [3]
三星AR眼镜定档2026:谷歌加持,剑指Meta,憋大招还是赶晚集?
36氪· 2026-02-05 20:47
行业动态与竞争格局 - 智能眼镜是当前最炙手可热的风口,各厂商在技术、价格、生态、渠道等几乎所有维度展开激烈竞争 [1] - 苹果Vision Pro已发布但未普及,Meta与雷朋联名眼镜销售火爆,国内雷鸟、Rokid等创业公司产品已迭代多轮,小米、闪极等厂商也已跨界入场 [1] - 三星作为安卓阵营巨头,其首款AI眼镜确认将于2026年正式登场,计划提供“丰富的、沉浸式的多模态AI体验” [1] - 2026年被认为是AR眼镜的“iPhone时刻”,在CES 2026上已有数百个品牌推出智能眼镜,行业进入爆发前夜 [29] 三星AI眼镜产品细节 - 产品设计思路明确对标Meta Ray-Ban,机身重量控制在50克左右,属于同类产品中游水平 [5][6] - 核心芯片大概率搭载高通骁龙AR1 Gen 1,性能足以处理语音、拍照和AI识别,但无法运行大型应用 [9] - 相机配备一颗1200万像素索尼传感器,支持自动对焦,主要用于AI识别而非高质量摄影 [9] - 内置电池容量约为155mAh,与Meta Ray-Ban的154mAh相近,定位为碎片化使用,配合充电盒可满足一天断断续续的使用 [10] - 产品可能没有屏幕或仅配备简单的单目AR显示屏,用于显示导航箭头或翻译字幕 [12] - 泄露的两个可能型号为SM-O200P和SM-O200J,P可能代表主打户外的无显示变色片版本,J可能是与Galaxy XR类似的高配版 [12] 三星的核心竞争优势 - 三星拥有庞大的Galaxy硬件生态和全球用户基础,2025年三星手机以19%的全球市场份额排名第二,意味着数亿潜在用户 [15][17] - 成熟的Galaxy可穿戴设备生态(如Galaxy Watch、Galaxy Ring)为AI眼镜作为视觉入口提供了无缝连接的基础 [17] - 眼镜将首发搭载谷歌Android XR系统,可直接兼容Google Play Store上的大部分手机和平板应用,并集成谷歌Gemini大模型 [19][21] - Gemini大模型在多模态交互上具有明显优势,能通过听、说、看来理解世界并提供实时辅助 [22] - 谷歌提供的系统级打通,比仅在眼镜中塞入大模型接口的第三方产品体验更流畅 [25] - 公司在海外市场拥有强大的品牌号召力、供应链掌控力及全球运营商渠道网络,这是初创公司难以逾越的护城河 [28] 三星的产品策略与市场定位 - 公司采取谨慎策略,等待谷歌Gemini和Android XR技术成熟后才推出产品,旨在推出一款软硬件成熟度极高的产品来确立行业标准 [26] - 产品定位首先是时尚单品,其次才是电子产品 [13] - 公司在价格和新品推出速度上无法与国内厂商竞争,但其综合实力在海外市场具备显著优势 [28]
英伟达Jim Fan:“世界建模”是新一代预训练范式
36氪· 2026-02-05 15:34
核心观点 - 英伟达机器人主管Jim Fan提出,继“下一个词预测”之后,“世界建模”将成为新的预训练范式,并预测2026年将成为大世界模型为机器人及多模态AI奠定基础的第一年 [1][2][5] 技术范式转变 - 预训练范式正从“下一个词预测”转向“世界建模”,即“下一个物理状态预测” [5] - 世界建模的定义是在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态) [5] - 视频生成模型是世界模型的一种实现形式,其“下一个状态”是一系列RGB帧(通常为8–10秒,最长可达数分钟),“动作”是一段文本描述 [5] - 训练过程是对数十亿小时视频像素的未来变化进行建模,视频世界模型本质上是可学习的物理模拟器和渲染引擎 [6] 当前技术路线与局限 - 2025年物理AI领域以视觉语言动作模型为主,即在预训练视觉语言模型上接入机器人动作解码器 [8] - 视觉语言动作模型更像是“语言 > 视觉 > 动作”的等级递减结构,其中大多数参数用于知识而非物理能力 [9] - 视觉语言动作模型的设计在知识检索上很强,但物理能力分配不足,且多阶段嫁接的设计不够简洁优雅 [9] - 视觉语言模型中,视觉编码器在训练中会主动丢弃细节,而机器人操作恰恰依赖这些细节 [24] 世界模型的优势与愿景 - 世界模型能够捕捉反事实情景,即预测如果采取不同动作未来可能会如何不同,这本身就是一种推理 [6] - 世界模型从根本上以视觉为中心,而视觉语言模型本质上是以语言为中心的 [6] - 从生物学角度看,视觉主导了人类皮层计算,约三分之一的大脑皮层用于处理像素,视觉是连接大脑、运动系统和物理世界的最高带宽通道 [10] - 自然界例证表明,高灵巧物理智能(如猿类)几乎不依赖语言,它们拥有对物理世界如何运作的稳健心理表征,其物理技能远超当前最先进的机器人 [10][12][13] - 世界模型是连接虚拟与物理两个领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力,就像大语言模型作为基座模型能兼容多种任务一样 [26] 未来发展方向 - 2026年将迎来物理AI的爆发,大世界模型将首次为机器人领域以及更广义的多模态AI奠定真实基础 [2][5] - 新的预训练形式将出现:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉 [5][16] - 新的推理形式将出现:在视觉空间中的思维链,而非语言空间中的思维链,可以通过模拟几何关系和接触来解决物理谜题 [5][17][18] - YouTube的海量视频和智能眼镜的兴起,将以远超文本训练规模的原始视觉流捕捉世界 [15] - 2026年将是多模态、多轮交互代理(机器人/具身通用智能体)之年,比赛的胜者必然会更重视视觉模态 [29] - 2026年或许是机器人技术最终停止依赖语言模型,转而构建原生系统的一年 [30] 面临的挑战 - 从像素到物理的跃迁仍然很陡峭,要让世界模型成为可靠的动作生成骨干,必须解决几何一致性、同一性保持、推理速度和动作采样等问题 [28] - 在数据量和计算需求上,这一目标将使当前的动作策略扩展显得相对温和 [28] - 即便未来模拟完美,仍需解决动作该如何解码、像素重建是否是最优目标、需要多少机器人数据、远程操作的扩展是否仍然可行等问题 [19] 行业动态与商业布局 - 谷歌、英伟达等公司都在虚拟游戏、视频以及物理机器人领域同步布局世界模型 [26] - 李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元 [31] - Yann LeCun创办的AMI Labs也吸引了包括Cathay Innovation在内的潜在投资者,传闻其融资估值可能达到35亿美元 [31]
英伟达Jim Fan:「世界建模」是新一代预训练范式
量子位· 2026-02-05 12:10
文章核心观点 - AI预训练范式正在发生第二次重大转变,从“下一个词预测”转向“世界建模” [6] - “世界建模”被定义为在给定动作条件下,预测下一个合理的世界状态 [5][9] - 2026年将成为大世界模型为机器人及广义多模态AI奠定真实基础的关键一年 [3][8] - 当前世界模型的应用炒作集中在AI视频和游戏,但其根本价值在于服务物理AI和具身智能 [7][10] - 世界模型将催生以视觉为中心、而非语言为中心的新推理形式 [10][25] 世界模型的定义与范式转变 - “世界建模”是继“下一个词预测”之后的第二个预训练范式,可称为“下一个物理状态预测” [6] - 世界模型本质上是可学习的物理模拟器和渲染引擎,能捕捉反事实情景并进行推理 [13] - 视频生成模型是世界模型的一种实现形式,其“下一个状态”是一系列RGB帧(通常8–10秒,最长数分钟),“动作”是描述文本 [11] - 训练过程是对数十亿小时视频像素的未来变化进行建模 [12] 当前技术路线的局限与对比 - 当前主流的视觉语言模型路线本质是以语言为中心,视觉是“二等公民” [14] - 2025年物理AI领域以视觉语言动作模型为主,它更像是“语言 > 视觉 > 动作”的等级递减结构 [15][16] - VLA模型参数多用于知识而非物理理解,其设计在知识检索上强,但物理能力分配不足 [16][17] - VLA模型不会随着视觉语言模型的规模扩大而自然增强物理能力 [34] 以视觉为中心的必要性与生物启示 - 从生物学看,视觉皮层主导了人类大脑的计算,是连接大脑、运动系统和物理世界的最高带宽通道 [18] - 视觉闭合了“感知—运动回路”,这是机器人最需要解决的回路,且中间不需要语言 [18] - 猿类拥有高超的物理技能但语言能力有限,证明高灵巧物理智能几乎不依赖语言 [19][20][21] - 猿类拥有对“如果……会怎样”的稳健心理表征,即对物理世界运作的理解 [21] 世界模型带来的新变革与挑战 - 新的预训练目标:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉 [10][24] - 新的推理形式:将出现“在视觉空间中的思维链”,通过模拟几何关系和接触解决物理问题,无需依赖语言 [10][25][43] - 面临的新挑战包括:动作如何解码、像素重建是否是最优目标、需要多少机器人数据、远程操作扩展是否可行等 [26][27] - 技术挑战具体包括:几何一致性、同一性保持、推理速度(降低实时循环延迟)、动作采样等 [44] 行业展望与商业动态 - 世界模型是一类全新的基础模型,是连接虚拟与物理领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力 [37] - 世界模型作为基座模型,可以兼容视频生成与具身操控两种应用 [39] - 谷歌、英伟达等公司正在虚拟游戏、视频以及物理机器人领域同步布局世界模型技术 [40] - 商业层面快速推进:李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元 [47] - LeCun创办的AMI Labs融资估值可能达到35亿美元 [47] - 2026年将是多模态、多轮交互代理之年,胜者必然更重视视觉模态 [45] - 2026年可能是机器人技术停止依赖语言模型,转而构建原生系统的一年 [46]
两大龙头中际旭创、新易盛为何大跌?四个原因曝光
中国证券报· 2026-02-04 13:18
AI硬件板块市场表现 - 中际旭创、新易盛两大光模块龙头股开盘持续下跌,盘中均一度跌超10% [1] - 龙头股下跌直接拖累AI硬件板块,胜宏科技、工业富联、英维克等其他细分领域硬件龙头股均跟随下跌 [1] - AI应用主线同样大跌,Sora概念、智谱AI、多模态AI等板块以及值得买、天龙集团、蓝色光标等个股均出现大跌 [4] 光模块龙头股下跌原因分析 - 市场担忧CPO(共封装光学)技术部署时间线清晰后对传统光模块行业的冲击,CPO技术能提高传输速度、减小尺寸、提高效率并降低功耗 [2] - 市场认为中际旭创与新易盛作为行业龙头,其业绩已基本处于“明牌”状态,可能缺乏预期差 [3] - 中际旭创披露2025年业绩预告,预计全年归母净利润为98亿元至118亿元,同比增长89.5%至128.17% [3] - 新易盛披露2025年业绩预告,预计全年归母净利润为94亿元至99亿元,同比增长231.24%至248.86% [3] - 存在“基金第一重仓股魔咒”的市场担忧,历史上成为公募基金第一大重仓股的股票之后一段时间股价往往出现大跌 [3] - 2025年四季度末,中际旭创取代宁德时代成为公募基金第一大重仓股,随后其股价在1月23日下跌5.8% [3] - 隔夜美股英伟达、博通等个股下跌,在情绪面上对A股算力硬件股产生了负面影响 [4] AI对软件行业影响的讨论 - 隔夜美股软件服务板块大跌,源于投资者担忧软件公司的核心业务可能被AI技术取代 [5] - “大模型会否吞噬软件”是近年来市场的焦点话题 [6] - 有观点认为AI的影响不局限于软件,各领域都有抓住AI机遇的软件公司崛起,例如广告领域的Applovin、视觉设计工具Figma和Canva [6] - 可能受到冲击的软件公司也会通过AI赋能自身业务 [6] - 开源模型的蓬勃发展被认为对软件公司有利 [6] - AI发展被视为模型与应用厂商共同做大蛋糕的过程,当前产业格局仍在变化,应具体分析不同公司在AI时代的核心竞争力与拥抱AI的执行力,而非笼统担忧 [6]
中胤时尚涨1.71%,成交额6057.58万元,今日主力净流入327.34万
新浪财经· 2026-02-03 17:36
核心观点 - 公司股价于2月3日出现异动,市场关注点集中于其涉及的三胎概念、新疆振兴、多模态AI、人民币贬值受益及虚拟数字人等多个主题[2] - 公司主营业务以时尚产品设计为核心,但供应链整合业务贡献了主要收入,2025年前三季度业绩承压,营收下滑但亏损同比收窄[7][8] - 近期主力资金呈现小幅净流入,筹码集中度渐增,技术面显示股价接近压力位[4][5][6] 业务与财务概况 - 公司是一家以时尚产品设计为核心业务的创意设计企业,设计及业务覆盖鞋履全品类[2] - 2025年1-9月,公司实现营业收入2.64亿元,同比减少8.48%;归母净利润为-1231.90万元,但同比增长50.10%[7][8] - 主营业务收入构成:供应链整合业务占77.12%,鞋履生产业务占6.93%,设计业务占6.61%,品牌运营业务占4.59%,其他业务占3.28%,文旅服务业务占1.46%[7] - 公司A股上市后累计派现8333.24万元,近三年累计派现5933.24万元[8] 市场表现与交易数据 - 2月3日,公司股价上涨1.71%,成交额6057.58万元,换手率1.43%,总市值42.72亿元[1] - 当日主力资金净流入327.34万元,占成交额0.05%,在所属行业中排名13/60,且连续3日获主力增仓[4] - 近10日主力净流入1535.68万元,但近20日主力净流出681.55万元[5] - 主力持仓方面,主力未控盘,筹码分布非常分散,主力成交额1569.60万元,占总成交额5.09%[5] - 截至1月20日,公司股东户数为8100户,较上期增加5.19%;人均流通股29629股,较上期减少4.94%[7] 概念主题与业务布局 - **三胎概念**:公司童鞋设计和供应链整合业务收入占比在10%-15%之间,鞋履设计覆盖童鞋品类[2] - **新疆振兴**:为响应国家号召,公司于2021年在新疆和田地区建立了鞋履生产基地[2] - **多模态AI与虚拟数字人**:公司参股孙公司新畅元科技的第一代数字人产品“创视元”支持AIGC多模态内容生成,可从文本、语音快速生成视频[2];元起点和新畅元科技在虚拟人技术,如3D数字人生成重建、AIGC+3D数字人等方面有技术储备[3] - **人民币贬值受益**:根据2024年年报,公司海外营收占比高达83.07%[3] 技术分析 - 该股筹码平均交易成本为17.02元,近期获筹码青睐,且集中度渐增[6] - 目前股价靠近压力位17.95元[6]
健康戒指卷生卷死,这个95后却做了一枚「听话」的戒指
36氪· 2026-02-03 08:37
公司核心产品与定位 - 公司开发了一款名为Spark Ring的AI戒指,定位为“世界上第一款指尖AI Agent”,主打隐秘无感、及时的信息捕捉与处理功能 [11] - 产品支持最长8小时连续录音,通过手机端Agent进行意图识别,可自动添加到日历或待办清单,并支持内容转发、流式解答与编辑 [11] - 与市面上主攻健康监测的智能戒指不同,公司旨在将戒指重新定义为“信息的捕手”,而非“体检仪” [13] - 公司的长期愿景是开发多模态AI戒指,认为这才是未来的方向,并视其为“憋的大招” [6][12] 产品开发与迭代历程 - 2025年8月首次展示的初代模型为3D打印的黑色戒指,带有方形凸起的嵌入式摄像头,外观被投资人评价为“太大太丑” [5][9] - 4个月后(约2025年底),产品迭代为小巧光滑的黑色陶瓷戒指,内壁透明可见电路板,移除了凸起的摄像头,与初代模型差异巨大 [10] - 产品功能重心根据市场反馈进行了调整:初期重AI意图识别与自动日程管理,但在CES上发现基础语音功能创造了80%-90%的价值,因此决定在AI上放缓,更注重语音闭环的跑通 [19][29] - 为适应海外用户(手指比国内用户大两圈左右),计划扩大戒指圈口 [30] - 最初认为摄像头是必要组件,以实现视觉能力并为未来大模型升级预留空间,但在2025年6、7月因融资不顺,决定先拿掉摄像头,聚焦基础功能验证 [55][59] 市场验证与用户反馈 - 产品在2025年CES展会上首次亮相,放置了10台可现场跑通的样机,新颖的语音交互体验吸引了众多关注与购买咨询 [22] - 海外用户(以CES现场为例)更关注实用价值与体验,例如能否在不掏手机的情况下清晰录音并准确转录意图,且付费意愿强,现场10个潜在用户中有8个佩戴着Oura等竞品戒指 [25][28] - 国内目标用户偏高级职场白领、终身学习者及极客,更注重产品逻辑自洽性与AI技术细节,但实际为AI产品付费的意愿较低 [26][28] - 通过CES验证了产品与市场匹配度,并收到了渠道商、供应商及B端订单的垂询 [24] - 产品计划于2026年3月中旬率先在美国市场上市,以低成本验证PMF,之后再在国内销售 [72] 创业历程与融资情况 - 创始人唐畅于2024年底从大厂AI部门离职创业,创业初期融资不顺,团队重组,依靠香港、深圳等地的补贴与孵化器扶持金维持 [10][15] - 融资过程中遭遇投资人给出投资意向又撤回、签署投资意向书后反悔、完成尽调后仅表示“持续关注”等情况 [15] - 在2025年10月成功获得融资,资金到账后团队重新扩张至13人,并搬迁了新办公室 [10][11][67] - 融资成功的关键调整之一是产品不再强调摄像头功能,同时PMF获得了投资人认可 [65] - 若融资未果,公司可依靠政府补贴维持一个2-3人的小团队至年底 [70] 行业机遇与竞争策略 - 创始人认为智能戒指领域存在创业者机会,因为大厂看不上当前仅几千万市场规模的产品,倾向于等市场被验证、规模达数亿后才进入,这为早期创新者积累了时间壁垒 [32][33] - 大厂内部决策链长、KPI导向的弊端导致其难以做出底层创新,更适合进行资源集中型的复制或竞争 [32][38] - 现有健康监测戒指产业的成熟,教育了用户接受戒指上集成电路板,这为AI戒指的发展奠定了基础 [36] - 公司相信未来通过OTA方式可远程升级产品,在硬件形态不变的情况下,借助更强的模型提供更多价值 [36] - 创始人认为“一个品不会死在抄袭上,死一定死在没验证上”,因此不惧创意被模仿,更关注市场验证本身 [44][46] 团队建设与运营 - 创始人为招募第一位硬件工程师,曾与其同住7天7夜,通过不断讲述梦想打动对方加入 [19][48] - 这位硬件工程师背景虽非顶尖,但曾获多项硬件金奖,能力突出,不过在融资前夕离开了团队 [49][50] - 获得融资后,创始人立即向已离职的硬件负责人支付了一些补偿,并迅速与供应商签订合同、支付款项以加快供应链运转 [71] - 公司强调需要“足够短平快的团队”,能够及时认清事实并调整策略 [39] 创始人理念与未来展望 - 创始人判断未来每个人都会拥有一个最随身的AI硬件 [74] - 认为未来人类的思考可能像绘画一样,因不如AI Agent的“TB级别思考”而成为一种艺术或运动形态 [74] - 预测未来人的状态和喜好将被很好模拟,产品将越来越能满足定制化需求 [75] - 创业初心在于验证一个具有未来潜力的品类,即使被模仿,市场成熟带来的收益也比创意夭折要好 [44]
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
量子位· 2026-01-22 19:13
平台概况与市场地位 - 平台名为SeaArt,是一个具备全链路多模态AI创作能力的平台,包括图片、视频、音频、数字人生成[3] - 平台全球访问量已超过Midjourney、Leonardo、Civitai,注册用户超过5000万,月访问量超过3000万[1] - 平台年度经常性收入超过5000万美金,用户单日能生成2000万张图和50万个视频[1] - 平台并非单一工具,被定位为“AI时代的全民级创作消费平台”[6] - 平台已构建去中心化的PUGC生态,官方称之为去中心化的“品味市场”[53] - 平台已积累全球规模最大的AI原生创作资产库之一,涵盖超过200万个AI创作SKU[55] 核心产品SeaVerse(SeaArt 2.0)功能 - SeaVerse是全新推出的全模态创作消费平台,相当于SeaArt 2.0,旨在帮助创作者打造AI时代的个人IP[8] - 平台依托多模态AI与Agent专家协作系统,通过“一句提示词生成宇宙”的极简交互,整合观看、游玩、创作、变现等场景[12] - 用户只需输入自然语言指令,即可生成图片、视频、音乐、小游戏或交互式应用[14] - 系统内置二十多个专项工具,如图像美化、一键抠图、动画细化,并可自动匹配调用底层模型与工具组件[16][17] - 在视频生成上,平台能拆解分镜、分段生成素材,再拼接整合,突破单次仅生成十几秒的局限,可生成一分钟带专属配乐的完整视频[28][30] - 生成的角色一致性保持相对稳定,且支持用自然语言在原有基础上修改,无需重新生成[23][31] - 可生成完整动画短片及音乐,例如根据描述生成复古童话风动画,或生成“马年新春祝福歌”完成作词、编曲与生成[27][32] - 所有生成素材保存在资源库,方便随时取用,生成的应用可在平台内一键发布分享[24][33] 技术架构与战略定位 - 团队明确不自研基础大模型,专注于应用层、内容层和体验层设计,定位为“应用层的调度者”[38][39] - 核心能力建立在模板体系、工作流引擎与算力调度系统之上,通过模板化、工作流与Agent架构降低用户创作门槛[40][44] - SeaVerse引入了多Agent协同工作流,配备面向影视、游戏等不同领域的制作Agency,将行业知识转化为可调用的AI工作流[41][43] - 调度系统将开源与闭源模型统一视为底层能力单元,按需调用、组合与编排[44] - 团队早期游戏行业经历积累了强大的算力资源调度和工程能力,使算力成本实现规模效应[50] - 护城河在于算力运营、用户洞察与生态构建的综合维度,而非单一技术[50] 团队背景与发展路径 - 背后团队为国内AI初创公司海艺互娱,成立于2023年[44] - 联合创始人马飞(CEO)与陈立(董事长)均拥有十余年游戏行业经验,曾参与《银河帝国》、《斯巴达战争》、《黑道风云》等爆款手游研发[45] - 2019年两人联合创立游戏公司星合互娱,旗下SLG游戏《The Ants-小小蚁国》海外连续两年流水超10亿元[45] - 团队利用AI为游戏业务提效后,决定跨足AI领域创立海艺互娱[46] - 出海游戏经验赋予平台全球化基因,率先进入巴西等市场,后布局日本、欧洲、美国等高付费市场[48] - 将构建SLG游戏复杂生态的能力,用于维系高粘性创作者社区的运营[50] 增长数据与生态运营 - 过去两年,海艺互娱的用户规模与收入每年均增长4-5倍[51] - 2024年,平台用户规模同比增长7.7倍,收入同比增长5.5倍[51] - 2025年通过发力多模态与视频创作,平台流量与收入持续加速增长[52] - 平台推出创作者激励机制,头部创作者已能实现每月3000-4000美元收益[54] - 平台上有大量用户持续使用Stable Diffusion 1.5等旧版本模型,消费核心是创作风格而非模型版本[54] - SeaVerse的上线进一步打通了“创作→发布→互动→二创→变现→再创作”的闭环机制[55] - 发展路径清晰:从工具切入,沉淀内容生态,进阶为多模态创作社区,最终锚定AI互动娱乐平台[56]