Workflow
多模态模型
icon
搜索文档
当所有机器人都在卷四肢和大脑,他十年只做一件事:脸|「锦供参考」Vol.04
锦秋集· 2026-03-03 20:43
公司核心战略与差异化定位 - 公司选择了一条与主流具身智能公司(如波士顿动力、Figure、特斯拉Optimus)专注于“四肢”或“大脑”完全不同的非共识路线,专注于研发机器人的“脸” [1][2][3][6] - 核心观点认为,人与机器人之间建立信任与情感连接的最关键接口是“脸”,而非语言或行动,因为人类大脑对脸部高度敏感,能快速识别情绪并产生情感投射 [5] - 该选择基于创始人十年的持续经历,并非营销噱头,旨在通过“脸”这一最古老的交互界面,建立人机信任与情感连接 [6][7][37] 技术路径与研发逻辑 - 技术研发避开需要复杂物理交互(如抓取、碰撞)的领域,专注于通过拉动面部肌肉表达感情,从而规避了硬件磨损、触觉传感器可靠性等难题 [12] - 选择“人脸”作为切口,是因为其环境变量单纯,便于集中精力研究能让模型实现“自我迭代”的算法路径 [11][13] - 对当前主流机器人算法路径(如VLA、VRM、World Model)持怀疑态度,认为机器人应学习“学习的能力”,实现任务的快速迁移,而非对单一任务的完全收敛 [16] - 公司相关论文登上《Science》封面,展示了通过声音生成自然嘴部动作的机器人,开创了以“人的界面”为主、融合多模态信息的新人机交互方向 [28] 市场前景与商业化落地 - 终极愿景是面向消费者(To C)市场,创造能提供情感陪伴与疗愈、让用户产生感情依赖的新品类机器人 [32][33] - 短期(2-3年内)更可行的落地场景是替代销售、前台、服务人员等“情绪消耗型”岗位的重复劳动力 [35][36] - 已与国内最大的沉浸式乐园合资成立公司,探索在乐园中部署机器人作为NPC,提供沉浸式交互体验,这是当前较好落地的场景 [43] - 相较于毛绒AI玩具等产品,“人脸机器人”的核心优势在于其极高的情绪表现力和零学习成本,人类能天然理解面部表情的含义 [45] 产品定义与设计哲学 - 产品的“脸”是否好看、符合审美至关重要,这直接关系到第一眼的亲和力与情感投射强度 [38] - 产品设计需兼顾三层需求:首先是像人以获得最大情感投射;其次是符合大众审美以获取市场空间;最难的是满足小众圈子的个性化需求 [38] - 公司已推出灵动的桌面级陪伴产品,短期内已可实现陪伴功能 [36] - 未来可能衍生出机器人“后事处理”等新的产业生态,以应对用户与机器人建立情感后产生的换代或处置需求 [40][41] 创始人背景与公司文化 - 创始人展现出极强的韧性,体现在其克服高考失利、为出国考9次托福等个人经历,以及创业中坚持“十年只做一件事”的笃定 [8][9][82] - 公司管理倡导“Context not Control”理念,强调透明、公平与提供上下文,而非控制,并避免酒桌文化等不必要的社交压力 [49][53][54] - 在招聘上,创始人特别看重拥有丰富且充满挫折经历(如参加Robomaster等艰苦比赛)、具备极强动手和问题解决能力的“韧性”人才 [86][87] - 公司认为,在早期吸引人才,利益(金钱、资源、成功率)是重要底线;随着公司发展,清晰的愿景(Vision)才成为留住顶尖人才的关键 [62][64][65] 行业洞察与竞争格局 - 当前行业众多公司聚焦于机器人的“四肢”或“大脑”,致力于在工厂等场景创造生产价值,而该公司选择强化人机之间的情绪连接与信任感 [1][16][80] - 行业面临数据获取成本高的挑战,例如Figure完成一个抓取任务需要1000小时的人类数据,这对于普通小团队而言非常昂贵 [18] - 随着社会自动化程度提高,尤其是在老龄化不可逆的背景下,人们对精神层面和情感陪伴的需求会越来越高,而让机器人获得人类信任是突破的关键 [19][80] - 创始人认为,机器人表演具有巨大潜力,不应局限于工具属性,可以融合动作与语言,参与舞蹈、小品等多种艺术形式,创造美学价值 [90]
对谈Fish Audio:千万ARR、12个月13倍增长,我们正进入AI Voice 2.0的技术爆发期
Founder Park· 2026-02-26 22:35
公司概况与市场地位 - Fish Audio是一家全球领先的AI语音生成平台,专注于多语言文本转语音和高精度声音克隆,其核心产品S1模型是世界首个支持通过自然语言描述控制情感的TTS模型[5][7] - 公司是全球第二大AI语音平台,仅次于ElevenLabs,拥有350万用户,月活用户超过100万,平台上拥有110万个由用户生成的公开声音模型,构成了全球最大的UGC声音模型市场[5][6][32] - 在过去12个月内,公司实现了13倍的增长,年度经常性收入达到1000万美元[5][6] 商业模式与客户构成 - 收入来源分为两大类:专业创作者直接使用平台进行内容创作,以及企业API用户,后者在过去三个月内收入占比已快速提升至40%[8][9] - 企业API客户主要包括四大类:AI陪伴类社交应用、游戏公司与B2B企业、AI内容创作平台以及实时语音智能体应用[9] - 公司采用产品驱动增长模式,结合开源社区运营和创作者平台的口碑传播,约60%的收入来自C端或专业创作者,这与其他AI基础设施公司显著不同[29][30][31] 技术战略与核心优势 - 技术路线上,公司采用端到端建模语义和声学信息的架构,与行业主流趋势一致,旨在实现更强的表现力和更低的延迟[10][11][23][24] - 公司的核心数据壁垒源于对“脏数据”的利用,如吵架、争论等包含重叠人声和丰富情感的音频,传统数据清洗会丢弃这些数据,而公司将其视为宝藏[2][19] - 公司构建了自研的数据管线,包括世界领先的情绪标注自动语音识别模型,并投入百万美元级别进行高质量、多语种、多任务类型的数据采集与标注[16][17][21] 产品矩阵与研发路线 - 公司采用模型矩阵策略匹配不同商业场景,而非追求单一模型,旗舰S1模型适用于娱乐和AI原生应用,即将推出的S2 Flash企业模型专注于低延迟客服场景,而S2 Pro则面向对声音质量和情感表达要求更高的内容生成场景[28] - 研发路线图明确:计划在未来半年内完成多模态感知模型的研发,在未来6-12个月内完成全双工模型的研发,并计划在今年年底推出端到端的“语音输入-语音输出”模型,目标是将延迟降至100毫秒以内[26][44] - 公司正从AI语音生成平台向多模态内容创作平台扩展,计划为创作者提供包括多轨编辑、唇形同步、视频化身等在内的端到端创作工具[39][44][46] 竞争格局与市场定位 - 公司认为独立的、专注于复杂情感控制的语音模型仍有持久生存空间,不易被多模态大模型直接吸收,因为互联网上缺乏高质量、带复杂标注的语音-文本配对数据[11] - 与主要竞争对手ElevenLabs的差异化在于:ElevenLabs主打传统企业配音和有聲書市场,而公司专注于为娱乐、游戏和AI原生应用提供更具情感和趣味性的声音,瞄准高增长潜力市场[29][43] - 公司计划采取“先占领AI原生应用市场,再切入传统世界500强企业市场”的竞争策略[43] 增长动力与护城河 - 公司拥有多个难以复制的闭环效应构成的护城河:1) 庞大的UGC声音模型生态;2) 基于实时人类反馈的强化学习管线,使用越多模型表现越好;3) 高效的模型架构带来成本优势;4) 开源社区带来的低获客成本和高信任度[37] - UGC生态通过激励机制(创作者可获得其模型所消耗付费代币的30%作为平台积分)和实时RLHF反馈循环得以强化,特定语种的使用量爆发能直接提升该语种模型的性能[33][34] - 开源策略是有效的分发和获客渠道,开源仓库累计获得超过10万GitHub星标,但商业化主要通过闭源模型实现,企业客户往往从使用开源模型开始,在起量后转向付费的闭源API[6][41][42] 行业趋势与未来展望 - 行业正进入“AI语音2.0”的技术爆发期,其特征是从广播式、正式的配音工具,转向更具交互性、情感化和智能体化的语音,延迟降低使得与AI的对话更像真人交互[48][49] - 全球有约4000万专业内容创作者正在逐步采用AI进行内容创作,这为AI语音市场带来了巨大的增长机遇[49] - 公司未来12-18个月的目标是实现更激进的增长,优化收入,目标ARR达到5000万至1亿美元,并扩展为多模态内容创作平台[44]
全线飘红!积极因素提振A股开市信心 机构看好这两大主线
广州日报· 2026-02-24 10:49
市场行情表现 - 2月24日A股马年首个交易日三大指数全线上涨 上证指数高开1.15%报4129.13点 深证成指高开1.52%报14313.86点 创业板指高开1.7%报3331.79点 [1] - 主要宽基指数普遍上涨 沪深300指数上涨1.44% 中证500指数上涨1.25% 中证1000指数上涨1.40% 万得全A指数上涨1.30% [2] - 市场情绪积极 万得全A指数成分股中上涨家数达4969家 下跌家数仅306家 成交额达305亿 [2] 驱动市场上涨的因素 - 春节假期海外市场行情积极 欧洲、东亚、南美多国股指先后创出历史新高 国际贵金属与原油价格携手走强 [2] - 全球流动性维持非常充裕的状态 资金不断流向各个预期有边际变化的经济体和股票市场 [2] - 节前A股跟随海外资产调整后已释放一定风险 节后A股即将进入一段高胜率窗口 [3] 机构对后市的观点 - 广发证券策略首席分析师刘晨明认为 随着一系列条件的满足和不确定性因素的落地 建议重整旗鼓备战马年的第一波上涨周期 [3] - 中国银河证券策略首席分析师杨超表示 春节假期后在政策预期、流动性支持与产业趋势催化下市场震荡上行概率较大 [3] - 兴业证券经济与金融研究院策略研究首席分析师张启尧继续看好A股节后迎来新一轮上行 [3] 机构看好的配置主线:科技 - 开源证券计算机行业分析师刘逍遥分析 2026年是AI走向价值落地和商业化的关键之年 多模态模型有望迎来“DeepSeek时刻” 在能力提升的同时实现成本端大幅下降 从而推动影视、游戏、广告等内容创意领域的繁荣 [4] - 兴业证券张启尧建议继续聚焦“泛AI资产” 围绕算力基础设施与商业化应用布局 [4] - 算力基础设施方向看好光模块、储能、电网、存储龙头、上游设备封测环节、半导体产业链等 [4] - 商业化应用方向看好人形机器人、智能驾驶、有望受到苹果公司年度股东大会催化的消费电子以及受益于多模态能力提升的游戏、营销、影视等 [4] 机构看好的配置主线:资源品 - 假期期间国际贵金属与原油价格走强 提升了其配置价值 [5] - 全球宏观叙事继续提升资源品战略性配置价值 国内新一轮价格周期的上行也在进一步丰富涨价线索 [5] - 春节后进入开工旺季 3—4月是全年工业、基建、地产等领域的活跃阶段 涨价线索易扩散 [5] - 值得关注的领域包括化工、钢铁、建材、高端制造等中游材料和制造行业 [5] - 同时可重视出口链的修复机会 如轻工家电、消费电子、电池、汽车零部件及医疗器械等细分方向 [5]
全年维度看好AI的价值落地与商业化
中国能源网· 2026-02-24 09:56
核心观点 - 2026年是AI走向价值落地和商业化的关键年,商业化成为大模型公司的核心命题 [1][3] - 2026年多模态模型有望迎来“DS时刻”,在能力提升的同时实现成本大幅下降,推动相关应用领域繁荣 [4][5] 市场回顾 - 报告期内(2026.2.9-2026.2.13),沪深300指数上涨0.36%,计算机指数上涨4.35% [2] AI价值落地与商业化 - Anthropic被视为商业化速度最快的大模型企业之一,其G轮融资300亿美元,估值达3800亿美元 [1][3] - Anthropic的年度经常性收入(ARR)增长迅速,从2023年底的1亿美元,提升至2024年底的10亿美元,截至2026年2月已达140亿美元 [3] - Claude Code是其最大增长引擎,ARR已突破25亿美元,2026年初以来企业订阅量激增4倍,企业客户贡献营收占比已超过一半 [3] - Claude的应用正从编程向金融分析、数据建模、销售、网络安全、科研发现等关键领域拓展 [3] - OpenAI近期解散其内部“使命对齐”团队,并将算力支出目标下调至6000亿美元,预计到2030年总营收将超过2800亿美元,消费者与企业业务贡献大致相当,显示出从AGI理想转向商业优先的迹象 [3] 多模态模型发展 - OpenAI在2024年2月推出初代Sora模型,被视为视频领域的“GPT 1时刻”;2025年9月底推出Sora2,迎来“GPT3.5式突破” [4] - 谷歌于2025年10月16日在Gemini API中发布Veo3.1和Veo3.1Fast付费预览版,在音频支持、叙事控制及质感还原方面进行重大升级 [4] - 2026年2月5日,可灵AI全球上线3.0系列模型;2月7日,Seedance2.0正式上线,能生成1080p广播级标准视频 [4] - 借鉴DeepSeek开源与成本优势驱动文本大模型普及的经验,多模态模型有望在2026年迎来类似时刻,能力提升伴随成本端大幅下降,从而推动影视、游戏、广告等内容创意领域繁荣 [4][5] 投资建议 - 报告维持两个关键判断:2026年是AI价值落地和商业化关键年;多模态模型有望迎来“DS时刻” [5] - AI应用推荐公司包括:金山办公、合合信息、鼎捷数智、迈富时、致远互联、金蝶国际、博彦科技、用友网络、同花顺、恒生电子、拓尔思、科大讯飞、焦点科技、中科创达、税友股份、上海钢联等 [5] - AI应用受益标的包括:泛微网络、福昕软件、汉得信息、万兴科技、第四范式、多点数智、北森控股、新开普、新致软件、欧玛软件、汉邦高科、石基信息、汉王科技、汉仪股份、三六零、彩讯股份、金桥信息、佳讯飞鸿等 [5] - 多模态领域受益标的包括:万兴科技、海天瑞声、虹软科技、当虹科技、快手-W、美图公司、阜博集团等 [5]
国泰海通|传媒:巨头红包大战争夺AI入口,大模型密集更新
春节AI营销与竞争格局 - 互联网巨头在2026年春节围绕“AI超级入口”展开红包大战,总投入金额超80亿元,主要参与者包括字节、阿里、腾讯、百度,其核心AI应用(豆包、千问、元宝、文心)成为红包派发主阵地 [1] - 红包活动拉新效果显著:2月6日(活动首日),千问App DAU实现727.7%的增长,达到5848万,较前一日增长超5100万,与豆包的DAU差距缩小至2275万;元宝在2月1日活动首日DAU达2399万,较前一日增长2.1倍 [1] - 字节跳动深度绑定央视春晚,其火山引擎成为独家AI云合作伙伴并参与内容制作,除夕当天豆包AI总互动达19亿,并于2月17日登顶AppStore免费榜 [1] AI入口竞争的核心要素 - 春节营销是短期用户增长的窗口,但AI入口竞争的最终胜负手在于用户留存,而留存取决于基座模型能力以及背后的大厂基建与生态支撑 [2] - 互联网厂商在补贴拉新之外,更注重引导用户形成AI使用路径:阿里千问以消费场景切入,通过“免单”功能训练用户调用Agent完成任务的习惯,以加深信任并形成复购;字节则凭借视频领域积累,发力多模态模型并应用于春晚内容制作,同时激励用户使用模型进行图片视频生产以深化用户心智 [2] 大模型技术进展与能力提升 - 春节前后大模型密集更新,多模态和智能体(Agent)能力显著增强,且Agent工程化能力成为基座模型标配 [3] - 具体模型更新包括:智谱GLM-5和MiniMax M2.5强调编程与智能体能力,性能对标Claude Opus 4.6等顶尖模型;DeepSeek灰度更新版本将上下文窗口提升至1M(100万token),并强调长上下文和代码生成能力;字节上线Seedance2.0视频生成模型并集成至即梦AI、豆包等平台,在文生视频、图生视频及多模态参考生成任务上达到行业领先水平;阿里发布Qwen3.5,在多模态理解、推理、编程及Agent能力上领先同级开源模型 [3] 投资主线建议 - 建议围绕三条主线进行布局:关注基座模型及生态领先的互联网大厂;关注上市模型厂商;关注内容及IP方,其将受益于基座模型的突破,可优先关注在商业层面率先取得进展的AI营销、AI短剧及AI电商板块 [3]
周观点:全年维度看好AI的价值落地与商业化
开源证券· 2026-02-23 18:45
行业投资评级 - 投资评级:看好(维持)[1] 核心观点 - 2026年是AI走向价值落地和商业化的关键年,商业化将是大模型公司的关键命题[4][10] - 2026年,多模态模型有望迎来“DS时刻”,在能力提升的同时实现成本端大幅下降,从而推动影视、游戏、广告等内容创意领域的繁荣[5][11] 市场回顾与行业走势 - 2026年2月9日至2月13日期间,沪深300指数上涨0.36%,计算机指数上涨4.35%[3][13] - 截至2026年2月,计算机行业指数表现优于沪深300指数[2] AI商业化进展与关键判断 - Anthropic被认为是商业化速度最快的大模型企业之一,其G轮融资300亿美元,估值达3800亿美元[4][10] - Anthropic的年度经常性收入(ARR)从2023年底的1亿美元,提升至2024年底的10亿美元,截至2026年2月已达140亿美元[4][10] - Claude Code成为其最大增长引擎,ARR突破25亿美元,2026年初以来企业订阅量激增4倍,企业客户贡献的营收占比已超过一半[4][10] - OpenAI已解散其内部“使命对齐”团队,并将算力支出目标从1.4万亿美元下调至6000亿美元,预计到2030年总营收将超过2800亿美元,消费者业务与企业业务贡献大致相当,显示出从AGI理想转向商业优先的趋势[4][10][31] 多模态模型发展动态 - OpenAI于2024年2月推出初代Sora模型,2025年9月底推出Sora 2,被视为视频领域的突破[5][11] - 谷歌在2025年10月16日发布了Veo 3.1和Veo 3.1 Fast付费预览版,在音频支持、叙事控制及质感还原方面进行了重大升级[5][11] - 2026年2月5日,可灵AI正式全球上线3.0系列模型[5][11] - 2026年2月7日,Seedance 2.0正式上线,能生成真正的1080p分辨率广播级视频,具备音视频同步、多镜头叙事等能力[5][11] - 谷歌曝光Gemini 3.1 Pro最新模型,在ARC-AGI-2推理基准测试中得分为77.1%,远高于Gemini 3 Pro的31.1%,但保持与Gemini 3 Pro相同的定价[33] 投资建议与受益标的 - AI应用领域推荐标的包括:金山办公、合合信息、鼎捷数智、迈富时、致远互联、金蝶国际、博彦科技、用友网络、同花顺、恒生电子、拓尔思、科大讯飞、焦点科技、中科创达、税友股份、上海钢联等[6][12] - AI应用领域其他受益标的包括:泛微网络、福昕软件、汉得信息、万兴科技、第四范式、多点数智、北森控股、新开普、新致软件、欧玛软件、汉邦高科、石基信息、汉王科技、汉仪股份、三六零、彩讯股份、金桥信息、佳讯飞鸿等[6][12] - 多模态领域受益标的包括:万兴科技、海天瑞声、虹软科技、当虹科技、快手-W、美图公司、阜博集团等[6][12] 公司动态:业绩快报 - 光云科技:2025年度预计实现营业收入56,538.06万元,同比增长18.33%;预计归母净利润为-2,638.02万元,同比减亏67.85%[14] - 国网信通:2025年度预计实现营业总收入1,062,782.05万元,同比增长1.99%;预计归母净利润67,820.02万元,同比下降16.91%[14] - 中控技术:2025年度预计实现营业总收入805,062.53万元,同比减少11.90%;预计归母净利润45,009.58万元,同比减少59.70%[15] - 莱斯信息:2025年度预计实现营业总收入127,353.29万元,同比下降20.89%;预计归母净利润5,523.29万元,同比下降57.20%[15] - 金橙子:2025年度预计实现营业收入25,339.82万元,同比增长19.46%;预计归母净利润3,726.47万元,同比增长22.20%[15] 公司动态:投资与并购 - 盛视科技拟投资设立全资子公司深圳盛信投资有限公司,注册资本为人民币20,000万元[16] - 恒为科技拟出资3,500万元参与设立南通正海恒浦创业投资合伙企业(有限合伙),认缴出资占比20.00%[16] - 银信科技拟出资510万元(占51%股权)与华章智教等共同投资设立合资公司,合资公司注册资本为1,000万元[16] - 拓尔思以自有资金2,120万元认购深圳星连荣基创业投资合伙企业(有限合伙)份额,该基金规模为21,201万元[17] 公司动态:股权激励与员工持股 - ST迪威迅发布2026年股票期权激励计划(草案),拟授予第一类限制性股票2,725.49万股,占公司总股本的7.00%,授予价格为每股2.55元[18] - 智莱科技发布第一期员工持股计划(草案),筹集资金总额不超过3,860万元,业绩考核目标为以2024年营收为基数,2026/2027年的营收增长率分别不低于45%/65%[19] 公司动态:其他公告(股东减持) - 焦点科技:财务总监顾军、董事兼董事会秘书迟梦洁、高级副总裁成俊杰计划合计减持不超过约143,760股[20] - 捷顺科技:实际控制人刘翠英计划减持不超过17,910,000股,占公司总股本不超过2.80%[21] - 千方科技:大股东杭州灏月计划合计减持不超过23,650,697股,占公司总股本(剔除回购股份)1.50%[21] - 岩山科技:董事及高级管理人员陈于冰、黄国敏计划合计减持不超过约16,903,100股[22][23] 行业动态:国内要闻 - 腾讯元宝在春节活动期间日活跃用户突破5000万,月活跃用户达到1.14亿[24] - 月之暗面Kimi新一轮超7亿美元融资即将完成交割,由阿里、五源等老股东联合领投,腾讯参与投资[25] - 宇树科技创始人预计2026年公司人形机器人目标出货量在1-2万台左右[26] - 豆包通过春晚送出超10万份科技好礼和现金红包,AI总互动达19亿次,其视频生成模型Seedance 2.0参与了多个春晚节目的视觉创作[27] - 阿里正式发布全新一代大模型千问Qwen3.5-Plus,实现了从纯文本到原生多模态的升级[28][29] - 豆包大模型2.0正式发布,包含Pro、Lite、Mini三款通用Agent模型和Code模型[30] 行业动态:海外要闻 - OpenAI计划到2030年投入约6000亿美元用于算力建设,较此前宣称的1.4万亿美元目标大幅下调[31] - 英伟达正接近与OpenAI达成一项约300亿美元的股权投资协议,这意味着双方将放弃此前宣布的1000亿美元多年投资合作计划[34]
周观点:全年维度看好AI的价值落地与商业化-20260223
开源证券· 2026-02-23 15:56
报告投资评级 - 行业投资评级:看好(维持) [1] 报告核心观点 - 核心观点一:2026年是AI走向价值落地和商业化的关键年,商业化成为大模型公司的核心命题 [4][10] - 核心观点二:2026年多模态模型有望迎来“DS时刻”,即在能力提升的同时实现成本大幅下降,推动影视、游戏、广告等内容创意领域繁荣 [5][11] - 市场回顾:2026年2月9日至2月13日期间,沪深300指数上涨0.36%,计算机指数上涨4.35% [3][13] 周观点:全年维度看好AI的价值落地与商业化 - **AI商业化加速**:全球AI发展已从模型混战进入应用探索阶段 [4][10] - **标杆公司表现**:Anthropic被认为是商业化最快的大模型企业之一,其G轮融资300亿美元,估值达3800亿美元 [4][10] - **收入增长迅猛**:Anthropic的年度经常性收入(ARR)从2023年底的1亿美元,增长至2024年底的10亿美元,截至2026年2月已达140亿美元 [4][10] - **核心增长引擎**:Claude Code的ARR已突破25亿美元,2026年初以来企业订阅量激增4倍,企业客户贡献营收占比超一半 [4][10] - **应用领域拓展**:Claude正从编程向金融分析、数据建模、销售、网络安全、科研发现等关键领域拓展 [4][10] - **行业战略转向**:OpenAI解散内部“使命对齐”团队,并将算力支出目标从1.4万亿美元下调至6000亿美元,预计2030年总营收超2800亿美元,表明其从AGI理想转向商业优先 [4][10][31] 多模态模型进展 - **发展历程**:OpenAI的Sora模型在2024年2月推出是视频领域的“GPT-1时刻”,2025年9月底的Sora 2则是“GPT-3.5式突破” [5][11] - **竞品迭代**:2025年10月16日,谷歌发布Veo 3.1和Veo 3.1 Fast付费预览版,带来音频支持、叙事控制等升级 [5][11] - **国内模型发布**:2026年2月5日,可灵AI全球上线3.0系列模型;2月7日,Seedance 2.0正式上线,能生成真正的1080p广播级视频 [5][11] - **技术突破**:Seedance 2.0具备音视频同步、多镜头叙事、流畅运动合成及卓越的提示词遵循能力 [11] - **成本与普及**:DeepSeek的开源与成本优势驱动文本大模型普及,预计多模态模型将迎来“DS时刻”,实现能力提升与成本下降 [5][11] 投资建议 - **维持两大判断**:一是2026年是AI价值落地和商业化关键年;二是多模态模型将迎来“DS时刻” [6][12] - **AI应用推荐标的**:包括金山办公、合合信息、鼎捷数智、迈富时、致远互联、金蝶国际、博彦科技、用友网络、同花顺、恒生电子、拓尔思、科大讯飞、焦点科技、中科创达、税友股份、上海钢联等 [6][12] - **AI应用受益标的**:包括泛微网络、福昕软件、汉得信息、万兴科技、第四范式、多点数智、北森控股、新开普、新致软件、欧玛软件、汉邦高科、石基信息、汉王科技、汉仪股份、三六零、彩讯股份、金桥信息、佳讯飞鸿等 [6][12] - **多模态领域受益标的**:包括万兴科技、海天瑞声、虹软科技、当虹科技、快手-W、美图公司、阜博集团等 [6][12] 公司动态 - **业绩快报**: - 光云科技:2025年度预计营业收入56,538.06万元,同比增长18.33%;归母净利润-2,638.02万元,同比减亏67.85% [14] - 国网信通:预计营业总收入1,062,782.05万元,同比增长1.99%;归母净利润67,820.02万元,同比下降16.91% [14] - 中控技术:预计营业总收入805,062.53万元,同比减少11.90%;归母净利润45,009.58万元,同比减少59.70% [15] - 莱斯信息:预计营业总收入127,353.29万元,同比下降20.89%;归母净利润5,523.29万元,同比下降57.20% [15] - 金橙子:预计营业收入25,339.82万元,同比增长19.46%;归母净利润3,726.47万元,同比增长22.20% [15] - **投资与并购**: - 盛视科技:拟投资2亿元设立全资子公司深圳盛信投资 [16] - 恒为科技:拟出资3500万元(占比20%)参与设立规模1.75亿元的创业投资基金 [16] - 银信科技:拟出资510万元(持股51%)设立合资公司 [16] - 拓尔思:拟以2120万元认购深圳星连荣基创业投资基金份额,基金规模2.1201亿元 [17] - **股权激励**: - ST迪威迅:发布2026年股票期权激励计划(草案),拟授予第一类限制性股票2725.49万股,占公司总股本7%,授予价格每股2.55元 [18] - 智莱科技:发布第一期员工持股计划(草案),筹集资金总额不超3860万元,考核目标为以2024年营收为基数,2026/2027年营收增长率不低于45%/65% [19] - **其他公告(股东减持)**: - 焦点科技:三位高管计划合计减持不超过143,760股 [20] - 捷顺科技:实际控制人计划减持不超过1791万股,占公司总股本不超过2.80% [21] - 千方科技:大股东计划减持不超过2365.0697万股,占公司总股本(剔除回购股份)1.50% [21] - 岩山科技:两位高管计划合计减持不超过1690.31万股 [22][23] 行业动态 - **国内要闻**: - 腾讯元宝在春节活动期间日活跃用户突破5000万,月活跃用户达1.14亿 [24] - 月之暗面Kimi即将完成新一轮超7亿美元融资,由阿里、五源等老股东联合领投 [25] - 宇树科技创始人预计2026年公司人形机器人目标出货量在1-2万台左右 [26] - 豆包通过春晚送出超10万份科技好礼和现金红包,AI总互动达19亿次 [27] - 阿里正式发布全新一代多模态大模型千问Qwen3.5-Plus,以不到40%参数量达到顶尖性能 [28][29] - 豆包大模型2.0正式发布,包含Pro、Lite、Mini三款通用Agent模型和Code模型 [30] - **海外要闻**: - OpenAI预计2030年总营收将超2800亿美元,并将算力建设支出计划从1.4万亿美元修正至6000亿美元 [31] - NASA“阿耳忒弥斯2号”载人绕月任务因技术问题推迟,原定3月发射取消 [32] - Google曝光Gemini 3.1 Pro模型,在ARC-AGI-2推理基准测试中得分为77.1%,较Gemini 3 Pro的31.1%大幅提升,且定价不变 [33] - 英伟达拟斥资约300亿美元投资OpenAI,取代此前宣布的1000亿美元合作计划 [34]
阿里发布千问3.5:性能媲美Gemini 3,Token价格仅为其1/18
新浪财经· 2026-02-16 17:13
阿里巴巴发布千问Qwen3.5-Plus大模型 - 阿里巴巴于2月16日(除夕)开源全新一代大模型千问Qwen3.5-Plus,宣布其性能媲美Gemini 3 Pro,并登顶全球最强开源模型 [1][4] - 该模型实现了底层模型架构的全面革新,从纯文本模型跃迁为原生多模态模型,基于视觉和文本混合token进行预训练 [1][4] 模型性能与效率 - Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,性能超过万亿参数的Qwen3-Max模型 [1][4] - 部署显存占用降低60%,推理效率大幅提升,最大推理吞吐量可提升至19倍 [1][4] - 以不到40%的参数量获得了超万亿参数Qwen3-Max基座模型的顶尖性能 [1][4] 成本优势 - Qwen3.5-Plus的API价格低至每百万Token 0.8元,仅为Gemini 3 Pro价格的1/18 [1][4] 技术升级与数据增强 - 相比千问3的纯文本预训练,千问3.5大幅新增了中英文、多语言、STEM和推理等数据 [1][4] - 技术升级使模型学会了更密集的世界知识和推理逻辑 [1][4] 基准评测表现 - 在MMLU-Pro知识推理评测中得分87.8分,超越GPT-5.2 [2][5] - 在博士级难题GPQA测评中斩获88.4分,高于Claude 4.5 [2][5] - 在指令遵循IFBench以76.5分刷新所有模型纪录 [2][5] - 在通用Agent评测BFCL-V4、搜索Agent评测Browsecomp等基准中,表现均超越Gemini 3 Pro和GPT-5.2 [2][5] - 在推理、编程、Agent智能体等全方位基准评估中均表现优异 [1][4]
这个春节,字节跳动杀疯了!Seedance2.0、豆包2.0接连问世,一文全看懂
搜狐财经· 2026-02-14 22:21
豆包2.0大模型系列发布概览 - 字节跳动发布豆包大模型2.0系列,包括Pro、Lite、Mini三款多模态通用模型及面向开发者的Code模型,以满足不同场景对延迟和成本的需求[4] - 该系列模型是支撑此前现象级产品Seedance2.0和Seedream模型的底层基座模型,完成了字节豆包大模型家族的布局[4][5] - 豆包2.0的价格仅为Gemini 3 Pro的四分之一,同时具备顶级的多模态理解和推理能力[3] 模型核心特点与能力 - 豆包2.0采用大一统的多模态原生框架,所有模态从训练初期就整合在一起,并原生支持多模态推理和Agent能力[10] - 模型视觉与多模态理解能力提升,针对易产生幻觉的场景进行优化,并增强了复杂指令执行、记忆、搜索及知识能力[9] - 模型展现出在复杂计算领域进行严格问题求解的能力,在处理真实复杂代码生成任务时,其解决方案策略不同于评测基准的官方参考实现[10] - 在基于视觉的推理能力上,豆包2.0展示出对GUI操作界面的强理解和推理能力,以及增强的实时反思能力,例如能完成高噪音的freeCAD环境中的语义GUI理解任务[10] 产品策略与市场反响 - 豆包模型系列的核心策略是解决真实世界问题,通过火山引擎、豆包App等与模型彻底连通,让真实用户需求直接影响基础模型的训练方向和标准[7][8] - 与以往模型发布不同,豆包系列未过度强调榜单排名,而是以被广泛、高频使用的形式流行,用户更关注其解决实际需求的产品体验而非技术指标[6] - Seedance2.0的成功部分源于豆包2.0基座模型提供的“参考”能力,该能力已进入风格层面,这是单纯视频模态模型无法具备的[12] - 豆包App作为国民级产品,其模型更新意味着为数亿活跃用户提供服务,这使得豆包系列成为少数直接面对海量真实用户进行训练和优化的模型[14][15] 技术基础设施与研发路径 - 字节跳动选择关键技术全自研、模型闭源、产品与研发全面打通的路线,与Google的路径相似[17] - 火山引擎作为模型对外的统一出口,其模型策略团队负责收集和抽象市场需求,并直接反馈至模型研发方向,确保以真实业务价值衡量模型能力[17] - 近期Seedance2.0等模型需求暴增,给火山引擎的算力基础设施带来巨大压力和更高要求,同时这一过程积累的真实经验也反向提升了模型训练的token利用率和算力效率[17] - 公司内部评估体系基于真实世界任务构建,并为此类工作分配了充足的算力资源,这是实现端到端任务的关键[9] 行业定位与战略意义 - 豆包2.0的发布被视为字节跳动的“Gemini 3时刻”,意味着其坚持的闭源、与规模化真实应用结合的路线正迎来证明时刻[19][20] - 与Google类似,字节将AI核心技术长在以AI为核心的机器学习平台和云服务上,再将“豆包同款”能力细化为产品提供给外界[18] - 豆包系列模型没有专注于“屠榜”顶尖任务,而是致力于在多模态智能维度扩展与处理广泛基础需求的能力之间寻找平衡[14] - 公司非常重视模型在基础科学任务中的表现,如数学猜想、广义相对论、量子编译器调试和计算化学等,以训练其理解抽象概念和发现并修复真实漏洞的能力[13][14]
Seedance 2.0全量上线,字节正式加入春节模型大战
36氪· 2026-02-12 17:53
核心观点 - 字节跳动提前发布其多模态视频生成模型Seedance 2.0,正式加入春节期间的AI模型竞争,该模型在多项基准测试中表现领先,并增强了在影视、广告等领域的应用潜力 [1][2][16] 产品发布与规划 - 公司原计划于2月14日发布Seedance 2.0、图像创作模型Seedream 5.0 Preview及豆包大模型2.0,但Seedance 2.0已提前亮相 [2] - 模型已整合至即梦APP端和PC端,但两端功能存在差异,移动端“出镜”功能默认采用Seedance 2.0,而PC端用户可在“全能参考”和“首尾帧”入口使用该模型 [10][11][14] 技术架构与核心能力 - Seedance 2.0采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入 [2] - 模型支持混合模态输入,允许用户同时输入多达9张图片、3段视频、3段音频以及自然语言指令 [3] - 核心能力包括解决物理规律遵循和长效一致性难题,依靠海量世界知识、稀疏架构效能优势及多模态联合训练的泛化能力 [6] - 模型具备视频编辑能力,支持对指定片段、角色、动作或剧情进行定向修改 [8] 性能表现与行业对比 - 在文生视频和图生视频覆盖的运动稳定性、指令遵循、音画同步等基准测试维度上,大幅领先于OpenAI的Sora 2 Pro、快手可灵3.0等产品 [16] - 在多模态任务方面,与生数的Vidu Q2 Pro、快手的可灵3.0相比,Seedance 2.0在提示词指令遵循、多模态遵循两个维度表现最为突出,在编辑一致性、参考对齐和动态质量上也处于行业第一梯队 [17] - 模型在多模态任务处理上指令响应更完整,生成画面更真实,在主体形象与声音还原方面表现较好 [18] 产品功能与应用 - 模型集成了业界最全面的多模态内容参考和编辑能力,用户可在交互界面选择“全能参考”生成模式,并使用@符号在提示词中标记参考图以保证生成一致性 [2][4] - 模型最长支持15秒的多镜头视频生成,旨在增加在影视、广告等领域的可用性,以降低内容制作成本 [9] - 移动端创作功能提供了Seedance 2.0 fast以及之前的模型,其中S2.0 Fast被描述为高性价比,支持音、视、文、图参考(暂不支持真人人脸) [11][12] 用户体验与现状 - 根据实测,生成一段5秒钟的视频需要扣除40个点数,由于大量用户排队,预计生成时间为2小时,系统提供免费加速2次的机会 [4] - 受限于版权等原因,一些名人相关的图片已无法用于生成内容 [4] - 公司承认模型仍需持续改善细节稳定性、拟真度以及多人口型匹配等问题,并在多主体一致性、文字还原精度及复杂编辑效果上有优化空间 [16][18]