多模态AI
搜索文档
多模态,正在悄悄改变 AI 产品是怎么“理解世界”的
36氪· 2025-12-29 08:25
多模态AI的本质与演进 - 多模态AI正从技术概念蜕变为产品决策的核心战场,其核心是让AI整合视觉、听觉与语言信息以理解真实世界[1] - 多模态AI的出现并非技术炫技,而是为了解决AI要进入真实世界就不能只依赖文本这一现实问题[7] 人类认知与单模态AI的局限 - 人类天生是多模态的,通过视觉、听觉、语言、空间感和经验等多种信息同时发生、互相补充来理解世界[2][3] - 过去AI对世界的理解方式极其单一,几乎只通过文本,这导致其天花板很早就已到达[4][5] - 许多关键信息如构图、光影、表情、语气、节奏并不存在于文字中,仅靠文本的模型无法学习到这些信息[6][7] 多模态AI的技术内涵与价值 - 多模态在技术定义上是同时处理并融合文本、图像、视频、音频等多种信息形式[8] - 其本质是教模型“用多种感官看世界”,让模型学会“看”和“听”,而不仅仅是“读”,使其接收的信息更接近人类感知世界的方式[9][10] - 多模态的真正价值是让AI从“文本世界”走向“现实世界”,当模型能同时接收画面、声音和语言,它才有可能真正进入生活场景[13] 多模态AI的能力结构与产品化 - 多模态不是一个单一功能,而是一整套能力结构,更像一张能力网络[11] - 在真实项目中,多模态往往从一个基础问题开始:模型应如何理解一张图、一个视频、一段声音,其答案关键在于数据如何被组织、描述和筛选[11] - 多模态越来越像“产品问题”而不仅是技术问题,它需要产品决策来判断例如背景杂乱的图片对生成任务是加分还是减分等问题[12] - 多模态是AI开始真正需要“人类视角参与”的地方,涉及判断用户关心什么信息、模型应忽略什么、哪些感知有价值等产品决策[12][16] 多模态AI的具体应用方向 - 应用涵盖生成与理解两端:一端是生成(如文生图、文生视频、语音合成),另一端是理解(如图片问答、视频内容判断、语音识别)[15] - 具体任务包括:文生图是模型理解“文字里的画面”;图像理解是理解画面关系、情绪和语境;视频理解关注时间、动作和变化;语音任务处理“信息+情绪+节奏”的叠加[14] - 连接生成与理解两端的是大量数据、标签、描述和对齐规则[15] 多模态AI的长期前景 - 多模态并非一个短期趋势,而是一个长期发展方向[17]
氪星晚报|现代汽车美国公司因安全隐患召回逾5万辆汽车;京东:七鲜小厨在北京已开出30家门店;日本最大核电站将于明年1月20日重启
36氪· 2025-12-24 19:17
消费电子与人工智能 - OPPO否认拒绝与字节跳动就“豆包AI手机”合作的市场传言 强调对任何合作均持开放态度 评估核心在于“合适的合作契机” [1] - OPPO正与支付宝进行深度合作 并计划于明年1月官宣与另一个重要伙伴的战略合作 [1] - 阿里升级新一代语音模型Qwen3-TTS 发布音色创造和音色克隆两款全新模型 可实现DIY声音设计和像素级音色模仿 加速语音大模型在专业领域落地 [6] - 腾讯音乐旗下AI音乐创作工具“VEMUS未音”于12月23日开启全网内测 整合写歌、作曲、编曲等核心能力 用户可通过对话、文字、图片等低门槛生成音乐 [7] - 声智科技多模态AI时尚耳机在海外众筹平台Kickstarter全球首发 定位“随身感知工具” 依托声学底座实现声视融合 [8] 零售与本地生活 - 京东旗下餐饮平台七鲜小厨自今年开出首店后 用4个月时间在北京开出30家门店 基本实现五环内主要城区全覆盖 [2] - 尚美数智酒店集团旗下雷神电竞酒店全国签约总数已突破200家 半年实现规模翻倍 已在上海、北京、南京等高线城市签约首店 [3] - 雷神电竞酒店拉萨店首月月均房价超420元 上海华师大店月均入住率达98.28% 其90后、00后客群占比高达91.4% [3] 汽车与制造业 - 现代汽车美国公司因安全隐患在美国召回51,587辆汽车 主要原因为拖车灯可能无法正常工作增加碰撞风险 以及相关电路存在短路隐患可能增加火灾风险 [4] - 专注于桌面级激光加工设备的科技企业“壹粟创新”完成亿元Pre-A轮融资 资金将用于核心技术迭代、产品线拓展及全球化市场布局 [5] 循环经济与金融科技 - 国内二手数码回收平台速回收成立十周年并启动品牌升级 确立“回收地球,循环世界”愿景 目前已在200余个城市开展业务 累计服务超千万用户 实现减碳超万吨 将以香港为起点开启全球化布局 [4] - 央行等八部门提出支持探索推进内地与新加坡数字人民币跨境支付试点 支持沿线省(区、市)参与多边央行数字货币桥项目 [9] 政策与监管 - 国家发展改革委、商务部发布《鼓励外商投资产业目录(2025年版)》 总条目共1679条 与2022年版相比净增加205条、修改303条 [9] - 北京市优化调整住房限购政策 非本市户籍居民家庭购买五环内商品住房的社保或个税缴纳年限调整为连续满2年及以上 购买五环外的调整为连续满1年及以上 [10] - 市场监管总局等部门将制定出台《直播电商监督管理办法》 明确直播电商各主体的行为规范和法律责任 严格规范直播电商经营行为 [11] 能源 - 日本东京电力公司将于明年1月20日重启柏崎刈羽核电站6号机组反应堆 这将是2011年福岛核事故后该公司旗下首个重启的核电机组 [12][13]
GenAI系列报告之66:字节AI:流量突围,MaaS及应用抢先
申万宏源证券· 2025-12-23 17:16
报告行业投资评级 - 看好 [2] 报告核心观点 - 字节跳动AI业务通过模型能力提升、端侧AI硬件布局、应用商业化及云服务低价策略实现高速发展,在流量和MaaS市场取得领先,并倒逼整个互联网行业加速AI投入 [3] 根据相关目录分别总结 1. 模型:从豆包1.8看多模态Agent能力提升及成本优势 - 豆包大模型1.8于2025年12月发布,核心提升在于Agent、多模态理解和上下文管理能力,在通用智能体、通用视觉问答、空间理解等多个测评集上达到行业SOTA水平 [10][13] - 模型优化方向并非单纯追求参数规模,而是聚焦复杂任务解决能力和多模态交互,能够完成包含多模态信息的复杂任务处理,并通过更少的tokens消耗实现长程任务 [3][16] - 成本策略具备高性价比,豆包模型定价为全球主流模型中性价比最高之一,输入价格低至0.11美金/百万tokens,输出价格为0.28美金/百万tokens,同时推出阶梯式折扣,最高可节省47%的使用成本 [3][18][19] 2. 端侧AI:AI手机助手及其他创新硬件 - **AI手机**:字节与中兴联合推出AI手机努比亚M153,定价3499元,采用高通骁龙8至尊版芯片,标配16GB LPDDR5X内存和512GB UFS 4.x存储,通过Doubao-Seed-1.6模型和UI-TARS GUI Agent实现跨应用自动执行任务,标志着端侧AI从“说”到“做”的重要里程碑 [3][23][28] - **生态入口博弈**:豆包手机助手采用GUI Agent路线,通过获取安卓系统级权限INJECT_EVENTS模拟用户操作,绕过App开发者接口,与超级App存在明显的生态摩擦和流量争夺,例如阿里系多款App已拒绝其登录 [3][44][46][48] - **硬件升级推动**:端侧AI Agent将直接抬升手机内存与带宽门槛,稳定运行系统级Agent需要16GB内存,流畅生成速度(20 Tokens/s)需要约70 GB/s的内存带宽,推动LPDDR6等新一代内存标准成为刚需 [3][50][52] - **其他创新硬件**:包括AI玩具、AI智能体耳机(如Ola Friend)、AI眼镜及PICO VR等,目前仍在探索期,核心难点在于尚未找到颠覆性场景,且面临外部竞争与合作壁垒 [3][53][55][58][60] 3. AI应用:豆包和即梦用户增长到流量变现 - 截至2025年9月,豆包月活跃用户数达1.7亿,即梦AI月活为0.1亿 [3][62] - 豆包APP于2025年10月接入抖音商城和抖音本地生活,开启商业化尝试,从工具向电商入口转型 [3][62] - 即梦AI的优势在于与抖音、西瓜视频等内容平台的深度融合,提供从AI生成到专业剪辑的完整工作流,并已入驻火山引擎开放企业级API服务 [3][63] 4. AI云:投入激进,MaaS依靠低价后发制人 - 在全栈AI云市场(AI IaaS+PaaS+MaaS),字节火山引擎2025年上半年市场份额为15%,与阿里云(36%)等一梯队仍有差距 [3][69][78] - 但在MaaS细分市场,火山引擎凭借豆包模型能力及低价策略占据领先地位,2025年上半年在对外客户大模型服务调用量(Tokens)份额高达49.2%,稳居市场第一 [3][75] - 截至2025年12月,豆包大模型日均Tokens使用量已突破50万亿,居中国第一、全球第三 [3][75] - 火山引擎当前优势在于“快与省”,适合弹性、轻量AI需求,后续竞争关键在于MaaS层能否保持模型能力领先及低价,以及能否将流量转化为IaaS/PaaS层的营收 [3][81][82] 5. 字节AI高速发展背后的战略优势及组织架构调整 - **战略优势**:1)数据层持续领先,C端业务(如抖音)反哺模型训练,形成数据飞轮;2)重资源饱和式投入算力基础设施和人才;3)拔高基础研究优先级,将“探索智能上限”作为重要目标 [3][83] - **组织架构调整**:2025年,前Google DeepMind研究副总裁吴永辉加入并主导Seed团队的基础研究,原负责人朱文佳更专注于模型应用,同时AI Lab等研究团队并入Seed,形成更聚焦AGI前沿探索的架构 [85] 6. 投资分析意见 - 投资逻辑包括两方面:一是字节AI产业链的算力、硬件、应用等环节相关标的受益;二是字节在AI入口和云服务的进展将倒逼互联网大厂加快AI布局 [3][88] - 报告列举了通信、计算机、互联网传媒、电子等领域的多个相关投资标的,如润泽科技、浪潮信息、腾讯控股、阿里巴巴、中兴通讯等 [3][89]
速递|Yann LeCun(杨立坤)新公司AMI Labs聚焦“世界模型”,寻求超50亿美元估值融资
Z Potentials· 2025-12-22 11:40
公司创立与核心团队 - 知名AI科学家Yann LeCun证实创办新公司“高级机器智能”,其本人担任执行董事长,而非首席执行官 [1] - 公司聘请医疗转录AI明星企业Nabla的联合创始人兼首席执行官Alex Lebrun担任首席执行官 [1] 融资计划与估值 - 公司在正式启动前,计划以30亿欧元(约合35亿美元)的估值募集5亿欧元(约合5.86亿美元)资金 [2] - 此估值在知名AI科学家创业的背景下被认为并不特别惊人,例如前OpenAI CTO Mira Murati创立的公司种子轮估值达120亿美元 [2] 技术方向与行业定位 - 公司正在开发“世界模型”AI,作为大语言模型的替代方案,旨在理解环境、模拟因果关系以预测结果,并试图解决大语言模型的结构性幻觉问题 [3] - 世界模型是行业前沿方向,Google DeepMind和李飞飞创立的World Labs等顶尖实验室和初创公司也在开发 [3] - 相较于同行,公司的融资目标被认为更为大胆,例如World Labs在2024年8月以10亿美元估值募集了2.3亿美元 [3] 关联公司Nabla动态 - Nabla公司正在寻找新任首席执行官,过渡期间由联合创始人兼首席运营官Delphine Groll临时负责 [4] - Nabla已与公司签署合作协议,未来将部署使用公司开发的模型 [4] - Nabla已累计融资1.2亿美元,包括2025年6月完成的7000万美元C轮融资,投资者包括LeCun、Tony Fadell的Build Collective基金等 [6] - Nabla首席执行官Alex Lebrun背景深厚,在Nuance Communications从事过早期技术研发,创立并出售过两家自然语言处理初创公司,并曾主管Facebook人工智能部门 [6] - Nabla目前增长态势良好,其年度经常性收入在2025年增长了三倍多,即将突破10亿美元 [7]
九联科技:公司正在研究开发多模态AI相关的技术与产品
证券日报网· 2025-12-18 21:41
公司战略与技术研发 - 公司正在研究开发多模态AI相关的技术与产品 [1] - 相关技术旨在实现与对应软硬件的协同适配 [1] - 技术可支撑语音、视觉、触觉等多种交互体验 [1] 产品规划与市场应用 - 后续计划将结合行业需求稳步推进相关技术与产品 [1]
智象未来完成A+轮融资 B轮融资计划2026年初完成交割
经济观察网· 2025-12-18 10:16
公司融资动态 - 多模态AI企业智象未来近日完成A+轮融资 具体金额及细节暂未披露[1] - 京东集团、金华市金婺赋能基金联合参投A+轮融资[1] - 融资资金将用于核心业务拓展与技术研发[1] - 公司已启动B轮融资筹备 计划2026年初完成交割[1]
多模态AI企业智象未来近日完成A+轮融资
格隆汇· 2025-12-18 09:39
公司融资动态 - 多模态AI企业智象未来宣布完成A+轮融资 由京东集团和金华市金婺赋能基金联合参投 [1] - 本次A+轮融资具体金额及细节暂未披露 [1] - 公司已启动B轮融资筹备 计划于2026年初完成交割 [1] 资金用途与业务发展 - 本次A+轮融资资金将用于核心业务拓展与技术研发 [1]
中胤时尚涨2.15%,成交额4310.71万元,今日主力净流入-273.51万
新浪财经· 2025-12-17 16:30
核心观点 - 中胤时尚是一家以鞋履设计为核心,并拓展至供应链整合、生产及虚拟数字人等领域的创意设计企业,其股价在12月17日出现异动,市场关注点集中于其新疆振兴、三胎概念、人民币贬值受益、虚拟数字人及多模态AI等多个概念主题 [1][2][3] - 公司近期财务表现承压,2025年前三季度营业收入同比下滑,但净利润亏损同比收窄,同时主力资金呈现净流出状态,技术面显示股价接近压力位 [4][5][6][7][8] 公司业务与财务概况 - 公司主营业务收入构成为:供应链整合业务77.12%,鞋履生产业务6.93%,设计业务6.61%,品牌运营业务4.59%,其他(补充)3.28%,文旅服务业务1.46% [7] - 2025年1-9月,公司实现营业收入2.64亿元,同比减少8.48%;归母净利润为-1231.90万元,但同比增长50.10%(亏损收窄) [7][8] - 公司A股上市后累计派现8333.24万元,近三年累计派现5933.24万元 [9] 市场表现与交易数据 - 12月17日,公司股价上涨2.15%,成交额4310.71万元,换手率1.12%,总市值38.69亿元 [1] - 当日主力资金净流出273.51万元,占成交额0.06%,在所属行业中排名46/60,且已连续3日被主力资金减仓 [4] - 近3日、5日、10日、20日的主力资金净流入额分别为-470.98万元、-766.05万元、-1566.20万元、-1542.30万元 [5] - 主力持仓方面,主力没有控盘,筹码分布非常分散,主力成交额1858.74万元,占总成交额的7.77% [5] - 技术面显示,筹码平均交易成本为16.73元,近期筹码减仓程度减缓,股价靠近压力位16.17元 [6] 概念主题与业务亮点 - **新疆振兴**:为响应国家号召,公司于2021年在新疆和田地区建立了鞋履生产基地(新疆中胤鞋业有限公司) [2] - **三胎概念**:公司童鞋设计和供应链整合业务收入占比在10%-15%之间,鞋履设计覆盖全品类包括童鞋 [2] - **人民币贬值受益**:根据2024年年报,公司海外营收占比高达83.07% [3] - **虚拟数字人与多模态AI**:公司参股孙公司新畅元科技在虚拟人技术上有多项储备,其第一代数字人产品“创视元”支持AIGC多模态内容生成,可从文本、语音一键智能生成视频 [3] 公司基本信息 - 公司全称为浙江中胤时尚股份有限公司,位于浙江省温州市,成立于2011年10月21日,于2020年10月29日上市 [7] - 公司所属申万行业为纺织服饰-服装家纺-非运动服装,所属概念板块包括虚拟数字人、融资融券、小盘、增持回购、英伟达概念等 [7] - 截至12月10日,公司股东户数为7800户,较上期无变化;人均流通股为30769股,较上期无变化 [7]
三态股份跌0.25%,成交额5943.48万元,今日主力净流入336.40万
新浪财经· 2025-12-16 15:45
核心观点 - 公司是一家出口跨境电商零售与物流服务商,正积极将AIGC、多模态AI等前沿技术应用于其电商运营与知识产权保护服务中,以提升效率并塑造品牌IP [2][3] - 公司股价近期表现疲软,技术面显示筹码分散且主力资金趋势不明显,同时公司2025年前三季度净利润出现同比下滑 [1][4][5][8] 业务与财务概况 - 公司主营业务为出口跨境电商零售和第三方出口跨境电商物流,2025年1-9月实现营业收入12.52亿元,同比增长0.15% [2][7][8] - 2025年1-9月,公司归母净利润为3184.71万元,同比减少25.94% [8] - 公司海外营收占比极高,达到99.98%,业务受益于人民币贬值 [3] - 主营业务收入构成:跨境电商商品销售占76.14%,跨境电商物流销售占23.80%,技术服务及其他业务收入合计占0.06% [7] - 公司自2023年9月28日上市后,累计派现1.10亿元 [9] 技术与AI应用 - 公司研发A+智能图片生成项目,利用Stable Diffusion模型生成高质量图片,通过文本输入和自有元素模板化定制产品形象,以提升运营效率和节约成本 [2] - 在图片处理环节引入AI工具,自动生成场景图、尺寸图等,减少美工和运营工作量 [2] - 公司利用大型语言模型和图像CV算法,训练了多模态模型“睿观·ERiC”,为跨境电商企业提供产品知识产权风险检测服务 [2][3] - 知识产权风险检测工具“睿观·ERiC”已于2023年9月28日对外开放试用 [2] 市场表现与资金动向 - 12月16日,公司股价跌0.25%,成交额5943.48万元,换手率3.36%,总市值63.42亿元 [1] - 当日主力资金净流入336.40万元,占成交额0.06%,在所属行业中排名第2/18 [4] - 近5日主力资金净流出2148.05万元,近10日净流出3951.37万元,近20日净流出9623.11万元 [5] - 所属行业主力资金近3日连续净流出,累计达9229.78万元 [4] - 主力持仓方面,主力没有控盘,筹码分布非常分散,主力成交额2829.74万元,占总成交额的6.94% [5] 股东与股权结构 - 截至12月10日,公司股东户数为2.85万户,较上期减少0.22%;人均流通股为7708股,较上期增加0.22% [8] - 截至2025年9月30日,十大流通股东中,香港中央结算有限公司持股225.94万股(较上期减少106.91万股),南方中证1000ETF持股216.99万股(较上期减少4.78万股),华夏中证1000ETF持股128.51万股(较上期减少2500股),广发中证1000ETF持股98.94万股(较上期减少4.56万股) [9] 技术分析 - 该股筹码平均交易成本为8.87元,近期筹码减仓,但减仓程度减缓 [6] - 目前股价靠近支撑位8.00元 [6]