多模态技术

搜索文档
巨头专家聊Agent与Coze
2025-04-24 09:55
纪要涉及的行业和公司 行业:AI 开发、金融、地图、医疗、教育、电商、玩具手办、智能穿戴等 公司:字节跳动及其旗下扣子、豆包、Tree、飞书、剪映、猫箱、豆包爱学、新会智梦、Coze(吉梦)、Newtree 等产品,以及阿里、百度、腾讯、阿里云、Deepseek、瑞芯科技、乐乐欣等相关企业 纪要提到的核心观点和论据 扣子平台 - **核心观点**:扣子平台在隐私保护、技术布局、开发者生态和商业化变现等方面具有优势,市场表现良好且前景乐观 - **论据**: - 隐私保护:低代码开发平台和扣子空间通过多种措施保障用户数据安全与隐私,MCP 协议集成众多厂商和模型 API 并通过审核机制确保安全[2][3] - 技术布局:集中在多模态融合、工作流引擎、MCP 协议集成和开发者生态四个方面,如 5 月将发布多模态完全体模型,工作流引擎可满足高并发调用需求等[4] - 开发者生态:应用商店提供近 800 款 AI 应用,开发者可获 70%收益分成,已有近 15 万家开发者接入[7] - 商业化变现:途径包括开发者分成、企业订阅服务、私有化项目定制、广告变现和云服务增值[8] - 市场表现:月活跃用户超 700 万,海外用户超 250 万,跻身全球 AI 开发平台前五,注册开发者超 15 万,企业开发者占比超 40%,日处理任务超 1.5 亿次[2][21][22] - 前景展望:研发团队预计年底达近 800 人,用户增长比例按月增速 30%计算,未来日活可能突破 200 - 300 万,月活可能达 1300 - 1500 万[23] 字节跳动多模态能力 - **核心观点**:字节跳动在多模态能力方面有进展和优势,应用广泛但存在潜在瓶颈 - **论据**: - 进展优势:正在内测多模态能力,底层架构完善,训练成熟,结合 MCP Server 能力实现多节点融合[18] - 应用领域:包括医疗影像分析、语音合成、视频理解等,如分析 CT 影像、处理视频角色声音、观测教学情况等[17] - 潜在瓶颈:尚未能深层次解析人物互动及知识传授效果[17] 字节跳动产品竞争力 - **核心观点**:字节跳动产品在插件生态、多模态能力、企业级服务和全球化布局方面与竞品相比具有显著优势 - **论据**: - 插件生态:不仅依赖第三方插件,还有自己团队孵化,覆盖广且质量数量优[19] - 多模态能力:算力优势显著,拥有近 33 万张算力卡,超过百度、阿里和腾讯总和[19] - 企业级服务:自 2023 年 3 月起构建落地应用生态,为各类企业提供定制开发服务,推广办公自动化工具提高用户粘性[19] - 全球化布局:已在东南亚及欧美建立大量 IDC 算力中心及分布式数据中心,计划扩充海外团队[19] 其他产品情况 - **猫箱**:面向 18 - 35 岁年轻女性用户,以情绪价值提供为前提,有社交互动等功能,截至 3 月底,日活约 87 万,高峰 92 万,月活 688 - 750 万[24][28] - **豆包爱学**:与 follow 和 stone 团队整合,技术团队向吴永辉汇报,有作业辅导等核心功能,3 月底 DAU 为 175 万,MAU 为 720 万,家长端用户占比约 70%[29] - **新会智梦**:负责人陆游,团队从 150 人缩编至 110 人左右,受 C 端用户增长瓶颈影响,产品定位尴尬,与抖音电商类似产品竞争激烈,DAU 约 70 万,MAU 在 300 万以内波动[29][30] - **Coze(吉梦)**:由张楠和大鹏负责不同方面,截至 3 月底,DAU 突破 190 万,高峰 MAU 达 900 万,目前 MAU 在 800 万上下波动,预计 4 月突破千万,付费用户超 25 万,转化率超 20%,企业客户同比增长近 10%,每月 GMV 约 2000 万元[31] - **Newtree**:是全方位编程平台,能协管项目,支持多语言,具备多种功能,提供一站式解决方案,已在字节内部全面试用,七成用户来自字节内部,每周发布小版本,两周发布大版本,但在浏览器集成和 Linux 系统终端结合方面存在不足[36][37] 商业化与技术相关 - **商业化变现**:字节跳动在插件和应用分成方面抽成 30%,各产品有不同的商业化途径,如扣子的多种变现方式[8][32] - **技术挑战与解决**:大模型缺乏 action 能力,通过 MCP 协议迁移技术框架实现突破;半自动化状态存在模型理解和未知错误处理问题;开发插件面临泛化能力和通用性不足的挑战[5][6][12][16] 其他重要但是可能被忽略的内容 - 字节跳动在软硬件结合领域有新产品计划,2025 年第三季度智能 IP 玩具 1.0、显眼包 2.0 和增值手办将量产,5 月可能延迟发布 AI 眼镜,六七月份发布欧拉友 2.0 耳机,未来可能涉足智能手表领域[33][34] - 由于 Deepseek 冲击,公司将重心迁移到豆包基座模型,放缓部分产品迭代和投流活动,导致 DAU 下滑,后续预计弥补数据缺口[27] - 阿里云豆包落地应用生态构建团队负责多个产品,基于底层技术集成开发,还有开源 MBC 平台 Tars 和完全自动化测试相关产品[25][26]
商汤集团20250410
2025-04-11 10:20
纪要涉及的行业和公司 行业:人工智能、自动驾驶、智慧医疗、电商、教育、文旅、机器人等 公司:商汤科技、麒麟软件、映宇宙公司、陆海公司、编程猫、声网、松景科技、银河通用、松云科技、索引科技 纪要提到的核心观点和论据 商汤科技技术实力与成果 - 核心观点:商汤科技在生成式AI技术领域综合竞争力居国内榜首,其日日新融合大模型表现优异 论据:权威研究机构报告显示商汤科技凭借技术创新等优势在多数关键模块获最高分;日日新融合大模型在SuperCLUE和OpenCompass测评中均列榜首[2][3][4][5] - 核心观点:商汤科技持续突破多模态模型技术 论据:2024年发布融合多模态大模型获年度冠军,2025年构建长序列思维链数据等,提升整体AI系统智力水平[13] - 核心观点:日日新6.0版本能力强大 论据:构造超200B高质量token多模态长思维链数据,实现64K长度思维链,数据分析能力领先GPT - 4,多模态推理对标国际领先水平[20][21] 上海市政府对人工智能产业的支持 - 核心观点:上海市政府大力支持人工智能产业发展 论据:2024年底产业规模突破4500亿元,超60款生成式AI大模型服务完成国家备案,推进“人工智能 +”行动,举办相关活动推动国际化合作[2][7] 商汤科技对上海市人工智能发展的贡献 - 核心观点:商汤科技为上海市人工智能发展提供重要支撑 论据:自主打造SenseCore AI计算平台提供算力支撑,日日新系列多模态融合大模型赋能多个领域,新一代模型为通用人工智能开辟新路径[2][8] 多模态模型的应用与价值 - 核心观点:多模态模型应用广泛且价值大 论据:在财务审核报销、电商比价、客户反馈分析、教育等场景表现出色,能解决非结构化数据处理问题,提升效率和决策准确性[2][24][25][27][28] - 核心观点:多模态是刚性需求 论据:用户群体中大量非结构化数据处理问题需多模态技术解决,超50%个人用户上传多个文件,部分为非标准或非结构化数据[29] 行业发展趋势与挑战 - 核心观点:AI行业呈现开源模型与工具主流、性价比关键、多模态技术热点等趋势 论据:开源模型能力接近闭源,成本控制是大模型应用重要考量,多模态技术带来更多场景拓展机会[61][63] - 核心观点:大模型发展面临性价比和供应链挑战 论据:单位训练和推理成本下降但需求供不应求,芯片市场供应链不确定[65] - 核心观点:具身智能领域前景广阔但面临挑战 论据:热门赛道训练数据不足,不同行业场景需求各异,需针对性解决方案[72] 商汤科技的应对策略与举措 - 核心观点:商汤科技帮助客户降低市场参与门槛、提升性能和效能 论据:提供AI专家服务模块、开源兼容性产品,为大型互联网平台推荐开源方案等[60][64] - 核心观点:商汤科技应对开源趋势提供高性价比方案 论据:整合自身与伙伴能力,提供审核、数据保护等方案,统一版本部署,发放代金券[69][70] 其他重要但是可能被忽略的内容 - 玄鸟计划由徐汇区政府合作平台与商汤科技联合发起,以商汤生成式AI为核心打造全产业链生态专区,推动区域AI产业发展[35] - 上海西岸借助科技和AI大模型转型文旅场景,游客数量同比提升至少10%,商汤视觉技术在人流监控系统中保障游客体验和安全[36][38] - 陆海公司新产品通过无感交互和隐形化设备改变孩子与世界互动方式,提升教育学习体验[45][46][47] - 编程猫与商汤科技合作提升编程教育质量,推动内容创新和青少年人工智能素养培养[52] - 商汤科技在视频编辑和青少年创作方面有创新技术,构想多智能体系统丰富用户体验[55][56] - 声网与商汤科技在流式多模态交互领域展开新合作,提升实时互动体验[57] - 商汤大装置2.0市场成绩显著,理念是降低人工智能产业从业门槛[58] - 松景科技与商汤大装置联合提供端到端研发全流程解决方案,加速具身智能落地[71] - 中国在人工智能领域算法紧跟美国,语料数据可能实现弯道超车,正采取举措推动生成智能发展[82][83][84] - VRA模型是具身智能发展未来方向,相比传统机器人有泛化性高、整合语义和动作等优势[90][91] - 商汤科技具身智能通过多层次方式落地,未来有机会实现低成本商用,推动产业转型[93][95]
直线涨停!刚刚,三大巨头,重磅来袭!
券商中国· 2025-03-28 15:08
文化传媒板块异动 - 百纳千成20CM涨停,上海电影涨停,果麦文化涨超10%,读客文化、中广天择、华策影视、华谊兄弟、横店影视、光线传媒、金逸影视等跟涨 [1] - 板块异动主因与中午突发信息有关,包括阿里通义千问推出QVQ-Max视觉推理模型和昆仑万维发布Mureka O1与V6模型 [3][4] AI技术重大更新 - OpenAI对GPT-4o和Sora进行重大更新,提供全新文生图模型,支持自定义操作、连续发问、风格转换、图像PPT等功能 [2] - 阿里通义千问推出QVQ-Max视觉推理模型,具备强大多模态处理能力,能理解图片和视频内容并进行分析、推理、设计插图、生成短视频剧本等 [2][3] - 昆仑万维发布Mureka O1音乐推理大模型,性能超越Suno,登顶SOTA,Mureka V6支持10种语言AI音乐创作,引入自研ICL技术提升声场和人声质感 [2][4] ChatGPT图像生成功能 - ChatGPT图像生成功能"Images in ChatGPT"正式推出,允许用户通过自然语言指令生成和编辑图像,支持多轮迭代优化,标志ChatGPT从单一语言模型跨越到全模态智能体 [5][6] - 功能上线后迅速走红导致GPU资源严重过载,公司创始人表示GPU正在"冒烟",凸显生成式AI爆发力与算力需求矛盾 [5] AI应用趋势与机会 - AI正扩展到医疗、金融、制造、零售等传统行业,生成式AI在内容创作、客户服务、教育等领域越来越普及 [7] - AI与物联网结合,智能设备通过AI处理实时数据实现高效决策和自动化 [7] - 华鑫证券表示AI时代将带来内容生产到消费终端全链条革新,文化传媒互联网新消费板块有望持续受益,关注AI玩具、AI眼镜、AI具身智能与传媒应用场景相结合的标的 [8]
AI会改变知乎和小红书吗?
虎嗅· 2025-03-25 14:40
平台创作阻力分析 - 小红书创作阻力最低 适合快速分享灵感和获得即时互动 [17][19][29] - flomo笔记需要一定编辑成本 尤其打字输入 适合初步记录和整理想法 [20][29] - 知乎创作阻力相对较高 更适合发布经过加工的专业内容 [22][24][29] AI工具对创作门槛的影响 - 小红书文生图AI功能只需输入50字以内内容即可生成首页图 显著降低配图门槛 [11][12] - AI助手可自动生成五六个标签 进一步简化发布流程 [12] - 点点AI助手能直接回复用户评论 为评价者提供AI能力支持 [51][52] 内容创作形态演变 - 现代媒介消费习惯转向"我有什么说什么"的自我表达 问答形式互动频次降低 [26][27] - 创作内容分为三阶段:灵感记录→加工整理→最终发布 不同工具对应不同阻力 [29] - 平台推送被动接收与主动搜索构成内容获取两大途径 最终均转化为想法储备 [31][33][35] AI工具创新方向 - Flowith通过提问生成知识卡片 五六张卡片可加工成一篇文章 [38][39] - Take AI Agents将语音想法自动转化为待办任务 [42][43] - 多模态技术可能实现语音直接转文字发布 进一步降低输入阻力 [48] 平台商业化逻辑 - 降低创作阻力可形成完整商业链条:创作者→内容→互动→粉丝效应→商业化 [37] - 知识库内容积累可设定付费逻辑 形成商业闭环 [39] - AI助手能力直接赋予用户 搭建创作者与读者间的便捷桥梁 [51][52]
智能交互的伦理边界与商业想象:AIGC聊天机器人:对话未来革命
头豹研究院· 2025-03-17 20:03
行业投资评级 - 行业处于快速发展阶段 预计未来十年市场规模持续扩大[1] - 技术驱动型行业 资源向头部企业聚集 竞争趋于垄断[1][41] 核心观点 - AIGC聊天机器人行业通过模拟人类语言交流 结合自然语言处理技术 提供个性化交互体验[1] - 自2022年ChatGPT推出后行业进入快速发展阶段 展现出多元化使用场景[1] - 全球生成式人工智能市场预计从400亿美元增长至1.3万亿美元 中国市场规模2022年为4亿元人民币 预计2027年增至326亿元人民币 复合年增长率136.3%[39] - 中国AIGC聊天机器人行业市场规模预计从2024年25.08亿元增长至2029年614.21亿元 年复合增长率89.58%[36] 行业定义 - 聊天机器人是通过文本、语音或多模态形式与用户交互 模拟人类语言交流的计算机程序[2] - 基于生成式人工智能技术的AIGC聊天机器人以Transformer架构为核心 结合NLP、NLU和NLG技术 能够深度解析并生成自然语言[2] - 2022年ChatGPT推出引领全球产业发展 2023年中国加速生成式大模型迭代 2024年逐步在教育、医疗、企业服务等垂直领域深入应用[2] 行业分类 - 基于模型类型可分为语言模型聊天机器人和多模态聊天机器人[4] - 从功能与应用场景角度可分为会话型智能聊天机器人和定制化智能聊天机器人[4] - 语言模型聊天机器人具备强大的文本理解与生成能力 广泛应用于情感分析、语音识别、信息抽取、广告生成和对话生成等场景[5] - 多模态智能聊天机器人能够同时处理文本、图像、语音等多种数据 并进行深度的语义理解和交叉模态处理[5] 行业特征 - 多元化使用场景:覆盖消费领域(智能家居控制、社交媒体交互、电子商务个性化推荐)、企业应用(客户服务、销售支持、流程自动化)及行业应用(医疗、房地产、酒店旅游、政府服务)[9] - 技术驱动:依赖四层技术架构(芯片层、框架层、模型层、应用层)和数据飞轮机制优化模型性能[10] - 高投入:大模型研发与训练需投入巨额资金 例如百度在"文心一言"上累计研发投入超1,400亿元 OpenAI在GPT-3训练中投入约1,200万美元[11] - 高门槛:涉及算法优化、大模型训练、算力资源及数据积累等关键环节 仅少数技术能力雄厚的企业能占据一席之地[12] - 区域性:北京、上海、广东三地备案产品数量分别占比31.1%、27.2%和11.7% 形成具有国际竞争力的产业集群[13] - 政策驱动发展:中央与地方通过多层次政策体系加速人工智能产业建设 全国已有16个省级行政区出台人工智能专项政策[14] 发展历程 - 初始阶段(20世纪60年代):ELIZA通过关键词匹配实现简单对话[15][16] - 语言引入阶段(20世纪90年代):ALICE引入AIML拓展开发框架[15][17] - 深度学习阶段(21世纪初):苹果Siri和微软Cortana提升语音识别与语言理解能力[15][18][19] - 生成式AI阶段(2020年代):大模型技术突破使AIGC聊天机器人进入新时代 文本生成和逻辑推理能力显著提升[15][20] 产业链分析 - 上游:算力芯片(GPU、ASIC、FPGA)和基础数据服务 国产芯片华为昇腾910和寒武纪MLU系列性能接近英伟达A100[21][22][29] - 中游:算法模型和技术框架(NLP大模型、多模态模型、计算机视觉) 百度文心与华为盘古大模型已在金融、医疗等行业广泛应用[21][22][31] - 下游:覆盖金融、医疗、教育、零售电商等领域 通过AIGC聊天机器人提供智能化解决方案[21][22][34] - 产业链成熟度:上游较弱(本土芯片出货量占比10%)、中游突破(国产框架市场份额提升)、下游领先(传统领域应用成熟)[23][24] - 算力需求:中国在用算力中心超过830万标准机架 算力规模达246EFLOPS 预计2025年突破300EFLOPS 智能算力占比35%[27] 行业规模 - 全球生成式人工智能市场预计从400亿美元增长至1.3万亿美元[39] - 中国AIGC市场规模2022年4亿元 预计2027年增至326亿元 复合年增长率136.3%[39] - 中国AIGC聊天机器人行业市场规模预计2024年25.08亿元 2029年614.21亿元 年复合增长率89.58%[36] - 截至2024年6月 中国2.3亿人使用过生成式人工智能产品 占总人口16.4% 20-29岁用户使用率40.5% 大专及以上学历人群使用率44.0%[40] 竞争格局 - 三级阶梯式分布:第一梯队(抖音豆包、百度文心一言)、第二梯队(月之暗面Kimi)、第三梯队(阿里通义千问、昆仑万维天工AI)[46] - 头部企业优势:百度文心大模型拥有超过3,800项专利 抖音豆包日均token使用量达4000亿[48][69] - 资本支持:2023年上半年生成式AI相关企业完成51笔融资 融资总额超1,000亿元人民币 单笔融资金额超1亿元案例达18笔[49] - 中小企业错位竞争:聚焦教育、医疗、游戏和金融等垂直领域 例如氪信金融大模型帮助银行涉案账户量下降50%[52][53] 政策梳理 - 《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》:推动AIGC在智能客服、教育、医疗等领域应用[44] - 《生成式人工智能服务管理暂行办法》:规范生成式AI服务 强调合法数据使用、知识产权保护和隐私安全[44] - 《国家人工智能产业综合标准化体系建设指南(2024版)》:构建覆盖基础数据服务、算力中心和算法优化的全链条标准化体系[44] 上市公司分析 - 百度集团:营收规模4.5千亿元 同比增长10.8% 文心大模型4.0在理解、生成、逻辑和记忆四个方面展现显著优势[60][65] - 抖音有限公司:豆包模型日均token使用量增长33倍 达4000亿token数 输入价格0.0008元/千tokens[69] - 商汤集团:营收规模1.8亿元 毛利率72.8%[56] - 阿里巴巴集团:营收规模4.6千亿元 同比增长12.9%[56] - 昆仑万维:营收规模12.1亿元 毛利率78.4%[61]
人形机器人的“iPhone时刻”快到了?
日经中文网· 2025-03-15 09:59
英伟达CEO黄仁勋在主题演讲中介绍人形机器人(1月6日,美国拉斯维加斯,摄影:积田檀) 大约15年前,iPhone成为新的技术平台,APP经济圈因此繁荣起来。随着生成式AI的发展,有观点 认为人形机器人也将迎来"iPhone时刻"。中美竞争激烈,中国有小鹏鹏行、宇树科技;美国有 Apptronik、Figure AI…… 奥平和行: 以美国和中国为中心,人形机器人的开发竞争火热。随着生成式AI的迅速发展,人形机器 人的实用化时期日益临近,有观点认为将迎来人形机器人渗透至社会的"iPhone时刻"。针对人形机器人 的乐观预测认为,到2050年全球市场规模将超过6亿台。在这种情况下,作为"机器人大国"显示出存在 感的日本也将被迫做出应对。 1月6日,美国拉斯维加斯,在科技展会CES(国际消费电子展)现场发表主题演讲的美国英伟达CEO黄 仁勋展示了14台人形机器人,将现场气氛推向高潮。黄仁勋表示,"它们是我的朋友。借助我一直介绍 的技术,未来几年将会实现飞跃发展"。 人形机器人的历史始于1920年代,大约20年前本田的"ASIMO"和索尼的"QRIO"曾引发热门话题。 当时由于用途有限且价格昂贵,这些机器人未能普及 ...
深度|MiniMax加速调整,收购AI视频创业公司,海螺ai正式改名,或是受DeepSeek影响最小的六小虎
Z Finance· 2025-03-14 19:39
文章核心观点 AI行业呈现加速整合态势,多家初创企业因融资困境或技术商业化瓶颈选择被收购,MiniMax收购鹿影科技是技术互补与市场扩张的战略选择,同时其自身也在进行内部调整,凭借技术优势与全球化战略在竞争中受冲击较小 [1][2][3] 分组1:MiniMax收购鹿影科技 - MiniMax将收购深圳AI视频生成创企鹿影科技,双方已敲定收购意向 [1] - 鹿影科技成立于2023年9月,专注开发以自研LCM视觉大模型为核心的AIGC工具与内容平台,核心产品为二次元动漫AI视频生成平台YoYo,主要面向二次元创作者市场 [1] - 鹿影科技CTO王超奇已退出团队加入xAI,或为公司寻求收购的关键原因 [2] - MiniMax收购鹿影科技核心动机是技术互补与市场扩张,可弥补其在长视频流畅度与细节控制上的不足,加速下一代Video - 02系列模型开发 [2] - 收购是国内AI公司应对行业竞争与资本压力的战略选择,鹿影技术积累为MiniMax对抗大厂提供技术弹药,且收购成本低,可节省数千万美元投入,加速其向“全栈式AI内容平台”转型,预示AI创企“技术并购潮”加速 [2] 分组2:国内AI创业公司被收购案例 - 边塞科技由吴翼于2023年3月创立,专注大语言模型与强化学习融合技术开发,获超千万美元融资,天使轮投后估值达8000万美元,运营1年多被蚂蚁集团以低于8000万美元价格收购,因技术商业化遇瓶颈,交易后公司独立运营,吴翼入职蚂蚁集团强化学习实验室任首席科学家 [3] - 波形智能由姜昱辰创立,专注垂直领域长文本生成技术,核心产品“蛙蛙写作”生成文本量超200亿字,完成两轮融资后被OPPO收购,团队核心成员入职OPPO,OPPO看中其技术对AI手机赋能潜力以完善安第斯大模型应用场景 [4] - Voyage AI由马腾宇创立,凭借技术成果成立1年以2.2亿美元估值被MongoDB收购 [4] 分组3:MiniMax内部调整 - 高管侧,联合创始人、副总裁魏伟近期离职,此前负责To B商业化及开放平台业务,这是继2024年9月产品负责人张前川转任顾问后再次出现高管变动 [5] - 产品侧,核心产品「海螺AI」更名为「MiniMax」,原域名转向专用于视频生成业务「海螺视频」,目前仅网页端更名,APP端保留原名,实验产品「万物追踪」正在调整 [5] - 更名与公司战略重心调整有关,一方面01系列开源模型技术突破需更直接品牌关联,另一方面全球化布局要求简化品牌认知,更名后将整合多模态技术能力,以“AI智能助手”定位深化C端与B端应用 [6] 分组4:MiniMax优势 - MiniMax多模态模型技术实力显著领先,01系列模型在文本、视觉和视频生成领域取得突破,长上下文处理能力和视频生成一致性追平甚至超越国际顶尖水平 [6] - MiniMax是六小虎中唯一在全球化市场取得显著成功的企业,旗下「Talkie」国内外市场表现亮眼,去年收入可能接近数千万美元,提供稳定现金流支撑 [7]