多模态
搜索文档
中信智库报告:AI大模型呈现推理深化、智能体爆发格局
新华财经· 2025-07-27 22:18
AI大模型发展趋势 - AI大模型向更强、更高效、更可靠方向发展,呈现推理模型深化、智能体模型爆发的格局 [1] - 2025年是AI应用加速落地之年,本轮AI渗透较互联网时代大幅提速,B端落地进程或超预期 [1] - AI Agent将成为2025年AI发展的重要方向,具备数据优势、生态体系构建的企业更具发展潜力 [1] 多模态商业化进展 - 中国互联网企业在多媒体领域具有全球影响力,游戏、电影、短剧、短视频等领域是多模态落地的第一阶段 [1] - 随后在自动化装备、机器人、自动驾驶等产业也将快速渗透 [1] - 多模态商业化进展很快,B端应用落地进程或将远超预期 [1] 具身智能与人形机器人 - 具身智能大模型目前存在数据集不够、思考跟不上运动、缺乏生态等痛点,但未来将通过合成数据使用、模型迭代解决 [2] - 大模型快速迭代和供应链降本将加速人形机器人商业化落地 [2] - 人形机器人市场规模预计远超汽车、3C行业,带动丝杠、减速器、传感器、电机等相关产业链需求 [2] AI算力需求 - 推理需求将带动算力需求爆发,国内算力自主可控趋势凸显 [1] - AI算力消耗开始从训练走向推理,将带来显著的算力增量 [2]
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 19:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]
自动保存草稿 - 2025-07-27 13:54:52
36氪· 2025-07-27 13:59
腾讯AI战略升级 - 公司在世界人工智能大会(WAIC)上重点展示AI智能体技术 构建覆盖14亿用户的"数字好友"生态 [1] - 发布"AI全家桶"产品组合 包括自研大模型和智能体等多款新品 [1] - 技术路线从短期记忆演进到长期记忆 探索多智能体协同技术 [1] 技术路线演进 - 从2023年聚焦"行业大模型"转向多模态和具身智能方向 [2][3] - 发布国内首个模块化具身智能开放平台Tairos 面向机器人行业开放 [3][4] - 混元3D世界模型1.0实现文字/图片输入生成可漫游3D场景 大幅缩短建模时间 [5][8] 产品布局 - To B侧: 发布混元世界模型1.0 应用于VR/游戏开发等场景 计划开源多个小体量模型 [5][7] - To C侧: 推出10+生活场景智能体 如旅游规划Agent实现一站式服务 [7][12] - 平台层面: 发布智能体开发平台等5大平台 降低AI应用门槛 [7][13] 技术突破 - 3D资产生成效率提升 从数周缩短至几分钟 但数据量仅千万级 与图片数据存在数量级差距 [9] - 混元3D系列模型社区下载量超230万 成为全球最受欢迎3D开源模型 [10] - 多模态理解模型混元-large-vision在LMArena Vision榜单国内第一 [10] 商业化落地 - 将AI能力嵌入QQ浏览器/QQ音乐等应用 覆盖搜索/创作/娱乐等场景 [12] - 通过智能体开发平台降低企业应用门槛 解决行业大模型落地难题 [13] - 智能体与行业大模型协同 前者解决前端场景问题 后者沉淀行业Know-how [13]
直击WAIC2025 | 首日探馆:大模型丰产下的共舞时代 具身智能与AI终端齐飞
每日经济新闻· 2025-07-27 07:36
人工智能全球治理高级别会议 - 2025世界人工智能大会暨人工智能全球治理高级别会议在上海开幕 [1] - 大会探讨AI能否真正嵌入产业与社会并创造可验证的真实价值 [2] - 现场展示智能机器人在调酒、叠衣服、打鼓、写字、煮串等实际应用场景 [2] 大模型技术发展 - 大模型技术迈向推理时代,需满足强智能、低成本、可开源和多模态特征 [7] - 阶跃星辰Step 3大模型在国产芯片上推理效率最高可达DeepSeek-R1的300% [7] - 多模态矩阵已覆盖语音、视觉理解、图像编辑、图像和视频生成、音乐等领域 [7] - 大模型落地需要模型、芯片、平台到应用的全产业链协同创新 [9] - 星环科技转型为AI Infra供应商,提供AI就绪数据平台解决数据孤岛问题 [9] 行业应用落地 - 垂类大模型通过场景共创与数据耦合重塑产业效率曲线与创新范式 [9] - 金融领域投研应用可理解业务语言、掌握领域知识并保证内容输出准确性 [10] - 企业AI部署仍以单点场景应用为主,受限于数据治理前期投入 [10] 具身智能与人形机器人 - 宇树科技G1人形机器人展示仿生科技的敏捷性,完成拳击比赛 [11] - 智元机器人启元通用具身大模型获大会最高奖项SAIL奖 [14] - 灵犀X2人形机器人展示本体+运动/交互/作业智能的超预期表现 [14] AI终端设备 - AI眼镜实现实时翻译、内容检索、AI照相、演讲提词等功能 [18] - 端侧大模型技术驱动智能手机、智能眼镜、个人电脑等设备智能化 [16] - AI终端面临能耗与算力瓶颈、功能与需求偏差、生态碎片化等挑战 [19]
这家国产大模型公司年收入破10 亿了?
虎嗅· 2025-07-26 21:56
WAIC大会与行业动态 - WAIC世界人工智能大会在上海举办,规格高且产业界和投资圈高度关注[2] - 参展商数量众多,社群群友超200人参会[3] - 大会前后多家AI公司发布重要消息[4] 阶跃星辰商业化表现 - 公司预计2025年全年收入近10亿人民币,商业化半年增长迅猛[5][7] - 合作领域覆盖手机厂商、新能源汽车厂商、金融、通信等多个场景[5] - 对比同行,智谱去年收入2-3亿,Minimax曾创造千万美金收入但近期不确定[9][10] - 上一代AI公司需3-4年突破10亿收入,阶跃仅用2年实现[11] 公司技术优势 - 定位"开源世界最强多模态推理模型",主力模型Step 3参数量达321B并取得SOTA成绩[24] - Step系列模型覆盖文字、语音、图像、视频、3D、音乐等多模态能力[25] - 在国产芯片上推理效率达DeepSeek-R1的300%,并成立"模芯生态创新联盟"优化国产芯片适配[34][35] - 联合华为昇腾、沐曦等近10家芯片厂商推动国产AI生态[35][37] 商业化落地场景 - 多模态调用量环比增长超800%,终端应用覆盖汽车、手机、具身智能等领域[48] - 合作案例包括吉利银河M9的AI语音、Top10手机厂商旗舰机型、人形机器人等[42][43][44] - 提出"强智能、低成本、可开源、多模态"四大商业化特征[30] 行业趋势展望 - 多模态能力正成为终端标配,推动"万物智能"发展[48][49] - 国产大模型与芯片的协同优化提升性价比,形成生态闭环[38][39] - 10亿营收或成行业新门槛,预示国产大模型商业化能力初步验证[12][52]
这家国产大模型公司年收入破10 亿了??
佩妮Penny的世界· 2025-07-26 20:42
WAIC世界人工智能大会概况 - 2024年WAIC世界人工智能大会在上海举办,规格高且产业界和投资圈高度关注,总理出席开幕式并致辞 [1] - 参展商数量庞大,社群群友有200多人参会 [1] - 大会期间多家AI公司发布重要消息 [2] 阶跃星辰商业化表现 - 国产大模型公司阶跃星辰预计2025年全年收入近10亿元,商业化半年增长迅猛 [3] - 公司成立仅两年,去年收入仅几千万元,增速显著 [5] - 与手机厂商、新能源汽车厂商在AI助手方面合作,覆盖金融、通信等多个场景 [3] - 对比同行:智谱去年收入2-3亿元,Minimax海外应用曾创千万美金收入但24年末下架,Kimi和Deepseek不以2B服务为重 [7] - 上一代AI公司需3-4年才能突破10亿元收入,阶跃增速远超行业平均水平 [7] 公司技术实力与战略 - 阶跃星辰定位为"多模态卷王",专注于基础模型研究而非应用出海 [6][9] - 创始人姜大昕提出"通往AGI的路径方向"战略图,涵盖多模理解、生成、具身智能等方向 [10] - 最新基座模型Step 3总参数量321B,在多个榜单取得SOTA成绩 [11] - Step系列模型涵盖文字、语音、图像、视频生成、3D、音乐等多模态能力,覆盖场景广泛 [11] - 在国产芯片上推理效率最高可达DeepSeek-R1的300%,并对各类芯片友好 [15] - 联合近10家芯片厂商成立"模芯生态创新联盟",包括华为昇腾、沐曦等 [15] 商业化成功因素 - 团队重视真实应用场景需求,提出"强智能、低成本、可开源、多模态"四大特征 [13][15] - 针对中端和国产芯片进行系统优化,提升性价比 [15] - 客户覆盖汽车、手机、具身智能、零售、IoT等领域 [20][21] - 智能终端多模态模型调用次数和调用量较去年下半年环比增长均超800% [23] - 具体合作案例:吉利银河M9搭载AI语音大模型,国内Top10手机厂商过半接入 [20][21] 行业趋势与前景 - 国产大模型商业化能力初步验证,10亿元营收或成行业新门槛 [7] - 多模态能力逐渐成为终端标配,"万物智能"趋势显现 [23] - 国产大模型与芯片厂商相互优化,提升国产芯片性价比 [17][18] - 行业对比:国产大模型水平已接近国外,但国产芯片仍有差距 [17]
Jinqiu Spotlight | 用户破1000万,造梦次元沈洽金:AI应用创业是踏浪而行,必须站上大模型的每一波浪潮
锦秋集· 2025-07-23 23:39
公司概况 - 深圳想法流科技有限公司(造梦次元)成立于2023年,专注于AI互动内容平台开发,核心产品"造梦次元"于2024年2月上线 [2] - 截至2025年6月,平台累计用户超1000万,日均活跃互动时间超100分钟,用户粘性居行业前列 [2] - 平台日均tokens消耗量突破千亿,峰值达1600-1800亿,成为大模型厂商的重要测试场景 [2][3] 技术驱动与产品定位 - 大模型技术突破使互动内容平台成为可能,解决传统UGC内容门槛高、供给不足的问题 [6] - 平台定位为AI原生应用,不自主研发模型,而是与字节、阿里等头部厂商合作共创角色模型、记忆方案等 [16] - 模型推理能力和多模态进化是核心驱动力,推动AI从Assistant向Agent甚至Multi-Agent转变 [7][16] 产品特点与增长策略 - 提供互动故事、剧本杀、换装游戏等多元玩法,聚合图文/音频/视频内容,形成差异化体验 [9] - 用户裂变效应显著,相关UGC内容在快手累计播放量达6.3亿次 [12] - 创作者生态活跃,拥有23万创作者,日均新增3000作品,通过"IdeaFlow Studio"降低创作门槛 [13] 商业化与IP运营 - 主要变现方式包括虚拟道具、付费短剧、角色打赏,如热门道具"读心术"可解锁角色内心OS [15] - 强调IP长期价值,创作者通过运营粉丝群体和商业化玩法获得激励,未来计划拓展虚拟装扮、联名等IP衍生形态 [15][16] - 创作Agent即将上线,可自动完成意图识别、任务规划及多模态内容生成,提升效率50%以上 [13][19] 行业趋势与战略方向 - 2025年重点布局多模态和Agent:多模态模型生成速度提升(如Veo 3模型10秒生成高质量视频),实时性增强将催化AI直播类内容 [17] - Agent能力突破支持复杂场景交互(如自动调用定位/时间服务)和智能化创作辅助(自动关联意象、生成动态分镜) [18][19] - 内容形态边界模糊,交互体验重要性超越格式,用户行为兼具消费与创作属性 [7][8] 企业文化与愿景 - 以"真实有效,坚韧极致"为文化内核,强调执行力与技术创新转化能力 [21][22] - 目标从单一内容类型进化为真正的AI Native平台,持续占据技术转化先发优势 [3][22]
同样1GB文本,为何中文训练效果差?对话EleutherAI研究员Catherine,看懂多语言模型的“诅咒”与“祝福”
AI科技大本营· 2025-07-23 15:32
多语言模型研究 - 提出"字节溢价"概念,揭示不同语言在相同字节数下有效信息密度的显著差异,影响模型输入效率 [15][16] - 训练参数量1亿的"Goldfish"小型语言模型系列,覆盖350种语言,部分性能超越参数量80倍的Llama-8B [3][27][28] - 多语言模型面临"多语言诅咒",模型容量受限导致加入新语言可能降低目标语言性能 [24][25] 模型训练策略 - 建议为特定语言开发专门化小模型而非追求单一大型多语言模型 [25][27] - 低资源语言可通过多语言训练实现知识迁移,尤其从相似语言迁移效果更佳 [27] - 小模型降低研究门槛,在笔记本电脑上两小时完成实验流程,适合资源有限场景 [30] 数据与评估体系 - 当前最大障碍是缺乏有效多语言评估基准,需开发具文化敏感性的高质量评估体系 [7][21] - 避免使用机器翻译生成基准测试,防止引入噪音影响评估准确性 [22] - 需要组建多语言多文化背景专家团队构建评估体系,理解文化语境差异 [22][23] 行业发展现状 - 多语言模型研究仍处"上半场",许多语言数据量不及1970年代英语水平 [33][34] - 欧洲开源生态倾向公共资源共享模式,如EuroHPC超级计算中心统一分配资源 [43] - 开放科学是基础,需掌握完整技术栈包括训练代码和数据才能获取有效知识 [37] 技术发展方向 - 未来AI需走向多模态,结合语言与视觉等多方面能力 [39] - 语言在人类心智发展中起独特作用,塑造思维方式实现复杂观念构建 [40] - 需平衡开放数据与负责任AI,构建符合伦理要求且可持续的数据集 [38]
多模态都是假的:最强模型数不清手指、认不出雷碧
虎嗅· 2025-07-22 15:21
多模态AI技术现状 - 当前多模态模型在视觉识别上存在显著局限,无法真正"看见"图像,仅能处理数字化后的张量数据(如224x224彩色图转化为150528个数值的矩阵)[9] - 视觉识别依赖人工标注的图-文配对数据(如服装图+黑卫衣标签),通过将图像分块为16x16网格并生成嵌入向量来建立高维指纹[12][13] - 听觉模态发展相对成熟,因音频波形作为一维时间序列更易处理,且数据获取成本较低[9] 图像识别机制与局限 - 模型通过统计概率输出结果,当训练数据中某种模式(如五指手掌)占比过高时,会强烈偏向该模式(六指手掌被识别为五指的概率达99%)[14][15] - 图像识别本质是图向量与文向量的映射匹配,文字标签权重可能压倒视觉特征(如"雷碧"包装因文字识别被纠正为"雪碧")[26][27] - 任务粒度影响输出,手部识别通常以判断"是否手部"为目标,而非精确计数手指数量[18] 数据偏差与行业应用挑战 - 训练数据仅覆盖真实世界的"主干道路",长尾场景(六指手、工业缺陷)需额外投入采样与合成数据[30][31] - 医疗等复杂领域面临模糊边界(相似症状对应不同疾病)、动态演化(病情突变)等超出当前模型架构的问题[32] - 基础模型在缺乏特定领域数据(如医学伦理)时,堆砌算力会导致"严密而精准的错误"[34] 技术本质与发展路径 - AI本质是概率驱动的规律统计器,其"视觉能力"完全依赖标注数据构建的概率世界[16][38] - 行业应用需通过补充场景数据、重塑任务目标来校准模型,医疗影像等垂直领域需定制化解决方案[36][40] - 当前多模态模型能力边界受限于训练数据覆盖范围,突破需持续注入更贴近真实世界的样本[39][41]
梁文锋等来及时雨
是说芯语· 2025-07-19 09:26
行业竞争格局 - 国内大模型行业进入密集更新期,Kimi、阶跃星辰、智谱AI、科大讯飞等玩家将在7月底集中发布新一代基础大模型 [3] - DeepSeek自4月起月活用户持续下滑,5月MAU为1.69亿(环比-5.1%),官网访问量下降29%,使用率从7.5%峰值回落至3% [3][4][18] - 第三方平台托管的DeepSeek模型使用量逆势增长20倍,形成与官方流量下滑的反差 [13] 技术发展动态 - Kimi K2成为国内首个万亿参数MoE架构开源模型,在代码/数学推理任务反超DeepSeek,支持128K上下文窗口 [10][15] - MiniMax-M1以53.47万美元低成本完成训练(512块H800三周),对比DeepSeek V3训练成本557万美元(2048块H800) [11] - 行业普遍提升上下文窗口能力(MiniMax达100万token),而DeepSeek保持64K最小窗口的保守策略 [15] 商业模式对比 - 科技大厂通过低价API争夺市场:百度李彦宏公开批评DeepSeek"慢且贵",阿里/字节/百度等推出更低价模型 [10] - Kimi K2定价与DeepSeek标准时段对齐(输入4元/百万tokens,输出16元/百万tokens) [11] - DeepSeek坚持开源路线但面临商业化压力,需平衡开发者生态与产品使用率 [17] 供应链挑战 - 英伟达H20芯片禁售导致DeepSeek R2模型延迟发布,算力储备出现紧缺 [5][7] - 7月15日英伟达获准重新销售H20芯片,将缓解DeepSeek算力瓶颈 [7] - H20芯片因DeepSeek的低成本训练方法在中国需求激增,引发4月美国出口管制 [5] 产品能力短板 - DeepSeek暂不支持多模态功能(语音/图片/视频生成),成为主流AI助手中唯一缺失该能力的产品 [19] - 调用工具能力不足:字节测试发现其工具调用表现不理想,最终改用自研模型 [19] - 小版本更新策略(如DeepSeek-R1-0528仍基于2024年V3 Base模型)导致竞争力下降 [8][10] 国际对标差异 - OpenAI通过高频更新保持领先(GPT 4.1系列发布后份额达10%),而DeepSeek R1仅持平o1水平 [17][18] - DeepSeek缺乏OpenAI的代际优势,使用率从7%峰值降至3%(跌幅超50%) [18] - 行业普遍学习OpenAI的快速迭代策略,如奥特曼每周更新产品的运营方法 [17]