Workflow
多模态融合
icon
搜索文档
海天瑞声20250605
2025-06-06 10:37
纪要涉及的公司 海天瑞声 纪要提到的核心观点和论据 - **财务表现**:2024 年全年营收 2.37 亿元,同比增长 39.45%,毛利率提升至 66.46%,同比增加 10.45 个百分点,归母净利润 1134 万元,较上年同期改善 4172 万元,经营性现金流净额 2873 万元,同比增加 5978 万元;2025 年第一季度营收 6981 万元,同比增长 72%,毛利率 47.41%,归母净利润 37 万元,同比增长 101 万元 [2][3][14] - **应对全球市场机遇**:通过创新品牌营销拓展海外市场,构建全球化供应链和服务能力,在智能驾驶领域紧跟车企出海布局海外数据采集,优化算法和平台功能,推动 2024 年业绩增长 [5] - **核心能力建设成果**:2024 年在一体化平台建设和基础算法研究取得进展,包括升级智能驾驶数据处理平台、构建智能化数据运营平台、搭建 data x 数据中台、增厚算法储备并启动语音大模型自研项目 [6] - **构建差异化竞争壁垒**:确立科技引领战略,通过研发投入突破技术瓶颈,布局多模态融合等领域,针对自动驾驶点云标注提出动静态分类标注方案,依托标注工具链等保持领先 [7] - **智能驾驶标注领域创新**:推出多帧点云叠加及物体跟踪算法提升标注效率,向 4D 标注转化,自研 SLAM 算法优化泊车场景 4D 点云标注,开发智能分段加载解决方案突破边缘场景标注瓶颈 [2][8] - **语音识别和合成领域进展**:与清华合作启动语音大模型 Dolphin 训练项目,收集 21.2 万小时数据集,覆盖 40 种东方语种和 22 种中国方言,新增 11 个语种,深入核心场景并推出特色音色 [3][10] - **计算机视觉与自然语言处理领域**:计算机视觉打造多种数据集,自然语言处理构建思维链数据和高价值数据集,支撑大模型复杂推理和行业应用 [11] - **2025 年度计划**:以技术加产品双轮驱动,构建智能化数据管理平台,升级多模态数据产品矩阵,探索具身智能,扩充专业领域标注资源网络 [12] - **参与国家数字经济战略布局**:融入国家数字要素市场建设,与地方政府等合作构建数据治理与流通体系,联合高校培养人才,助力打造基地和新生态,开发解决方案赋能政企客户 [13] 其他重要但是可能被忽略的内容 - 2024 年公司获得国内外领军企业多类多模态数据订单,高毛利标准化数据及产品收入占比提升和定制服务毛利率改善推动业绩增长 [4] - 2025 年第一季度业绩增长得益于计算机视觉业务大型客户采购增加、自然语言处理业务垂直领域需求增长、海外业务拓展定制服务市场 [14]
让大模型从实验室走进产业园
21世纪经济报道· 2025-06-06 00:43
大模型在制造业的落地部署 - 工信部明确推动大模型在制造业重点行业落地部署 标志着中国人工智能发展从实验室迈向产业深水区 [1] - 制造业成为大模型技术转化的核心地带 涉及钢铁 汽车 电子等多个行业 [1] - 大模型重构中国制造底层逻辑 推动生产模式 组织形态和价值创造方式的系统性重塑 [1] 制造业数字化转型的挑战 - 传统制造企业面临数据孤岛难以打通 工艺知识难以沉淀 决策响应难以实时等"三难"问题 [1] - 汽车行业因供应链中断导致月度产能损失数亿元 传统ERP系统难以预测零部件短缺风险 [1] - 家电企业焊接机器人缺乏自适应算法 导致产品不良率居高不下 [1] 大模型的突破性价值 - 大模型具备"认知+推理+生成"三位一体能力 通过训练海量行业数据模拟人类工程师经验判断 [2] - 钢铁行业某产线采用大模型自动排程 编制效率提升40% 轧硬卷周转周期缩短12% 减少返回卷35% 年均增效超千万元 [2] - 大模型是制造业"知识资产化"的关键载体 而非简单工具叠加 [2] 大模型技术实现路径 - 数据驱动的智能决策 某化工企业利用大模型监控5000+参数 产品合格率提升至99.8% [2] - 多模态融合应用创新 某电子企业视觉大模型与NLP模型协同 外观缺陷识别准确率达99.7% 检测效率提升300% [3] - "边缘—云端"协同部署架构 某装备制造企业部署边缘计算节点 实时处理设备振动数据 [3] 大模型落地面临的挑战 - 数据壁垒 制造企业数据分散在ERP MES SCADA等系统中 存在安全顾虑 [3] - 人才缺口 既懂制造工艺又擅长AI建模的复合型人才不足 深圳职院"工业AI工程师"专业年均培养3000名毕业生 [3] - 投资回报周期长 中小企业难以承受初期投入 北京经开区对模型部署费用给予50%补贴 带动本地AI服务商数量增长40% [3] 政策创新与战略路径 - 针对离散制造业推广"AI微工厂"模式 针对流程制造业建立"行业模型库"共享共性算法资源 [4] - 中国制造业战略路径独特 以海量场景倒逼大模型进化 依托41个工业大类的全产业链纵深优势 [4] - 工信部"揭榜挂帅"机制推动AI芯片 工业软件等领域协同攻关 [5] 大模型与制造业融合的长期影响 - 推动中国制造从"规模扩张"向"质量跃升"的价值跨越 [5] - 实现从"要素驱动"向"创新驱动"的动力跨越 [5] - 完成从"产业跟随"向"标准引领"的地位跨越 [5]
人形机器人专题:2025具身智能产业发展趋势研究及安全威胁分析报告
搜狐财经· 2025-06-05 04:55
具身智能产业概述 - 具身智能定义为基于物理身体进行感知和行动的智能系统,强调智能行为是身体与环境动态交互的结果[12] - 区别于传统AI,具身智能具备物理交互性、环境适应性和生产力型技能三大特征[13][14] - 主要形态包括类人机器人(如特斯拉Optimus)、仿生机器人(如波士顿动力Spot)和环境嵌入式系统(如达芬奇手术机器人)[15] 技术体系 - 核心技术框架为"感知-决策-行动-反馈"闭环: - 感知模块融合视觉/听觉/触觉等多模态数据,采用CNN等算法实现环境解析[19][20] - 决策模块依托GPT/RT-2等大模型进行任务规划,采用分层或端到端模型架构[21][22] - 行动模块结合机器人学与仿生学技术实现精密运动控制[22][23] - 反馈模块通过强化学习与物联网技术持续优化行为策略[23][24] 全球市场发展 - 2024年市场规模25.335亿美元,预计2033年达87.565亿美元(CAGR 15%)[35] - 美国主导技术生态(特斯拉/英伟达等),欧盟侧重伦理治理,日韩聚焦产业协同[1][37] - 商业模式包括软硬结合整机销售(特斯拉)、API接口收费(英伟达)和垂直领域解决方案(ABB)[36] 中国产业现状 - 2023年市场规模4186亿元,政策从国家到地方分层布局(北京/上海/深圳)[1] - 华为/优必选等企业在大模型和机器人本体领域取得突破[1] - 核心挑战包括高端伺服电机国产化率不足60%、数据采集成本高、标准不统一等[1] 技术发展趋势 - 多模态融合与数据生态标准化加速技术泛化[29] - 仿真平台(如"慧思开物")重塑研发模式[30] - 场景商业化分阶段推进:工业优先(机械臂)、家庭长期培育(服务机器人)[30] - 材料革命推动柔性电子皮肤等新型产品形态[31] 产业链构成 - 上游:传感器/芯片等核心零部件[25] - 中游:机器人本体制造与系统集成[25] - 下游:工业/医疗/物流/家庭等应用场景[25] 安全挑战 - 数实融合攻击可能引发物理系统破坏[32] - 多维度数据采集存在隐私泄露风险[32] - 自主决策事故责任界定困难[33]
AIGC公司融资动态:资本青睐哪些细分领域
搜狐财经· 2025-06-04 19:31
大模型基础层 - 全球AIGC融资中60%流向基础模型研发 中国占比60% 头部企业如融质科技AI(估值超10亿)、月之暗面(Kimi项目)获沙特阿美、红杉中国等资本加持 [3] - 企业技术路径差异化 聚焦GLM(通用语言模型)和多模态融合 例如融质科技AI的GLM-B模型和Meta的多模态虚拟人技术 [3] 虚拟人与多模态生成 - 2025年中国虚拟人核心市场规模预计达百亿元 带动产业规模超千亿元 技术涵盖文本、图像、音频生成 应用于虚拟偶像、数字分身等领域 [3] - 国内企业如倒映有声(AI数字分身)、万兴科技(智能模特方案)获BAT、字节跳动等投资 [3] AIGC+垂直应用 - 教育领域:2025年全球AIGC+教育融资活跃 美国K12及职业培训占主导 国内多邻国、可汗学院等平台接入GPT技术 [5] - 医疗与制造:智能诊断、药物研发等场景受关注 例如DeepMind的蛋白质预测模型AlphaFold [6] - 娱乐与营销:游戏NPC生成、广告创意自动化等领域 昆仑万维、蓝色光标等企业已布局 [7] AI基础设施 - 全球AIGC算力支出2025年增长超60% 国内企业如寒武纪、壁仞科技获政府及产业基金投资 [7] - 开源生态建设加速 融质科技AI的ChatGLM-B、Meta的Llama系列推动技术普惠 [7] 跨领域融合创新 - 中国政策推动AIGC渗透文旅、体育等领域 如《虚拟现实与行业应用融合发展行动计划》 [9] - 国际资本涌入 沙特Prosperity基金投资融质科技AI 联想与沙特PIF合作拓展海外市场 [10] 资本逻辑与未来趋势 - 短期热点:大模型研发、虚拟人商业化、教育医疗垂直应用 [10] - 长期潜力:多模态融合、AI芯片国产化、全球市场拓展 [11]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 13:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]
AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑
21世纪经济报道· 2025-05-17 13:05
HealthBench开源基准测试 - OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性 [1] - HealthBench由262位来自60个国家/地区的医生共同参与构建,整合了5000段真实的医疗对话数据 [1] - 通过48562个独特的医生编写的评分标准进行开放式评估,涵盖多个健康背景和行为维度 [1] - HealthBench的测试样本分为7个主题和5个评估维度,7个主题包括紧急转诊、专业沟通定制等,5个评估维度包含准确性、沟通质量等 [3] - OpenAI还推出HealthBench Consensus(共识版)和HealthBench Hard(困难版),共识版包含34个经医生共识验证的评估维度,困难版最高得分仅为o3模型的32% [4] - HealthBench Consensus的元评估表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致 [4] 大模型在医疗领域的表现 - 2023年推出的GPT-3.5Turbo得分为16%,2024年5月推出的GPT-4o得分达到32%,2024年12月推出的o3模型得分达到60% [5] - 较小规模的模型进步显著,GPT-4.1nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25 [5] - 大模型在医疗领域的应用正迅速发展,评估工具和模型本身都在持续优化 [6] - 大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,通过"预训练+微调"架构处理多模态医疗数据 [6] - AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近 [6] AI医疗市场前景 - 预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元 [6] - AI可以扩展医疗服务可及性,应用于诊断前、诊治及诊断后阶段,解决医疗人员短缺和缺乏有效分流等问题 [6] - AI辅助医生诊疗有望降低误诊率,在部分疑难杂症诊疗方面发挥协同作用 [6] 医药行业AI应用趋势 - 模型即产品:医药行业高度专业性的场景对模型适配性要求更高,未来将更多直接针对医药行业训练的模型被广泛应用 [7] - 本地与端侧部署:专业中小模型的本地部署在成本可控性、数据安全等要求更高的场景下提供极大赋能 [7] - 研发端AI应用快速拓展:随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒有望被逐一消解 [8]
“人工智能+”行业发展蓝皮书
安泰经管学院· 2025-04-27 14:05
报告行业投资评级 未提及 报告的核心观点 全球正经历由人工智能驱动的“技术 - 经济”范式重构,其影响力超越传统 ICT 技术,与前沿技术产业融合将催生新赛道;报告梳理人工智能发展现状与趋势,剖析其在行业应用中的问题与挑战,为相关部门和企业提供决策参考,探讨其助推传统产业转型升级和引领未来产业创新发展的路径[4] 根据相关目录分别进行总结 引言:全球化视野看人工智能 - 人工智能起源于 1956 年达特茅斯会议,技术范式历经规则、统计、深度神经网络三个阶段,2012 年进入深度学习时代,2017 年 Transformer 架构推动大语言模型发展,其重大突破源于探索精神、基础理论与工程实践的协同[10][11] - 全球 AI 技术呈多极化竞争态势,美、中、欧通过模型研发与政策扶持争夺主导权,如美国“星际之门”项目计划投资 5000 亿美元,欧盟“投资人工智能”倡议调动 2000 亿欧元[15] - 2025 年巴黎人工智能行动峰会呼吁建立全球治理体系,中国积极参与国际对话,倡导技术普惠与风险共担[15] - AI 普及提升生产效率的同时会引发结构性风险和伦理问题,国际学界呼吁加强伦理研究并构建治理框架[16] - AI 可持续发展需兼顾能源效率与社会公平,业界探索绿色计算与低资源算法,普惠应用成关键议题,WTO 报告预测全球均衡应用 AI 可使 2040 年前贸易增速翻倍[17] 第 1 章 AI 算法“大模型”:实现通用智能的重要桥梁 国内外大模型技术发展态势 - 大模型开辟通用人工智能新路线,是科技制高点和中美竞争焦点,OpenAI 引领本轮革命,产品不断突破,2024 年技术迭代爆发[20][21] - 美国 Anthropic、Google、Meta 及 xAI 等企业在大模型领域发力,形成“OpenAI 领跑,Anthropic、Google 和 xAI 追赶,Meta 开源”的竞争态势[22] - 2023 年中国开启“百模大战”,百度、阿里等企业和科研机构推出众多模型,2025 年初 DeepSeek 发布两款模型,突破“算力军备竞赛”模式,重构全球竞争格局[22][24][25] 大模型的核心技术 - Transformer 架构是大模型基石,通过多头注意力机制和位置编码处理序列数据,解决传统 RNN 局限性,在语言和多模态模型中广泛应用[28][30] - 大模型训练分预训练、微调、强化学习三个阶段,预训练学习通用知识,微调适配特定任务,强化学习提升解题能力和输出质量[30][33][34] - 交互提示技术有零样本学习、少样本学习、思维链提示三种模式,提示工程核心技巧是“结构化表达”[37] - 推理时间扩展技术实现从“直觉反应”到“深思熟虑”的转变,包括多步推理迭代、计算资源动态调控、强化学习驱动优化三个创新方向[39] - 知识检索增强、工具调用能力、多专家协同可增强模型专业能力,扩散模型通过逐步去噪恢复原始数据,在 AIGC 多领域广泛应用[43][45][46] 大模型技术发展趋势展望 - 大模型向多模态融合和涌现演进,实现多维信息联合理解与生成,但面临跨模态对齐等技术难关[49] - 大模型需提升高阶推理能力以解决复杂任务,在科学智能和工业智能领域发挥作用,同时期待更多新技术范式加速通用人工智能到来[49][50] 结语 - 大模型是实现通用人工智能的主流路线,全球竞争激烈,中国科研创新力量加速追赶并在部分领域超越,但通用人工智能技术路径未收敛,大模型面临诸多挑战[51] - 中国人工智能发展需技术突破,在国际合作与竞争中找到平衡,全球需开放协作加速通用人工智能实现[52] 第 2 章 AI 数据:驱动智能时代的核心引擎 模型突破推动数据需求升级 - 人工智能模型发展伴随数据需求进化,对数据数量和质量要求提高,“Chinchilla Scaling Law”表明模型参数和数据量应同比例增长[70] - 大模型对数据需求在质量颗粒度、模态、训练数据依赖方面重构,倒逼数据生产链技术升级,包括合成数据崛起、数据价值链重构、隐私与合规技术平衡等[72][74][76] - 学术界对大模型规模化法则有效性产生分歧,垂直领域高质量数据与合成数据可能成数据规模新增长点[80] 驱动因素推动数据生产革新 - 大模型需求倒逼数据生产技术革新,包括自动化标注、合成数据生成、隐私保护等技术,推动数据生产方式从劳动密集型转向技术密集型[81] - 大模型数据处理流程包括去重、提取、清洗过滤、标注增强四个阶段,各阶段相辅相成[82][84][86] - 未来数据生产可能在高保真合成数据生成、零样本标注、去中心化 Data DAO 生态、全球治理与标准化等方面取得突破[87] 技术演进推动数据生态重构 - 全球人工智能数据产业形成多层次协同体系,数据生态从线性供应链向网状价值网演进,2023 年全球数据交易规模约 1261 亿美元,预计 2030 年达 3708 亿美元[89] - 数据开源使获取方式更便捷,开源平台向全栈生态升级,形成“数据生产 - 开放共享 - 标准反哺”正向循环[90][91] - 全球数据生态经历技术与监管博弈,合规约束成为驱动技术和生态发展的核心变量,企业设立独立数据资产管理部门推动数据集生态向价值创造转变[93] 全球竞争推动数据战略迭代 - 数据主权和标准主导权成为大国科技竞争关键,中、美、欧采取不同策略,国际竞争重点从技术转向标准制定[94][95] - 全球数据交易活跃,政策推动国内数据市场建设,技术在可信流通、融合计算、隐私计算等方面取得进展,推动数据要素开放协作[97] - 面对数据竞争,需从数据主权、产业发展、生态构建三方面入手,实现国产技术自主可控,推动产业创新和国际标准制定[98] 结语 - 数据是 AI 时代核心燃料和战略资源,中国需发挥数据要素作用,实现从“数据大国”到“数据强国”的转变,但面临制度、技术和安全等问题[100]
从百度的两季创业大赛,看大模型应用风向变化
晚点LatePost· 2024-09-26 17:11
李彦宏认为,智能体相当于 PC 时代的网站和自媒体时代的账号。 ChatGPT 催生大模型热潮将近两年,大模型的能力持续提升,调用价格持续下降,基于大模型开发 应用的探索也进入新阶段。 9 月 25 日,第二季百度 "文心杯" 创业大赛结束,8 个团队被选为优胜者,他们将得到百度的数千万 元和资源投资。百度称,未来还会在技术、产品、发展战略、资本合作等方面长期支持优胜团队。 百度 CEO 李彦宏在颁奖致辞中说,现在大模型最初那种兴奋劲儿逐渐过了,许多创业者可能会失 落、迷茫、甚至怀疑未来。"因为人们总是高估技术的短期价值,却低估技术的长期价值。" 李彦宏认为大模型是一次颠覆式的技术革命,长期前景非常乐观,"悲观者永远正确,而未来却是由 乐观者创造的"。他说,百度欢迎更多的创业者和开发者加入,一起投身到这场 AI 革命中。 在决出优胜者之外,这场举办两年的创业大赛,还提供了一个少见的窗口,可以观察国内大模型应 用探索的风向变化: 基于大模型开发应用的门槛降低。参赛团队从去年近 1000 支增长到 1600 支,30% 的团队没 有专业程序员。 应用场景更多元,但开发模式开始聚焦。去年 约 30% 的项目在通用办 ...