多模态融合

搜索文档
AIGC公司融资动态:资本青睐哪些细分领域
搜狐财经· 2025-06-04 19:31
大模型基础层 - 全球AIGC融资中60%流向基础模型研发 中国占比60% 头部企业如融质科技AI(估值超10亿)、月之暗面(Kimi项目)获沙特阿美、红杉中国等资本加持 [3] - 企业技术路径差异化 聚焦GLM(通用语言模型)和多模态融合 例如融质科技AI的GLM-B模型和Meta的多模态虚拟人技术 [3] 虚拟人与多模态生成 - 2025年中国虚拟人核心市场规模预计达百亿元 带动产业规模超千亿元 技术涵盖文本、图像、音频生成 应用于虚拟偶像、数字分身等领域 [3] - 国内企业如倒映有声(AI数字分身)、万兴科技(智能模特方案)获BAT、字节跳动等投资 [3] AIGC+垂直应用 - 教育领域:2025年全球AIGC+教育融资活跃 美国K12及职业培训占主导 国内多邻国、可汗学院等平台接入GPT技术 [5] - 医疗与制造:智能诊断、药物研发等场景受关注 例如DeepMind的蛋白质预测模型AlphaFold [6] - 娱乐与营销:游戏NPC生成、广告创意自动化等领域 昆仑万维、蓝色光标等企业已布局 [7] AI基础设施 - 全球AIGC算力支出2025年增长超60% 国内企业如寒武纪、壁仞科技获政府及产业基金投资 [7] - 开源生态建设加速 融质科技AI的ChatGLM-B、Meta的Llama系列推动技术普惠 [7] 跨领域融合创新 - 中国政策推动AIGC渗透文旅、体育等领域 如《虚拟现实与行业应用融合发展行动计划》 [9] - 国际资本涌入 沙特Prosperity基金投资融质科技AI 联想与沙特PIF合作拓展海外市场 [10] 资本逻辑与未来趋势 - 短期热点:大模型研发、虚拟人商业化、教育医疗垂直应用 [10] - 长期潜力:多模态融合、AI芯片国产化、全球市场拓展 [11]
2025年中国多模态大模型行业核心技术现状 关键在表征、翻译、对齐、融合、协同技术【组图】
前瞻网· 2025-06-03 13:12
多模态大模型核心技术-表征 - 表征学习是多模态任务的基础,涉及处理异质数据结合、不同噪声等级处理及模态缺失问题 [1] - Transformer出现前,CV领域主要使用CNN,NLP领域主要使用LSTM,多模态工作多采用异质网络单独提取特征后联合训练 [1] - Transformer统一多模态任务成为可能,2019年后基于Transformer的多模态预训练模型大量涌现 [1] 多模态大模型核心技术-翻译 - 跨模态翻译旨在将源模态映射到目标模态,如图像生成描述或文本生成图像 [2] - 基于语法模板的方法通过预设模板插入检测结果完成翻译,如图像描述中的who/what/whom/place插槽 [2] - 编码-解码器结构将源模态编码为隐特征后解码生成目标模态,如图像描述中CNN+RNN组合 [2] - 连续性生成针对时间严格对齐的流数据任务,如文本合成语音采用CNN并行预测+CTC loss [3] 多模态大模型核心技术-对齐 - 对齐用于发现不同模态子元素间关联性,如visual grounding任务 [7] - 显式对齐通过动态时间扭曲(DTW)、CCA等方法衡量相似性,深度学习方法逐渐流行 [7] - 隐式对齐通过注意力机制等解决潜在表示问题,降低对编码器的要求 [8] - 当前多模态对齐处于初期阶段,侧重人类指令对齐但忽略高层次价值整合 [8] 多模态大模型核心技术-融合 - 融合通过结合多模态数据增强性能,应用领域包括语音识别、情感识别和医学图像分析 [11] - 早期融合在特征层面合并模态,晚期融合在决策层面结合结果,混合融合综合两者优势 [11] - 神经网络成为主流融合方式,但图形模型和多核学习在数据有限或需可解释性时仍适用 [12] 多模态大模型核心技术-协同 - 协同学习利用一种模态数据训练另一种模态模型,分为并行、非并行和混合三类 [14] - 并行学习要求模态数据直接关联(如音视频同源),非并行学习通过类别重叠实现 [14][15] - 混合协同通过共享模态连接数据,已在视觉分类、动作识别和语义相似度估计中应用 [15]
AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑
21世纪经济报道· 2025-05-17 13:05
HealthBench开源基准测试 - OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性 [1] - HealthBench由262位来自60个国家/地区的医生共同参与构建,整合了5000段真实的医疗对话数据 [1] - 通过48562个独特的医生编写的评分标准进行开放式评估,涵盖多个健康背景和行为维度 [1] - HealthBench的测试样本分为7个主题和5个评估维度,7个主题包括紧急转诊、专业沟通定制等,5个评估维度包含准确性、沟通质量等 [3] - OpenAI还推出HealthBench Consensus(共识版)和HealthBench Hard(困难版),共识版包含34个经医生共识验证的评估维度,困难版最高得分仅为o3模型的32% [4] - HealthBench Consensus的元评估表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致 [4] 大模型在医疗领域的表现 - 2023年推出的GPT-3.5Turbo得分为16%,2024年5月推出的GPT-4o得分达到32%,2024年12月推出的o3模型得分达到60% [5] - 较小规模的模型进步显著,GPT-4.1nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25 [5] - 大模型在医疗领域的应用正迅速发展,评估工具和模型本身都在持续优化 [6] - 大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,通过"预训练+微调"架构处理多模态医疗数据 [6] - AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近 [6] AI医疗市场前景 - 预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元 [6] - AI可以扩展医疗服务可及性,应用于诊断前、诊治及诊断后阶段,解决医疗人员短缺和缺乏有效分流等问题 [6] - AI辅助医生诊疗有望降低误诊率,在部分疑难杂症诊疗方面发挥协同作用 [6] 医药行业AI应用趋势 - 模型即产品:医药行业高度专业性的场景对模型适配性要求更高,未来将更多直接针对医药行业训练的模型被广泛应用 [7] - 本地与端侧部署:专业中小模型的本地部署在成本可控性、数据安全等要求更高的场景下提供极大赋能 [7] - 研发端AI应用快速拓展:随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒有望被逐一消解 [8]
“人工智能+”行业发展蓝皮书
安泰经管学院· 2025-04-27 14:05
报告行业投资评级 未提及 报告的核心观点 全球正经历由人工智能驱动的“技术 - 经济”范式重构,其影响力超越传统 ICT 技术,与前沿技术产业融合将催生新赛道;报告梳理人工智能发展现状与趋势,剖析其在行业应用中的问题与挑战,为相关部门和企业提供决策参考,探讨其助推传统产业转型升级和引领未来产业创新发展的路径[4] 根据相关目录分别进行总结 引言:全球化视野看人工智能 - 人工智能起源于 1956 年达特茅斯会议,技术范式历经规则、统计、深度神经网络三个阶段,2012 年进入深度学习时代,2017 年 Transformer 架构推动大语言模型发展,其重大突破源于探索精神、基础理论与工程实践的协同[10][11] - 全球 AI 技术呈多极化竞争态势,美、中、欧通过模型研发与政策扶持争夺主导权,如美国“星际之门”项目计划投资 5000 亿美元,欧盟“投资人工智能”倡议调动 2000 亿欧元[15] - 2025 年巴黎人工智能行动峰会呼吁建立全球治理体系,中国积极参与国际对话,倡导技术普惠与风险共担[15] - AI 普及提升生产效率的同时会引发结构性风险和伦理问题,国际学界呼吁加强伦理研究并构建治理框架[16] - AI 可持续发展需兼顾能源效率与社会公平,业界探索绿色计算与低资源算法,普惠应用成关键议题,WTO 报告预测全球均衡应用 AI 可使 2040 年前贸易增速翻倍[17] 第 1 章 AI 算法“大模型”:实现通用智能的重要桥梁 国内外大模型技术发展态势 - 大模型开辟通用人工智能新路线,是科技制高点和中美竞争焦点,OpenAI 引领本轮革命,产品不断突破,2024 年技术迭代爆发[20][21] - 美国 Anthropic、Google、Meta 及 xAI 等企业在大模型领域发力,形成“OpenAI 领跑,Anthropic、Google 和 xAI 追赶,Meta 开源”的竞争态势[22] - 2023 年中国开启“百模大战”,百度、阿里等企业和科研机构推出众多模型,2025 年初 DeepSeek 发布两款模型,突破“算力军备竞赛”模式,重构全球竞争格局[22][24][25] 大模型的核心技术 - Transformer 架构是大模型基石,通过多头注意力机制和位置编码处理序列数据,解决传统 RNN 局限性,在语言和多模态模型中广泛应用[28][30] - 大模型训练分预训练、微调、强化学习三个阶段,预训练学习通用知识,微调适配特定任务,强化学习提升解题能力和输出质量[30][33][34] - 交互提示技术有零样本学习、少样本学习、思维链提示三种模式,提示工程核心技巧是“结构化表达”[37] - 推理时间扩展技术实现从“直觉反应”到“深思熟虑”的转变,包括多步推理迭代、计算资源动态调控、强化学习驱动优化三个创新方向[39] - 知识检索增强、工具调用能力、多专家协同可增强模型专业能力,扩散模型通过逐步去噪恢复原始数据,在 AIGC 多领域广泛应用[43][45][46] 大模型技术发展趋势展望 - 大模型向多模态融合和涌现演进,实现多维信息联合理解与生成,但面临跨模态对齐等技术难关[49] - 大模型需提升高阶推理能力以解决复杂任务,在科学智能和工业智能领域发挥作用,同时期待更多新技术范式加速通用人工智能到来[49][50] 结语 - 大模型是实现通用人工智能的主流路线,全球竞争激烈,中国科研创新力量加速追赶并在部分领域超越,但通用人工智能技术路径未收敛,大模型面临诸多挑战[51] - 中国人工智能发展需技术突破,在国际合作与竞争中找到平衡,全球需开放协作加速通用人工智能实现[52] 第 2 章 AI 数据:驱动智能时代的核心引擎 模型突破推动数据需求升级 - 人工智能模型发展伴随数据需求进化,对数据数量和质量要求提高,“Chinchilla Scaling Law”表明模型参数和数据量应同比例增长[70] - 大模型对数据需求在质量颗粒度、模态、训练数据依赖方面重构,倒逼数据生产链技术升级,包括合成数据崛起、数据价值链重构、隐私与合规技术平衡等[72][74][76] - 学术界对大模型规模化法则有效性产生分歧,垂直领域高质量数据与合成数据可能成数据规模新增长点[80] 驱动因素推动数据生产革新 - 大模型需求倒逼数据生产技术革新,包括自动化标注、合成数据生成、隐私保护等技术,推动数据生产方式从劳动密集型转向技术密集型[81] - 大模型数据处理流程包括去重、提取、清洗过滤、标注增强四个阶段,各阶段相辅相成[82][84][86] - 未来数据生产可能在高保真合成数据生成、零样本标注、去中心化 Data DAO 生态、全球治理与标准化等方面取得突破[87] 技术演进推动数据生态重构 - 全球人工智能数据产业形成多层次协同体系,数据生态从线性供应链向网状价值网演进,2023 年全球数据交易规模约 1261 亿美元,预计 2030 年达 3708 亿美元[89] - 数据开源使获取方式更便捷,开源平台向全栈生态升级,形成“数据生产 - 开放共享 - 标准反哺”正向循环[90][91] - 全球数据生态经历技术与监管博弈,合规约束成为驱动技术和生态发展的核心变量,企业设立独立数据资产管理部门推动数据集生态向价值创造转变[93] 全球竞争推动数据战略迭代 - 数据主权和标准主导权成为大国科技竞争关键,中、美、欧采取不同策略,国际竞争重点从技术转向标准制定[94][95] - 全球数据交易活跃,政策推动国内数据市场建设,技术在可信流通、融合计算、隐私计算等方面取得进展,推动数据要素开放协作[97] - 面对数据竞争,需从数据主权、产业发展、生态构建三方面入手,实现国产技术自主可控,推动产业创新和国际标准制定[98] 结语 - 数据是 AI 时代核心燃料和战略资源,中国需发挥数据要素作用,实现从“数据大国”到“数据强国”的转变,但面临制度、技术和安全等问题[100]
从百度的两季创业大赛,看大模型应用风向变化
晚点LatePost· 2024-09-26 17:11
李彦宏认为,智能体相当于 PC 时代的网站和自媒体时代的账号。 ChatGPT 催生大模型热潮将近两年,大模型的能力持续提升,调用价格持续下降,基于大模型开发 应用的探索也进入新阶段。 9 月 25 日,第二季百度 "文心杯" 创业大赛结束,8 个团队被选为优胜者,他们将得到百度的数千万 元和资源投资。百度称,未来还会在技术、产品、发展战略、资本合作等方面长期支持优胜团队。 百度 CEO 李彦宏在颁奖致辞中说,现在大模型最初那种兴奋劲儿逐渐过了,许多创业者可能会失 落、迷茫、甚至怀疑未来。"因为人们总是高估技术的短期价值,却低估技术的长期价值。" 李彦宏认为大模型是一次颠覆式的技术革命,长期前景非常乐观,"悲观者永远正确,而未来却是由 乐观者创造的"。他说,百度欢迎更多的创业者和开发者加入,一起投身到这场 AI 革命中。 在决出优胜者之外,这场举办两年的创业大赛,还提供了一个少见的窗口,可以观察国内大模型应 用探索的风向变化: 基于大模型开发应用的门槛降低。参赛团队从去年近 1000 支增长到 1600 支,30% 的团队没 有专业程序员。 应用场景更多元,但开发模式开始聚焦。去年 约 30% 的项目在通用办 ...