Workflow
多模态融合
icon
搜索文档
如何提升录音管理速度?专业应用智能方案帮你解决
搜狐财经· 2025-08-10 07:03
每天开会录音两小时,回去整理到半夜? 访谈录了三小时,想找某段观点翻半天? 团队共享录音文件,版本混乱到想摔电脑? 如果你也有这些问题,那今天这篇内容,你得认真看。作为天天跟录音转文字打交道的博主,这两年我帮上百人整理过会议纪要、访谈记录,见过太多人被 "录音管理" 拖垮效率。但 2025 年,这事儿真不一样了 —— 录音管理正在从 "单纯转写" 转向 "全流程智能",今天就跟你掰开揉碎了说。 先说说以前:录音管理为啥总让人头疼? 其实呢,录音这东西火了很多年。早十年,大家觉得 "能把声音转成字" 就很实用。但实际用起来,问题一堆。 我最早接触的转写工具,是 2018 年的一款 ASR 软件。当时录了个 40 分钟的会议,转写结果错得离谱 ——"人工智能" 写成 "人工智障","项目截止" 写成 "项目截肢",光改错别字就花了两小时。那时候我就发现,"转得准" 只是基本功,更麻烦的是转完之后怎么办。 后来工具升级了,转写精度到了 95%,但新问题又来了: 录音存成零散的 MP3 文件,想找上个月某客户的需求,得一个个点开听; 团队协作时,A 标了重点在文档里,B 改了版本没同步,最后谁也不知道哪个是最终版; ...
人形机器人的进化之路|2.5万字圆桌实录
腾讯研究院· 2025-08-04 17:23
具身智能技术突破 - 端到端大模型实现从L2到L4级跃迁 Physical Intelligence公司Π系列模型展示少样本学习能力[7][8] - 数据采集技术突破 主从臂式遥操/VR遥操/光学动捕等技术提升效率 AGL Bot World项目采集百万级真机数据[9] - 仿真技术显著提升 生成式模型使仿真效果从"非常假"到"视觉逼真" 物理交互仿真仍需加强[9] 技术瓶颈与挑战 - 开放环境任务执行能力弱 复杂技能/高精度场景下故障率高 存在安全风险[6] - 硬件成本与运维问题 单台机器人成本达数十万人民币 供电持久性不足[6] - 泛化能力存在局限 Physical Intelligence Π0模型在OOD场景成功率低于产业预期[10] 主流技术范式 - VLA(视觉-语言-动作)成为共识框架 但底层架构仍处探索期 存在自回归与Diffusion两条技术路线[32][33] - 系统1(直觉响应)与系统2(规划决策)协同方案 短程任务端到端解决 长程任务需规则介入[18][19] - 触觉模态(T)增强形成VTLA框架 触觉信号使响应延迟从2-3秒提升至毫秒级[15][16] 数据生态现状 - 真实数据与仿真数据存在鸿沟 刚体仿真准确度达80%-90% 柔性体/流体仿真仍困难[36][39] - 数据规模严重不足 具身数据量仅为语言模型的1/5000 需百亿级VLA token训练量[9][57] - 互联网视频数据利用受限 缺乏动作标签与多视角信息 需清洗与伪标签生成技术[42][43] 产业化路径 - 专业场景优先落地 工厂SOP场景成熟度高于开放家庭环境 规则系统现阶段更可靠[14][51] - 消费级产品渐进发展 扫地机器人+简易操作臂组合或成突破口 价格增幅需控在数百元内[50] - 中间件接口标准化需求迫切 需建立动作抽象层兼容不同机器人本体[26][27] 技术演进方向 - 世界模型与强化学习结合 数据驱动的物理规律模拟替代传统物理引擎[35][37] - 穿戴设备数据反哺 未来消费级设备可能意外积累海量具身数据[41] - 多模态持续扩展 红外/温度等非人类模态将增强环境感知能力[29][32]
中科院自动化所机器人视觉中的多模态融合与视觉语言模型综述
具身智能之心· 2025-08-04 09:59
多模态融合与视觉语言模型综述 - 系统整合了传统多模态融合策略与新兴视觉语言模型(VLMs),从架构设计、功能特性及适用任务等方面进行比较分析 [5] - 分析范围扩展到新兴应用场景如多模态SLAM、机器人操作和具身导航,展示其在复杂推理和长期任务决策中的潜力 [5] - 总结了多模态系统相对于单模态方法的关键优势,包括增强的感知鲁棒性、语义表达能力、跨模态对齐和高级推理能力 [5] - 对当前用于机器人任务的主流多模态数据集进行深入分析,涵盖模态组合、覆盖任务、适用场景和局限性 [5] 多模态融合技术 - 多模态融合策略分为早期融合、中期融合和晚期融合,各有优缺点 [11] - 编码器-解码器框架通过编码器提取不同模态特征,解码器融合特征产生最终输出 [11] - 注意力机制通过自适应加权能力捕获跨模态特征之间的长距离依赖关系 [11] - 图神经网络通过图结构建模多模态数据,提取和融合不同模态的高级语义表示 [11] 3D目标检测 - 激光雷达和相机融合是3D目标检测中的主要研究方向之一 [11] - 基于雷达和相机、激光雷达和雷达的融合研究也取得进展 [13] - 在nuScenes基准测试中,多模态融合方法显著提高了目标检测的精度和鲁棒性 [72] 导航与定位 - 具身导航依赖于多模态信息在动态和非结构化环境中指导智能体行动 [14] - 具身导航研究主要集中在目标导向导航、指令遵循导航和对话式导航三个方向 [14] - 视觉定位通过多模态融合显著提高了定位的准确性和鲁棒性 [17] SLAM与机器人操作 - 多模态SLAM通过整合异构传感器数据增强环境感知能力 [19] - 视觉-语言-动作模型通过整合视觉感知、语言理解和动作规划为复杂操作任务提供高效框架 [20] - 视觉和触觉的多模态融合对于机器人抓取任务的精度和稳定性至关重要 [21] 视觉语言模型技术演变 - 跨模态预训练通过大规模多模态数据学习视觉和语言之间的深层关联 [23] - 跨模态对齐和表示学习是视觉-语言模型的核心 [26] - Transformer架构已成为深度学习的核心,在自然语言处理、计算机视觉和多模态学习中取得重大进展 [29] 多模态数据集 - 多模态数据集在语义场景理解领域中起关键作用 [43] - 代表性数据集包括nuScenes、Waymo Open Dataset、SemanticKITTI等 [48] - 机器人操作数据集整合了视觉、语言、深度和触觉等多种模态信息 [47] 性能评估 - 定义了一系列关键评估指标,涵盖语义理解、3D目标检测、定位和导航等多个方面 [55] - 在nuScenes基准测试中,多模态融合方法显著优于单模态方法 [71] - 在Room-to-Room基准测试中,多模态预训练方法提高了跨模态对齐能力 [74] 挑战与机遇 - 面临低质量数据、异构性、高效训练和推理以及高质量数据集稀缺等关键挑战 [84] - 未来研究方向包括改进跨模态对齐技术、开发高效的训练和推理策略等 [93] - 自监督学习和合成数据生成是减少对标注数据依赖的重要方向 [66]
马斯克确认!三星获特斯拉165亿美元芯片合同;火狐关闭北京公司终止中国账户;索尼投资入股万代南梦宫
搜狐财经· 2025-07-28 13:00
三星电子与特斯拉合作 - 三星电子与特斯拉签署价值22.8万亿韩元(165亿美元)的芯片制造协议,合同期为2025年7月24日至2033年12月31日 [3] - 三星将在德克萨斯州的工厂为特斯拉生产下一代AI6芯片,目前三星生产AI4芯片 [3] - 台积电将在中国台湾生产AI5芯片,随后在亚利桑那州生产 [3] 特斯拉业务进展 - 特斯拉Optimus机器人量产进度滞后,今年产量仅数百台,远低于5000台目标 [4] - 工程师在机器人手部制造环节遇到困难,部分成品缺失可操作的前臂 [4] - 加州交通监管部门叫停特斯拉Robotaxi计划,限制其测试和载客服务 [5] 科技公司动态 - 火狐关闭北京公司并终止中国账户服务,但浏览器将继续正常运行 [6] - 阿里巴巴推出首款自研AI眼镜"哇哦-夸克AI眼镜",预计年内发布 [7] - Meta任命赵晟佳为超级智能实验室首席科学家,赵晟佳曾是GPT-4核心贡献者 [8] 半导体与AI行业 - 英伟达和AMD首席执行官支持特朗普政府AI行动计划 [9] - 索尼投资680亿日元获得万代南梦宫2.5%股份,将共同开发IP内容 [10] - OpenAI首席执行官表示用户与ChatGPT对话不具法律保密性 [11] 公司财务与市场 - 亚马逊创始人贝索斯套现57亿美元,亚马逊股价较4月底上涨38% [12] - 微软将花费超10亿美元处理490万吨有机废物以减少碳排放 [13] - 印度TCS公司因行业需求萎缩将裁员1.2万人,占员工总数2% [14] 消费电子市场 - 2025年折叠手机出货量预计达1980万部,渗透率约1.6% [15] - 三星折叠手机市场份额预计从45.2%降至35.4%,华为市占率达34.3% [15] - 苹果首款可折叠iPhone将配备7.8英寸内屏和5.5英寸外屏,预计2026年推出 [10]
清华大学具身智能多传感器融合感知综述
具身智能之心· 2025-07-27 17:37
具身智能与多传感器融合感知综述 I 核心观点 - 具身AI通过物理实体载体实现动态环境中的自主决策,是突破AGI发展瓶颈的关键路径[6] - 多传感器融合感知(MSFP)通过整合相机/LiDAR/毫米波雷达等异构数据,解决单一传感器在复杂环境中的局限性[7][12] - 现有研究存在数据异构性、时空异步性、传感器故障等核心挑战,需开发新型融合方法与跨模态对齐技术[12][69] II 传感器与数据集 - **相机数据**:提供丰富颜色/纹理特征但受光照条件影响显著,恶劣天气下性能下降50%以上[13] - **LiDAR数据**:输出高精度3D点云但存在稀疏性问题,雨雾天气中有效探测距离缩短30-40%[13] - **毫米波雷达**:在恶劣天气保持稳定性能,可直接测速但点云稀疏度比LiDAR高5-8倍[13] - **主流数据集**: - nuScenes包含140万张图像+39万次LiDAR扫描,覆盖23个物体类别[16] - Waymo Open包含126万3D边界框,涵盖昼夜/雨天等多场景[17] - KITTI提供14,999帧数据,标注精度达厘米级[14][15] III 融合方法分类 - **点级融合**:通过投影实现像素-点云对齐,PointPainting方法将分割掩码特征标注到LiDAR点[25] - **体素级融合**:AutoAlign框架实现动态特征对齐,无需依赖精确投影矩阵[24] - **区域级融合**:AVOD网络处理BEV和RGB图像,生成高分辨率特征图[30] - **多级融合**:TransFusion利用Transformer建立跨模态软关联,提升鲁棒性32%[32] IV 多智能体协作 - **协作优势**:CoBEVT框架通过轴向注意力模块,使多车系统感知范围扩大2.5倍[38] - **通信优化**:When2Com方法减少带宽使用40%,同时保持95%以上的分割准确率[47] - **深度补全**:CoCa3D通过共享深度信息,将远距离目标检测准确率提升28%[39] V 时间序列融合 - **密集查询**:BEVFormer v2通过两阶段检测架构,无需深度预训练数据[55] - **稀疏查询**:Sparse4D系列采用递归方法,计算效率提升60%[56] - **混合查询**:UniAD框架集成感知/预测/规划,轨迹预测误差降低22%[59] VI 多模态大模型 - **视觉-语言**:Sce2DriveX框架通过LLM实现驾驶决策准确率提升35%[66] - **3D空间理解**:LiDAR-LLM将点云转换为语言建模任务,问答准确率达89%[67] - **知识增强**:SafeAuto通过多模态基础模型,事故率降低42%[66] VII 未来方向 - **数据生成**:采用AIGC技术合成罕见场景数据,填补真实数据集空白[74] - **模型架构**:开发几何学习与MM-LLM结合的混合架构,处理不规则传感器数据[76] - **自适应算法**:零样本学习方法使模型泛化能力提升50%[76]
VLN-PE:一个具备物理真实性的VLN平台,同时支持人形、四足和轮式机器人(ICCV'25)
具身智能之心· 2025-07-21 16:42
视觉-语言导航平台VLN-PE的核心创新 - 推出首个支持人形、四足和轮式机器人的物理真实VLN平台VLN-PE,基于GRUTopia构建,可无缝集成MP3D之外的新场景[3][10] - 平台采用基于RL的控制器API,支持Unitree H1人形机器人、Aliengo四足机器人和Jetbot轮式机器人的物理仿真[13] - 引入90个MP3D场景并手动修复地面间隙,新增10个GRScenes合成家庭场景和3D高斯溅射扫描场景以增强环境多样性[14] 跨具身导航的关键发现 - 现有VLN-CE模型迁移到物理环境时成功率下降34%,暴露伪运动训练与物理部署的差距[15] - 模型性能因机器人类型差异显著,人形机器人表现最佳而四足机器人最差(相机高度0.5米时几乎失效)[36][37] - 联合训练三种机器人数据的模型实现最佳性能,验证跨具身训练的"一劳永逸"潜力[37][39] 多模态与光照条件影响 - 仅依赖RGB的NaVid模型在低光照下成功率下降12.47%,而RGB+深度模型的CMA和RDP表现更稳定[38] - 相机光源(CL)条件下模型性能普遍低于圆盘光(DL),反光问题导致导航误差增加[38] - 深度信息融合使CMA模型在DL300光照条件下保持85%的基础性能,显著优于纯RGB模型[38] 模型性能对比 - 70亿参数的NaVid模型零样本迁移表现最佳,但存在70%任务片段中过度旋转的问题[29][30] - 扩散模型RDP在3DGS-Lab-VLN数据集上达到30.63%成功率,较NaVid的5.81%提升5倍[31] - 基于地图的VLMaps方法在未见验证集取得20%成功率,证明非端到端方案的可行性[27][24] 数据收集与训练策略 - 使用物理控制器收集的训练数据使模型跌倒率降低8.36%,卡住率减少2.01%[33][34] - 在VLN-PE域内数据微调的Seq2Seq模型性能超越Habitat增强训练的模型,显示仿真过拟合风险[29] - 3DGS场景微调的600万参数小型模型超越NaVid,验证多样化训练分布的价值[30]
AI三问③模型之问 | 直面模型之问,以大爱共塑 AI 未来 ——WAIC 2025 大模型论坛以问题破局引领技术革新
36氪· 2025-07-17 11:21
2025世界人工智能大会(WAIC)核心内容 - 2025年7月26日至28日在上海世博中心等地举办 聚焦"AI三问"框架:数学之问(公理推演)、科学之问(实证研究)、模型之问(技术落地) 三者协同推动跨领域创新 [3] - 商汤科技承办7月27日"大爱无疆・模塑未来"大模型论坛 贯穿"模型之问"主题 聚集全球专家探讨模型本质难题 [3] 跨国界技术交流亮点 - 活动打造跨国界跨架构交流平台 聚焦"泛化性瓶颈与模型底层范式关联"问题 分析架构设计固有局限 探索技术突破路径 [4] - 汇集全球顶尖企业技术专家与高校学者 促进不同技术路线智慧碰撞 为解决大模型技术瓶颈提供多元视角 [4] 架构革新与产业应用 - 探索Transformer与非Transformer架构融合路径 研究跨模态智能的语义鸿沟问题 优化文本/图像等多模态融合技术 [5] - 直击"性能-开销曲线优化"痛点 研究降低训练能耗同时保持性能的方案 重点关注轻量化架构与非Transformer可能性 [5] - 学术界探讨推理时扩展架构性能边界 产业界展示工程化优化方案 促进理论研究与产业实践互动 [5] 全球技术共识与发展方向 - 产学研领袖共同探讨高阶智能实现障碍 分析复杂推理/自主决策等认知短板成因 形成包含中国智慧的技术方案 [6] - 海内外专家围绕算力优化/跨模态语义破解等议题凝聚共识 推动AI从技术竞争转向协同破题的新模式 [6] 大会配套内容 - 推出首份刊物《WAIC UP!》定位为"AI时代进化指南" 汇集跨领域先锋力量探讨技术跃迁与未来文明 [7][8][10]
新京报联合Xsignal发布首期“全媒介之星”中国AI应用榜
贝壳财经· 2025-07-11 10:45
市场格局 - 2025年上半年中国AI应用市场呈现"一超引领、多元跟进"特征,AI聊天机器人类应用以35%份额(7款产品上榜)稳居核心赛道 [2] - 豆包、DeepSeek、夸克组成"超级三巨头",合计占据超60%活跃用户(豆包2.05亿MAU、DeepSeek2.2亿MAU)并垄断核心流量入口 [5] - 第二梯队由AI虚拟角色(4款)、AI搜索引擎(2款)、AI图像生成/编辑(2款)构成,长尾领域如AI教育学习等各有1款产品上榜 [3] 竞争态势 - 头部与腰部差距显著:第4-5位的纳米AI搜索、即梦AI声量仅700万-800万,用户数约1400万,与头部形成量级鸿沟 [6] - 通用聊天机器人赛道垄断固化,豆包以3000万声量撬动2.05亿用户,夸克2000万声量积累9255万用户,验证高效转化路径 [7] - 垂直领域呈现差异化竞争,图像生成应用即梦AI以781万声量对应1402万用户,显示大众化趋势 [9] 产品策略 - 效率工具Manus以23万低声量获870万用户,凸显聚焦垂直刚需场景的竞争力 [7] - AI虚拟角色领域声量达210万-487万但用户仅54万-373万,商业模式尚未成熟 [11] - 头部玩家转向多模态融合、构建个性化智能体,垂直领域聚焦"小而美"精准定位 [12][13] 行业趋势 - 用户需求从"新奇体验"转向实际价值,场景化、专业化成为增长新引擎 [4] - 图像生成领域迎来爆发期,产品体验直接决定增长速度 [9] - 效率工具展现"刚需+高黏性"特质,通过AI智能体平台实现精准赋能 [10] 数据表现 - 豆包声量接近3000万,DeepSeek声量未披露但用户数达2.2亿,夸克声量2000万对应9255万用户 [5][7] - 典型案例对比:Lovekey键盘431万声量仅54万用户,Manus23万声量获870万用户 [7] - 即梦AI在图像生成领域781万声量对应1402万用户,转化效率显著 [9]
从Grok-4看AI产业发展
2025-07-11 09:05
纪要涉及的行业和公司 - **行业**:AI 行业 - **公司**:OpenAI、谷歌、Meta、英伟达、Deep Sea 公司、DPC 纪要提到的核心观点和论据 GROX4 相关 - **亮点进展**:推理能力大幅提升,HLE 测试中 heavy 版本得 50 分超 OpenAI 的 23 分,美国奥数竞赛表现优异;通过稀疏激活策略优化参数,参数量减少 40%,用 1.7 万亿 TOKEN 性能超 GROX3 的 2.7 万亿 TOKEN;引入多模态融合,含音频、图像、实时搜索和工具调用,支持实时上网;API 定价提高,输入每百万 TOKEN 收费 3 美元,输出每百万 TOKEN 收费 15 美元是 O3 一倍;训练加入多智能体协同机制,提高模型后续调用能力[1][3][6] - **对 AI 产业影响**:为未来 AI 产业发展提供新方向,可能重构商业价值分配,提高模型智能化水平和应用场景广泛性,对算力需求提出更高要求[1][7] - **编程能力表现**:Benchmark 测试高分有局限性,因训练数据可能受污染,在非标准 Benchmark 问题上表现大幅下降,在指令遵循、基本对话能力及幻觉率方面比大厂稍差[14] - **定价分析**:定价 300 美金每月昂贵,反映自信及成本因素,对普通用户实际体验未显著优于其他大厂产品,高定价或基于成本非市场需求[15] GPT5 相关 - **发布预期**:原定于 7 月发布,因模型能力和测试结果不满意可能推迟 1 - 2 个月,最晚 9 月发布[5] - **技术进步方向和亮点**:集中在多模态深度整合,包括文生图、文生视频、音频交互能力;增强 agent 功能提升产品体验;继续进行 Pre - train 阶段 scale up,但面临 ROI 较低瓶颈[5] Grok 创新模式相关 - **对 AI 大模型发展影响**:从量变引发质变,提高模型智能化和应用场景广泛性,可能重构商业价值分配,对算力需求提出更高要求[7] - **技术实现方式**:将 agent 调用放入预训练,多个 agent 协作完成任务,agent 在预训练阶段有调用能力[7] - **对行业分工模式影响**:可能改变 AI 行业分工模式,大厂或主导 agent 开发,挤压初创企业空间,但行业数据敏感企业有独特价值,初创企业在某些功能超越大厂可找到生存空间[11] AI 大模型发展趋势相关 - **发展阶段**:仍处高速上升阶段,强化学习技术不断 scale up,但预训练阶段未来可能进入 log 函数式缓慢增长阶段[8] - **算力需求**:持续增长,英伟达市值突破是信号,训练和推理阶段算力需求呈指数级增长,训练端目标两至三年 H100 和 B100 卡片从超 20 万张到 100 万张,推理端因多 agent 调用算力需求达 8 倍增长[2][8][19] 其他模型技术对比相关 - **GPT O1 和 Grok 区别**:GPT O1 2024 年 9 月推出,后训练引入强化学习,通过思维链提高答案质量;Grok 是第二代强化学习后训练,延续思维链机制,加入工具调用和网络搜索功能,派出多个 agent 平行搜索、整合自评,提高结果质量增加算力需求[9][10] 市场定价策略相关 - **AI 产品定价**:部分 AI 产品定价较高但未达难以接受程度,如 Grok 300 美元/月、OpenAI 的 O3 200 美元/月,Grok 具备强大 agent 功能,个人用户付费订阅占比 10% - 20%,高端用户可获高级体验,部分用户能回本[16] 各公司动态相关 - **海外一线梯队厂商**:迭代方向集中在多模态原生整合和智能代理整合,谷歌、Meta 探索多种模态融合,谷歌 JM2.5 支持视频输入,发力智能眼镜领域[21] - **广告植入计划**:谷歌和 Meta 计划将广告植入大语言模型,已处实验阶段,落地面临确保广告商公平性挑战,预计 2025 年底前有 Beta 版本[22] - **国内 Deep Sea 公司**:R2 模型进展缓慢,受算力瓶颈限制,未获取大量海外 H100 卡片,达到预训练推理端算力需 20 万张卡是巨大挑战[23][24] - **DPC**:目前无海外市场动作,算力或限制实验和能力提升,可能不采用 Grox 铺张训练方式,强化学习非增长受益者,但有算法创新值得期待[25] - **模型发布时间**:GPT - 5 预计 7 月底 - 9 月发布,各公司根据自身训练进度决定发布时间,下半年重磅新模型可能是 JNI3,各公司不会刻意同步发布时间[26] 其他重要但可能被忽略的内容 - Grok 即将发布专属编码模型,基础模型有强大编码能力,agent 能实现整合现有代码库功能,但系统协调能力未在 Benchmark 展示,考虑功能和潜力定价不算过于不合理[17][18] - AI 行业每半年出现新范式带动增长,现阶段 GPU 需求持续快速增长推动市场发展[20]
从多模态融合到行业深扎,国内 AI 大模型三大发展方向解析
搜狐财经· 2025-07-07 11:36
技术深化方向 - 多模态融合成为大模型发展重点 科大讯飞的星火认知大模型通过综合判断语音、手势、行为、情绪等提供更自然交互 并首发汽车端侧星火大模型赋能汽车产业 字节跳动的豆包强化多模态能力 其视频生成模型Seedance 1.0 pro在国际评测中表现优异 未来大模型将更精准融合文本、图像、语音等多模态信息 [2] - 推理能力持续提升 字节跳动的豆包1.6-thinking在复杂推理、竞赛级数学等测试中跻身全球前列 多轮对话能力达企业级应用标准 百度文心一言通过引入外部知识源提升知识水平和回答准确性 [2] 应用拓展方向 - 行业深度赋能趋势明显 科大讯飞计划将星火大模型从通用走向行业 覆盖汽车、教育、医疗、智慧城市等领域 百度、阿里等公司也在金融、工业、政府、科研、电商领域探索定制化应用 [3] - 智能应用创新加速 字节跳动提出"互联网从APP时代进入Agents时代" 火山引擎方舟平台构建了服务Agent开发完整体系 催生他她它、推氪AI等创新产品 未来大模型将与新兴技术结合创造智能助手、创作工具等应用 [3] 生态建设方向 - 开源共享成为重要趋势 2025年以来字节豆包、百度文心、阿里通义千问等推出开源模型 商汤科技发布LazyLLM开源框架 MiniMax开源新一代MiniMax-01系列模型 通过开源吸引开发者提升模型性能 [4] - 产业生态构建持续推进 国内出台政策支持AI产业发展 上海模速空间覆盖算力层、数据层、基础大模型层和应用层全产业链 未来研发机构将加强与上下游合作构建完整产业生态 [4]