Workflow
多模态大模型
icon
搜索文档
从马拉松到格斗大赛,人形机器人在教育行业的奇点时刻还有多远?
36氪· 2025-05-27 07:48
人形机器人产业发展概况 - 2025年人形机器人与具身智能正从实验室走向规模化落地,成为全球科技与资本竞逐焦点,由AI大模型与硬件革命驱动产业变革 [1] - 全球人形机器人市场规模已达32.8亿美元,预计国内三年内突破200亿元,在所有应用形态中占比将超20% [2] - 人形机器人被视为继计算机、智能手机、新能源汽车后的革命性产品,集成人工智能、高端制造、新材料等前沿技术 [1] 政策支持与产业链布局 - 2018-2024年国家及地方累计发布10项专项政策,包括《十四五机器人产业发展规划》《人形机器人创新发展指导意见》等核心文件 [3] - 产业链形成"上游核心技术-中游整机制造-下游应用场景"三级结构,多技术融合特征显著 [12] - 上游核心技术包括具身智能"大脑"(多模态大模型)、运动控制"小脑"、仿生系统"身体"三大支柱 [11][13][18][19] 技术演进与突破 - 发展历程分为机械模仿(1969-2000)、感知能力初现(2000-2015)、运动与认知并进(2015-2022)、具身智能爆发(2022至今)四个阶段 [4][5][6][7] - 具身智能通过物理形态与环境互动,结合大模型实现实时感知-决策-执行闭环,典型案例包括自变量机器人WALL-A的零样本泛化能力 [7] - 硬件突破体现在执行器(国产替代加速)、传感器(速腾聚创激光雷达)、能源系统(宁德时代电池技术)等领域 [19] 市场应用与商业模式 - 工业场景已实现高危作业替代(如Figure AI物流分拣机器人),家庭场景预计需5-10年成熟 [23] - 宇树科技通过租赁模式验证市场需求(产品售价9.9万-65万元),推动从展示性向功能性租赁升级 [23] - 商业模式向"硬件+服务"演进:B端采用机器人即服务(RaaS),C端采用硬件买断+软件订阅 [24] 教育场景应用 - 当前处于"小场景验证"阶段,聚焦特殊教育/STEAM/职业教育,大规模普及需硬件成本下降 [26] - 发展阶段分为功能验证(2020-2025)、辅助教学(2026-2030)、深度融合(2031-2035)、自主创新(2036后) [27] - 典型案例包括优必选Yanshee(覆盖上千所学校)、乐聚Aelos(200余所院校落地)等 [32][33] 未来八大趋势 1. 具身智能与多模态大模型深度融合,实现教育场景泛化与个性化 [34] 2. 仿真训练平台(如Nvidia Isaac Sim)加速智能化迭代 [35] 3. 端到端大模型驱动自主操作与自适应教学 [36] 4. 人机共融伦理规范体系化构建 [37] 5. 从辅助工具向教育生态重构演进 [38] 6. 催生机器人教育算法开发者新角色 [39][40] 7. 产教融合推动产学研协同创新 [43][45] 8. 数据标注技术向多模态智能标注演进 [47]
上海网达软件股份有限公司关于2024年度暨2025年第一季度业绩暨现金分红说明会召开情况的公告
上海证券报· 2025-05-27 03:35
业绩表现 - 2024年实现营业收入3.34亿元,同比增长13.18%;归属于上市公司股东的净利润1047.69万元,同比增长112.57%;扣非净利润220.62万元,同比增长102.34% [2] - 2025年一季度营业收入7447.01万元,同比增长11.11%;扣非净利润121.07万元,同比增长35.34% [11] - 高新视频解决方案毛利率同比增加8.16%,AI视频大数据解决方案毛利率同比增加30.30%,成为重要增长点 [2] 业务发展 - 基于自研行业大模型,聚焦智慧安防、智慧社区、智慧医疗、安全生产等场景,提供专业化、轻量化解决方案 [3] - 将高清视频处理、AI模型、XR引擎等模块标准化,形成可快速复用的技术中台,降低定制化开发成本 [3] - 产品深度融入信创生态,完成与国产操作系统(OpenEuler、麒麟、统信、鸿蒙等)及处理器平台(鲲鹏、飞腾、海光等)的兼容适配认证 [3] 技术布局 - 以AI大模型为底座、超高清视频为入口、XR为交互界面,为细分市场提供高附加值解决方案 [5] - AI大模型赋能安全领域:建立全方位智能感知体系,已在码头/港口实现项目落地,并推广至园区、商场、轨道交通等行业 [7] - AI大模型赋能全媒体领域:研发智能图像创作系统、直播拆条系统等,构建企业级媒体数智台,承接国家主流媒体客户端平台项目 [8] 行业前景 - 高新视频产业加速向"智能化、沉浸化、交互化"发展,推动产业链从终端显示向内容生产、算力网络、行业应用全链条延伸 [9] - 多模态大模型整合文本、图像、语音、视频等信息,渗透工业、教育、金融、医疗等行业核心场景,成为智能化转型关键引擎 [9] 2025年规划 - 夯实视频技术底座:聚焦超高清编解码、低时延传输,加速国产化硬件平台适配,探索视频技术赋能数字化转型新模式 [12] - 激活AI大模型势能:基于自主4K/8K全生态链解决方案,打造智能创作工具链,搭建AI视频能力开放平台 [12] - 布局扩展现实生态:强化空间计算、实时渲染能力,推进XR与AI、物联网融合,在数字文娱、职业培训等领域形成标杆解决方案 [12] 其他事项 - 拟每10股派发现金红利1.50元(含税),合计派发4005.13万元,股东会召开后2个月内实施 [5] - 全资子公司上海众响信息技术有限公司已完成注销,不再纳入合并报表范围 [16][17] - 作为华为鸿蒙开发服务商,拥有100多名鸿蒙资质工程师,参与研发2款重要应用并获鸿蒙先锋奖 [6]
第九届世界无人机大会暨国际低空经济与无人系统博览会在深圳举行
南方日报网络版· 2025-05-26 15:57
无人机与具身智能技术结合 - 更多无人机企业尝试将无人机与具身智能技术相结合,产品线深入细分领域 [1] - 展会低空经济板块展出5000多架(台)各类无人机及上下游配套产品 [2] - 道通智能展示多模态大模型应用,无人机可自主优化飞行路径,成为空中机器人 [2] - 猎户座AP3-P3柔韧系留清洗系统展示小型清洗无人机在城市建筑小场景的应用潜力 [2] 无人机应急救援应用 - 展会展示无人机消防作战单元车、智能遥控救援担架、飞行救生圈等应急救援产品 [3] - 浙江俱星动力科技展出内嵌四旋翼的飞行救生圈,可远程遥控并自动识别落水者 [3] - 龙翼航空无人机消防作战单元车配备长航时侦察无人机和三架投弹灭火无人机,单次覆盖火场面积500平方米,效率提升5倍以上 [3]
重磅!2025年中国及部分省市多模态大模型行业政策汇总及解读(全)政策鼓励多模态大模型应用场景创新
前瞻网· 2025-05-26 11:25
政策历程与核心观点 - 2023年地方政策从算力角度切入,鼓励大模型技术体系发展和应用场景创新,广东、北京、上海率先行动 [1] - 2024年地方政策围绕"高效办成一件事"提升政务效率,2025年政府工作报告首次写入"支持大模型广泛应用",强调国产算力底座的全链发展 [1] - 国家层面通过"人工智能+"行动促进数字技术与制造、市场结合,支持智能终端及装备发展,推动数据标注规模化标准化 [4] 国家层面政策汇总 - **规范性政策**:2025年3月《人工智能生成合成内容标识办法》要求平台审核AI内容标识,9月实施国家标准 [5] - **鼓励类政策**:2024年12月《中小企业数字化赋能专项行动方案》建设垂直行业大模型,强化中小企业技术供给 [5] - **支持类政策**:2024年1月国务院推动大模型优化政务服务,发改委研究降低大模型算力消耗 [5] - **规划类政策**:2023年5月《科技成果赋智中小企业专项行动》推动智能技术供给,2022年10月虚拟现实计划发展多节点算力设施 [6][7] 重点国家政策解读 - 《新一代人工智能发展规划》设定"三步走"目标:2025年部分技术世界领先,2030年总体领先 [7][8] - 《"数据要素×"三年行动计划》目标2026年打造300+应用场景,数据产业年均增速超20%,覆盖12个重点领域 [11] 省市政策汇总 - **广东**:2023年11月研发千亿级通用大模型,构建多模态垂直领域模型 [13] - **北京**:2025年目标形成3-5个基础大模型、100个行业模型、1000个案例 [14] - **上海**:2027年吸引100+大模型生态企业,构建算法评测体系 [14] - **深圳**:2024年建成4000P FLOPS智算中心,推动工业上楼项目配建 [13] 省市发展方向 - **浙江**:2024年14项措施覆盖算力设施、模型生态、实体经济赋能 [13] - **江苏**:2023年重点研究AI基础理论,突破跨媒体智能、内容生成等技术 [13] - **安徽**:2023年加快智算中心建设,开放大模型应用场景 [13] - **宁夏**:2024年运用大模型建设政务服务知识库,实现智能客服 [13]
2025年中国多模态大模型行业主要模型 主要多模态大模型处理能力表现出色【组图】
前瞻网· 2025-05-22 16:58
多模态大模型技术概述 - 视觉+语言多模态大模型的主流方法是通过预训练的大语言模型和图像编码器结合图文特征对齐模块实现跨模态理解减少对高质量图文对数据的依赖[1] - 行业主要上市公司包括阿里巴巴百度腾讯科大讯飞万兴科技三六零昆仑万维云从科技拓尔思等[1] CLIP模型技术特点 - CLIP采用对比学习方法连接图像和文本特征通过文本编码器实现zero-shot视觉分类[2] - 使用句子模板(prompt engineering)作为分类标签显著提升效果例如"A photo of a..."的句式结构[2] Flamingo模型架构 - Flamingo整合CLIP与语言模型新增技术使模型能基于视觉和文本输入生成文本响应[5] - 训练使用4类数据集包括2种(图像文本)对1种(视频文本)对及交错图像文本数据集[5] BLIP模型创新 - BLIP统一视觉语言任务的理解与生成能力通过自监督引导学习增强跨模态性能[7] - 相比CLIP新增图像生成视觉问答图像描述等复杂任务处理能力[7] LLaMA多模态实现 - LLaMA采用CLIP ViT-L/14视觉编码器+语言解码器架构通过映射矩阵将视觉特征转化为Token[8] - 可替换基础映射层为gated cross-attention或Q-former等复杂网络提升性能[8] 行业研究资源 - 前瞻产业研究院提供《全球及中国多模态大模型行业发展前景与投资战略规划分析报告》[10] - 其他服务包括产业新赛道研究IPO咨询专精特新企业申报等解决方案[12]
第二批展商抢先看|2025张江具身智能开发者大会:聚势启新,共赴产业新程
机器人大讲堂· 2025-05-21 20:13
2025张江具身智能开发者大会暨国际人形机器人技能大赛 - 大会将于5月29日在上海举办,采用"峰会+大赛+展览"三位一体模式,汇聚200余家人形、具身及产业链头部企业,1000余位院士、专家及企业领袖 [1] - 活动包含1场主论坛、9场开发者论坛、1场国际人形机器人技能大赛及1场创新产品展,展览涵盖具身智能、开发者生态、人形机器人产业链及本体四大内容 [1] - 配套活动包括开发者之夜、浦东企业家早餐会等,旨在吸引人才与企业落地发展 [1] 人形机器人本体企业展示 - 开普勒K2"大黄蜂"拥有52个自由度,配备自研KeplerGear精旋动力™执行器、NimbleMaster巧手大师™及KeplerBrain类脑系统™,双臂负载达30kg,续航8小时 [5][6] - 卓益得"行者二号"采用仿生肌腱驱动技术,步速2.5m/s,越障15cm,能耗降低25%,动态续航6小时 [7] - 魔法原子通用人形机器人"小麦"搭载负载20KG的MagicHand S01灵巧手,已量产并应用于教育、工业等领域 [7] - 松延动力"运动健将N2"奔跑时速3.2m/s,可完成后空翻等高难度动作,仿生机器人头"小诺"支持沉浸式交互 [11][13] 具身智能技术突破 - 松应科技ORCA仿真平台数据采集成本降低至1%,生成速度提升1000倍,支持全形态机器人高精度仿真 [17] - 星海图专注"一脑多形"具身智能机器人,团队具备自动驾驶量产经验 [16] - 多模态大模型推动人形机器人"脑-身"协同,国内企业如松应科技、星尘智能等加速技术迭代 [14] 核心零部件创新 - 华威科推出柔性电子皮肤系列产品,适应机器人曲面结构,实现高灵敏度触觉感知 [19] - 步科无框力矩电机采用灌封工艺,转矩密度提升,温升降低,适用于人形机器人关节 [21] - 因克斯智能EC-DexHand-5F灵巧手指节力矩精度达0.05Nm,峰值力矩2Nm,支持多模式切换 [23] 开发者生态与前沿技术 - 上交大RoboTwin项目结合数字孪生与大型语言模型,生成多样化机器人训练场景 [26] - 开发者生态展区聚焦数据采集、模型训练及开源社区,展示技术开发全流程支持 [24] 行业生态与参与企业 - 参展企业覆盖工业机器人(埃斯顿、节卡)、服务机器人(亿嘉和、普渡)、医疗机器人(天智航、精锋医疗)及人形机器人(优必选、宇树)等领域 [30][31] - 核心零部件企业包括绿的谐波、因克斯、青瞳视觉等,展示国产化替代进展 [32]
2025年中国多模态大模型行业文娱媒体应用场景 多模态大模型提升文娱媒体创作效率【组图】
前瞻网· 2025-05-20 15:27
多模态大模型应用场景结构 - 多模态大模型相比语言大模型更偏重落地场景,商业变现路径更清晰 [1] - 应用场景划分为11类,成熟度最高的前5个场景为数字人、游戏、广告商拍、社交媒体和智能营销 [1] 数字人领域应用 - 多模态技术为数字人提供语言生成、语音合成、视觉呈现和跨模态协同四大核心能力 [2] - 语言生成:通过NLP技术实现语义理解和自然语言回复生成 [5] - 语音合成:支持多语言和语调调节的生动语音表达 [5] - 视觉呈现:基于图像/视频生成技术展现逼真面部表情和肢体动作 [5] - 跨模态协同:整合文本/语音/图像模态提升人机交互自然度 [5] 游戏领域应用 - 自然语言理解与生成:使游戏角色能理解玩家指令并情景化回复 [5] - 语音交互:虚拟角色可生成情感丰富的多语言语音 [5] - 图像/视频生成:动态生成逼真角色形象和场景 [5] - 跨模态协同:根据玩家实时输入动态调整场景/情节 [5] - 沉浸式体验:支持语音/动作输入增强环境代入感 [5] 广告商拍领域应用 - 智能创作:自动生成符合品牌调性的多模态广告素材 [10] - 个性化制作:基于用户数据动态生成定制化广告内容 [10] - 精准投放:通过多模态数据分析实现情境化广告推荐 [10] - 虚拟推广:创建虚拟代言人和沉浸式广告场景 [10] 社交媒体领域应用 - 内容创作:自动化生成情感化内容提升平台活跃度 [12] - 个性化推荐:深度匹配用户兴趣提高广告ROI [12] - 互动优化:通过语音/表情分析增强用户情感连接 [12] - 社区治理:多模态技术提升内容审核效率与准确性 [12]
利多星新征程研究所走进道通科技,瞄准万亿巡检市场
财富在线· 2025-05-19 15:45
集团发展现状 - 道通集团成立于2014年 旗下上市公司道通科技于2020年登陆科创板 2024年集团总营收约60亿元 其中上市公司贡献超30亿元 五年复合增长率达30% [2] - 公司业务高度全球化 海外营收占比80%-90% 欧美市场占70% [2] - 上市公司核心业务包括汽车智能诊断平板(全球细分市场市占率第一)和新能源充电网络 后者在欧美前十大市场中已覆盖约60%的头部客户 技术实力位列全球前三 [2] - 集团通过天穹智能(无人机及软件平台)和塞防科技(硬件载体)布局具身智能领域 2024年成立全资子公司专注AI大脑及地面载体研发 [2] 具身智能业务布局 - 道通科技将巡检行业发展划分为五个阶段 目前多数企业处于"无人机+飞手"的第二阶段 而公司已推进至第四阶段——通过无人机集群与地面智能体协同作业 结合具身智能技术替代人力 终极目标为实现基于大模型的端到端自主作业 [3] - 公司技术架构分为三层:硬件层(工业级无人机及地面机器人) 平台层(Agent智能体调度平台与客户业务操作平台) 模型层(多模态大模型 作业业务大模型及支撑大模型) [5] - 智能巡检解决方案关键技术是自组网技术 应用于无人机集群 无人机与地面集群之间的通信 在能源 安防 交通管理等场外作业场景有广泛应用 [7] 商业化进程与未来规划 - 道通科技期望于2025年10月举办大型发布会 推出具有商业化落地能力的空地一体智能巡检解决方案 [1][7] - 公司将展示空地一体及地面机器人形态 且确定其具有很强的商业价值和实际落地性 [7] - 公司将持续深耕交通与泛工业两大核心领域 通过具身智能技术的创新应用 致力于重构传统巡检运维模式 [8] 全球化产能布局 - 自2018年起已构建中国(光明) 越南 美国(北卡)三地产能 新能源充电业务通过"美国工厂供应55%+越南工厂补充"满足IRA法案要求 客户已同意承担越南10%的关税成本 [8] - 美国仓库备有6-9个月安全库存 预计关税对业绩影响微弱 [8]
全球科技行业周报:国内多模态大模型相继迭代,算力仍为计算机长期主题
华安证券· 2025-05-18 15:50
报告行业投资评级 - 行业评级为增持 [2] 报告的核心观点 - 本周(2025-05-12至2025-05-16)上证指数、创业板指、沪深300、恒生科技、纳斯达克指数周涨跌幅分别为0.76%、1.38%、1.12%、1.95%、7.15%,中证1000周涨跌幅为 - 0.23%;传媒、恒生互联网科技业、中证海外中国互联网50等指数有不同涨跌幅表现 [3][26] - 腾讯发布混元图像2.0模型,阿里巴巴开源通义万相Wan2.1 - VACE,算力供需两端均有利好,供给端台积电有建厂计划且CoWoS产能预计提升,需求端我国启动算力互联网试验网建设 [4][5] - 给出海外AI、国内AI、海外半导体等多领域投资建议,涉及Meta、腾讯控股等多家公司 [8][9][10] 根据相关目录分别进行总结 本周行情回顾 - 指数表现:上证指数、创业板指等指数有不同周涨跌幅,传媒和计算机行业指数在申万31个行业指数及TMT四大行业中有相应排名 [3][26][33] - 板块表现:传媒、恒生互联网科技业等板块指数有不同周涨跌幅 [3][26] - 个股表现:港股、美股、A股传媒和计算机个股有涨幅和跌幅前三情况,还给出了涨跌幅前十个股明细 [36][37][38] 行业一周要闻 AI + 领域 - 海外AI:OpenAI宣布GPT - 4.1起将直接在ChatGPT中提供 [42] - 国内AI:腾讯发布混元图像2.0模型和T1 - Vision上线元宝,阿里巴巴开源通义万相Wan2.1 - VACE [4][42] - 海外半导体:2025Q1 AMD在全球服务器CPU营收中占比39.4%、桌面端占比34.4% [43] - A股上市公司AI应用进展:展示了多家公司自2024年1月初至今的AI应用进展情况 [45][47][48] - 海外主要大模型迭代情况:介绍了ChatGPT、Claude等多个海外主要大模型的迭代情况 [53][54][55] - 国内主要大模型迭代情况:介绍了文心一言、通义千问等多个国内主要大模型的迭代情况 [58][59][60] 计算机 - 数字经济:一季度我国数字产业实现业务收入8.5万亿元,同比增长9.4%,利润总额5721亿元,同比增长7.0% [63] - 算力:我国启动算力互联网试验网建设,算力资源将可“用多少买多少” [64] 互联网 - 本地生活:京东外卖日订单量突破2000万单,携程入境游订单量同比接近翻倍,美团Keeta将进入巴西市场并投资10亿美元 [65][66] - 综合电商:阿里巴巴发布FY25Q4业绩,拼多多Temu即将恢复美国全托管业务 [66] - 海外消费:亚马逊将在欧洲多地上线当日达服务 [67] - 产业互联网:腾讯发布25Q1业绩,小米自研手机芯片5月下旬发布 [67][68] 传媒 - 影视:上周全国票房报3.47亿,大盘环比下跌54.1%,《水饺皇后》蝉联单周票房冠军 [68][69] - 游戏:网易发布25Q1业绩,2025年4月米哈游《崩坏:星穹铁道》等手游在海外有出色表现 [69] 公司公告 - 2025-05-12至2025-05-16有多公司发布公告,如汤姆猫股东股份相关公告、巨人网络业绩说明会记录等 [71][72]
【前瞻分析】2025-2030年中国多模态大模型生成生活相关场景分析
搜狐财经· 2025-05-14 20:57
行业主要公司 - 行业主要公司包括阿里巴巴(09988HK BABAUS)、百度(09888HK BIDUUS)、腾讯(00700HK TCEHY)、科大讯飞(002230SZ)、三六零(601360SH)、云从科技(688327SH)等 [1] 投融资趋势 - 2025年开始多模态大模型投融资呈现爆发式增长 截至2025年4月投融事件数量接近50件 [2] - 2021年投融资金额达高峰191亿元 但当年投资事件数量仅5件 [2] - 2024年开启新一轮投资周期 共11件投资事件 金额达516亿元 [2] - 2025年前4个月投融事件17件 金额16亿元 [2] 投资地域分布 - 北京是主要投资目的地 占全部项目的50 [3] - 深圳占比10 上海占比8 [3] - 宁波、三亚、苏州因营商环境良好也有部分项目 [3] 应用场景分布 - 智能营销占中国人工智能多模态大模型20强企业模型场景的95 [5] - 教学辅助、3D建模和智能驾驶各占48左右 [5] 教学辅助应用 - 多模态大模型通过智能化、个性化和沉浸式方式提升教学效果 [8] - 覆盖教辅书籍、在线课程、教育软件等多种产品和服务 [8] - 可减轻教师负担 优化资源配置 全面提升教学质量 [8] 研究机构 - 前瞻产业研究院提供多模态大模型行业研究报告及各类产业解决方案 [10]