Workflow
多模态大模型
icon
搜索文档
第二批展商抢先看|2025张江具身智能开发者大会:聚势启新,共赴产业新程
机器人大讲堂· 2025-05-21 20:13
2025张江具身智能开发者大会暨国际人形机器人技能大赛 - 大会将于5月29日在上海举办,采用"峰会+大赛+展览"三位一体模式,汇聚200余家人形、具身及产业链头部企业,1000余位院士、专家及企业领袖 [1] - 活动包含1场主论坛、9场开发者论坛、1场国际人形机器人技能大赛及1场创新产品展,展览涵盖具身智能、开发者生态、人形机器人产业链及本体四大内容 [1] - 配套活动包括开发者之夜、浦东企业家早餐会等,旨在吸引人才与企业落地发展 [1] 人形机器人本体企业展示 - 开普勒K2"大黄蜂"拥有52个自由度,配备自研KeplerGear精旋动力™执行器、NimbleMaster巧手大师™及KeplerBrain类脑系统™,双臂负载达30kg,续航8小时 [5][6] - 卓益得"行者二号"采用仿生肌腱驱动技术,步速2.5m/s,越障15cm,能耗降低25%,动态续航6小时 [7] - 魔法原子通用人形机器人"小麦"搭载负载20KG的MagicHand S01灵巧手,已量产并应用于教育、工业等领域 [7] - 松延动力"运动健将N2"奔跑时速3.2m/s,可完成后空翻等高难度动作,仿生机器人头"小诺"支持沉浸式交互 [11][13] 具身智能技术突破 - 松应科技ORCA仿真平台数据采集成本降低至1%,生成速度提升1000倍,支持全形态机器人高精度仿真 [17] - 星海图专注"一脑多形"具身智能机器人,团队具备自动驾驶量产经验 [16] - 多模态大模型推动人形机器人"脑-身"协同,国内企业如松应科技、星尘智能等加速技术迭代 [14] 核心零部件创新 - 华威科推出柔性电子皮肤系列产品,适应机器人曲面结构,实现高灵敏度触觉感知 [19] - 步科无框力矩电机采用灌封工艺,转矩密度提升,温升降低,适用于人形机器人关节 [21] - 因克斯智能EC-DexHand-5F灵巧手指节力矩精度达0.05Nm,峰值力矩2Nm,支持多模式切换 [23] 开发者生态与前沿技术 - 上交大RoboTwin项目结合数字孪生与大型语言模型,生成多样化机器人训练场景 [26] - 开发者生态展区聚焦数据采集、模型训练及开源社区,展示技术开发全流程支持 [24] 行业生态与参与企业 - 参展企业覆盖工业机器人(埃斯顿、节卡)、服务机器人(亿嘉和、普渡)、医疗机器人(天智航、精锋医疗)及人形机器人(优必选、宇树)等领域 [30][31] - 核心零部件企业包括绿的谐波、因克斯、青瞳视觉等,展示国产化替代进展 [32]
2025年中国多模态大模型行业文娱媒体应用场景 多模态大模型提升文娱媒体创作效率【组图】
前瞻网· 2025-05-20 15:27
多模态大模型应用场景结构 - 多模态大模型相比语言大模型更偏重落地场景,商业变现路径更清晰 [1] - 应用场景划分为11类,成熟度最高的前5个场景为数字人、游戏、广告商拍、社交媒体和智能营销 [1] 数字人领域应用 - 多模态技术为数字人提供语言生成、语音合成、视觉呈现和跨模态协同四大核心能力 [2] - 语言生成:通过NLP技术实现语义理解和自然语言回复生成 [5] - 语音合成:支持多语言和语调调节的生动语音表达 [5] - 视觉呈现:基于图像/视频生成技术展现逼真面部表情和肢体动作 [5] - 跨模态协同:整合文本/语音/图像模态提升人机交互自然度 [5] 游戏领域应用 - 自然语言理解与生成:使游戏角色能理解玩家指令并情景化回复 [5] - 语音交互:虚拟角色可生成情感丰富的多语言语音 [5] - 图像/视频生成:动态生成逼真角色形象和场景 [5] - 跨模态协同:根据玩家实时输入动态调整场景/情节 [5] - 沉浸式体验:支持语音/动作输入增强环境代入感 [5] 广告商拍领域应用 - 智能创作:自动生成符合品牌调性的多模态广告素材 [10] - 个性化制作:基于用户数据动态生成定制化广告内容 [10] - 精准投放:通过多模态数据分析实现情境化广告推荐 [10] - 虚拟推广:创建虚拟代言人和沉浸式广告场景 [10] 社交媒体领域应用 - 内容创作:自动化生成情感化内容提升平台活跃度 [12] - 个性化推荐:深度匹配用户兴趣提高广告ROI [12] - 互动优化:通过语音/表情分析增强用户情感连接 [12] - 社区治理:多模态技术提升内容审核效率与准确性 [12]
利多星新征程研究所走进道通科技,瞄准万亿巡检市场
财富在线· 2025-05-19 15:45
集团发展现状 - 道通集团成立于2014年 旗下上市公司道通科技于2020年登陆科创板 2024年集团总营收约60亿元 其中上市公司贡献超30亿元 五年复合增长率达30% [2] - 公司业务高度全球化 海外营收占比80%-90% 欧美市场占70% [2] - 上市公司核心业务包括汽车智能诊断平板(全球细分市场市占率第一)和新能源充电网络 后者在欧美前十大市场中已覆盖约60%的头部客户 技术实力位列全球前三 [2] - 集团通过天穹智能(无人机及软件平台)和塞防科技(硬件载体)布局具身智能领域 2024年成立全资子公司专注AI大脑及地面载体研发 [2] 具身智能业务布局 - 道通科技将巡检行业发展划分为五个阶段 目前多数企业处于"无人机+飞手"的第二阶段 而公司已推进至第四阶段——通过无人机集群与地面智能体协同作业 结合具身智能技术替代人力 终极目标为实现基于大模型的端到端自主作业 [3] - 公司技术架构分为三层:硬件层(工业级无人机及地面机器人) 平台层(Agent智能体调度平台与客户业务操作平台) 模型层(多模态大模型 作业业务大模型及支撑大模型) [5] - 智能巡检解决方案关键技术是自组网技术 应用于无人机集群 无人机与地面集群之间的通信 在能源 安防 交通管理等场外作业场景有广泛应用 [7] 商业化进程与未来规划 - 道通科技期望于2025年10月举办大型发布会 推出具有商业化落地能力的空地一体智能巡检解决方案 [1][7] - 公司将展示空地一体及地面机器人形态 且确定其具有很强的商业价值和实际落地性 [7] - 公司将持续深耕交通与泛工业两大核心领域 通过具身智能技术的创新应用 致力于重构传统巡检运维模式 [8] 全球化产能布局 - 自2018年起已构建中国(光明) 越南 美国(北卡)三地产能 新能源充电业务通过"美国工厂供应55%+越南工厂补充"满足IRA法案要求 客户已同意承担越南10%的关税成本 [8] - 美国仓库备有6-9个月安全库存 预计关税对业绩影响微弱 [8]
全球科技行业周报:国内多模态大模型相继迭代,算力仍为计算机长期主题
华安证券· 2025-05-18 15:50
报告行业投资评级 - 行业评级为增持 [2] 报告的核心观点 - 本周(2025-05-12至2025-05-16)上证指数、创业板指、沪深300、恒生科技、纳斯达克指数周涨跌幅分别为0.76%、1.38%、1.12%、1.95%、7.15%,中证1000周涨跌幅为 - 0.23%;传媒、恒生互联网科技业、中证海外中国互联网50等指数有不同涨跌幅表现 [3][26] - 腾讯发布混元图像2.0模型,阿里巴巴开源通义万相Wan2.1 - VACE,算力供需两端均有利好,供给端台积电有建厂计划且CoWoS产能预计提升,需求端我国启动算力互联网试验网建设 [4][5] - 给出海外AI、国内AI、海外半导体等多领域投资建议,涉及Meta、腾讯控股等多家公司 [8][9][10] 根据相关目录分别进行总结 本周行情回顾 - 指数表现:上证指数、创业板指等指数有不同周涨跌幅,传媒和计算机行业指数在申万31个行业指数及TMT四大行业中有相应排名 [3][26][33] - 板块表现:传媒、恒生互联网科技业等板块指数有不同周涨跌幅 [3][26] - 个股表现:港股、美股、A股传媒和计算机个股有涨幅和跌幅前三情况,还给出了涨跌幅前十个股明细 [36][37][38] 行业一周要闻 AI + 领域 - 海外AI:OpenAI宣布GPT - 4.1起将直接在ChatGPT中提供 [42] - 国内AI:腾讯发布混元图像2.0模型和T1 - Vision上线元宝,阿里巴巴开源通义万相Wan2.1 - VACE [4][42] - 海外半导体:2025Q1 AMD在全球服务器CPU营收中占比39.4%、桌面端占比34.4% [43] - A股上市公司AI应用进展:展示了多家公司自2024年1月初至今的AI应用进展情况 [45][47][48] - 海外主要大模型迭代情况:介绍了ChatGPT、Claude等多个海外主要大模型的迭代情况 [53][54][55] - 国内主要大模型迭代情况:介绍了文心一言、通义千问等多个国内主要大模型的迭代情况 [58][59][60] 计算机 - 数字经济:一季度我国数字产业实现业务收入8.5万亿元,同比增长9.4%,利润总额5721亿元,同比增长7.0% [63] - 算力:我国启动算力互联网试验网建设,算力资源将可“用多少买多少” [64] 互联网 - 本地生活:京东外卖日订单量突破2000万单,携程入境游订单量同比接近翻倍,美团Keeta将进入巴西市场并投资10亿美元 [65][66] - 综合电商:阿里巴巴发布FY25Q4业绩,拼多多Temu即将恢复美国全托管业务 [66] - 海外消费:亚马逊将在欧洲多地上线当日达服务 [67] - 产业互联网:腾讯发布25Q1业绩,小米自研手机芯片5月下旬发布 [67][68] 传媒 - 影视:上周全国票房报3.47亿,大盘环比下跌54.1%,《水饺皇后》蝉联单周票房冠军 [68][69] - 游戏:网易发布25Q1业绩,2025年4月米哈游《崩坏:星穹铁道》等手游在海外有出色表现 [69] 公司公告 - 2025-05-12至2025-05-16有多公司发布公告,如汤姆猫股东股份相关公告、巨人网络业绩说明会记录等 [71][72]
【前瞻分析】2025-2030年中国多模态大模型生成生活相关场景分析
搜狐财经· 2025-05-14 20:57
行业主要公司 - 行业主要公司包括阿里巴巴(09988HK BABAUS)、百度(09888HK BIDUUS)、腾讯(00700HK TCEHY)、科大讯飞(002230SZ)、三六零(601360SH)、云从科技(688327SH)等 [1] 投融资趋势 - 2025年开始多模态大模型投融资呈现爆发式增长 截至2025年4月投融事件数量接近50件 [2] - 2021年投融资金额达高峰191亿元 但当年投资事件数量仅5件 [2] - 2024年开启新一轮投资周期 共11件投资事件 金额达516亿元 [2] - 2025年前4个月投融事件17件 金额16亿元 [2] 投资地域分布 - 北京是主要投资目的地 占全部项目的50 [3] - 深圳占比10 上海占比8 [3] - 宁波、三亚、苏州因营商环境良好也有部分项目 [3] 应用场景分布 - 智能营销占中国人工智能多模态大模型20强企业模型场景的95 [5] - 教学辅助、3D建模和智能驾驶各占48左右 [5] 教学辅助应用 - 多模态大模型通过智能化、个性化和沉浸式方式提升教学效果 [8] - 覆盖教辅书籍、在线课程、教育软件等多种产品和服务 [8] - 可减轻教师负担 优化资源配置 全面提升教学质量 [8] 研究机构 - 前瞻产业研究院提供多模态大模型行业研究报告及各类产业解决方案 [10]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-14 16:09
以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 合作伙伴介绍 腾讯青云计划 腾讯青云计划聚焦 AI 大模型等十大技术领域,面向全球招募顶尖实习生和毕业生,提供上不封顶的职级薪酬、全面定制化的培养方案,并开放核心业务工 作机会、解锁前瞻性技术课题培养中国未来的科技人才。 今年腾讯将继续深度参与多场全球顶级学 ...
国泰海通:具身智能落地打开人形机器人成长空间
智通财经网· 2025-05-14 14:43
人形机器人市场前景 - 人形机器人具备与人类相似的感知方式、肢体结构及运动方式,对人类社会适配性高,潜在应用场景可覆盖生产制造、社会服务、危险作业等领域 [1] - 2024-2028年中国人形机器人智能水平整体仍处于Lv1,少部分最新产品向Lv2探索,市场规模不足百亿元 [1] - 伴随智能水平向具身智能进化,人形机器人有望突破特定场景及任务限制,实现各行业领域全面覆盖,2045年以后中国人形机器人市场规模有望突破万亿元 [1] 技术驱动因素 - 多模态大模型是提高人机交互效率、增强情景理解力的关键,目前英伟达GR00T、特斯拉Grok3大模型积极整合多模态感知,加速提升机器人交互及决策精度 [2] - 思维链赋能大模型高效推理,GPT-4.5已在一定程度上通过图灵测试,优必选基于DeepSeek-R1研发具身推理大模型,预期可实现复杂环境中的准确高效反应和决策 [2] - 运动控制算法是协调全身动作执行核心,强化学习可基于奖励函数实现步态、奔跑等运动高效学习,并增强泛化能力,有望成为运动算法主要范式 [2] 硬件与通信升级 - 纯视觉方案显著降低硬件成本,实现视觉高效感知,六维力传感器及电子皮肤可有效提高感知灵敏度,助力机器人精准理解环境信息,精确执行动作操作 [2] - 纯视觉+六维力传感器+电子皮肤未来有望成为传感器标准方案 [2] - 实时控制需要高效的通信协议及强大的硬件算力作为底层支撑,EtherCAT具备高实时性、低延迟与高同步性,通信延迟由CAN协议的毫秒级降至微秒级,预计将成为机器人主流通信协议 [2] - 伴随机器人智能向具身智能演进,端侧算力需求预计持续增长,驱动端侧芯片性能升级 [2] 推荐标的 - 峰岹科技(688279SH) [1] - 奥比中光-UW(688322SH) [1] - 创耀科技(688259SH) [1] - 华兴源创(688001SH) [1]
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
机器之心· 2025-05-14 12:36
多模态大模型Seed1.5-VL发布 - 火山引擎发布5款AI模型和产品,包括豆包・视频生成模型Seedance 1.0 lite、升级后的豆包1.5・视觉深度思考模型(Seed1.5-VL)、新版豆包・音乐模型等 [1] - Seed1.5-VL具备更强的通用多模态理解和推理能力,新增视频理解、多模态智能体能力 [3] - 模型仅需一张图和提示词就能精准识别多种元素并分类给出坐标 [4] - 在60个公开评测基准中,有38个取得SOTA表现,性能与Gemini2.5 Pro相当 [6] 模型性能表现 - 推理输入价格仅为每千tokens 0.003元,输出价格为每千tokens 0.009元 [7] - 在视觉定位测试中,10秒内精准识别货架商品并完成价格计算 [14] - 能准确识别5只"生气"的小猫并给出坐标 [17] - 10秒内解决公务员图形推理题目,展示强大视觉推理能力 [20] 技术架构创新 - 由视觉编码模块SeedViT(532M参数)、MLP适配器和基于MoE架构的Seed1.5-LLM(20B激活参数)组成 [27] - 训练分为三个阶段:初期对齐视觉语言表征、中期强化知识积累、后期加入视频等新领域数据 [29] - 采用监督微调与强化学习组合策略,整合RLHF/RLVR等先进技术 [30] - 采用多模态并行框架和局部贪心负载均衡算法优化计算效率 [31] 应用场景 - 可用于构建AI视觉助手、巡检系统、交互Agent或智能摄像头 [7] - 多模态智能体能力可识别并点击"点赞"按钮,模拟用户行为 [22] - 正在重塑与视觉世界交互的方式,拓宽通用视觉系统应用路径 [31]
线下仅200名额!CVPR 2025北京论文分享会报名开启
机器之心· 2025-05-13 17:30
此外,视频生成、多模态大模型、3D 领域同样以惊人的技术迭代速度刷新着我们的认知。 热点技术怎么追?前沿研究该看哪些?不妨来参加论文分享会。 以火热的「文生图」赛道为例,自回归与扩散模型的融合与优化正在引领视觉模型架构的创新。理论突破与产业落地的结合,正在推动这一领域进入新阶 段。 2025 尚未过半,人工智能领域的新进展已经令人应接不暇。 在计算机视觉领域,生成式 AI、多模态基础模型及实际应用落地等方向都取得了显著进展。这个领域正从单一任务模型转向通用化、多模态的基础架构,同 时加速向移动端和产业场景渗透。 全球性的顶级学术会议,从来都是领域内的「风向标」。CVPR 全称为计算机视觉与模式识别会议,是计算机视觉领域中最重要的国际会议之一。今年的 CVPR 2025 共收到 13008 份论文投稿,最终接收 2878 篇论文,整体接收率为 22.1%。 为了服务中国 AI 社区,近年来机器之心持续举办了多场 NeurIPS、CVPR、ACL 论文分享会,受到了海内外 AI 社区的极大关注,众多高校、企业都积极 参与。 2025 年 6 月 7 日,机器之心计划在北京举办「CVPR 2025 论文分享会」,广 ...
文生图进入R1时代:港中文MMLab发布T2I-R1,让AI绘画“先推理再下笔”
量子位· 2025-05-13 12:45
港中文MMLab团队 投稿 量子位 | 公众号 QbitAI "先推理、再作答",语言大模型的Thinking模式,现在已经被拓展到了图片领域。 近日,港中文MMLab团队发布了第一个基于强化学习的推理增强文生图模型:T2I-R1。 △ 文生图进入R1时刻:港中文MMLab发布T2I-R1 大家都知道,OpenAI o1和DeepSeek-R1这类的大语言模型(LLMs),已经在解数学题和写代码这些需要"动脑筋"的事情上面展现出了较 高的水平。 这些模型通过强化学习(RL),先使用全面的思维链(CoT)逐步分析问题,推理后再提供答案。 这种方法大大提高了答案的准确性,很适合用于处理一些复杂问题。 同理,如果能把强化学习应用在图片理解的多模态大模型中(LMMs),像是图片理解或者文生图这样的任务就能解决得更加出色。 想法是好的,但在实际操作中总会碰到一些问题: 比如,该如何将语义和生成结合起来,让语义理解服务于图像生成? 又比如,如何对图像生成的结果进行质量评估,让模型在生成中学习? 目前 CoT推理策略如何应用于自回归的图片生成 领域仍然处于探索阶段,港中文MMLab之前的工作Image Generation ...