Workflow
多模态大模型
icon
搜索文档
浙商早知道-20251015
浙商证券· 2025-10-15 07:30
市场总览 - 2025年10月14日上证指数下跌0.62%,沪深300指数下跌1.2%,科创50指数下跌4.26%,中证1000指数下跌1.95%,创业板指下跌3.99%,恒生指数下跌1.73% [3][4] - 当日表现最好的行业为银行(上涨2.51%)、煤炭(上涨2.18%)、食品饮料(上涨1.69%),表现最差的行业为通信(下跌4.98%)、电子(下跌4.64%)、有色金属(下跌3.66%)[3][4] - 2025年10月14日全A市场总成交额为25966亿元,南下资金净流入86.03亿港元 [3][4] 化妆品行业观点 - 第四季度化妆品行业大盘预计延续低个位数增长,品牌端分化加剧 [5] - 推荐关注势能持续向上且估值向2026年切换仍有空间的新消费品牌标的 [5] - 预计新消费品牌凭借产品升级和品牌建设,未来2-3年内收入及利润有望保持20%-30%的复合年增长率 [6] 计算机行业观点 - 核心观点为国产算力崛起与AI应用落地,认为国产算力产业链正逐步成型 [7][9] - 观点变化包括寒武纪等国产算力厂商收入放量,以及多模态大模型应用落地加速,视频领域或率先实现商业落地 [9] - 与市场差异在于,市场认为模型大规模落地有待突破,而报告认为Sora 2.0出现后,多模态大模型正突破物理拟真门槛,有望在视频生成赛道产生商业价值 [9]
NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集
机器之心· 2025-10-14 16:24
研究背景与动机 - 灵巧操作能力是通用机器人实现多任务泛化的核心能力之一,缺乏该能力则难以完成复杂交互[2] - 多模态大模型在机器人控制中的应用取得初步进展,结合高质量操作演示用于具身推理与通用操作策略学习[2] - 当前硬件存在瓶颈:多数平台依赖双指夹爪,难以完成手内操作等细粒度任务;现有灵巧手平台常忽略感知系统的同步性与稳定性,导致数据丢帧、感知不同步等问题[5] - 已有研究显示,多模态传感器集成时常伴随4.4%的掉帧率与高达15–100ms的模态延迟,限制了操作技能多样性与高质量演示数据的采集[5] - 核心挑战在于:缺乏一套紧凑、经济且具备高自由度的多指灵巧手系统,以支持稳定、高质量的数据采集[9] RAPID Hand平台概述 - 该平台是一个全新开源的高自由度灵巧手平台,全称为Robust, Affordable, Perception-Integrated, Dexterous Hand[3] - 平台旨在以低成本、高质量的数据,助力通用机器人灵巧操作的研究[7] - 平台具有20自由度(DoF)的类人结构,集成了腕部视觉、指尖触觉和本体感觉等多模态感知能力[7] - 平台支持毫秒级的时空同步与精准的空间对齐,并提供高自由度的遥操作接口[7] 硬件设计:手部本体与驱动方案 - 采用紧凑的20自由度手部本体设计,引入统一的多指节驱动与传动方案[13] - 通过对电机布局的系统优化,手指厚度被控制在20毫米,兼顾结构紧凑与驱动性能[13] - 驱动方案具体为:远端关节(DIP与PIP)采用直接驱动,近端关节(MCP)则引入并联机构,实现高效、独立的多指节控制[13] - 除拇指外,各手指的DIP和PIP关节,以及拇指的DIP和MCP关节,均由安装于指节的电机直接驱动;而除拇指外各手指的MCP关节与拇指的CMC关节则通过并联机构驱动,实现全手20自由度的独立控制[15] 硬件设计:感知集成框架 - 提出了一种硬件级的全手感知同步框架,可稳定集成腕部视觉、指尖触觉与本体感觉三类传感信息[16] - 该框架实现了高精度的时序对齐[16] 软件系统与数据采集 - 开发了一套高自由度的遥操作接口,可高效采集多样化的接触丰富的操作任务演示[20] - 平台是软硬协同优化的成果:紧凑的20自由度手部结构、稳定的全手感知集成框架与高自由度遥操作接口三者协同设计[20] - 实现了从数据采集到策略部署的闭环链条,确保硬件耐用、感知稳定,并支持灵巧操作任务中高效、高质量的演示数据采集[20] 性能验证与实验对比 - 研究者在三个具有挑战性的手内操作任务上训练一个扩散模型,以验证平台性能[21] - 基于该平台训练的策略在操作表现与稳定性方面均优于已有方法[21] - 平台在手部结构设计与多模态感知集成两方面均优于现有代表性灵巧手(LEAP、Allegro),同时具备低成本、高可获得性的优势[21] - 在遥操作手内物体平动对比中,Allegro容易掉落,LEAP几乎无明显运动,而RAPID实现了更自然的指间横向移动[5] - 在手内平动与滚动任务中,该平台在无需加速播放的情况下自主完成操作,且相较于先前方法固定机械臂末端、依赖桌面支撑等简化设置,该平台在放宽这些限制条件下仍实现了稳定的自主操作[24] - 在多指翻找任务中,该平台在无需加速播放的情况下自主完成类似人类翻找抽屉的任务,其训练的策略在操作表现上显著优于同期仅依赖单指扫动并使用ArUco标记进行感知的方法[26]
上海网达软件股份有限公司 关于2025年半年度业绩说明会召开情况的公告
技术优势与市场表现 - 公司具备高清视频全链路解决方案,通过自主研发技术将高清视频流传输时延压缩至60ms级,实现高画质、省带宽、瞬时传输[1] - 在人工智能技术应用方面,公司采用大小模型协同方式,重点布局安全领域,并实现4K超高清监控视频的智能分析,有效降低传输和存储成本[2] - 公司打造了融合AIGC内容生成、Agent智能体协同、数字人交互三大核心能力的企业级媒体数智台,以提升内容传播效率并激活私域流量[2] - 公司核心产品已通过主流国产操作系统的兼容性认证,并与飞腾、鲲鹏等国产芯片平台完成适配优化,确保在国产软硬件平台上的高性能运行[3] 研发投入与未来方向 - 未来研发将立足于生成式AI路线,打通其与视频业务应用的结合路径,并在视频编码、修复、编辑、生成等环节开展协同创新[5] - 公司将基于多模态垂类大模型引擎增强多源融合感知能力,并构建行业智能体平台以提供从感知到决策执行的完整技术链[6] - 研发投入将重点针对细分行业模型、AIGC应用和XR等多个方向,并基于成本效益分析合理开展,注重投入产出比[6] - 研发费用同比下降是由于公司以实际需求为导向,聚焦AI技术研发,优化了高新视频产品线功能,并降低了非核心领域的投入[9] 低空经济领域布局 - 公司研发了无人机智能巡检系统与无人车智能巡检系统两大解决方案,以核心智能视频平台为基础,结合具身智能产品[7] - 上述解决方案面向港口、园区、交通等应用场景提供整体智能安全监管,可广泛应用于码头巡检、化工园区巡检等业务场景[7] 股东回报政策 - 公司于2025年6月17日实施了2024年度利润分配,向全体股东每10股派发现金红利1.50元(含税)[8] - 未来分红计划将综合考虑可持续经营与发展情况、资本充足水平等因素,以平衡短期利益与长远发展,给予投资者持续稳定的回报[8] AI安全监管进展 - 公司AI智能体驱动的数字安全监管系统可整合多源数据,通过跨模态语义对齐技术实现对作业场景的动态感知与行为意图解析[10] - 系统能结合场景上下文进行风险推演,自动生成风险等级与处置优先级,并可快速适配电力巡检、港口装卸等差异化场景[10] - 在技术层面,公司对视频解析链路进行深度优化,单台设备即可高效处理4K超高清视频的高并行解析任务,并具备自适应高效压缩能力[10] - 公司开发了跨空间多摄像头协同视频解析算法,解决了在广阔场景下同时进行目标轨迹宏观分析与局部细节精准识别的难题[10]
Sora 2发布,进一步拉动算力、存储需求 | 投研报告
中国能源网· 2025-10-13 17:00
行情回顾 - 本周沪深300指数涨跌幅为-0.51% [1][2] - 本周电子板块涨跌幅为-2.63% [1][2] - 本周半导体行业涨跌幅为-3.28% [1][2] 半导体设备与材料 - 国内头部晶圆代工厂中芯国际资本开支维持在70-80亿美金/年 [2] - 长江存储三期在武汉成立,注册资本207.2亿元 [2] - 长鑫科技IPO辅导状态变更为"辅导验收" [2] - 国内存储厂预计为晶圆代工资本支出贡献主要增量 [2] - 半导体测试设备厂商长川科技预计第三季度实现归母净利润4-4.5亿元,同比增长180.67%-215.75% [2] - 半导体材料在光刻胶、高端前驱体等领域对外依存度较高,国产化稳步推进 [1][2] - 鼎龙股份预告第三季度实现归母净利润1.9-2.2亿元,同比增长19.89%-38.82% [1][2] 集成电路封测 - 封测行业是半导体产业链中国产化程度最高的环节之一 [2] - 国内封测行业处于快速发展、技术升级阶段 [2] - 先进封装成为性能提升的关键路径 [2] - AI、HPC等新兴应用推动高端封测需求 [2] 模拟芯片设计 - 海外市场下游消费电子、企业市场、通讯市场和工业市场需求持续复苏,汽车市场尚未复苏 [3] - 国内市场得益于政策刺激和国产新能源汽车品牌崛起,工业类需求持续回暖,汽车类需求较好,消费类需求温和复苏 [3] 数字芯片设计 - AI发展带动CPU、GPU、高性能存储芯片需求 [3] - 全球头部云厂商积极布局自研ASIC,未来有望形成"GPU+ASIC"的异构计算模式 [3] - 芯原股份第三季度预计实现营收12.84亿元,创单季度历史新高,同比增长78.77%,环比增长119.74% [3] - 芯原股份第三季度新签订单15.93亿元,同比增长145.80% [3] AI行业动态与投资机遇 - OpenAI发布最新音视频生成模型Sora2,其iPhone应用上线第4天拿下美国App Store免费应用榜第一名 [3] - 阿里巴巴表示正在积极推进3800亿元的AI基础设施建设,并计划追加更大投入 [3][4] - 多模态大模型发展有望进一步拉动算力需求 [4] - AI发展有望带动存储芯片行业周期上行 [4]
Sora2发布,进一步拉动算力、存储需求
银河证券· 2025-10-13 16:36
行业投资评级 - 半导体行业评级为“推荐”,并维持该评级 [1] 核心观点 - OpenAI发布最新音视频生成模型Sora 2,并推出iPhone应用,上线第4天即登上美国App Store免费应用榜第一名 [3] - 国内头部互联网厂商阿里巴巴计划推进3800亿元的AI基础设施建设,并计划追加更大投入 [3] - 多模态大模型发展有望进一步拉动算力需求,国内互联网厂商加码AI投入 [3] 行情回顾与市场表现 - 本周沪深300指数涨跌幅为-0.51%,电子板块涨跌幅为-2.63%,其中半导体行业涨跌幅为-3.28% [3] - 相对沪深300表现图显示半导体板块有显著超额收益 [2] 半导体设备与材料 - 国内头部晶圆代工厂中芯国际资本开支维持在70-80亿美金/年 [3] - 长江存储三期(武汉)集成电路成立,注册资本207.2亿元;长鑫科技IPO辅导状态变更为“辅导验收” [3] - 国内存储厂预计为晶圆代工资本支出贡献主要增量 [3] - 半导体测试设备厂商长川科技预计Q3实现归母净利润4-4.5亿元,同比增长180.67%-215.75% [3] - 半导体材料在光刻胶、高端前驱体等领域对外依存度较高,国产化稳步推进 [3] - 鼎龙股份预告Q3实现归母净利润1.9-2.2亿元,同比增长19.89%-38.82% [3] 集成电路封测 - 封测行业是半导体产业链中国产化程度最高的环节之一,在全球竞争中角色日益重要 [3] - 行业处于快速发展、技术升级阶段,先进封装成为性能提升的关键路径 [3] - AI、HPC等新兴应用推动高端封测需求 [3] 模拟芯片设计 - 海外下游消费电子、企业市场、通讯市场和工业市场需求持续复苏,汽车市场尚未复苏 [3] - 国内得益于政策刺激和国产新能源汽车品牌崛起,工业类需求持续回暖,汽车类需求较好,消费类需求温和复苏 [3] 数字芯片设计 - AI发展带动CPU、GPU、高性能存储芯片需求 [3] - 全球头部云厂商积极布局自研ASIC,未来有望形成“GPU+ASIC”的异构计算模式 [3] - 芯原股份Q3预计实现营收12.84亿元,单季度营收创历史新高,同比/环比增长78.77%/119.74%,新签订单15.93亿元,同比增长145.80% [3] 投资建议 - 建议关注与AI算力相关的公司:芯原股份、寒武纪、海光信息、中芯国际、华虹公司 [3] - 国内存储厂预计为明年国内晶圆厂资本支出贡献主要增量,建议关注中微公司、拓荆科技、北方华创、长川科技和安集科技 [3] - AI发展有望带动存储芯片行业周期上行,建议关注兆易创新、北京君正、澜起科技 [3]
一些项目合作,待遇open~
具身智能之心· 2025-10-13 12:02
公司业务与定位 - 公司是国内具身智能领域的优秀创作平台 业务集在线教育 线下培训 企业咨询 企业宣传服务 硬件研发销售 解决方案为一体 [3] - 公司致力于为行业提供优质的内容输出和教育方案 [4] - 公司主要业务方向包括技术服务 培训 课程开发与科研辅导等 [1] 行业现状与公司目标 - 行业处于新兴阶段 存在许多需要探索和克服的困难 增加了企业和个人的研发与学习成本 [1] - 公司期望通过自身努力为行业带来价值 减少企业和个人的研发与学习成本 从而推动整个行业的发展 [1] - 公司收到越来越多来自合作伙伴和中小公司的诉求 期望在方案与数据采集 技术升级 企业培训等多个方向上获得赋能 [1] 合作与招聘方向 - 公司面向全球具身智能领域从业者发出合作邀请 寻求在技术服务 培训 课程开发与科研辅导等多个领域展开合作 [1] - 公司将提供高额的酬金与丰富的行业资源以吸引合作伙伴 [2] - 合作与招聘的主要技术方向包括但不限于 VLA VLN Diffusion Policy 强化学习 VLA+RL 遥操作 动捕 sim2real 多模态大模型 仿真 运动控制 端到端 3D感知等 [5] - 岗位主要面向具身课程开发 方案研发 硬件研发 培训合作 B端客户主要面向企业 高校及研究院所 C端面向学生及求职人群 [6]
智驾最后的窗口期,冲出AI新玩家
远川研究所· 2025-10-12 21:04
行业趋势与竞争格局 - 智能辅助驾驶行业呈现冰火两重天局面,L2+功能从高端车型专属标签向中低端市场普及,实现“平权” [2] - 技术路线加速收敛,端到端与多模态大模型成为新赛点,行业进入强算法时代 [2][6][15] - 2021年特斯拉FSD V9.0采用BEV+Transformer架构是行业分水岭,推动感知模块大模型化 [4][5] - 行业竞争地图形成多股力量:特斯拉式垂直整合、Mobileye等芯片商、Momenta等算法提供商、以及AI 1.0创业者 [9] - 智能辅助驾驶软件价值占整车比重持续提高,未来有望超过4成 [6] - 头部阵营雏形显现,平台型玩家通过整合产业资源驱动行业范式变迁 [9][18] 核心技术演进 - 端到端架构结合视觉语言模型(VLM)成为主流方案,通过单一神经网络将传感器数据直接转化为车辆控制指令 [12] - 多模态大模型+强化学习是未来核心竞争力,提高系统感知理解能力和驾驶博弈能力,学会举一反三 [20][21][22] - 相比模块化架构,端到端模型代码量大幅节省,但存在黑箱问题,VLM提供了可解释性 [12] - 高质量模型训练依赖云端预训练、车端高质量数据投喂、仿真微调及OTA更新的闭环 [15] - 强化学习是训练高质量模型的“教练”,通过设置奖励函数让AI在虚拟场景中自我进化 [15] - 千里科技RLM大模型采用一段式端到端架构,拥有更高“含模量”,驾驶体验更拟人丝滑 [21] 千里科技的战略与布局 - 公司定位为具有深厚制造业基因的世界级科技公司,目标是成为平台级AI公司,为行业提供规模化智能解决方案 [18][21] - 战略核心是“AI+车”,已完成智能辅助驾驶、智能座舱、智能出行三大领域的多点布局 [11][25] - 公司联合阶跃星辰和吉利汽车组建合作联盟,共同研发千里智驾RLM大模型 [17] - 公司与吉利合作拥有百万级保有量的L2+车型数据,联盟云端算力储备超过23 EFLOPS,在国内车企中排名第一 [25] - 公司获得奔驰13亿元投资,汽车智能化朋友圈不断扩大 [18] - 推出“千里计划”(AFARI Plan),以“One Brain, One OS, One Agent”为核心愿景,构建大模型驱动的AI大脑和操作系统 [27] 产品与技术优势 - RLM大模型具备防御性驾驶能力,基于多传感器感知和动态场景推演,能对视野盲区进行预防性判断 [24] - 推出不依赖高精地图的全场景门到门模式,通过实时道路生成与理解实现无感畅通驾驶 [24] - 算法、算力和数据三要素协同是核心竞争力,公司在数据规模和算力储备上具备优势 [24][25] - 在智能出行领域,计划未来18个月在10座城市落地规模化Robotaxi运营,单一城市部署超1000辆 [27] - 基于多模态大模型底座整合通用知识与智驾垂域数据,RLM大模型能实现通用感知理解 [22]
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
量子位· 2025-10-12 15:30
模型核心性能 - 2B参数模型在多个基准测试中位列4B参数以下开源模型第一,OpenCompass平均得分70.31,超越Qwen2.5-VL-3B(65.36)和InternVL3.5-2B(66.64)等竞品 [1][27] - 8B参数模型在OpenCompass取得开源同量级模型最高分数75.07,并在MMStar(70.73分)、OCRBench(91.30分)等细粒度任务中领先 [27][28] - 思维增强版本SAIL-VL2-8B-Thinking在复杂推理任务中平均得分54.4,超越所有开源模型,仅次于GPT-4o-latest(54.8) [30][31] 技术创新与架构 - 引入稀疏混合专家(MoE)架构,31.1B大模型每次推理仅激活3B参数,并通过负载均衡损失将专家激活熵提升20%,优化计算效率 [7][9] - 视觉编码器SAIL-ViT采用三阶段训练(热身适应、细粒度对齐、世界知识注入),使视觉-语言特征空间的平均最近邻距离从1.42降至1.15,对齐效果显著提升 [8] - 突破传统ViT固定分辨率限制,通过"2D RoPE插值"技术支持最高1792×1792任意分辨率输入,在RefCOCO视觉定位任务中平均精度达57.82,远超固定分辨率版本的53.28 [10] 数据与训练策略 - 设计全自动数据pipeline,通过质量筛选(如双维度评分过滤低质量样本)和类型扩展(如合成VQA数据)构建高质量多模态语料库,最终使用250M通用caption和1.69M图表caption数据 [11][12][19] - 采用渐进式训练框架,分三阶段视觉预训练和两阶段多模态预训练,累计使用121B tokens数据,逐步激活模型从基础感知到复杂推理的多维度能力 [14][15] - 后训练阶段通过五阶段递进策略(如LongCoT SFT、可验证奖励RL等)强化模型能力,并利用Stream Packing技术将训练速度加快50%,QA性能提升0.7% [23][24][26] 行业竞争力表现 - 在106个数据集的综合评估中,SAIL-VL2在通用多模态理解、数学推理、多图像与视频理解等任务均实现领先,尤其在MMMU、MathVista等复杂推理基准超越同规模模型 [2][25][27] - MoE架构模型SAIL-VL2-A3B-Thinking以3B激活参数在推理任务中获得53.6分,超越闭源模型Gemini-2.0-Flash(50.6),展现出极高的效率性能比 [30][31] - 模型全面开源代码与权重,为行业提供可扩展的多模态基础模型新范式,强调"小模型强能力"的技术路径 [5][32]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-12 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 公司重点关注大模型与多模态大模型、扩散模型、视觉语言动作模型、端到端自动驾驶等前沿技术方向 [3] - 其他关键方向包括具身交互、联合预测、同步定位与地图构建、3D目标检测、世界模型等 [3] - 技术应用领域涵盖闭环仿真3D高斯泼溅以及大模型部署与量化感知推理 [3] 人才招聘标准 - 合伙人岗位要求候选人毕业于QS世界大学排名前200以内的高校 [4] - 优先考虑拥有硕士及以上学历且在顶级学术会议发表过论文的资深人士 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐等机会 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5] 合作咨询方式 - 有意向者可通过添加微信进行进一步咨询 [6] - 咨询时需备注“机构/公司 + 自动驾驶合作咨询” [6]
武汉长江通信产业集团股份有限公司 关于使用部分闲置募集资金进行现金管理到期赎回的公告
搜狐财经· 2025-10-10 17:18
募集资金现金管理 - 公司董事会批准使用最高不超过人民币58,600万元的闲置募集资金进行现金管理,投资于安全性高、流动性好的保本型产品 [1] - 公司子公司迪爱斯完成两笔定期存款赎回,收回本金合计12,600万元,并获得收益总计91.5万元 [2] - 截至公告日,公司最近十二个月使用募集资金购买现金管理产品7笔,金额合计7.22亿元,其中已赎回2.67亿元,尚未到期4.55亿元 [3] 2025年上半年经营业绩 - 2025年上半年公司实现营业收入2.90亿元,同比增长6.04% [8] - 公司持续围绕主营业务加大研发投入,上半年研发费用占营业总收入21%,同比去年增加21%左右 [7] 研发投入与技术方向 - 研发费用主要投入于产品线整合升级、布局人工智能和公共安全领域专用大模型等平台型技术 [7] - 公司深度融合DeepSeek等前沿大模型技术,将人工智能技术融入智能指挥、风险预警、分析研判等关键业务场景 [7] - 低轨卫星通信是公司重点开拓的新行业,已研发低轨卫星测运控平台软件、一体化信关站等产品 [7] - 未来公司将加大战新产业研发投入,聚焦下一代信息技术、人工智能、低轨卫星、低空经济、多模态大模型等技术的应用创新 [7][8] 主营业务与战略规划 - 公司主营业务为信息技术服务业,深耕以公安和消防为代表的智慧应急行业 [8] - 通过收购迪爱斯100%股权,公司主营业务增加了智慧应急、智慧城运等业务,主营业务收入规模逐年增长 [9] - 未来公司将加强市场拓展,巩固智慧公安、智慧消防市场,并积极拓展卫星互联网、低空经济、智慧司法、国央企数字化等行业客户 [10] - 公司采用"借船出海"策略拓展海外市场,探寻更多销售平台,提高海外市场开拓及项目交付能力 [10]