Workflow
多模态大模型
icon
搜索文档
科创AIETF(588790)上涨1.78%,近一年日均成交额跑赢同类产品,机构:多模态大模型和应用发展的奇点将至
新浪财经· 2025-07-11 13:43
市场表现 - 上证科创板人工智能指数(950180)上涨1 93% 成分股星环科技(688031)上涨13 26% 寒武纪(688256)上涨5 48% 云从科技(688327)上涨4 75% [3] - 科创AIETF(588790)上涨1 78% 最新价报0 57元 近3月累计上涨2 56% 涨幅排名可比基金3/7 [3] - 科创AIETF近6月净值上涨10 72% 自成立以来最高单月回报为15 59% 最长连涨月数为2个月 最长连涨涨幅为26 17% 上涨月份平均收益率为9 71% 历史持有6个月盈利概率为100 00% [5] 流动性及资金流向 - 科创AIETF盘中换手5 07% 成交2 28亿元 近1年日均成交2 59亿元 排名可比基金第一 [3] - 科创AIETF最新资金净流入5054 47万元 近5个交易日内有4日资金净流入 合计"吸金"1 18亿元 日均净流入达2356 87万元 [4] - 科创AIETF最新融资买入额达1330 15万元 最新融资余额达2 52亿元 [4] 规模及份额 - 科创AIETF最新规模达44 48亿元 创成立以来新高 位居可比基金1/7 [4] - 科创AIETF最新份额达79 33亿份 创成立以来新高 位居可比基金1/7 [4] 行业动态 - 人工智能向善全球峰会在瑞士日内瓦召开 中国移动展示九天大模型平台等AI解决方案 该平台可实现云端、边缘侧、端侧全场景灵活部署 已在客服、航空等多个领域落地 [3] - 华泰证券认为多模态大模型和应用发展的奇点将至 原生多模态模型架构得到业界认可 OpenAI和Google的原生多模态模型在性能、延时、部署上展现出优势 [4] 估值及跟踪 - 上证科创板人工智能指数估值处于历史低位 最新市净率PB为7 4倍 低于指数成立以来98 5%以上的时间 [5] - 科创AIETF管理费率为0 50% 托管费率为0 10% 费率在可比基金中处于较低水平 [5] - 科创AIETF近半年跟踪误差为0 030% 在可比基金中跟踪精度最高 [5] 指数构成 - 上证科创板人工智能指数从科创板市场中选取30只市值较大的为人工智能提供基础资源、技术以及应用支持的上市公司证券作为指数样本 [6] - 上证科创板人工智能指数前十大权重股合计占比68 03% 包括寒武纪(688256)、澜起科技(688008)、金山办公(688111)等 [7]
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线· 2025-07-11 13:20
多模态情感理解技术突破 - "情智兼备"是新一代人工智能的重要发展方向,为迈向通用人工智能的关键一步,需精准解译多模态交互信息并深度挖掘人类情感状态 [1] - 快手可灵团队与南开大学提出模块化双工注意力范式,构建多模态模型'摩达'(MODA),在21个基准测试中实现显著性能提升,并被ICML 2025收录为焦点论文(Top 2.6%)[1][3] - 现有主流多模态大模型存在模态偏置问题,在二分类讽刺检测任务中准确率仅50%,跨模态注意力差异高达63% [4][7] 技术原理与创新 - 多模态注意力失调表现为文本模态过度关注(注意力分数差异达10倍)和逐层衰减(视觉模态信息被稀释) [7][8] - 模块化双工注意力通过Gram矩阵基向量实现跨模态语义迁移,将跨模态注意力差异率从56%-62%降低至41%-50% [10][13][25] - 双工注意力对齐包含V-Aligner和T-Aligner,通过核化映射函数增强模态间词元相似性 [14][15] 性能表现 - MODA-34B在知识问答任务中准确率达88.1%,超越GPT-4V(75.7%)和Gemini-1.5 Pro(58.5%) [25] - 在OCR与表格类任务中,MODA-8B以74.7%准确率领先同类模型,视觉能力类任务达73.8% [25] - 情感理解任务中MODA-8B的F1值达0.705,超过专用模型MMRole-9B(0.742) [25][28] 应用场景 - 可实时解析用户微表情、语调及文化特征,在心理咨询和虚拟偶像交互中动态调整策略 [31] - 已应用于快手可灵数据感知项目,提升情感变化检测和个性化推荐精度 [33] - 支持金融客服、沉浸式娱乐等领域的人格化服务,突破规则式应答局限 [31][33]
A股指数集体高开:沪指微涨0.05%,稀土永磁、稳定币等板块涨幅居前
凤凰网财经· 2025-07-11 09:38
市场表现 - 三大指数集体高开,沪指高开0 05%至3511 37点,深成指高开0 06%至10637 45点,创业板指高开0 02%至2190 01点 [1] - 稀土永磁、稳定币、泛金融等板块涨幅居前 [1] - 美股三大指数集体上涨,标普500涨0 27%至6280 46点,纳指涨0 09%至20630 66点,均创历史新高 [3] - 中概股普涨,纳斯达克中国金龙指数涨0 9%,中通快递涨9 21%,贝壳涨6 52%,蔚来涨6 03% [3] 铜行业 - 美国计划对铜加征50%关税,政策或于7月下旬实施,短期或导致LME/SHFE铜价回调但幅度有限 [4] - 铜价上行趋势明确,当前回调或为配置良机 [4] 电网与工控行业 - 1-5月国内电网投资保持高景气,特高压核准节奏有望在三季度加速,未来两三年投资趋势向上 [5] - 工控行业需求改善且库存去化顺畅,新周期或窄幅波动,重点关注新质生产力、核能复兴及出海方向 [5] 美股配置 - 美股估值偏高但下半年回调幅度可控,信息技术与电信服务行业盈利高景气,头部科技板块具备配置价值 [6] - 关税扰动后四季度资金或回流美股 [6] AI多模态大模型 - 原生多模态模型架构获业界认可,OpenAI和Google模型在性能、延时等方面展现优势 [7] - 全球AI商业化依赖多模态能力,国内公司在视频生成赛道已实现成熟全球化 [7][8] - 需关注全球一级公司而非仅二级公司在AI商业化中的进展 [8]
全球最强AI模型?马斯克发布Grok 4!重仓国产AI产业链的589520单日吸金3922万元!
新浪基金· 2025-07-11 09:17
行业动态 - 马斯克旗下xAI发布Grok 4模型 在"人类的最后考试"中取得25 4%准确率 超过谷歌Gemini 2 5 Pro的21 6%和OpenAI o3的21% 被称为"世界上最强AI模型" [1] - 华泰证券指出 多模态大模型和应用发展奇点将至 多模态能力将推动算力和应用两方面的投资机会 [1] - 华安证券认为 包括AI在内的泛科技板块下半年可能出现催化事件 如DeepSeek和OpenAI新版模型发布 英伟达新型计算平台推出 苹果秋季发布会等 板块或呈现"先抑后扬"走势 [1] 市场表现 - 英伟达登顶4万亿市值带动"AI投资热"升温 科创人工智能ETF华宝(589520)7月10日获资金净流入3922万元 近10个交易日中有8日净流入 累计金额5065万元 [2] - 市场分析人士指出 人工智能技术发展迅速 应用场景拓展 长期有望推动相关企业业绩增长 [4] 国产替代 - 国产DeepSeek实现弯道超车 打破海外算力封锁 奠定国产AI公司后来居上基础 [5] - 科创人工智能ETF华宝(589520)重点布局国产AI产业链 标的指数均衡配置应用软件 终端应用 终端芯片 云端芯片四大环节 有望受益端侧芯片/软件AI化提速 [5]
端到端VLA这薪资,让我心动了。。。
自动驾驶之心· 2025-07-10 20:40
端到端自动驾驶技术发展 - 端到端自动驾驶分为一段式端到端和二段式端到端两大技术方向 自UniAD获得CVPR Best Paper后 国内智驾军备竞赛加速 理想汽车2024年宣布E2E+VLM双系统架构量产 [2] - 端到端技术通过传感器数据直接输出规划或控制信息 避免了模块化方法的误差累积 BEV感知和UniAD统一了感知与规划任务 推动技术跃迁 [2] - 当前技术栈涉及多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等 学习路径复杂且知识碎片化 [3] 技术课程核心内容 - 课程直击学习痛点 采用Just-in-Time Learning理念 通过案例快速掌握核心技术栈 [4] - 构建端到端自动驾驶研究框架 帮助学员分类论文 提取创新点 形成研究体系 [5] - 理论结合实践 涵盖PLUTO(二段式) UniAD(一段式感知) OccWorld(世界模型) DiffusionDrive(扩散模型) VLA(大模型)等主流技术 [6] 课程大纲与关键技术 - 第一章概述端到端发展历史 模块化到端到端的演变 一段式 二段式 VLA范式优缺点及工业界应用 [8] - 第二章重点讲解背景知识 包括VLA涉及的大语言模型 扩散模型 强化学习 以及BEV感知 为未来两年高频面试技术 [8][9] - 第三章聚焦二段式端到端 分析PLUTO CarPlanner Plan-R1等工作的优缺点 [9] - 第四章深入一段式端到端与VLA 涵盖UniAD PARA-Drive(感知) Drive-OccWorld OccLLaMA(世界模型) DiffusionDrive DiffE2E(扩散模型) ORION OpenDriveVLA ReCogDrive(VLA)等前沿工作 [10] - 第五章大作业为RLHF微调实战 涉及预训练和强化学习模块搭建 可迁移至VLA算法 [12] 行业趋势与人才需求 - VLM/VLA成为招聘刚需 3-5年经验可冲击百万年薪 技术上限高且工业界需求旺盛 [2][10] - 扩散模型与VLA结合成为热点 多模轨迹预测适应自动驾驶不确定性环境 多家公司尝试落地 [10] - 主机厂加速布局端到端算法预研和量产 如小米ORION等开源项目推动技术发展 [10][13]
商汤科技李星冶:多模态大模型“所见即所得”让人机交互更顺畅
贝壳财经· 2025-07-10 19:49
人工智能技术演进 - 人工智能从1.0时代(计算机视觉技术为主)向2.0时代(多模态交互技术为主)转型 [1] - 公司在大模型技术兴起后推动多模态交互创新,整合视频、图像、语音等多种模态实现实时互动 [1] - 技术应用理念为"所见即所得",改变传统文字指令识别模式 [1] 多模态交互技术应用 - 在教育领域开发"所见即所得"交互设备,实时感知手写解题过程并识别错误,支持指读绘本转化为互动故事 [2] - 已与10所左右学校合作打造智能校园助手,处理课程安排、成绩查询等功能 [2] - 在仓库租赁场景中,算法分析行业数据辅助BD销售并生成租约管理方案 [2] - 与知名运营商合作打造高效智能客服,在智能家居领域提供家庭互动功能 [2] 技术展示案例 - 现场展示通过绘制"太乙真人"卡通形象唤起语音并实现实时互动的场景 [1] - 多模态大模型优势在于通过视觉等多维度信息提升人机交互流畅度 [2]
有几个Top具身公司的大模型、强化学习、VLA和具身导航岗位!
具身智能之心· 2025-07-10 11:36
多模态大模型职位 - 工作地点为北京和深圳,月薪范围为40k-80k [2] - 研究方向包括移动操作、导航和VLA(视觉语言行动) [2] - 职责涵盖具身智能大模型框架设计、模型优化及下游任务训练部署 [2] - 要求计算机/人工智能/机器人相关专业硕士学历,具备机器人感知/导航/操作或AI大模型经验 [3] - 优先考虑有NaVid/MobilityVLA等机器人导航领域算法落地经验者 [3] - 加分项包括顶级会议论文发表、熟悉Transformer/RLHF算法、多模态数据处理经验 [4] 强化学习职位 - 工作地点为北京,月薪范围为40k-80k [5] - 研究方向包括强化学习和VLA [5] 具身导航算法职位 - 工作地点为深圳,月薪范围为30k-60k [6] - 研究方向包括多模态和VLN(视觉语言导航) [6] - 职责涉及多模态数据到规划的端到端映射及世界模型应用 [6][7] - 要求计算机/自动化/电子相关专业,具备机器学习/深度学习/强化学习基础 [7] - 优先考虑有ICLR/NeurIPS等论文发表或ACM/ICPC竞赛获奖者 [7] 岗位咨询方式 - 可通过添加微信Remix-clover咨询多模态导航移动基础模型相关岗位 [9] - 咨询需备注"具身之心+具体岗位" [9]
华泰证券今日早参-20250710
华泰证券· 2025-07-10 09:44
宏观 - 6月中国CPI同比0.1%好于预期,环比降幅收窄;PPI同比-3.6%不及预期,环比持平,下半年PPI降幅有望收窄 [2] - 6月全球制造业PMI明显上行重回荣枯线以上,服务业PMI小幅降温 [2] 策略 - 6月全行业景气指数有所回升,非金融行业景气指数下行斜率放缓 [4] - 基本面建议关注二季报业绩改善或高增、受益反内卷政策、出口链相关行业 [4] - 配置上战术维持哑铃配置,战略看好大金融、创新药、军工等 [4] 固定收益 - 新一轮行业去产能工作加速推进,CPI和PPI存在企稳修复预期 [5] - 前端价格关键在需求端,短期价格弹性待观察,预计CPI至Q4小幅抬升至0.5%附近,PPI磨底后小幅修复至-2%至-1%区间 [5] - 30年国债ETF久期长、弹性大,可作股债对冲利器,有多种投资策略和广阔应用前景 [12] 有色金属 - 美国将对铜加征50%关税,短期LME/SHFE铜价或回调但幅度有限,看好铜价上行趋势 [5] 机械设备 - 6月挖掘机销量同比+13.3%,内销和出口增速均较5月回升 [8] - 看好二手挖机出口对国内更新需求的拉动及国产品牌海外份额提升 [8] 农林牧渔 - 生猪养殖行业“反内卷”引导短期利好猪价,中长期或提升行业盈利能力 [9] - 建议关注生猪养殖板块,推荐低成本、优质猪企 [9] 建材 - 光伏玻璃“反内卷”迫切性较强,实现再平衡或需更长时间 [14] 重点公司 - 招金矿业多个项目爬产或临近投产,预计25 - 27年自产金产量CAGR为22.08%,首次覆盖给予买入评级 [15] - 哈尔滨电气业务涵盖多领域,预计新增装机回升,业绩与估值或将持续修复,首次覆盖给予买入评级 [15] - 美高梅中国“小而美”,博彩和非博彩业务表现良好,重申“买入” [17] - 预计港铁公司1H25经常性利润同比增长4.8%,维持“增持” [18] - 大金重工25H1业绩预增,看好全球海风高景气下公司订单放量,维持“增持” [19] - 圣泉集团25H1净利预增,电子材料持续放量,维持“增持” [20] 评级变动 - 招金矿业、哈尔滨电气、华丰科技等多家公司有首次评级变动 [22]
模式识别与人工智能前沿探讨专题论坛召开
环球网资讯· 2025-07-09 16:43
行业前沿动态 - 中国科协主办的第二十七届科协年会专题论坛聚焦模式识别与人工智能前沿技术,汇聚近20位专家学者与企业代表探讨发展方向[1] - 论坛主题包括新质生产力培育、学科交叉融合、科研创新与学术期刊协同发展[1] 企业技术报告 - 华为田奇教授提出"面向任意稀疏数据的3D/4D内容创建"技术方案[5] - 清华大学周杰教授研究"无人系统视觉感知"技术[7] - 大连理工大学卢湖川教授探讨"视觉内容感知生成"方法[9] 学术研究方向 - 王耀南院士团队开发"情智兼备的具身智能机器人"[5] - 清华大学黄民烈教授同步研究具身智能机器人技术[11] - 北京交通大学于剑教授分析具身模式识别中的理论挑战[11] 跨学科应用 - 华中科技大学白翔教授开发人工智能辅助的甲骨文破译方法[13] - 天津大学胡清华教授研究大规模复杂任务的社会化学习理论[13] 技术发展趋势 - 圆桌讨论聚焦多模态大模型与生成式人工智能的新趋势,包括科研范式转型、人才培养变革[15] - 重点探讨垂类多模态大模型构建路径、具身智能应用挑战[15] - 分析Transformer架构演进、骨干网络发展趋势及知识图谱融合方式[15]
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位· 2025-07-08 15:30
核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]