多模态大模型

搜索文档
官宣!2025 全球机器学习技术大会北京站首批嘉宾出炉,重磅来袭!
AI科技大本营· 2025-08-11 15:16
继 4 月 ML-Summit 2025 上海站圆满举办,现场座无虚席,反响热烈之后,2025 全球机器学习技术大会·北京站在大家的期盼下正式官宣。 10 月 16-17 日, 作为最具行业风向标的年度盛会, CSDN 联合高端 IT 咨询与教育平台 Boolan 主办的 2025 全球机器学习技术大会·北京站 将 延续高品质的前沿议题设置与高规格嘉宾阵容,聚焦大模型、多模态、智能体、AI Infra、具身智能等核心方向,携手顶尖学者与技术实践先锋,共同 探讨 AI 的演进路径与产业落地实践。 围绕技术深度与应用价值的双重驱动,本次大会特别设置了 12 大专题,全面覆盖当前 AI 最具前沿性与工程挑战的关键领域: 每一个专题都将聚焦"技术可解释 × 工程可复制 × 场景可落地"的真实价值,以最前沿的内容结构与最实战的案例经验,为技术决策者、一线开发者带 来高密度的信息增量。 12 大核心专题 构建 AI 技术与应用全图谱 大语言模型技术演进 大模型应用开发实践 大模型驱动的软件开发变革 多模态大模型前沿 GenAI 产品创新与探索 AI Infra:大模型基础设施建设 大模型工程与架构 DeepSeek 技术 ...
国新证券每日晨报-20250728
国新证券· 2025-07-28 10:06
国内市场表现 - 上证综指收于3593.66点,下跌0.33%,深证成指收于11168.14点,下跌0.22%,科创50上涨2.07%,创业板指下跌0.23%,万得全A成交额18155亿元,较前一日下降 [1][5][10] - 30个中信一级行业中9个上涨,计算机、电子及轻工制造涨幅居前,建材、建筑及食品饮料跌幅较大,概念板块中GPU、Kimi及多模态模型指数活跃 [1][10] - 当日A股2533只个股上涨,2726只下跌,215只涨超5%,104只跌超5%,49只涨停,16只跌停 [11] 海外市场动态 - 美国三大股指小幅收涨,道指涨0.47%,标普500涨0.4%,纳指涨0.24%,特斯拉涨超3%,微软涨0.55%,中概股多数下跌,小赢科技跌逾10% [2][5] - 美国与欧盟达成贸易协议,对欧盟输美商品征收15%关税,欧盟将增加对美国投资6000亿美元并购买7500亿美元能源产品 [23] 政策与行业驱动 - 证监会部署七大重点任务,包括深化创业板改革、防控房企债券违约风险及支持房地产发展新模式 [11] - 6月规模以上工业企业利润降幅收窄至4.3%(较5月改善4.8个百分点),装备制造业利润由降转增9.6%,汽车行业利润增长96.8% [16][17] - 制造业高端化、智能化相关行业利润快速增长,如电子专用材料制造(+68.1%)、智能消费设备制造(+40.9%)、锂离子电池制造(+72.8%) [18] 人工智能与科技发展 - 李强在世界人工智能大会强调AI需向善普惠发展,提出普及普惠、创新合作、共同治理三点建议,中国将推动成立世界人工智能合作组织 [12][13] - AI技术加速迭代,语言大模型、多模态大模型和具身智能领域突破显著,成为经济增长新引擎 [12] 农产品与消费政策 - 农业农村部等十部门发布促进农产品消费实施方案,优化绿色优质供给,创新流通渠道,推进农文旅融合及内外贸一体化 [20] - "两新"政策带动医疗仪器设备(+12.1%)、计算机整机制造(+97.2%)等行业利润增长 [19] 资本市场建设 - 中国资本市场学会成立,聚焦国家战略、前沿领域及监管问题研究,计划建设数字化研究平台及专家库 [21]
大模型面经 - 快手快 Star
自动驾驶之心· 2025-07-20 16:36
面试流程与内容 - 一面重点考察论文细节和基础能力,涉及代码题(32 最长有效括号)和概率题 [2] - 二面继续深入探讨论文,增加场景题考察方案完善能力 [4] - 三面侧重知识广度,涵盖多模态大模型技术(BLIP-2/Qwen-VL的Learnable Query、KV Cache、后训练差异)、计算机视觉(SAM编码机制)、概率题(扑克牌花色概率)和场景设计题(直播间商品识别) [5] - 四面为答辩环节,聚焦业务理解和职业规划,需串联过往经历形成主线 [6] 技术考察重点 - 多模态大模型:关注主流范式(BLIP-2/Qwen-VL架构演进)、训练优化技术(LoRA矩阵初始化、DeepSpeed三阶段优化)、动态分辨率实现 [5] - 计算机视觉:深入探讨Diffusion与DETR结合、SAM的多模态prompt编码机制 [5] - 工程实践:涉及大模型部署(KV Cache)、推荐系统排序算法、多模态RAG应用 [5] 学习资源与社区 - 提供30+自动驾驶技术栈学习路线,覆盖感知(BEV/Occupancy/多传感器融合)、定位建图(SLAM/高精地图)、规划控制等领域 [7] - 知识星球包含近4000人社区,300+企业与科研机构参与,提供端到端自动驾驶、大模型、CUDA部署等专业课程 [7]
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
机器之心· 2025-07-14 19:33
多模态大模型视觉头研究 - 研究发现多模态大模型中仅有不到5%的注意力头专门负责视觉理解任务,这些"视觉头"能有效聚焦并提取图片关键信息,而大多数注意力头主要关注文本信息或其他辅助特征[2] - 视觉头稀疏性现象表明模型的视觉理解能力高度依赖于极少数专门化的注意力头,这一发现为模型结构优化和资源分配提供了理论依据[2][8] - 提出基于OCR任务的无训练方法量化每个注意力头对视觉内容的关注程度,通过字符与视觉区域映射关系计算视觉得分[14][16] SparseMM方法设计 - 提出三部分KV-Cache分配机制:固定窗口大小的局部缓存、均匀分配的保底缓存、按视觉得分优先分配的关键视觉头缓存[18][20] - 差异化缓存策略在DocVQA等OCR-rich数据集上表现优异,在10%缓存预算下仍保持全缓存配置性能,显著优于AdaKV等方法[22][23] - 方法在通用视觉任务中展现强泛化能力,GQA和VQAv2等复杂视觉推理任务性能下降幅度控制在1%以内[25] 性能与效率提升 - 在32K输入长度下实现最高1.87倍解码加速,峰值显存占用减少约15GB,Qwen2-VL-7B模型显存减少2GB[27] - 可视化分析显示视觉头能准确定位图中物体或文字,而非视觉头往往关注错误区域,验证了差异化分配的科学性[28] - 方法为高分辨率图像和长上下文任务提供高效解决方案,显著提升多模态大模型部署效率[27][31] 技术实现路径 - 通过OCR任务标注建立字符与视觉区域映射关系,精确计算每个注意力头的视觉得分[14][16] - 采用注意力头级别缓存分配机制,对视觉头分配更多缓存预算以保留视觉信息,非视觉头仅分配必要缓存[9][17] - 方法开源提供完整论文、代码和项目地址,便于行业应用和研究参考[4]
福布斯中国“人工智能科技企业TOP 50”发布,创新集群阶梯崛起
机器人圈· 2025-06-30 21:53
2025福布斯中国人工智能科技企业TOP 50榜单分析 - 上海以21家入选企业领跑全国,呈现"硬科技+国际化"特质,主要覆盖新能源汽车、生物医药、机器人、半导体集成电路等领域 [4] - 北京14家获奖企业延续中关村"技术原创性"基因,代表企业包括寒武纪AI芯片和智谱清言通用大模型 [4] - 中部地区创新活力显现,武汉9家入选企业中,兰丁股份宫颈癌AI筛查系统已服务超2000家医疗机构,紫东太初多模态大模型拿下多个标杆案例 [4] 区域人工智能产业发展 - 武汉人工智能产业近五年复合增长率超40%,核心产业规模突破700亿元,拥有28家省级以上科研平台,年均培养专业人才超3000人 [5] - 武汉"内陆创新极"崛起打破AI产业依赖沿海资源的传统认知,为中西部地区发展提供标杆案例 [5] 行业竞争格局 - 中国AI产业形成金字塔结构:顶端为百度云、阿里云等标准巨头,中部为宇树科技等"隐形冠军",基底为鲸海拾贝等新锐企业 [6] - TOP 50企业共拥有专利破26万项,头部5家企业占据90%专利总量,但AIGC领域软件著作权年增速达45%且主要来自中小企业 [6] 企业融资与商业化进展 - 榜单中20家为上市企业(占比25%),非上市企业占比75%反映行业创新动能未被巨头垄断 [7] - 未上市独角兽企业投资逻辑质变,如具身智能领域企业估值支撑点从技术概念转向商业化路线图,案例包括原力无限充电机器人提升运营效率40%,蔚蓝科技四足机器人全球销量第一 [7] 技术发展趋势 - 多模态大模型向轻量化、行业化演进,量子计算与AI芯片加速融合突破算力瓶颈 [8] - AI+医疗将向药物研发、健康管理等全链条延伸,工业机器人组合已实现显著成本优势 [8] - 中部地区产业崛起显示中国AI产业正构建自主特色生态体系,跨越单纯技术追赶阶段 [8] 产业活动动态 - 2025智能机器人关键技术大会将举办,涵盖9大期刊联合征文、高曝光商务合作等模块 [1] - 中国人工智能创新大会发布四大子榜单,入选企业呈现技术多元分化特征 [3]
福布斯中国“人工智能科技企业TOP 50”发布,创新集群阶梯崛起
证券时报网· 2025-06-27 22:39
行业格局与区域分布 - 上海以21家入选企业领跑全国,企业呈现"硬科技+国际化"特质,主要覆盖新能源汽车、生物医药、机器人、半导体集成电路等制造业场景 [2] - 北京14家获奖企业延续中关村"技术原创性"基因,代表企业包括寒武纪的AI芯片与智谱清言的通用大模型 [2] - 武汉人工智能产业近五年复合增长率超40%,核心产业规模突破700亿元,拥有28家省级以上科研平台,年均培养专业人才超3000人 [3] - 中部地区创新活力显现,武汉9家入选企业中,兰丁股份的宫颈癌AI筛查系统已服务超2000家医疗机构,紫东太初多模态大模型拿下多个标杆案例 [2][3] 企业生态与创新特征 - 行业形成金字塔结构:顶端为百度云、阿里云等标准巨头,中部为宇树科技等"隐形冠军",基底为鲸海拾贝等新锐企业 [4] - TOP 50企业共拥有专利破26万项,头部5家企业占据90%专利总量,但AIGC领域软件著作权年增速达45%且主要来自中小企业 [4] - 上市企业占比25%,非上市企业占比75%,显示初创团队可通过算法突破和垂直场景深耕构建竞争力 [5] - 未上市独角兽企业投资逻辑转向商业化验证,例如具身智能领域企业原力无限充电机器人提升运营效率40%,蔚蓝科技四足机器人全球销量第一 [5] 技术趋势与投资方向 - 多模态大模型向轻量化、行业化演进,量子计算与AI芯片加速融合突破算力瓶颈 [7] - AI+医疗将向药物研发、健康管理等全链条延伸,工业机器人已在生产环节实现成本优势 [7] - 中部地区产业崛起改写传统格局,中国AI产业进入自主生态构建阶段,体现在技术突破、产业链协同和区域布局优化 [7]
中国光谷八家企业入选2025年福布斯中国人工智能科技企业TOP50
经济观察报· 2025-06-27 20:20
武汉人工智能产业崛起 - 武汉有9家企业入选2025福布斯中国人工智能科技企业TOP50 其中8家位于武汉东湖高新区(中国光谷) 上榜企业总数位居全国第四 [2] - 武汉人工智能核心产业规模突破700亿元 其中70%位于光谷 [3] - 光谷计划三年内培育三个百亿企业 中小企业破千家 产业规模突破千亿 目标打造中国人工智能产业第四极 [5] 光谷人工智能产业生态 - 光谷已形成"基础研究-场景落地-生态集聚"的良性循环 拥有28家省级以上科研平台 年均培养专业人才超3000人 [3] - "光芯屏端网"万亿产业集群构建了覆盖数据采集 算法训练 场景应用的完整生态链 [4] - 通过国资基金投资和专项招引政策 吸引华为 小米 声通科技等龙头企业落地 [3] 代表性企业技术突破 - 兰丁股份的宫颈癌AI筛查系统已服务超2000家医疗机构 [3] - 武汉紫东太初的多模态大模型拿下多个标杆案例 [3] - 声通科技与东风 金龙合作的自动驾驶项目进入牌照审核阶段 [3] 人工智能应用场景拓展 - 智能康养需求激增 消费升级带动文旅产业智能化转型 智能制造开启新篇章 [2] - AI技术正加速向垂直类应用场景深度渗透 [2] - 中国AI产业完成从跟跑到领跑的关键跃迁 [2]
启明创投周志峰对话阶跃星辰姜大昕:探索AI创业的“无人区”
IPO早知道· 2025-06-23 11:23
AGI定义与发展路径 - AGI定义尚未形成行业共识,但阶跃星辰提出以模型完成人类现有工作50%作为AGI到来的标准[7] - 实现AGI分为三个阶段:模拟世界(模仿学习多模态表征)、探索世界(强化学习解决复杂问题)、归纳世界(自主发现新规律)[7][8][10] - OpenAI智能演进五层级(Chatbot→Reasoner→Agent→Innovator→Organization)与阶跃星辰三阶段逻辑一致[10] 大模型技术趋势 - 多模态能力是通向AGI的必经之路,阶跃星辰坚持全模态覆盖及原生多模态理念[11][12] - 模型技术处于陡峭上升期,关键进展包括:强化学习提升推理能力、多模态融合实现理解生成一体化[14][15][19][21] - 理解生成一体化在多模态领域尚未实现,但GPT-4o等模型已展现编辑指令响应能力[21] 阶跃星辰差异化优势 - 构建完整模型矩阵:涵盖语言模型(基础/推理)和多模态模型(语音/音乐/图像/视频)[11] - 推理模型Step R-Mini性能超过OpenAI o1 preview模型,未来将发布满血版推理模型[15] - 智能终端Agent布局聚焦环境感知与任务自主完成能力,目标打造调用模型矩阵的平台[24][25][28] AI Agent发展驱动因素 - 2025年AI Agent火爆源于推理模型成熟与多模态能力提升[25][26] - Agent核心能力包括自动性(独立完成任务)和主动性(预判需求并响应)[27] - 智能终端作为感知延伸(如录音笔Plaud、影石创新相机)是Agent落地重要场景[28] 行业竞争格局 - 中国大模型领域形成"新五强":字节跳动、阿里巴巴、DeepSeek、智谱AI、阶跃星辰[6] - 阶跃星辰是上海徐汇区"模速空间"大模型生态中唯一汇报基础大模型进展的企业[6] - AI时代技术底座尚未定型,"模型即产品"理念下底层能力决定产品70%-80%表现[3][29]
阿里巴巴集团副总裁许主洪:多模态大模型是通往AGI的关键路径|直击MWC上海2025
国际金融报· 2025-06-19 18:48
许主洪进一步分享道,多模态理解模型主要基于自回归的模型框架,相比之下,多模态生成模型则更多地采用基于扩散的模型框架,利用如UNet和DiT 等架构,以及CLIP和T5等先进的文本编码器。 根据许主洪预测,未来多模态大模型将朝着理解与生成相统一的方向发展,但同时也指出主干网络设计、模态对齐融合等关键技术仍需深入研究。尽管 行业整体仍处于早期阶段,不过其对多模态技术在搜索、创作、机器人等领域的应用前景充满信心。 "多模态agent AI的时代才刚刚开始,未来我们要真正达到AGI,还是要解决非常多的技术难题,包括多模态大模型基础的能力,数据细节的连接与操 作,物理世界的控制与交付等等,都有很多的技术挑战,但这也是未来多模态大模型行业机会。"6月19日,在上海世界移动通信大会(MWC上海2025) 上,阿里巴巴集团副总裁,智能信息事业群首席科学家发表主题演讲,深入阐述了多模态大模型技术的发展趋势及其在实现通用人工智能(AGI)中的核心 作用。 在演讲中,许主洪将多模态大模型技术分为理解与生成两大类,并系统梳理了技术演进路径。他指出,多模态的理解任务,主要解决的难点包括多模态 的模态编码对齐、融合的理解与推理等等;多模 ...
产业赛道与主题投资风向标:科技政策组合拳密集发力,大模型向多模态演进
天风证券· 2025-06-07 20:20
报告核心观点 5月A股市场窄幅震荡,医药及新消费概念强势,中央出台稳市场政策,科技政策密集发力,产业上大模型向多模态发展,核聚变等多项目有新进展[3]。 市场回顾 - 5月A股窄幅震荡,Wind全A指数波动区间收窄,月均成交额约1.2万亿元,与上月持平,医药及新消费概念板块表现强势[3] - 月内最高连板数4 - 10板,多为ST个股,日均涨停家数与上月基本持平[3] - 5月两融余额缓慢增长,下半月主力资金净流入速度放缓[3] 政策动态 - 国新办介绍“一揽子金融政策支持稳市场稳预期”,央行降准、降息、增加再贷款额度等,金融监管总局推出8项增量政策,证监会支持中央汇金发挥类平准基金作用[23][24][25] - 多部门出台多项政策,涉及人工智能治理、医药工业数智化、优质项目投资、自贸试验区建设、央企人工智能发展、深圳科创金融、服务消费与养老、军事科研奖励、上海消费提振、科技金融体制、数字中国建设、科技服务业发展、人工智能创新、工业互联网、科创板上市、电子信息制造业转型、数智供应链、区域经济合作、具身智能产业、全国一体化数据市场、稳定币监管、国内大循环、汽车行业竞争等方面[26][32][33][39][40][46][47][54][55][60][63][66][68][70][73][81][85][92][93][99][102][106][108] 产业趋势 - 人工智能领域,字节、阿里、腾讯等公司有大模型迭代或发布,谷歌、苹果等有新动作,DeepSeek开源新版本,AI智能体平台Manus开放注册,英伟达将推出下一代GB300并授权NVLink技术[3][116][120][121][126][131] - 人形机器人领域,世界人形机器人运动会将举行,灵犀X2开启预售,机甲格斗擂台赛举办[3] - TMT领域,工信部推进5G - A、6G技术,华为发布鸿蒙电脑[3] - 新消费领域,它博会举行[3]