Workflow
多模态大模型
icon
搜索文档
具身智能之心多模态大模型交流群成立啦!
具身智能之心· 2025-07-12 21:59
具身智能技术交流群 - 该群专注于多模态大模型技术交流 包括视觉+语言(V+L) 视觉+语言+触觉(V+L+触觉)等方向 [1] - 目标人群为从事具身智能模型微调 部署 量化 轻量化等工作的研究人员 [1] - 提供微信交流群加入渠道 并设有严格的广告管理规则 [1] - 群满后可联系助理CLmovingup 需备注"具身大模型+入群"申请加入 [1] 技术研究方向 - 重点关注具身智能相关模型的优化与应用 包括模型微调 部署实施 量化处理 轻量化设计等 [1] - 交流内容涵盖多模态大模型的前沿技术 特别是视觉与语言 触觉等多感官融合领域 [1]
VLM岗位面试,被摁在地上摩擦。。。
自动驾驶之心· 2025-07-12 20:00
自动驾驶大模型技术发展 - 理想汽车是国内首个实现视觉语言大模型(VLM)上车的企业,在自动驾驶多模态大模型领域经验丰富[2] - 行业技术路线已明确向端到端+大模型方向发展,长安/小鹏等车企均已宣布大模型上车计划[4] - 自动驾驶大模型应用场景包括智能座舱、具身智能、数据挖掘和标注等领域,未来发展空间广阔[4] 大模型核心技术要点 - 通用大模型需横向对比开源SOTA模型,分析不同任务下的优劣势[4] - 微调技术涉及LoRA、Adapter、DPO等方法,是业务模型落地的关键[6][15] - 大模型存在幻觉问题,解决方案包括外挂知识库、微调和强化学习等技术[6] - 私有数据集构建和prompt模板设计是业务模型的核心竞争力[4] 自动驾驶大模型课程体系 - 课程涵盖多模态大模型基础概念、架构、训练范式和公开数据集[9] - 重点讲解模态编码器、Input/Output Projector、LLM Backbone等核心模块[11] - 覆盖图文理解、视频理解、任意模态等5种通用多模态大模型算法[11] - 包含DriveVLM等5个最具代表性的自动驾驶端到端大模型算法[17] - 提供行业就业指导,分析公司需求和技术瓶颈等实际问题[19] 行业人才需求 - 企业面试重点关注候选人对开源模型的对比分析能力[4] - 实际项目经验(如RAG系统)和私有数据集构建经历是重要考察点[4][6] - 需要掌握从算法设计到工程化落地的全流程能力[22] - 高校学生、技术人员和转行人员是该领域主要人才来源[26]
之心急聘!25年业务合伙人招聘,量大管饱~
自动驾驶之心· 2025-07-12 13:41
业务合伙人招募 - 公司计划向国内外招募10名优秀合伙人负责自动驾驶相关业务开发[2] - 主要业务方向包括课程研发、论文辅导和硬件研发[2] 技术方向需求 - 重点招募领域涵盖大模型/多模态大模型、扩散模型、VLA等前沿技术方向[3] - 涉及端到端自动驾驶、具身交互、联合预测等关键技术[3] - 包含SLAM、3D目标检测、世界模型等感知技术[3] - 关注闭环仿真3DGS、大模型部署与量化感知推理等应用方向[3] 人才要求 - 候选人需具备QS200以内高校硕士及以上学历[4] - 拥有顶会论文发表经历者优先考虑[4] 合作待遇 - 提供自动驾驶领域资源共享包括求职、读博、留学推荐等[5] - 设置丰厚现金激励机制[5] - 可获得创业项目合作与推荐机会[5]
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
量子位· 2025-07-12 12:57
多模态大模型视觉推理能力评测 - 清华大学团队开发EscapeCraft 3D密室逃脱环境,用于评估多模态大模型在复杂视觉任务中的推理能力,该论文入选ICCV 2025 [2][3][4] - 环境支持自由配置难度等级,通过调整道具链长度、线索位置(如从出口附近移至远处)测试模型适应性,GPT-4o在线索位置变化后表现显著下降 [6][7][8] - 评测聚焦模型探索决策过程,包括道具获取、视角调整、意图一致性等,而非仅关注最终结果 [16] EscapeCraft环境设计特点 - 环境灵感源自密室逃脱游戏,支持自动生成3D场景,模型需完成找钥匙、解密码等多步骤任务,整合视觉、空间、逻辑信息 [4] - 任务设计高度灵活,可扩展至问答、逻辑推理等方向,为智能体、强化学习研究提供基础平台 [5] - 创新指标包括意图-结果一致性(Intent-Outcome Consistency)、道具获取率(Prop Gain)等,量化模型交互质量与推理效率 [17] 主流模型表现对比 - GPT-4o综合表现最佳,平均逃脱成功率(ER)达81.36%,但在高难度任务中仅26.5%子目标为理解后完成,多数为偶然成功 [17][19][21] - 国产模型Doubao 1.5 Pro在简单关卡中逃脱成功率(91.91%)超越Gemini 1.5 Pro(81.82%)和Claude 3.5(72.73%),交互成功率(Grab SR)达44.68% [19][21] - Gemini 1.5 Pro与Claude 3.5在相同逃脱成功率下行为差异显著:前者交互率高(0.44 vs 0.17)、步数少,后者交互成功率更高但步数多 [21] 模型失败案例与错误类型 - 常见错误包括误判可交互物体(如试图抓取沙发)、视角控制失败(关键道具移出视野)等 [18] - 错误分类显示Claude 3.5的61.1%为推理逻辑错误(目标设定或动作意图不符),38.9%为视觉感知错误 [18] - 多房间设定下模型学习能力有限,仅当房间结构相似时经验可复用 [22] 研究价值与行业应用 - 弥补传统以结果为导向的评估缺陷,强调中间推理过程,推动多模态模型向"类人推理"发展 [16] - 开源环境与数据可支持智能体、强化学习等领域研究,项目已发布GitHub与论文 [22] - 评测揭示当前模型局限:即使视觉输入正确,仍可能因逻辑缺陷失败,体现"看到≠想清"的行业挑战 [18][21]
新股消息 | 传智谱考虑将IPO地点由内地改为香港 或筹集约3亿美元
智通财经网· 2025-07-11 16:31
IPO计划 - 公司考虑将IPO地点由内地改为香港 可能筹集约3亿美元(约23 4亿港元) 相关事宜仍在考虑中 尚未做出最终决定 [1] - 公司最终也可能选择在内地上市 [1] 战略投资 - 上市辅导前夕 公司密集收获多地国资战略投资 包括浦东创投集团和张江集团总额10亿元的投资 [1] - 上海仪电 浦发集团 公司三方将携手在浦东建设人工智能新型基础设施 [1] - 3月3日 公司完成超过10亿元战略融资 参与者包括杭州城投产业基金及上城资本 [2] - 3月12日 珠海华发集团战略投资公司5亿元 [2] - 3月19日 成都高新区宣布战略投资公司3亿元 [2] 产品与技术 - 公司发布并开源视觉语言大模型GLM-4 1V-Thinking 支持图像 视频 文档等多模态输入 专为复杂认知任务设计 [1] - 公司推出全新生态平台"Agent应用空间" 并开启"Agents开拓者计划" 投入数亿资金扶持AI Agents创业团队 [1]
报名开启|7月27日,世界人工智能大会腾讯论坛邀您共探AI新纪元
腾讯研究院· 2025-07-11 15:20
人工智能发展趋势 - 人工智能已从理论设想发展为变革世界的核心力量,驱动产业升级、革新用户体验、重构人机协同[1] - 2024年生成式AI实现深化融合与爆发式应用,多模态大模型和具身智能等新范式拓宽AI能力边界[1] - 2025年人工智能将进一步突破认知极限,更深度助力千行百业并塑造科技未来[1] 2025世界人工智能大会腾讯论坛 - 论坛将于7月27日在上海举办,由腾讯华东总部、腾讯优图实验室等多家腾讯系机构联合支持[1] - 主题为"智能涌现",聚焦AI技术与产业深度融合趋势,围绕大模型垂直落地、场景创新突破、生态共建协同三大议题[2] - 将系统展示腾讯在多元场景中的AI应用成果,体现"科技向善"的立体化实践[2] - 腾讯将分享Agent领域最新进展,与行业领军人物共话智能时代新机遇[2] 腾讯AI布局 - 腾讯通过优图实验室、Robotics X实验室等机构在AI领域进行多维度布局[1] - 公司在AI应用场景中已取得显著成果,涉及云智能、游戏、浏览器、输入法等多个产品线[1][2]
科创AIETF(588790)上涨1.78%,近一年日均成交额跑赢同类产品,机构:多模态大模型和应用发展的奇点将至
新浪财经· 2025-07-11 13:43
市场表现 - 上证科创板人工智能指数(950180)上涨1 93% 成分股星环科技(688031)上涨13 26% 寒武纪(688256)上涨5 48% 云从科技(688327)上涨4 75% [3] - 科创AIETF(588790)上涨1 78% 最新价报0 57元 近3月累计上涨2 56% 涨幅排名可比基金3/7 [3] - 科创AIETF近6月净值上涨10 72% 自成立以来最高单月回报为15 59% 最长连涨月数为2个月 最长连涨涨幅为26 17% 上涨月份平均收益率为9 71% 历史持有6个月盈利概率为100 00% [5] 流动性及资金流向 - 科创AIETF盘中换手5 07% 成交2 28亿元 近1年日均成交2 59亿元 排名可比基金第一 [3] - 科创AIETF最新资金净流入5054 47万元 近5个交易日内有4日资金净流入 合计"吸金"1 18亿元 日均净流入达2356 87万元 [4] - 科创AIETF最新融资买入额达1330 15万元 最新融资余额达2 52亿元 [4] 规模及份额 - 科创AIETF最新规模达44 48亿元 创成立以来新高 位居可比基金1/7 [4] - 科创AIETF最新份额达79 33亿份 创成立以来新高 位居可比基金1/7 [4] 行业动态 - 人工智能向善全球峰会在瑞士日内瓦召开 中国移动展示九天大模型平台等AI解决方案 该平台可实现云端、边缘侧、端侧全场景灵活部署 已在客服、航空等多个领域落地 [3] - 华泰证券认为多模态大模型和应用发展的奇点将至 原生多模态模型架构得到业界认可 OpenAI和Google的原生多模态模型在性能、延时、部署上展现出优势 [4] 估值及跟踪 - 上证科创板人工智能指数估值处于历史低位 最新市净率PB为7 4倍 低于指数成立以来98 5%以上的时间 [5] - 科创AIETF管理费率为0 50% 托管费率为0 10% 费率在可比基金中处于较低水平 [5] - 科创AIETF近半年跟踪误差为0 030% 在可比基金中跟踪精度最高 [5] 指数构成 - 上证科创板人工智能指数从科创板市场中选取30只市值较大的为人工智能提供基础资源、技术以及应用支持的上市公司证券作为指数样本 [6] - 上证科创板人工智能指数前十大权重股合计占比68 03% 包括寒武纪(688256)、澜起科技(688008)、金山办公(688111)等 [7]
ICML 2025 Spotlight | 快手、南开联合提出模块化双工注意力机制,显著提升多模态大模型情感理解能力!
AI前线· 2025-07-11 13:20
多模态情感理解技术突破 - "情智兼备"是新一代人工智能的重要发展方向,为迈向通用人工智能的关键一步,需精准解译多模态交互信息并深度挖掘人类情感状态 [1] - 快手可灵团队与南开大学提出模块化双工注意力范式,构建多模态模型'摩达'(MODA),在21个基准测试中实现显著性能提升,并被ICML 2025收录为焦点论文(Top 2.6%)[1][3] - 现有主流多模态大模型存在模态偏置问题,在二分类讽刺检测任务中准确率仅50%,跨模态注意力差异高达63% [4][7] 技术原理与创新 - 多模态注意力失调表现为文本模态过度关注(注意力分数差异达10倍)和逐层衰减(视觉模态信息被稀释) [7][8] - 模块化双工注意力通过Gram矩阵基向量实现跨模态语义迁移,将跨模态注意力差异率从56%-62%降低至41%-50% [10][13][25] - 双工注意力对齐包含V-Aligner和T-Aligner,通过核化映射函数增强模态间词元相似性 [14][15] 性能表现 - MODA-34B在知识问答任务中准确率达88.1%,超越GPT-4V(75.7%)和Gemini-1.5 Pro(58.5%) [25] - 在OCR与表格类任务中,MODA-8B以74.7%准确率领先同类模型,视觉能力类任务达73.8% [25] - 情感理解任务中MODA-8B的F1值达0.705,超过专用模型MMRole-9B(0.742) [25][28] 应用场景 - 可实时解析用户微表情、语调及文化特征,在心理咨询和虚拟偶像交互中动态调整策略 [31] - 已应用于快手可灵数据感知项目,提升情感变化检测和个性化推荐精度 [33] - 支持金融客服、沉浸式娱乐等领域的人格化服务,突破规则式应答局限 [31][33]
A股指数集体高开:沪指微涨0.05%,稀土永磁、稳定币等板块涨幅居前
凤凰网财经· 2025-07-11 09:38
机构观点: 华泰证券:坚定看好铜价上行趋势,本次回调或是配置良机 华泰证券表示,2025年7月8日,美国商务部长卢特尼克宣布特朗普将对铜加征50%的关税,政策预计于 7月下旬或者8月1日实施。由于距离关税实施较短,我们判断"抢运"行情基本结束;7月下旬或者8月1日 正式加征50%关税后,消失的出口需求+铜7-8月传统淡季,非美地区供需紧张的格局或逆转,我们判断 短期LME/SHFE铜价或回调、但幅度有限。我们坚定看好铜价上行趋势,本次回调或是配置良机。 凤凰网财经讯 7月11日,三大指数集体高开,沪指高开0.05%,深成指高开0.06%,创业板指高开 0.02%,稀土永磁、稳定币、泛金融等板块指数涨幅居前。 | | | | | 沪深京重要指数 | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | 名称 *● | 販新 | 涨幅% | | 涨跌 | 张速% | 总手 | 现手 | 金额 | | 上证指数 | 3511.37 | 0.05 | 1.69 | 942/807 | -0.09 | 625万 | 625万 57.45 7 ...
全球最强AI模型?马斯克发布Grok 4!重仓国产AI产业链的589520单日吸金3922万元!
新浪基金· 2025-07-11 09:17
行业动态 - 马斯克旗下xAI发布Grok 4模型 在"人类的最后考试"中取得25 4%准确率 超过谷歌Gemini 2 5 Pro的21 6%和OpenAI o3的21% 被称为"世界上最强AI模型" [1] - 华泰证券指出 多模态大模型和应用发展奇点将至 多模态能力将推动算力和应用两方面的投资机会 [1] - 华安证券认为 包括AI在内的泛科技板块下半年可能出现催化事件 如DeepSeek和OpenAI新版模型发布 英伟达新型计算平台推出 苹果秋季发布会等 板块或呈现"先抑后扬"走势 [1] 市场表现 - 英伟达登顶4万亿市值带动"AI投资热"升温 科创人工智能ETF华宝(589520)7月10日获资金净流入3922万元 近10个交易日中有8日净流入 累计金额5065万元 [2] - 市场分析人士指出 人工智能技术发展迅速 应用场景拓展 长期有望推动相关企业业绩增长 [4] 国产替代 - 国产DeepSeek实现弯道超车 打破海外算力封锁 奠定国产AI公司后来居上基础 [5] - 科创人工智能ETF华宝(589520)重点布局国产AI产业链 标的指数均衡配置应用软件 终端应用 终端芯片 云端芯片四大环节 有望受益端侧芯片/软件AI化提速 [5]