Workflow
多模态大模型
icon
搜索文档
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则
机器之心· 2025-10-15 10:54
文章核心观点 - 传统图像表征学习方法仅能提取通用信息(如主体类别),忽略了图像中其他多维信息(如数量、环境等)[2] - 提出一种名为条件表征学习(CRL)的新方法,能够根据指定准则(如颜色、形状)生成更具表现力的条件表征[4][9] - CRL方法无需额外训练,通过将通用图像表征投影到由大语言模型生成的文本概念空间即可实现,是一种高效的即插即用模块[9][13] 方法 - 方法灵感来源于三维坐标系和颜色三原色理论,认为对于任意给定准则,存在对应的“概念空间”及其基向量[8] - 技术流程为:首先使用大语言模型(LLM)生成与指定准则相关的描述文本,然后将视觉语言模型(VLM)得到的通用图像表征投影到该文本基张成的空间中[9] - 该方法的核心操作是图像与文本表征的矩阵乘法,实现简单,复现难度低[13] 实验验证 - 在少样本分类任务上,CRL与现有模型结合后性能显著提升,例如CLIP+CRL在Clevr4-10k数据集的颜色准则上ACC达到88.05%,远超CLIP baseline的12.23%[18] - 在定制化聚类任务上,CRL模块展现出强大性能,BLIP2+CRL在Cards数据集的Suits准则上ACC达到76.07%,NMI达到60.86%[18] - 在相似度检索任务上,CLIP+CRL在Focus和Change任务上的平均召回率(Mean)达到26.8%,显著优于CLIPimage+text的19.9%[22] - 实验结果表明CRL可作为通用增强模块,与CLIP、ALIGN、MetaCLIP、BLIP2等多种多模态模型结合,均能提升其在特定准则下游任务中的性能[18][22][25]
国内20家公司大模型岗位面试经验汇总
自动驾驶之心· 2025-10-15 07:33
公司面试动态与部门业务方向 - 淘天集团未来生活实验室的大模型研究主要围绕搜广推和逛逛内容化两个场景展开,团队组建由CEO戴珊、CTO若海等人牵头[5] - 字节AML火山方舟大模型部门专注于大模型研发[10] - 商汤科技在算法技术领域保持国内领先地位,但缺乏成熟产品且薪资竞争力不足[18] - 蚂蚁风控大模型部门关注工业场景下的多模态应用,包括人体检测、零件识别和机器检测等具体业务需求[23] - 夸克部门涉及文档大模型和Instruction tuning策略优化,特别关注数据多样性和自动化指标构建[36] - 腾讯混元大模型隶属于TEG数据平台事业部,主要负责机器学习平台建设[41] - 美团面试过程中深入探讨多模态大模型底层技术,特别关注代码实现能力[28] - 零一万物面试侧重开放性业务问题,对候选人业务积累要求较高[26] 技术面试重点与能力要求 - 计算机视觉基础能力考核频繁出现,包括IOU计算、LayerNorm区别、Self-Attention手写实现等核心知识点[15][28][33] - 编程算法测试覆盖Hash表设计、蓄水池采样、二叉搜索树操作等经典题型,字节跳动特别注重编码能力考察[13][15] - 多模态大模型技术细节成为考核重点,涉及GPT4V结构、LLM decoder、VQGAN等前沿架构理解[15][23] - OCR技术体系被深度讨论,包括端到端解决方案、高分辨率处理、不规则文本检测等工业级问题[11][23][28] - 项目实践经验评估权重较高,Focus-DETR、文档智能、位置信息处理等具体工作被反复追问[20][42][55] 行业技术发展趋势 - 多模态大模型呈现技术融合趋势,文档场景、OCR能力与通用大模型结合成为重点发展方向[28][36] - 高分辨率训练技术需求凸显,patch优化、长序列处理等工程挑战被多次提及[11][15][28] - 模型评估体系面临革新,传统benchmark指标有效性受到质疑,训练损失等新评估方法被探索[36] - 自动驾驶领域技术积累深厚,Momenta等公司在资金投入和技术成熟度方面表现突出[48] - 大模型技术路线出现分化,Gemini架构与LLM路线的对比成为技术讨论焦点[28]
浙商早知道-20251015
浙商证券· 2025-10-15 07:30
市场总览 - 2025年10月14日上证指数下跌0.62%,沪深300指数下跌1.2%,科创50指数下跌4.26%,中证1000指数下跌1.95%,创业板指下跌3.99%,恒生指数下跌1.73% [3][4] - 当日表现最好的行业为银行(上涨2.51%)、煤炭(上涨2.18%)、食品饮料(上涨1.69%),表现最差的行业为通信(下跌4.98%)、电子(下跌4.64%)、有色金属(下跌3.66%)[3][4] - 2025年10月14日全A市场总成交额为25966亿元,南下资金净流入86.03亿港元 [3][4] 化妆品行业观点 - 第四季度化妆品行业大盘预计延续低个位数增长,品牌端分化加剧 [5] - 推荐关注势能持续向上且估值向2026年切换仍有空间的新消费品牌标的 [5] - 预计新消费品牌凭借产品升级和品牌建设,未来2-3年内收入及利润有望保持20%-30%的复合年增长率 [6] 计算机行业观点 - 核心观点为国产算力崛起与AI应用落地,认为国产算力产业链正逐步成型 [7][9] - 观点变化包括寒武纪等国产算力厂商收入放量,以及多模态大模型应用落地加速,视频领域或率先实现商业落地 [9] - 与市场差异在于,市场认为模型大规模落地有待突破,而报告认为Sora 2.0出现后,多模态大模型正突破物理拟真门槛,有望在视频生成赛道产生商业价值 [9]
NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集
机器之心· 2025-10-14 16:24
| Zhaoliang Wan- Zetong Bi1 Zida Zhou2 Hao Ren1 Yiming Zeng1 Yihan Li1 | | | | | --- | --- | --- | --- | | Lu Oi3 | Xu Yang4 | Ming-Hsuan Yang3 | Hui Cheng1 * | 论文标题:RAPID Hand: A Robust, Affordable, Perception-Integrated, Dexterous Manipulation Platform for Generalist Robot Autonomy 论文地址:https://www.arxiv.org/abs/2506.07490 项目主页:https://rapid-hand.github.io/ 灵巧操作能力是通用机器人实现多任务泛化的核心能力之一。无论是日常的家庭整理、物品归置,还是辅助类服务任务,若缺乏灵巧的操作能力,机器人便难以 真正完成复杂交互。 近年来,随着多模态大模型(VLMs)在机器人控制中的逐步应用,研究者们开始将高质量的操作演示与预训练模型结合,用于具身推理与通用操作策略学 ...
上海网达软件股份有限公司 关于2025年半年度业绩说明会召开情况的公告
技术优势与市场表现 - 公司具备高清视频全链路解决方案,通过自主研发技术将高清视频流传输时延压缩至60ms级,实现高画质、省带宽、瞬时传输[1] - 在人工智能技术应用方面,公司采用大小模型协同方式,重点布局安全领域,并实现4K超高清监控视频的智能分析,有效降低传输和存储成本[2] - 公司打造了融合AIGC内容生成、Agent智能体协同、数字人交互三大核心能力的企业级媒体数智台,以提升内容传播效率并激活私域流量[2] - 公司核心产品已通过主流国产操作系统的兼容性认证,并与飞腾、鲲鹏等国产芯片平台完成适配优化,确保在国产软硬件平台上的高性能运行[3] 研发投入与未来方向 - 未来研发将立足于生成式AI路线,打通其与视频业务应用的结合路径,并在视频编码、修复、编辑、生成等环节开展协同创新[5] - 公司将基于多模态垂类大模型引擎增强多源融合感知能力,并构建行业智能体平台以提供从感知到决策执行的完整技术链[6] - 研发投入将重点针对细分行业模型、AIGC应用和XR等多个方向,并基于成本效益分析合理开展,注重投入产出比[6] - 研发费用同比下降是由于公司以实际需求为导向,聚焦AI技术研发,优化了高新视频产品线功能,并降低了非核心领域的投入[9] 低空经济领域布局 - 公司研发了无人机智能巡检系统与无人车智能巡检系统两大解决方案,以核心智能视频平台为基础,结合具身智能产品[7] - 上述解决方案面向港口、园区、交通等应用场景提供整体智能安全监管,可广泛应用于码头巡检、化工园区巡检等业务场景[7] 股东回报政策 - 公司于2025年6月17日实施了2024年度利润分配,向全体股东每10股派发现金红利1.50元(含税)[8] - 未来分红计划将综合考虑可持续经营与发展情况、资本充足水平等因素,以平衡短期利益与长远发展,给予投资者持续稳定的回报[8] AI安全监管进展 - 公司AI智能体驱动的数字安全监管系统可整合多源数据,通过跨模态语义对齐技术实现对作业场景的动态感知与行为意图解析[10] - 系统能结合场景上下文进行风险推演,自动生成风险等级与处置优先级,并可快速适配电力巡检、港口装卸等差异化场景[10] - 在技术层面,公司对视频解析链路进行深度优化,单台设备即可高效处理4K超高清视频的高并行解析任务,并具备自适应高效压缩能力[10] - 公司开发了跨空间多摄像头协同视频解析算法,解决了在广阔场景下同时进行目标轨迹宏观分析与局部细节精准识别的难题[10]
Sora 2发布,进一步拉动算力、存储需求 | 投研报告
中国能源网· 2025-10-13 17:00
行情回顾 - 本周沪深300指数涨跌幅为-0.51% [1][2] - 本周电子板块涨跌幅为-2.63% [1][2] - 本周半导体行业涨跌幅为-3.28% [1][2] 半导体设备与材料 - 国内头部晶圆代工厂中芯国际资本开支维持在70-80亿美金/年 [2] - 长江存储三期在武汉成立,注册资本207.2亿元 [2] - 长鑫科技IPO辅导状态变更为"辅导验收" [2] - 国内存储厂预计为晶圆代工资本支出贡献主要增量 [2] - 半导体测试设备厂商长川科技预计第三季度实现归母净利润4-4.5亿元,同比增长180.67%-215.75% [2] - 半导体材料在光刻胶、高端前驱体等领域对外依存度较高,国产化稳步推进 [1][2] - 鼎龙股份预告第三季度实现归母净利润1.9-2.2亿元,同比增长19.89%-38.82% [1][2] 集成电路封测 - 封测行业是半导体产业链中国产化程度最高的环节之一 [2] - 国内封测行业处于快速发展、技术升级阶段 [2] - 先进封装成为性能提升的关键路径 [2] - AI、HPC等新兴应用推动高端封测需求 [2] 模拟芯片设计 - 海外市场下游消费电子、企业市场、通讯市场和工业市场需求持续复苏,汽车市场尚未复苏 [3] - 国内市场得益于政策刺激和国产新能源汽车品牌崛起,工业类需求持续回暖,汽车类需求较好,消费类需求温和复苏 [3] 数字芯片设计 - AI发展带动CPU、GPU、高性能存储芯片需求 [3] - 全球头部云厂商积极布局自研ASIC,未来有望形成"GPU+ASIC"的异构计算模式 [3] - 芯原股份第三季度预计实现营收12.84亿元,创单季度历史新高,同比增长78.77%,环比增长119.74% [3] - 芯原股份第三季度新签订单15.93亿元,同比增长145.80% [3] AI行业动态与投资机遇 - OpenAI发布最新音视频生成模型Sora2,其iPhone应用上线第4天拿下美国App Store免费应用榜第一名 [3] - 阿里巴巴表示正在积极推进3800亿元的AI基础设施建设,并计划追加更大投入 [3][4] - 多模态大模型发展有望进一步拉动算力需求 [4] - AI发展有望带动存储芯片行业周期上行 [4]
Sora2发布,进一步拉动算力、存储需求
银河证券· 2025-10-13 16:36
行业投资评级 - 半导体行业评级为“推荐”,并维持该评级 [1] 核心观点 - OpenAI发布最新音视频生成模型Sora 2,并推出iPhone应用,上线第4天即登上美国App Store免费应用榜第一名 [3] - 国内头部互联网厂商阿里巴巴计划推进3800亿元的AI基础设施建设,并计划追加更大投入 [3] - 多模态大模型发展有望进一步拉动算力需求,国内互联网厂商加码AI投入 [3] 行情回顾与市场表现 - 本周沪深300指数涨跌幅为-0.51%,电子板块涨跌幅为-2.63%,其中半导体行业涨跌幅为-3.28% [3] - 相对沪深300表现图显示半导体板块有显著超额收益 [2] 半导体设备与材料 - 国内头部晶圆代工厂中芯国际资本开支维持在70-80亿美金/年 [3] - 长江存储三期(武汉)集成电路成立,注册资本207.2亿元;长鑫科技IPO辅导状态变更为“辅导验收” [3] - 国内存储厂预计为晶圆代工资本支出贡献主要增量 [3] - 半导体测试设备厂商长川科技预计Q3实现归母净利润4-4.5亿元,同比增长180.67%-215.75% [3] - 半导体材料在光刻胶、高端前驱体等领域对外依存度较高,国产化稳步推进 [3] - 鼎龙股份预告Q3实现归母净利润1.9-2.2亿元,同比增长19.89%-38.82% [3] 集成电路封测 - 封测行业是半导体产业链中国产化程度最高的环节之一,在全球竞争中角色日益重要 [3] - 行业处于快速发展、技术升级阶段,先进封装成为性能提升的关键路径 [3] - AI、HPC等新兴应用推动高端封测需求 [3] 模拟芯片设计 - 海外下游消费电子、企业市场、通讯市场和工业市场需求持续复苏,汽车市场尚未复苏 [3] - 国内得益于政策刺激和国产新能源汽车品牌崛起,工业类需求持续回暖,汽车类需求较好,消费类需求温和复苏 [3] 数字芯片设计 - AI发展带动CPU、GPU、高性能存储芯片需求 [3] - 全球头部云厂商积极布局自研ASIC,未来有望形成“GPU+ASIC”的异构计算模式 [3] - 芯原股份Q3预计实现营收12.84亿元,单季度营收创历史新高,同比/环比增长78.77%/119.74%,新签订单15.93亿元,同比增长145.80% [3] 投资建议 - 建议关注与AI算力相关的公司:芯原股份、寒武纪、海光信息、中芯国际、华虹公司 [3] - 国内存储厂预计为明年国内晶圆厂资本支出贡献主要增量,建议关注中微公司、拓荆科技、北方华创、长川科技和安集科技 [3] - AI发展有望带动存储芯片行业周期上行,建议关注兆易创新、北京君正、澜起科技 [3]
一些项目合作,待遇open~
具身智能之心· 2025-10-13 12:02
主要方向 我们将提供高额的酬金与丰富的行业资源。 平台介绍 具身智能之心是国内具身领域优秀创作平台,业务集在线教育、线下培训、企业咨询、企业宣传服 务、硬件研发销售、解决方案为一体。 我们致力于为行业提供优质的内容输出和教育方案。 最近收到越来越多合作伙伴和中小公司的诉求,期望具身智能之心团队能够在方案和数采、技术升 级、企业培训等多个方向上赋能。 行业新,许多坑需要踩,这也是领域的痛病。具身智能之心期望能够在更多内容上为行业带来价 值,减少企业和个人的研发、学习成本,推动行业的发展。 虽然从上半年开始,我们一直在筹办相关事宜。但众人拾柴火焰高,需要更多优秀的伙伴加入我 们。现面向全球的具身领域从业者发出邀请函,具身智能之心期望能够和您在技术服务、培训、课 程开发与科研辅导等多个领域展开合作。 联系我们 感兴趣的可以添加微信oooops-life做进一步咨询。 包括但不限于:VLA、VLN、Diffusion Policy、强化学习、VLA+RL、遥操作、动捕、sim2real、多 模态大模型、仿真、运动控制、端到端、3D感知等多个方向。 岗位说明 主要面向 具身课程开发、方案研发、硬件研发、培训合作 (B端 ...
智驾最后的窗口期,冲出AI新玩家
远川研究所· 2025-10-12 21:04
行业趋势与竞争格局 - 智能辅助驾驶行业呈现冰火两重天局面,L2+功能从高端车型专属标签向中低端市场普及,实现“平权” [2] - 技术路线加速收敛,端到端与多模态大模型成为新赛点,行业进入强算法时代 [2][6][15] - 2021年特斯拉FSD V9.0采用BEV+Transformer架构是行业分水岭,推动感知模块大模型化 [4][5] - 行业竞争地图形成多股力量:特斯拉式垂直整合、Mobileye等芯片商、Momenta等算法提供商、以及AI 1.0创业者 [9] - 智能辅助驾驶软件价值占整车比重持续提高,未来有望超过4成 [6] - 头部阵营雏形显现,平台型玩家通过整合产业资源驱动行业范式变迁 [9][18] 核心技术演进 - 端到端架构结合视觉语言模型(VLM)成为主流方案,通过单一神经网络将传感器数据直接转化为车辆控制指令 [12] - 多模态大模型+强化学习是未来核心竞争力,提高系统感知理解能力和驾驶博弈能力,学会举一反三 [20][21][22] - 相比模块化架构,端到端模型代码量大幅节省,但存在黑箱问题,VLM提供了可解释性 [12] - 高质量模型训练依赖云端预训练、车端高质量数据投喂、仿真微调及OTA更新的闭环 [15] - 强化学习是训练高质量模型的“教练”,通过设置奖励函数让AI在虚拟场景中自我进化 [15] - 千里科技RLM大模型采用一段式端到端架构,拥有更高“含模量”,驾驶体验更拟人丝滑 [21] 千里科技的战略与布局 - 公司定位为具有深厚制造业基因的世界级科技公司,目标是成为平台级AI公司,为行业提供规模化智能解决方案 [18][21] - 战略核心是“AI+车”,已完成智能辅助驾驶、智能座舱、智能出行三大领域的多点布局 [11][25] - 公司联合阶跃星辰和吉利汽车组建合作联盟,共同研发千里智驾RLM大模型 [17] - 公司与吉利合作拥有百万级保有量的L2+车型数据,联盟云端算力储备超过23 EFLOPS,在国内车企中排名第一 [25] - 公司获得奔驰13亿元投资,汽车智能化朋友圈不断扩大 [18] - 推出“千里计划”(AFARI Plan),以“One Brain, One OS, One Agent”为核心愿景,构建大模型驱动的AI大脑和操作系统 [27] 产品与技术优势 - RLM大模型具备防御性驾驶能力,基于多传感器感知和动态场景推演,能对视野盲区进行预防性判断 [24] - 推出不依赖高精地图的全场景门到门模式,通过实时道路生成与理解实现无感畅通驾驶 [24] - 算法、算力和数据三要素协同是核心竞争力,公司在数据规模和算力储备上具备优势 [24][25] - 在智能出行领域,计划未来18个月在10座城市落地规模化Robotaxi运营,单一城市部署超1000辆 [27] - 基于多模态大模型底座整合通用知识与智驾垂域数据,RLM大模型能实现通用感知理解 [22]
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
量子位· 2025-10-12 15:30
模型核心性能 - 2B参数模型在多个基准测试中位列4B参数以下开源模型第一,OpenCompass平均得分70.31,超越Qwen2.5-VL-3B(65.36)和InternVL3.5-2B(66.64)等竞品 [1][27] - 8B参数模型在OpenCompass取得开源同量级模型最高分数75.07,并在MMStar(70.73分)、OCRBench(91.30分)等细粒度任务中领先 [27][28] - 思维增强版本SAIL-VL2-8B-Thinking在复杂推理任务中平均得分54.4,超越所有开源模型,仅次于GPT-4o-latest(54.8) [30][31] 技术创新与架构 - 引入稀疏混合专家(MoE)架构,31.1B大模型每次推理仅激活3B参数,并通过负载均衡损失将专家激活熵提升20%,优化计算效率 [7][9] - 视觉编码器SAIL-ViT采用三阶段训练(热身适应、细粒度对齐、世界知识注入),使视觉-语言特征空间的平均最近邻距离从1.42降至1.15,对齐效果显著提升 [8] - 突破传统ViT固定分辨率限制,通过"2D RoPE插值"技术支持最高1792×1792任意分辨率输入,在RefCOCO视觉定位任务中平均精度达57.82,远超固定分辨率版本的53.28 [10] 数据与训练策略 - 设计全自动数据pipeline,通过质量筛选(如双维度评分过滤低质量样本)和类型扩展(如合成VQA数据)构建高质量多模态语料库,最终使用250M通用caption和1.69M图表caption数据 [11][12][19] - 采用渐进式训练框架,分三阶段视觉预训练和两阶段多模态预训练,累计使用121B tokens数据,逐步激活模型从基础感知到复杂推理的多维度能力 [14][15] - 后训练阶段通过五阶段递进策略(如LongCoT SFT、可验证奖励RL等)强化模型能力,并利用Stream Packing技术将训练速度加快50%,QA性能提升0.7% [23][24][26] 行业竞争力表现 - 在106个数据集的综合评估中,SAIL-VL2在通用多模态理解、数学推理、多图像与视频理解等任务均实现领先,尤其在MMMU、MathVista等复杂推理基准超越同规模模型 [2][25][27] - MoE架构模型SAIL-VL2-A3B-Thinking以3B激活参数在推理任务中获得53.6分,超越闭源模型Gemini-2.0-Flash(50.6),展现出极高的效率性能比 [30][31] - 模型全面开源代码与权重,为行业提供可扩展的多模态基础模型新范式,强调"小模型强能力"的技术路径 [5][32]