视觉大模型
搜索文档
“智”护生产安全 海康威视观澜大模型落地湖北宜化
证券日报网· 2026-02-10 19:12
海康威视AI解决方案助力宜化集团数字化与安全生产 - 海康威视通过部署视频感知设备与观澜大模型搭建的智能巡检系统,推动宜化集团数字化管理变革,旨在提质降本增效 [1] 解决方案具体应用与部署 - 在宜化磷化工有限公司的100多个皮带运输机关键点位部署智能监测系统,运用跑偏检测、大块物料检测、皮带堵料大模型算法分析运行状态并预警异常 [2] - 在磷化工7个核心工段(装置)部署超过700个AI监测点位,覆盖500余个关键场景,对粉料泄漏、液体滩漏、烟雾等进行精准识别 [3] - 智能巡检系统结合视觉大模型技术,使AI巡检算法整体检准率超过90%,并与智慧平台联动构建闭环管理机制 [3] - 通过热成像技术对管道进行精准测温,多方位保障生产环节平稳高效安全运行 [4] - 为湖北新宜化工有限公司部署AR实景一张图系统,以高点全景视频为底图,通过增强现实技术将环保监测数据、危险源信息等多维数据融合到视频画面中,实现统一可视化管理 [6] 实施效果与效率提升 - 智能巡检系统预计每年可大幅减少因皮带跑偏等问题引发的设备损坏与物料洒落所带来的清理与维护成本 [2] - 过去每天需3个班组轮值进行频繁巡检,人力投入大且响应效率有限;如今仅需一个班组执行一次集中巡检即可实现更精准的风险识别与快速响应 [4] - AR一张图系统打破了传统信息孤岛,实现了从数据感知到指挥调度的全流程可视化,提升了园区安全管理的协同效率与响应速度 [6] 技术平台化与行业意义 - 海康威视为宜化集团打造了统一的AI能力中心,将技术沉淀为可复用的平台能力,赋能其各个生产基地,广泛应用于工艺巡检、特殊作业监管与现场隐患监测等核心场景 [4] - 此次合作标志着从“人巡”到“智巡”、从“三班倒”到“站好一班岗”的转变,体现了科技在保障生产运行和提升生活品质方面的落地应用 [6]
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
机器之心· 2026-01-12 14:35
核心观点 - 视觉语言模型在空间推理任务中存在“语义-几何鸿沟”,导致其无法处理精确的空间量化问题[2] - 北京航空航天大学与上海人工智能实验室的研究团队提出了几何约束智能体,通过“先形式化约束,后确定性计算”的新范式,显著提升了视觉语言模型的空间推理能力[4] - GCA方法无需海量数据微调,通过构建形式化任务约束并调用视觉工具进行计算,在多个基准测试中确立了新的性能标杆[4][14] 行业痛点与问题根源 - 视觉语言模型在图像描述与通用语义理解上表现卓越,但在需要高精度几何计算的空间推理任务上表现显著下滑[6] - “语义-几何鸿沟”的根源在于视觉语言模型将丰富的像素信息压缩为抽象语义特征,导致物体精确位置、朝向、尺度等高保真几何细节大量丢失[7] - 视觉语言模型缺乏几何想象力,无法在脑海中精确构建三维场景,使其在面对复杂空间推理时力不从心[7] 技术创新与方法论 - GCA创新性地引入了形式化任务约束,将空间推理精准拆解为“任务形式化”和“几何计算”两个阶段[9] - 在任务形式化阶段,视觉语言模型将模糊的自然语言指令转化为明确的数学约束,包括目标约束和参考系约束[9][11][12] - 在几何计算阶段,视觉语言模型转变为任务求解器,严格遵循划定的边界,调用3D重建、目标检测、OCR等感知与计算工具执行确定性的几何计算[13] - GCA归纳了三种人类常用的核心参考系:基于物体的参考系、基于相机的参考系和基于方向的参考系[12] - 该方法依赖三个核心设计:智能工具调度与绑定、感知与计算的无缝衔接、以及检索增强的可靠计算[20] 性能表现与实验结果 - 在MMSI-Bench、MindCube-tiny、OmniSpatial等多个主流空间推理基准上,GCA构建了全新的空间智能性能标杆[14] - GCA取得了65.1%的平均准确率,显著超越了现有基于训练的方法与工具集成的方法[15] - 在极具挑战性的多图空间推理基准MMSI-Bench中,基于Qwen3-VL-Thinking构建的GCA准确率从32.6%跃升至47.6%,性能提升近50%[4][15] - 基于Gemini-2.5-Pro构建的GCA表现尤为惊艳,其在MMSI-Bench上的准确率从36.9%飞跃至55.0%[16] - GCA是一种无需训练的通用推理范式,实验显示,在搭载GCA架构后,受测模型在MMSI-Bench上的性能平均实现了约37%的相对提升[16] 方法有效性与前瞻性 - 对比实验表明,若仅为视觉语言模型提供工具而不施加形式化约束,其性能提升微乎其微,证明了“先约束”范式的重要性[24] - 得益于GCA架构的模块化设计,研究团队能够对推理链路进行精确的错误归因,分析显示视觉语言模型在“任务形式化”阶段的准确率已高达约70%[24] - 当前主要错误来源于下游感知工具,这表明GCA的推理逻辑是稳健的,其性能将随着感知模型的进步而持续提升[24]
前字节AI负责人潘欣加入美团负责多模态创新
36氪· 2025-12-10 15:11
公司核心人事变动 - 前字节跳动视觉大模型AI平台负责人潘欣近期已加入美团 [1] - 潘欣在谷歌大脑、百度、腾讯、字节跳动及闪极科技等公司拥有丰富的AI技术研发与平台构建经验 [1] - 入职美团后,潘欣负责多模态AI创新工作,并主导了LongCat App等多个相关应用的开发 [1] 公司AI战略与进展 - 2025年美团的关键词是外卖大战与AI [1] - 公司创始人王兴表示,美团在AI技术上的战略定位是积极进攻而非消极防御 [1] - 在2025年一季度电话会上,王兴首次披露了公司AI大模型LongCat(龙猫)的相关进展 [1]
OPPO Reno15系列发布:实况拼图功能行业首发,2999元起
凤凰网· 2025-11-18 11:20
产品发布与定价 - 公司于11月17日发布Reno15系列智能手机,包含Reno15和Reno15 Pro两款机型,起售价分别为2999元和3699元,将于11月21日全渠道开售 [1] - Reno15 Pro 12GB+256GB版本定价3699元,最高配16GB+1TB版本4799元;Reno15 12GB+256GB版本2999元,最高配16GB+1TB版本3999元 [2] - 官方透露入门款Reno15c将于下月发布 [2] 产品核心配置与性能 - 产品主打影像和实况功能,搭载由2亿像素主摄、5000万像素潜望长焦、5000万像素超广角及前置5000万像素超广角组成的四摄系统 [1] - Reno15 Pro搭载天玑8450芯片,支持超级HDR和120帧增强技术,配备1080P游戏实况和30秒回录功能 [2] - 内置大容量电池支持6小时直播,并提供80W快充和旁路供电设计 [2] 设计与工艺 - 系列首次采用全息光刻工艺,在机身背部呈现立体蝴蝶结纹理 [1] - 除“星光蝴蝶结”配色外,Reno15 Pro还提供蜜糖金、可露丽棕选项,Reno15则增加极光蓝配色 [1] - 机身支持IP66/IP68/IP69防水等级,Reno15 Pro配备1.15mm窄边框直屏 [1] 核心功能与软件 - “出圈实况拼图”是核心卖点,基于公司自研视觉大模型,用户可选择2-9张实况照片进行组合,系统自动分离主体并支持4K输出 [1] - 针对直播场景,配置前后防抖系统、三麦克风阵列降噪、AI直播高光切片等功能 [2] - 系列预装ColorOS 16,新增动态景深壁纸、AI实况壁纸、AI实景对话等功能,并实现与苹果设备的跨生态互联 [2]
字节Seed架构再调整 朱文佳转向吴永辉汇报
犀牛财经· 2025-10-21 10:22
管理层人事变动 - 字节大模型团队Seed负责人朱文佳的汇报对象由CEO梁汝波变更为现任Seed负责人吴永辉 [2] - 今年初字节从谷歌DeepMind挖来研究副总裁吴永辉担任大模型团队Seed基础研究负责人 [2] - 多名原向朱文佳汇报的算法和技术负责人转向吴永辉汇报 朱文佳一度转向负责模型应用 [2] 团队架构调整 - 字节Seed团队发生多次调整 大语言模型负责人乔木因出轨HRBP被辞退 [2] - 视觉大模型负责人杨建朝官宣休息 AiLab主任李航退休后又返聘 [2] - 字节Flow部门进行一轮组织架构重大调整 赵祺转岗至Spring产品部门 直接向朱俊Alex汇报 [2] - 豆包原有的PC和Mobile负责人改为向赵祺汇报 策略产品线的Thomas和陆游同样纳入其管理半径 [2]
马斯克:Grok将推出AI视频检测工具;加速进化发布可自主做家务机器人丨AIGC日报
创业邦· 2025-10-14 08:08
视觉与机器人模型技术进展 - 国内首个基于纯国产算力预训练的移动端视觉基座大模型“橘洲”发布V1.5端侧版,性能更强并实现从IOS到安卓生态的跨越 [2] - “橘洲”V1.0版本能在没有网络的情况下于IOS系统手机上实现1024×1024分辨率图像的秒级生成,具有成本低、质量高、速度快、轻量级、可离线特点 [2] - 新版本“橘洲”在参数量降低到1/50、训练速度提升5倍、生成速度提升7倍的基础上,经行业数据训练后即可成为垂类大模型 [2] - 加速进化推出升级款机器人Booster T1,其结合千诀类脑大模型开发,可以听懂模糊语言指令并全自主做家务 [2] AI工具应用与功能创新 - Perplexity联合创始人兼CEO宣称已告别PPT,仅通过AI工具完成投资者路演,其A轮融资后仅写备忘录并让投资者直接提问 [3] - 马斯克称Grok将推出AI视频检测工具,具备识别AI生成视频并追踪其网络来源的能力,以应对深度伪造内容 [3] - Grok的升级功能可直接在视频比特流中分析AI生成特征,识别出压缩或生成过程中留下的细微痕迹 [3]
冰箱市场销售量额双增
经济日报· 2025-06-06 06:04
市场表现 - 一季度国内冰箱市场零售量996万台同比增长2.7% 零售额320多亿元同比增长3.8% [1] - 线上6000-8000元价格段冰箱零售额增长37.4% 8000-10000元价格段增长89.6% [1] - 线下8000-10000元价格段冰箱零售额增长16% 10000-15000元价格段增长21% [1] 政策与需求驱动 - 中央财政补贴政策对品质消费形成精准拉动 推动行业均价稳步提升 [1] - 消费品以旧换新政策实施带来广阔市场空间 换新消费占全年零售量80%-90% [2] - 消费者需求呈现多元化精细化趋势 从简单存储转向更复杂功能 [2] 产品与技术趋势 - 企业深耕保鲜科技 AI食材管理 嵌入式设计等创新技术赛道 [1] - 海尔推出首款接入DeepSeek的AI全空间保鲜冰箱 可生成个性化保鲜方案 [2] - 智能冰箱技术方向包括视觉大模型 食材自动识别 数据融合与场景创新 [3] - 未来3-5年智能交互 智能保鲜 AI多模态识别 算法大模型等将成技术深耕方向 [3] 市场结构变化 - 大容积冰箱是确定性发展趋势 同时300-400升小冰箱也有潜在发展机会 [2] - 小冰箱市场需要配备与高端产品相同的技术功能 实现"小而美"发展 [2] - 中高端市场对行业增长形成显著拉动作用 [1] 企业战略 - 部分企业现阶段以规模增长为核心目标 通过高性价比策略扩大市场份额 [3] - 行业需将创新根植于用户真实需求 在存量市场中开辟新增量 [4] - 企业需持续进行差异化创新 满足市场升级需求 [2]