Workflow
视觉
icon
搜索文档
天准科技(688003)每日收评(07-04)
和讯财经· 2025-07-04 16:40
天准科技688003 时间: 2025年7月4日星期五 42.27分综合得分 偏弱 趋势方向 主力成本分析 43.60 5日主力成本 45.73 元 20日主力成本 元 当日主力成本 44.88 元 47.15 元 60日主力成本 周期内涨跌停 过去一年内该股 涨停 1次 次 北向资金数据 持股量31.83万股 占流通比0.16% 昨日净买入0.17万股 昨日增仓比0.001% 5日增仓比0.02% 20日增仓比-0.033% 跌停 0 技术面分析 45.90 短期压力位 44.44 短期支撑位 47.80 中期压力位 43.62 中期支撑位 股价跌破短期支撑位,短线观望为宜; 股价跌破中期支撑位,中期主力资金做多意愿不强,以观望为 宜 K线形态 ★平顶★ 温和的反转 资金流数据 2025年07月04日的资金流向数据方面 主力资金净流出1009.56万元 占总成交额-8% 超大单净流出881.71万元 大单净流出127.86万元 散户资金净流入85.95万 关联行业/概念板块 通用设备 -1.46%、机器视觉 -1.03%、边缘计算 -0.61%、人工智能 -0.48%等 财务数据 最近的财报数据显示,该股于 ...
清华&小米团队发布VLA模型综述
理想TOP2· 2025-07-04 10:54
以下文章来源于具身进化 ,作者一起学习 具身进化 . 智启形随,进化无界。 一、 自动驾驶的技术范式演进 自动驾驶技术正从简单的感知-控制,向更高级的认知智能演进,最新的自动驾驶模型可以分为三大范式: ●端到端自动驾驶 (End-to-End AD): 将传感器输入直接映射到驾驶动作。此模式高效但缺乏可解释性,难以处理需要高级推理的"长尾"场景。 ●用于自动驾驶的视觉语言模型 (VLMs for AD): 引入视觉语言模型来理解和解释复杂的交通场景,显著提升了系统的可解释性。但其输出的 语言与车辆的实际控制脱节,存在"行动鸿沟"。 ●用于自动驾驶的视觉-语言-行动模型 (VLA for AD): 当前最新的范式。它在一个统一模型中整合视觉感知、语言理解和动作执行,实现了感 知、推理和行动的闭环。车辆遵循自然语言指令直接输出动作或者轨迹。 二、 VLA自动驾驶模型的核心架构 一个典型的VLA模型由输入、处理、输出三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制。 1.多模态输入 (Inputs): ○视觉与传感器数据:视觉是系统的核心输入,技术已从早期的单前视摄像头发展到如今的多摄像头环视系统。为 ...
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab
量子位· 2025-07-04 09:42
核心观点 - 多模态智能面临视觉Token激增导致的算力瓶颈,腾讯AI Lab与CMU提出的VScan通过两阶段剪枝机制实现2.91倍推理加速,几乎不损性能[1][2] - VScan兼容主流视觉语言模型(如LLaVA/Qwen2.5-VL),覆盖图像问答/视频理解等16项任务,最高压缩88.9%视觉Token时性能仅降3.3%[4][31][32] - 该方法突破现有文本无关/文本相关剪枝方法的局限,首次实现跨视觉编码与语言解码阶段的协同优化[8][9][24] 技术背景 - 现有LVLM处理高分辨率图像时视觉Token达2,880-16,384个,自注意力计算复杂度呈平方增长导致显存与计算负担指数级上升[2][3] - 传统剪枝方法分两类:文本无关方法依赖视觉自注意力权重(如VisionZip),文本相关方法基于Token-查询相关性(如SparseVLM),但均缺乏跨阶段分析[8] - 早期剪枝存在位置偏置问题,中间层(第16-20层)才是多模态交互的黄金剪枝时机[18][21][22] 解决方案 - **第一阶段**:视觉编码阶段结合全局扫描(提取语义核心Token)与局部扫描(保留细节Token),通过相似性引导融合被剪Token信息[26][30] - **第二阶段**:语言解码阶段在中间层按注意力强度筛选文本相关Token,避免过早剪枝导致信息损失[27] - 支持FlashAttention与KV Cache压缩,LLaVA-NeXT-7B预填阶段加速达2.91倍,显存占用显著降低[36] 性能验证 - 在LLaVA-1.5-7B上,保留192/128/64个Token(原576个)时平均准确率仅降1.0%/1.2%/3.3%,显著优于VisionZip等基线[31][32] - Qwen2.5-VL-7B处理视觉定位任务时,75%剪枝率下VScan性能保持80.7%,而FastV/PyramidDrop性能腰斩[33][34] - 覆盖3B-32B不同规模模型,在GQA/MMBench等16个数据集上实现零损剪枝至88.9%压缩率[28][29][38] 行业影响 - 为多模态落地提供轻量级解决方案,尤其适合实时工业应用与边缘设备部署[5][38] - 开源方案降低工程门槛,推动社区优化视觉Token效率范式[6][39]
开辟人形机器人赛道要警惕“虚火”
中国汽车报网· 2025-07-04 09:21
人形机器人行业热度 - 人形机器人成为2025上海车展焦点 几乎每个展台都有展示 但部分企业租用仅为噱头 [2][3] - 全国1年内新增23万家机器人相关企业 同比增长22.7% [4] - 中国工业机器人5月产量同比飙升35.5%至69056台 服务机器人增长13.8%至120万台 [4] - 中国拥有74.17万家机器人相关公司 包括优必选科技 宇树科技 智元机器人等领跑者 [4] 市场规模预测 - 中国机器人市场预计以23%年增幅增长 从2024年470亿美元增至2028年1080亿美元 [5] - 人形机器人市场预计年增63% 从今年3亿美元增至2030年34亿美元 [5] - 2030年中国预计拥有25.2万台人形机器人 2050年达3.02亿台占全球30% [5] 技术应用与瓶颈 - 人工智能 机器视觉 语音识别技术进步推动人形机器人执行复杂任务和自然互动 [5] - 应用领域涵盖医疗 教育 零售 制造 娱乐 服务等 [5] - 目前面临耗电快 腿部协调性差两大短板 [9] - 需突破数据 算力 软硬件协同等多道关卡 芯片和能源是关键问题 [9] 产业链布局 - 汽车产业链企业争相布局 从仿生关节到精密减速器等核心部件 [6] - 万里扬研发谐波减速器3年 目标国产化替代 [10] - 方正电机已申请33件人形机器人关节专利 获批2件 [11] 行业挑战与思考 - 当前人形机器人技术水平距离商业化落地仍有距离 [8] - 行业存在过热现象 类似当年新能源汽车造车热 [7] - 需警惕无序发展 建议在政策指导下集合政产学研优势 [11] - 工信部目标2025年关键技术突破 2027年形成安全可靠产业链 [10][12]
中美AI差距有多大,AI竞争焦点在哪?《全球人工智能科研态势报告》全球首发
钛媒体APP· 2025-07-03 18:36
全球AI科研态势 - 报告基于2015-2024年96961篇AI领域文献分析,由联合国工业发展组织与东壁科技数据联合发布,采用东壁指数评价体系 [2] - 全球AI科研演进分为四个阶段:初始起步期(2015-2016年论文量4421→3628篇)、快速发展期(2017-2019年突破万篇)、成熟高峰期(2020-2023年达17074篇)、波动调整期(2024年回落至14786篇) [5][6] - 技术路径从传统机器学习(2015-2017)→深度学习/计算机视觉(2018-2020)→大语言模型/生成式AI(2021-2023)→可解释性AI/多智能体系统(2024-) [6] 中美AI人才对比 - 全球AI人才57.7%集中在中美两国,美国6.3万人领先,中国5.2万人以28.7%年复合增速追赶 [7][8] - 美国形成"人才旋转门"机制(高校企业流动率37%),中国互通率不足15% [10] - 华人学者在美表现突出:全球百人榜中20位在美学者里华人占10位,女性榜11位在美学者含3位华人女性 [3] 机构与企业表现 - 顶尖机构榜:中国占38席(中科院2386人才/4639篇论文),美国35席(总论文35117篇/被引228万次) [7] - 美国企业学术产出优势显著:谷歌(2895篇)+微软(1582篇)+Meta(1419篇)总量是中国TOP3企业(腾讯1354+阿里1034+华为885)的1.8倍 [9][10] - 中国企业应用导向突出:计算机视觉论文比美国高40.8%,知识图谱高50.1%,在自动驾驶/移动支付等场景落地强劲 [11] 技术发展趋势 - 深度学习关键词频率十年增长84倍,2018-2023年均增速217%,2024年进入平台期(增速30%) [14] - 计算机视觉形成"目标检测(78%热词)-语义分割-视觉应用"闭环,语义理解类关键词2022年后年均增45% [14] - Transformers技术2022年后崛起,工程化关键词如特征提取/优化持续升温 [15] 区域与性别特征 - 亚太创新中心崛起:北京/上海/深圳/新加坡/首尔进入全球20大人才聚集区,微软在华部署714人占其全球AI人才29% [13] - 中国AI女性人才占比仅9.3%(美国20.1%),头部企业女性占比6.1%远低于谷歌/微软的18.7% [12][13]
智谱再获10亿融资,推出会看“苏超”的开源新模型
观察者网· 2025-07-03 18:30
核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking,突破多模态推理能力,并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资,联合上海国资打造"算电模"一体化基础设施,建设万卡集群 [3][5] - 大模型商业化加速,API调用量同比增长30倍,价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入,引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型,18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力,可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o,接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资,最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施,利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业,25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍,消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%,推动应用普及 [14] - 推出Agent聚合平台"应用空间",启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务,重点突破算力、语料、基础模型 [6] - AI向自主智能体演进,可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]
瑞松科技(688090)每日收评(07-03)
和讯财经· 2025-07-03 17:10
主力成本分析 - 当日主力成本为33.53元 [1] - 5日主力成本为31.53元 [1] - 20日主力成本为31.25元 [1] - 60日主力成本为31.25元 [1] 周期内涨跌停 - 过去一年内涨停2次 [1] - 过去一年内跌停1次 [1] 技术面分析 - 短期压力位为34.39元 [1][2] - 短期支撑位为32.85元 [1] - 中期压力位为34.39元 [2] - 中期支撑位为29.81元 [2] - 目前短线趋势不明朗,静待主力资金选择方向 [2] - 目前中期趋势不明朗,静待主力资金选择方向 [2] - K线形态为★多方炮★,底部出现有上涨可能,中间出现可能是上涨中继,顶部出现是复合见顶信号 [2] 资金流数据 - 2025年07月03日主力资金净流入246.93万元,占总成交额6% [2] - 超大单净流出24.00万元 [2] - 大单净流入270.93万元 [2] - 散户资金净流出55.73万元 [2] 关联行业/概念板块 - 专用设备板块上涨0.57% [2] - 机器视觉板块上涨0.41% [2] - 新能源车板块上涨0.80% [2] - 机器人概念板块上涨0.69% [2]
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了
机器之心· 2025-07-03 16:01
核心观点 - 阿里巴巴达摩院提出WorldVLA模型,首次将世界模型和动作模型融合到一个全自回归模型中,实现文本、图片、动作的统一理解和生成 [1][5] - WorldVLA通过双向增强机制,既提升动作生成的准确性,也增强图像预测的质量 [7] - 在LIBERO基准测试中,WorldVLA抓取成功率提升4%,视频生成质量FVD指标降低10% [8] 模型架构 - 使用三个独立编码器分别处理图像、文本和动作数据,不同模态token共享相同词表 [5] - 世界模型部分通过输入动作生成视觉表示,学习环境物理动态规律 [7] - 动作模型部分增强对视觉信息的理解,提升世界模型的图像生成准确性 [7] 技术创新 - 提出动作注意力掩码策略,解决自回归模型中动作生成误差累积问题 [7] - 该策略在动作分块生成任务中使抓取成功率提升4%到23% [8] - 在未预训练情况下,WorldVLA超越需要预训练的全自回归模型OpenVLA [17] 实验结果 - 在LIBERO基准测试中,256*256版本平均成功率79.1%,512*512版本提升至81.8% [18] - 消融实验显示加入世界模型可使动作模型平均成功率从62.8%提升至67.2% [19] - 采用注意力掩码策略后,动作模型平均成功率从54.0%大幅提升至76.6% [19] 应用展示 - 可根据指令完成对应动作 [20] - 能够根据当前帧图片和动作生成下一帧图片 [24]
飞利浦研发团队创业,3D 空间视觉解决方案服务商「智聚芯联」获数千万元 Pre-A 轮融资 | 36氪首发
36氪· 2025-07-03 14:42
公司融资与背景 - 公司近日完成数千万元 Pre-A 轮融资,由稳致资本领投,资金将用于研发投入及产线采购,推动裸眼 3D 显示技术产业化 [1] - 公司成立于 2021 年 5 月,专注于三维空间现实显示技术,提供从光路设计到 3D 空间视觉算法的全栈解决方案 [1] - 公司已陆续完成 3 轮股权融资,2023 年底推出第一代原型机 [1] - 公司现有团队 30 余人,研发团队占比 80%,核心成员曾在荷兰飞利浦研发中心参与全球最早的裸眼 3D TV 开发 [4] 技术与产品 - 公司产品适配 LCD、OLED、MiniLED 等多种显示屏幕,技术应用于广告、娱乐、医疗、美容和智能家居等行业 [1] - 公司自主研发的光学模组采用纳米压印技术,具有加工精度高、成本低、适配性强等特点 [2] - 公司独立研发「2D - TO - 3D」算法大模型和渲染引擎,支持环拍相机阵列一秒采集人体 3D 信息,并构建真实 3D 数字人 [2] - 公司裸眼 3D 显示终端支持 60 度角 DOE 多人多视角同时观看,无需辅助设备,用户可自由调节 3D 效果强度 [3] 行业前景与挑战 - 全球裸眼 3D 显示器市场规模预计 2030 年达 185.6 亿美元,年复合增长率 30.3% [1] - 裸眼 3D 显示行业面临硬件成本高、分辨率低、内容创作成本高等挑战 [2] - 公司提出全栈解决方案,旨在解决裸眼 3D 产品落地最后一公里问题,成本控制可让用户以极低价格体验技术 [2] 市场应用与合作 - 公司产品可应用于家庭数字影院、社区型数字影院,未来家庭电视或进化为集 3D 游戏、互动娱乐于一体的娱乐中心 [3] - 公司已与 3D 医疗辅助、大屏布展、游戏互动、沉浸式旅游等领域客户建立合作 [3] - 2023 年 5 月公司在荷兰设立欧洲研发中心,与飞利浦、ASML、恩智浦等国际企业及高校合作 [3] - 公司是世界超高清视频产业联盟(UWA)会员单位 [3] 未来发展目标 - 公司 2024 年营收目标为 5000 万元,下一步将集中新型显示技术与屏体产品结合,创造更多 3D 显示产品 [4] 投资方观点 - 稳致资本认为公司是国内少数具备 3D 空间显示全产业链集成能力的企业,核心团队来自裸眼 3D 研发发源地荷兰飞利浦 [6] - 投资方看好公司 3D 显示效果和低成本产业落地能力,预期其在全球市场的爆发性增长 [6]
消费电子行业温和复苏前景广阔,泉果基金调研凌云光
新浪财经· 2025-07-03 13:59
泉果基金调研凌云光核心要点 基金概况 - 泉果基金成立于2022年2月8日 管理资产规模170 90亿元 旗下7个基金产品 6位基金经理 [1] - 表现最佳基金为泉果旭源三年持有期混合A 近一年收益18 93% [1] - 非货币基金近一年回报前8名中 混合型基金收益区间10 16%-18 93% 债券型基金收益区间2 91%-3 12% [1] 公司治理 - 实控人姚毅及杨艺持有2 24亿股将于2025年7月7日解禁 承诺未来12个月内不减持 [1] 并购整合 - 已完成收购JAI 双方在技术 产品 市场 供应链 生产等方面具有协同性 [1] - JAI主营机器视觉上游器件相机 覆盖欧美日韩市场 与凌云光中国及东南亚业务形成互补 [1] - 正推进产品 市场深度融合 强化"视觉+AI"战略在国际市场的扩展应用 [1] 消费电子业务 - 行业呈现温和复苏态势 AI技术加速产品迭代 折叠屏 VR眼镜等创新产品逐步成熟 [1] - 增长驱动来自可配置视觉系统国产化替代加速 2024年及2025Q1相关业务收入同比显著提升 [1] - 智能装备突破精密控制难题 实现毫米级至微米级高精度协同操作 [1] 技术研发布局 - 算法能力提升 新场景下模型精度达90%-99% 支持无缺陷样本建模 [1] - 在消费电子 新能源 半导体领域进行下一代产品预研 如与富士康合作研发固态电池 [1] - 深化"视觉+AI+大数据"工业应用 提供工业大数据质量管理SaaS平台 [1] 具身智能解决方案 - FZMotion运动捕捉系统已应用于人形机器人场景 [1] - 支持机械臂 灵巧手等数据采集效率比传统技术提升数倍 [1][2] - 开发人形机器人运动分析与测评系统 保障出厂质量一致性 [2]