Workflow
多模态大模型
icon
搜索文档
A股计算机视觉第一股格灵深瞳业绩持续承压,前三季亏损过亿
南方都市报· 2025-10-30 20:08
10月28日,科创板"AI计算机视觉第一股"格灵深瞳(688207.SH)发布的第三季度财报显示,当季归属 母公司股东的净亏损为4748.79万元,扣除非经常性损益后归母净亏损为5107.75万元。 以归母净利润计算,今年前三季度格灵深瞳共亏损1.27亿元,较2024年同期的1.38亿元亏损仅略有收 窄,显示出公司盈利能力持续承压。 收入方面,格灵深瞳2025年第三季度营业收入5175.61万元,同比增长453.28%。增幅看似强劲,但如果 拉长时间线看,该季度营收并不算抢眼——2021年至2023年的第三季度营收均在7000万元左右,而2024 年同期暴跌至935.45万元。 2021年以来格灵深瞳每个季度的营收变化。 另外值得注意的是,格灵深瞳的研发人员规模也显著缩减。2025年上半年,格灵深瞳的研发人员从2024 年同期的318人减少至227人。研发人员平均薪酬也从18.97万元降至17.89万元。 格灵深瞳提醒,如果公司不能持续加强对原有关键技术人才的激励和保护力度,或者不能持续引进新人 才应对内部研发需要,或者在人才市场的竞争中在发展前景、薪酬、福利、工作环境、激励制度等方面 无法保持持续吸引力,则 ...
2023年中国AI医疗器械行业调研简报:Q1:全球监管政策有哪些关键突破?对行业有何影响?-20251029
头豹研究院· 2025-10-29 20:03
行业投资评级 - 报告未明确给出行业投资评级 [1] 核心观点 - 全球AI医疗器械监管在2025年呈现趋严但路径明晰的突破性进展,形成“严监管+促创新”的平衡模式,倒逼企业构建全周期质控体系 [4] - 中国AI医疗器械行业正从“算法突破”阶段快速过渡到“场景深耕与合规运营”阶段,获批产品遵循“小切口、可验证、强合规”策略 [12][13] - 2025年AI医疗器械投资生态正从快速扩张转向精耕细作,资本更注重项目的成熟度和实际效益,市场进入高质量发展阶段 [18][19] - AI医疗器械技术正从辅助工具向核心诊疗手段演进,多模态大模型底座构建、生成式AI全链条渗透和人机协同范式升级成为突破性进展 [24][25] 全球监管政策关键突破 - 欧盟于2025年7月批准首款基于大型语言模型的临床决策系统获得CE认证(IIb类),为生成式AI医疗器械设立全新标杆,要求建立全程数据可追溯体系等 [4][7] - 中国国家药监局发布新举措,明确简化AI算法优化产品的变更注册流程,将AI影像产品平均审批时间从24个月压缩至14个月,缩短40% [4][7] - 美国FDA通过《预设变更控制计划》构建动态监管框架,允许AI模型在保障安全前提下持续迭代 [4][7] - 监管路径明晰化促使全球Top20医疗器械企业全部建立AI模型风险评估部门,合规成本占研发总投入比例从2023年的18%上升至27% [4] 2025年中国AI医疗器械获批产品特征 - 截至2025年5月末,国家药监局共批准11款AI医疗器械取得三类证,覆盖影像、手术规划及辅助诊断三大场景 [12] - 获批产品呈现“细分病种、影像主导、临床强提示”的集中特征,适应症高度聚焦于冠脉钙化、头颈血管、肺栓塞等九大解剖部位 [12] - 企业类型呈现“北京-长三角-珠三角”三极分布,区域创新集群效应明显 [12] - 技术路径以深度学习+规则后处理为主,产品形态全部为独立软件,强调与指定型号影像设备的适配性 [12] 2025年AI医疗器械投资趋势 - 投资热度维持相对活跃,但整体节奏较此前略有放缓,资本关注点从概念验证转向对实际应用场景的深度挖掘 [18] - 单笔投资规模呈现上升趋势,反映出资本更注重企业的核心竞争力和可持续发展能力 [18] - 医疗影像分析、智能手术辅助以及个性化健康管理等与临床需求紧密结合的技术方向成为资本布局重点 [18] 2025年AI医疗器械突破性技术进展 - 多模态大模型底座加速构建,形成“基础大模型-领域专用模型-临床微调模型”的三级架构,支持跨模态数据深度融合 [22][24] - 生成式AI全链条渗透至预防、诊断、治疗、康复全流程,AI系统可实时生成个性化诊疗路径建议 [22][24] - 人机协同范式升级,AI承担医疗机构50%以上的标准化工作,并通过“虚拟标准化病人”系统提升住院医师培训效率 [22][25]
海康威视(002415.SZ):中心存储产品,是公司存储业务核心产品之一
格隆汇· 2025-10-28 15:33
格隆汇10月28日丨海康威视(002415.SZ)在互动平台表示,中心存储产品,是公司存储业务核心产品之 一。公司将自然语言与视频图像多模态大模型引入中心级高性能存储,推出文搜CVR存储产品,存储 数据的同时,实现海量视图数据的多模态大模型建模,让数据变得可理解,可用自然语言进行相关目标 和事件的检索,大幅提升在海量录像中查找目标的效率。 ...
自动驾驶春秋的终点
自动驾驶之心· 2025-10-28 08:03
行业竞争格局演变 - 自动驾驶行业正从类似“春秋”的争霸阶段转向类似“战国”的生死存亡阶段,竞争目标从迫使对方承认转变为彻底的兼并和统一 [2] - 竞争已不再是梯队间的排位赛,而是一场生死之战,输家将失去持续研发的资格与资源,最终只有头部玩家能够存活壮大 [3] - 第二梯队及之后的参与者难逃被整合或淘汰的命运 [3] 技术路线分化 - 随着主流厂商掌握BEV、Occ等基础感知能力,行业为寻求突围而探索差异化技术路线,导致技术路径呈现显著分化 [4] - 在传感器选择上,部分团队放弃LiDAR转向纯视觉方案;在地图使用上,分化出众包地图方案和强感知的无图方向 [4] - 规控层面出现时空联合规划算法取代传统分离式算法,并探索端到端设计及“两段式端到端”过渡方案 [4] - 多模态大模型、可微分渲染、强化学习等新技术被寄望于破解长尾场景难题和带来数据生成新可能 [4] 技术成熟度与市场现状 - 尽管新技术名词层出不穷,但实际成熟度尚待打磨,用户体验提升进入平缓期,系统仍受限于大量规则代码与兜底策略 [5] - 高阶智驾功能随供应商方案成熟开始下放至更多入门车型,技术光环褪去,行业竞争回归以价格战为核心的贴身肉搏 [6] - 供应商方案仅需少量对接人员即可提供一线智驾能力,对自研能力未达第一梯队的车企而言,切换供应商是降本甚至提升产品力之举 [6] 数据驱动与行业瓶颈 - 自动驾驶技术陷入平台期的核心原因在于数据驱动的新方案未完全成熟,系统仍严重依赖规则算法,而规则系统的性能天花板已被探明 [7] - Tesla FSD V14的技术分享表明,大量丰富的真实世界数据仍是提升自动驾驶AI水平最关键的要素,仿真数据在细节真实性和丰富多样性上均不及真实数据 [7] - 行业突破瓶颈的关键在于减轻对规则算法的依赖,转向数据驱动范式,否则无法将自动驾驶体验再提高一个台阶 [9]
AI挑战赛聚焦具身智能应用落地
人民网· 2025-10-27 17:47
行业战略定位与发展方向 - 具身智能机器人是人工智能与高端制造深度融合的战略性前沿领域,正在实现从虚拟算法向实体智能的革命性跨越 [1] - 加快应用落地和产业融合的路径包括加强底层建设共建产业生态、促进应用场景开放赋能数据供给、深化产学研融合筑牢人才根基 [1] - 行业专注于与物理环境相互作用的智能体,强调感觉运动耦合和情境智能 [2] 核心技术融合与创新趋势 - 具身智能本体正融合新材料、感控一体、变体结构、多自主体协同合作等交叉技术以应对复杂物理环境的挑战 [2] - 多模态大模型与具身智能机器人的融合将赋予多智能体多模态自感知、自认知、自决策、自执行和自学习能力,实现思考、感知、行动三者有机智能融合 [2] - 未来重要科学方向是将机理模型与大数据学习的新方法结合 [2] 行业应用前景与现存挑战 - 技术将对未来智能机器人、工业具身智能、智能医疗等领域产生强大赋能作用 [2] - 替代物理世界体力工作仍需克服未知非结构化环境的物理建模、灵巧操作、多模态自然交互及高质量多模态数据生成等挑战 [2] 产业生态与创新活力 - 专项赛共吸引全国重点高校、科研机构和科技企业的74支队伍参赛,最终决出24支优胜团队 [3] - 大赛采用产业命题与开放场景竞赛模式,赛题涵盖仿生灵巧手精密操作、具身智能垂直领域大模型任务规划、国产化机器人AI芯片等前沿方向 [3]
相机参数秒变图片!新模型打通理解生成壁垒,支持任意视角图像创作
量子位· 2025-10-27 11:31
核心技术突破 - 提出Puffin统一多模态模型,首次在统一框架下融合以相机为中心的理解与生成任务,解决了此前两类任务被独立研究、模型受限于固定视角的问题[1][2][11][12] - 模型具备“与相机共思”能力,通过将抽象相机参数转化为专业摄影术语和分析空间线索,弥合了视觉-语言-相机模态间的鸿沟,支持空间想象和灵活的跨视角应用[4][18][20][44] - 在生成任务网络设计中引入像素级相机透视场作为连续潜在变量,并结合共享的思维链机制,实现了对图像生成更精细的空间控制和更合理的空间结构生成[16][27][28] 模型架构创新 - 引入几何对齐的视觉编码器,通过语义教师网络与视觉教师网络的双重蒸馏获得,兼具几何保真度和强语义理解能力,克服了现有多模态大模型视觉编码器缺乏几何保真度的局限性[14] - 采用渐进式解冻与联合微调的分阶段优化策略,使模型在底/中层结构线索与高层语言推理之间建立紧密联系[14][15] - 设计连接模块,通过可学习的queries将文本描述和相机参数对应的LLM隐式状态映射为扩散模型可理解的条件信号[15] 数据集与基准建设 - 构建Puffin-4M大规模高质量数据集,包含约400万张图片-语言-相机三元组,弥补了多模态空间智能领域同时覆盖视觉、语言与相机模态的数据集稀缺的空白[29][30] - 数据集构建流程涵盖360°全景数据收集与预处理、2D透视图像渲染生成、场景描述与空间推理打标以及跨视角场景扩展四个阶段[32][33] - 开源Puffin-Gen和Puffin-Und两个评测基准数据集,分别为相机可控生成和相机理解提供更具挑战性和综合性的验证标准[34] 性能表现 - 在相机理解任务中,Puffin模型在Roll、Pitch、FoV等参数估计上全面超越现有方法,例如在Roll参数估计上达到0.32度误差和84.9%/93.4%/96.2%的1/5/10度AUC精度[36] - 与GPT-4o、Qwen-Image、Nano Banana等主流多模态模型相比,Puffin在Up Vector、Latitude、Gravity等几何参数估计上误差显著更低,例如Up Vector平均误差为11.94度,远低于GPT-4o的24.11度[38] - 模型在AIGC图像和真实世界摄影图像等多种场景中均表现出良好的鲁棒性和合理的空间生成能力[39][41] 应用前景 - 模型能够通过精确预测相机参数,在自然场景图像中辅助虚拟三维物体的插入,并可通过指令微调灵活扩展至空间想象、世界探索和摄影指导等跨视角任务[43][44] - 在世界探索任务中,对初始视角与生成视角进行三维重建可视化显示,生成结果在空间结构上保持了良好的一致性[44] - 未来计划进一步提升跨视角能力,并扩展至以相机为中心的视频生成与理解,促进在动态与沉浸式场景中的更广泛应用[45]
自动驾驶之心合伙人招募!
自动驾驶之心· 2025-10-25 00:03
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司关注的前沿技术方向包括大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向涵盖具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等关键技术 [3] 人才招聘要求 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有研究成果的候选人 [4] 合伙人待遇与激励 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
硬AI· 2025-10-24 20:40
文章核心观点 - AI推理需求呈指数级增长,推动云服务厂商资本开支持续扩张,技术效率提升反而可能加速资本开支向收入的转化 [2][3][6] - 中国互联网巨头在AI领域的战略路径分化,阿里巴巴聚焦企业级AI云市场,字节跳动发力消费级应用 [2][3][8] - 当前中国主要科技股估值相较于全球同行仍有折价空间,市场尚未进入AI泡沫 [4][10] AI推理需求与资本开支 - 高盛预计阿里巴巴2026至2028财年合计资本开支将达4600亿元人民币,远高于其此前3800亿元的目标 [2][3] - AI推理需求激增是支撑资本开支判断的核心逻辑,阿里巴巴AI推理需求每2-3个月翻一番 [2][6] - 字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番,已接近谷歌的43万亿水平 [6] - 高盛预测中国云服务提供商在2025年第三季度资本开支将同比增长50% [6] - 技术效率提升(如阿里云Aegaeon系统节省82% GPU资源,DeepSeek模型减少90% token消耗)并不意味着资本开支缩减,反而有助于投资更有效转化为收入 [6] 巨头AI战略路径分化 - 阿里巴巴凭借全栈AI能力押注企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [2][3][8] - 字节跳动凭借聊天机器人"豆包"在消费级市场和日均token消耗量上占据最大份额,侧重于探索面向消费者的AI应用 [2][3][8] - 阿里巴巴正式推出夸克AI聊天机器人助手服务,利用闭源通义千问模型与字节跳动"豆包"和腾讯"元宝"竞争 [8] - 字节跳动加速"豆包"商业化,在聊天中无缝接入抖音电商服务,并加入AI键盘等新功能 [8] 多模态进展与商业化 - 中国多模态大模型凭借开源、低价和高速度策略形成差异化优势,例如腾讯"混元图像3.0"在文生图模型排行榜名列前茅 [10] - 阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [10] - 中国开源AI模型获全球市场认可,例如爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [10] - 中国To-C聊天机器人商业化路径仍在演进,最终可能更多地由广告收入驱动 [10] 行业估值水平 - 腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,相较于谷歌的24倍以及亚马逊和微软的28-30倍,仍处于"不苛刻"水平 [4][10] - 高盛认为市场尚未进入AI泡沫,腾讯和阿里巴巴估值相较于其盈利增长前景及全球同行仍有折价空间 [4][10]
有的同学还没入门具身,有的已经CCF-A!?
具身智能之心· 2025-10-24 18:00
CCF-A到CCF-C SCI一区到四区 EI/中文核心/毕业论文/申博等 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深 导师团队在线 "救援",一站式解决你的论文烦恼! 论文辅导上线了 【具身智能之心论文辅导重磅上线!多模态大模型/VLA/强化学习/VLN/遥操作/数采/机器人仿 真/real2sim2real/端到端/diffusion等顶会方向1V1定制化辅导】 辅导区间 ✅ 全流程闭环辅导:从选题创新点挖掘→实验设计→代码调试→论文写作→投稿策略,助你快速产出高质 量成果。 ✅ 工业界/学术界双视角:不仅发论文,更关注落地价值。 欢迎咨询 现在前10名咨询的同学,能免费匹配专属导师!来和导师进行深度 Meeting,根据你的研究方向、学术基 础,一对一深入分析,给出最适合你的会议、期刊选投建议! 更多详细内容欢迎添加微信进一步交流:AIDriver005,开启你的论文逆袭之旅~ 为什么选择我们? ✅ 顶会/顶刊导师团队:来自国内外名校的PhD及头部大厂研究员,覆盖ICML、ICLR、CoRL、ICRA、 NeurIPS、CVPR等顶级会议中稿审稿经验。 ...
高盛大幅上调阿里资本开支预期至4600亿元:推理需求爆炸性增长,AI效率提高驱动更强收入
华尔街见闻· 2025-10-24 17:25
行业资本开支趋势 - 高盛上调对中国头部云厂商的资本开支预测,预计阿里巴巴2026至2028财年合计资本开支将达到4600亿元人民币,远高于其此前3800亿元的目标 [1] - 高盛预测中国云服务提供商在2025年第三季度的资本开支将同比增长50% [2] - AI推理需求的指数级增长是驱动资本开支上行的核心逻辑,阿里巴巴的AI推理需求每2-3个月翻一番,字节跳动日均token消耗量在9月份突破30万亿,相比4-5月实现翻番 [2] 公司战略路径分化 - 阿里巴巴凭借全栈能力聚焦企业级AI云市场,在外部AI云收入规模和企业级服务方面处于领先地位 [1][3] - 字节跳动侧重于消费级AI应用,其聊天机器人“豆包”在To-C市场和日均token消耗量上占据最大份额 [1][3] - 阿里巴巴推出夸克AI助手服务与字节跳动“豆包”和腾讯“元宝”竞争,字节跳动则加速“豆包”商业化,无缝接入抖音电商服务 [3] 技术效率与商业化进展 - 中国公司在AI计算效率方面取得突破,阿里云GPU池化系统Aegaeon可节省82%的GPU资源,DeepSeek的OCR模型能将文本输入token消耗减少90% [2] - 中国多模态大模型在全球市场取得进展,腾讯“混元图像3.0”在文生图排行榜名列前茅,阿里巴巴Qwen3 Max模型输出价格比GPT-5/Gemini 2.5 Pro便宜40% [4] - 中国To-C聊天机器人商业化路径加速演进,字节跳动“豆包”整合电商功能,阿里巴巴夸克推出图像视频创作平台“造点” [3][5] 全球应用与估值水平 - 中国开源AI模型获得全球市场认可,爱彼迎大量使用阿里巴巴Qwen模型支持其客服代理 [5] - 高盛认为中国主要科技股估值具吸引力,市场尚未进入AI泡沫,腾讯和阿里巴巴2026年预期市盈率分别为21倍和23倍,低于谷歌的24倍及亚马逊和微软的28-30倍 [1][5]