多模态大模型

搜索文档
格灵深瞳: 国泰海通证券股份有限公司关于北京格灵深瞳信息技术股份有限公司部分募投项目变更实施地点的核查意见
证券之星· 2025-06-12 18:28
募集资金基本情况 - 公司首次公开发行人民币普通股46,245,205股,发行价为39.49元/股,募集资金总额为182,622.31万元 [1] - 扣除不含税券商承销费用和保荐费用12,783.56万元后,募集资金为169,838.75万元 [1] - 扣除其他发行费用2,829.73万元后,募集资金净额为167,009.02万元,其中超募资金67,009.02万元 [1] 募集资金投资项目情况 - 公司首次公开发行股票的募集资金使用情况包括多模态大模型技术与应用研发项目 [1] - 项目投资总额为100,006.17万元,调整前和调整后拟投入募集资金均为100,000.00万元 [1] 募投项目变更实施地点具体情况 - 公司将"多模态大模型技术与应用研发项目"的实施地点由北京市海淀区东升科技园及延庆区中关村延庆园变更为北京市海淀区东升科技园及大兴区联东U谷 [1] - 变更后的实施地点通过租赁房产方式取得,位于北京市大兴区庞各庄镇工业区核心区域,具备充足的办公场所租赁资源和产业集群 [1] - 变更原因包括原延庆场地结构限制及精细化控制项目成本考虑,以提高资源利用效率 [2] 募投项目变更实施地点的影响 - 本次变更仅涉及部分募投项目实施地点,不影响募投项目的实施内容和募集资金用途 [3] - 变更符合公司长期发展规划,不会对公司正常生产经营、业务发展及募集资金使用产生不利影响 [3] 履行的审议程序及相关意见 - 公司董事会审议通过关于部分募投项目变更实施地点的议案 [3] - 监事会认为本次变更不存在改变或变相改变募集资金投向的行为,符合相关监管规定 [3] 保荐人核查意见 - 保荐人认为公司已履行必要的审议程序,本次变更不属于募投项目的实质性变更 [4] - 变更不会对募投项目实施造成不利影响,不存在损害股东利益的情形 [4]
2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
机器之心· 2025-06-12 11:23
本文第一作者顾泽琪是康奈尔大学计算机科学四年级博士生,导师为 Abe Davis 教授和 Noah Snavely 教授,研究方向专注于生成式 AI 与多模态大模型。本项目为 作者在英伟达实习期间完成的工作。 想象一下,你是一位游戏设计师,正在为一个奇幻 RPG 游戏搭建场景。你需要创建一个 "精灵族树屋村落"—— 参天古木和树屋、发光的蘑菇路灯、半透 明的纱幔帐篷... 传统工作流程中,这可能需要数周时间:先手工建模每个 3D 资产,再逐个调整位置和材质,最后反复测试光照效果…… 总之就是一个 字,难。 核心贡献:无需训练的智能 3D 场景工厂 ArtiScene 的核心创新在于构建了一个完全 无需额外训练 的自动化流水线,将文本生成图像的前沿能力与 3D 重建技术巧妙结合。它一共包含五步: 1. 2D 图像作为 "设计蓝图" 系统首先用扩散模型生成等轴测视角的场景图。这种视角常用于建筑设计示意图,因为它能同时呈现物体的长、宽、高信息,且不受场景位置影响。相比直 接生成 3D,这种方法能利用更成熟的 2D 生成技术确保布局合理性和视觉美感。 这种困境正是当前 3D 内容创作领域的缩影。传统 3D 设计软件如 ...
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
机器之心· 2025-06-12 08:53
本文第一作者杜恒辉为中国人民大学二年级硕士生,主要研究方向为多模态大模型视听场景理解与推理,长视频理解等,师从胡迪副教授。作者来自于中国人民 大学,清华大学和北京腾讯 PCG AI 技术中心。 我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的 任务,它们分别要求模型具备不同层面的能力。 过去大量的工作主要聚焦于完成单一任务,相比之下,我们人类对周围复杂的的世界具有一个通用的感知理解能力。因此,如何设计一个像人类一样对视听场景 具有通用理解能力的模型是未来通往 AGI 道路上一个极其重要的问题。 当前主流的学习范式是通过构建大规模的多任务指令微调数据集并在此基础上直接做指令 微调 。然而,这种学习范式对于多任务学习而言是最优的吗? 最近中国人民大学高瓴人工智能学院 GeWu-Lab 实验室,清华大学和北京腾讯 PCG AI 技术中心合作发表的 CVPR 2025 论文指出, 当前这种主流的学习范式忽视 了多模态数据的异质性和任务间的复杂关系,简单地将所有任务联合训练可能会造成任务间的相互干扰。 为了有效实现任务间的显示互 ...
2025年中国多模态大模型行业硬件现状 AI芯片和AI服务器的需求在多模态大模型影响下加速增长【组图】
前瞻网· 2025-06-11 13:17
AI芯片市场 - AI芯片定义宽泛,面向人工智能应用的芯片均可称为AI芯片,目前尚无严格标准[1] - AI芯片分类方式包括按技术架构、功能和应用场景三种[1] - 2024年中国AI芯片市场规模达1688亿元,同比增长40%[5] - 国内AI芯片企业竞争集中在少数企业,代表企业包括华为海思、寒武纪、地平线等[7] - 华为海思昇腾系列芯片已服务智能能源、金融、城市、制造等多个行业[8] - 寒武纪思元系列芯片面向智慧工厂、无人机、机器人、零售等领域[8] - 地平线征程系列和旭日系列芯片赋能奥迪、博世、比亚迪等汽车厂商[8] AI服务器市场 - AI服务器由DRAM、GPU、加速芯片等组成,可分为训练型和推理型[3] - 常见计算模块结构为CPU+多块GPU组合模式[3] - 多模态大模型推动AI服务器需求增长,2024年中国市场规模达115亿美元[9][10] - 预计2027年市场规模将达134亿美元,2022-2027年复合增长率22%[10] - 多模态大模型处理图片视频等数据使算力需求激增[9] - AI服务器技术创新包括先进芯片技术、算法优化和架构设计[9] - 应用场景从自动驾驶扩展到智能制造等行业[9]
海天瑞声20250610
2025-06-10 23:26
海天瑞声 20250610 摘要 Meta 投资 Scale AI 旨在获取高质量数据及拓展国防等市场,以支持其 AI 商业化落地,并看重其客户资源及政商军事领域布局。 Scale AI 营收高速增长,预计 2025 年达 20 亿美元,估值翻倍至 276 亿美元,主要受益于美国军方和政府订单。 海天瑞声认为 AI 应用普及和多模态大模型发展抬升市场空间,视觉数据 需求激增,2025 年 Q1 视觉收入占比达 49%。 海天瑞声 2025 年发力数据积累业务,并拓展海外市场,菲律宾数据交 付基地提供低成本产能,内容审核业务贡献现金流。 海天瑞声通过研发创新、AI 辅助标注和合成数据等方式提升竞争力,并 关注新型数据需求。 国内大模型发展推动海天瑞声与中国移动等央企合作,受益于沿投联动 机制,订单显著增长。 海天瑞声通过"3+1"模式参与地方政府数据产业化项目,提供数据治 理和标注等服务,并采取本地化部署策略确保合规。 Q&A Meta 对 Scale AI 的投资背后的逻辑是什么? Meta 对 Scale AI 的投资主要有两个方面的考虑。首先,数据处理在 AI 训练中 仍然至关重要。Scale AI 拥有 ...
苹果AI放鸽子,AI录音机、AI玩具等“新国货”先火了
南方都市报· 2025-06-10 16:41
高品质消费品牌TOP100行业趋势 - 南方都市报联合广东连锁经营协会等成立组委会,将从企业品质力、成长性、创新性、社会责任等方面评选"2025高品质消费品牌TOP100" [2] - 调研聚焦九大热门赛道:颜值经济、运动户外、食品康养、智能消电、宠物经济、体验经济、兴趣消费、跨境出海、消费科技 [2] - AI+硬件成为涵盖功能性产品、玩具产品和家电产品等多个赛道的重要趋势 [2][3] AI硬件发展趋势 - 国内外科技巨头和初创公司已推出一批AI硬件,包括功能性硬件如AI录音机、AI眼镜,情绪性消费产品如AI玩具,以及消费刚需如AI家电等产品 [3] - AI录音机Plaud Note全球出货近70万台,年化收入1亿美金,连续2年达十倍增长 [5][7] - 雷鸟X3 Pro AR眼镜在中国AR/AI拍摄眼镜线上市场份额达50%,Rokid AI+AR眼镜全球订单超25万台 [7] 功能性AI硬件 - Plaud Note利用大模型能力将60种语言文本整理成脑图、笔记、日记等形式,提高工作效率 [5] - 智能眼镜通过AI提升交互和响应速度,带来翻译、导航等多方面应用体验 [8] - 十方融海"小智AI"3个月用户DIY接入设备增长20万台,讯飞AI耳机累计用户突破100万 [8] AI玩具市场 - 三星AI家庭伴侣机器人Balie将在美国和韩国上市,TCL发布Ai Me机器人 [12] - 汤姆猫推出定价1499元的AI情感陪伴机器人,奥飞娱乐发售299元"AI智趣喜羊羊"AI玩具 [12] - 日本初创公司Yukai Engineering推出小猫形态机器人Nekojita FuFu,能挂在杯壁上将食物吹凉 [13] - FoloToy旗下产品去年销售量两万多台,今年一季度已接近去年全年销售量 [13] - 跃然创新BubblePal销售量突破20万台,下半年将推出多个新品线 [16][18] AI家电市场 - 2024年中国高端家电市场智能化进展显著,智能厨房设备销售额增长超过30% [20] - 海尔洗衣机搭载视觉大模型能精准识别衣服种类、颜色和数量,自动选择最合适的洗护模式 [20] - 戴森V15 Detect Slim内置AI芯片,能分析不同区域脏污程度,智能规划清洁路径 [20] - 科沃斯T80扫地机实现智能识别房屋环境,精准规避障碍物,新品在天猫一周成交破千万元 [21] - 美的冰箱搭载AI动态食材识别功能,可识别超过100种食材,提供食材过期提醒和个性化饮食计划 [21] - 京东调研显示74.4%消费者认为具备AI功能的产品可被称为"新国货" [22]
AI自发形成人类级认知!我国科技学家揭示多模态大模型涌现类人物体概念表征
环球网· 2025-06-10 10:09
研究人员从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标签。研究发现, 这些维度是高度可解释的,且与大脑类别选择区域(如处理面孔的FFA、处理场景的PPA、处理躯体的 EBA)的神经活动模式显著相关。 研究还对比了多个模型在行为选择模式上与人类的一致性(Human consistency)。结果显示,多模态大 模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表现更优。此外,研究还揭示了人类在做决策 时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象概念。本研究表 明大语言模型并非"随机鹦鹉",其内部存在着类似人类对现实世界概念的理解。 相关研究成果以Human-like object concept representations emerge naturally in multimodal large language models为题,发表于《自然·机器智能》(Nature Machine Intelligence)。(青山) 那么,大语言模型(LLMs)是否能从语言和多模态数据中发展出类似人类的物体概念表征? 近日,中国科学院 ...
生数科技CEO骆怡航:从模型到生产,多模态AI如何推动视频创作更高效
硬AI· 2025-06-09 22:07
多模态大模型行业趋势 - 多模态大模型正处于规模化生产落地的关键拐点,技术迭代迅速,行业需求旺盛[1][5][6] - 视频生成技术需同时满足优质内容、百倍效率提升和成本大幅降低三大条件才能实现规模化落地[1][7][9] - 行业痛点包括传统内容生产周期长、成本高、专业软件依赖性强,多模态大模型可显著改善这些问题[7][9] 生数科技战略与产品布局 - 公司聚焦多模态生成领域,当前以视频生成为核心,未来将拓展至3D叙事空间等方向[3][9] - 目标覆盖8大行业(如互联网广告、动漫、电商等)和30大场景,已服务2000+企业客户[11][22] - 产品矩阵包括Vidu系列模型(1.5/2.0/Q1)及SaaS/MaaS平台,支持移动端和API接入[10][11] 技术突破与产品迭代 - Vidu 2.0实现5秒极速生成,Q1版本新增高清/首尾帧/动漫支持,并优化音效生成能力[3][11] - 模型能力持续升级:1.5版本提升多主体一致性,Q1版本在文生/图生领域登顶国内外榜单[10][13] - 全球覆盖200+国家和地区,拥有3000万创作者用户,日活跃用户生成数百万次创意内容[11][12] 商业化进展与案例 - 专业创作占比增长300%,企业客户增长150%,严格场景(广告/动漫/电商)应用占比达80%[4][22] - 典型案例包括:与飞鹤合作品牌广告(成本效率显著提升)、索尼电影水墨风宣传片(成本节省90%)[18][20] - 创作者案例:动漫作品《观察者悖论》观看量达300万次,效率较传统方式提升10倍[14][16] 行业应用价值 - 赋能内容生产全流程:从个人创作者(如60岁作家视频化著作)到企业级批量生产(飞书API集成)[16][18] - 在影视/广告领域实现突破:好莱坞动画工作室采用AI工作流,十天完成传统需一个月的预告片制作[20][21] - 核心价值主张:生产效率需提升百倍,生产成本需降至传统方式的1%以下以推动行业变革[7][9][22]
我国科学家研究揭示多模态大模型概念表征机制
新华社· 2025-06-09 17:32
传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正"理解"物体含义。何晖光说:"当 前人工智能可以区分猫狗图片,但这种'识别'与人类'理解'猫狗的本质区别仍有待揭示。" 研究团队从认知神经科学经典理论出发,设计了一套融合计算建模、行为实验与脑科学的创新范式,并 构建了人工智能大模型的"概念地图"。 何晖光介绍,研究团队从海量大模型行为数据中提取出66个"心智维度",并为这些维度赋予了语义标 签。通过研究发现这些维度是高度可解释的,且与大脑类别选择区域的神经活动模式显著相关。研究还 对比了多个模型在行为选择模式上与人类的一致性,结果显示多模态大模型在一致性方面表现更优。 此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依 赖语义标签和抽象概念。本研究表明大语言模型内部存在着类似人类对现实世界概念的理解。(记者宋 晨) 记者6月9日从中国科学院自动化研究所获悉,该所与中国科学院脑科学与智能技术卓越创新中心的联合 团队在《自然·机器智能》发表相关研究,首次证实多模态大语言模型能够自发形成与人类高度相似的 物体概念表征系统,为人工智能认知科学提供了新路径,也为构建类人 ...
聚焦多模态:ChatGPT时刻未到,2025大模型“变慢”了吗
北京商报· 2025-06-08 21:27
多模态大模型技术发展 - 智源研究院发布原生多模态世界模型Emu3 实现文本、图像、视频任意组合理解与生成 通过单一模型捕捉世界规律[1] - Emu3采用原生多模态训练路径 在模型初始阶段即纳入文字、图像、声音等模态数据 区别于先强语言后多模态的传统路径[3] - 当前多模态模型技术路线未收敛 视频生成能力处于GPT-2到GPT-3过渡阶段 与产业预期存在显著差距[1][5] 视频生成技术现状 - 视频生成领域存在叙事性、稳定性、可控性三大挑战 目前无法满足影视级专业内容制作需求[6] - Sora展现高质量视频生成潜力 但DiT训练方案存在可扩展性问题 类似2018年BERT模型的技术瓶颈[5] - 行业专家认为视频生成技术仍处早期 相当于语言模型的GPT-2阶段 尚未迎来"ChatGPT时刻"[5][6] 商业化应用进展 - 多模态模型商业化面临两大挑战:技术能力与市场需求未完全统一 成本收益比尚未达到临界点[7] - 智象未来商业模式持续迭代 从PaaS模型服务(2023)到SaaS工具(2024) 再到直接交付结果(2025)[8] - 全球多模态AI市场规模2024年达24亿美元 预计2025年将快速增长至1280亿美元 年复合增长率62.3%[8] 行业竞争格局 - 2024年大模型行业关键词为价格战 2025年转向应用多元化 表面发展"变慢"实为技术沉淀期[1] - 传统CV模型应用成熟 多模态模型需在视觉理解能力和泛化能力提升后 才能替代现有解决方案[7] - 企业技术路线差异明显 智源采用原生多模态训练 其他厂商多采用语言优先的渐进式路径[3]