多模态大模型
搜索文档
行业周报:昆仑芯启动港股IPO,关注MiniMax多模态机会-20260104
开源证券· 2026-01-04 14:06
报告行业投资评级 - 看好(维持)[1] 报告核心观点 - 报告核心观点围绕人工智能(AI)与自动驾驶的商业化进展展开,认为AI应用将带动算力需求增长,国产AI芯片及大模型公司迎来重要发展机遇,同时高阶自动驾驶在技术、成本与政策推动下商业化进程有望加速 [5][6][7] 根据相关目录分别总结 1、 互联网:昆仑芯开启港股上市进程,国产算力需求有望持续增长 - 短期电商面临高基数影响,本地生活竞争激烈,多条业务线整合协同与AI赋能被视为业绩及估值的关键驱动因素 [5][14] - 关注AI商业化及应用场景拓展,开源模型能力提升有望持续验证AI云需求 [5][14] - 国产AI芯片增长迅速,百度旗下昆仑芯已于2026年1月1日提交港股上市申请 [5][15] - 根据IDC 2024年数据,在中国加速计算芯片市场,英伟达出货量占比70%超过190万片,国产厂商中华为出货64万片位居第一,昆仑芯出货6.9万片 [15] - 昆仑芯优势在于通过软硬协同降低总拥有成本(TCO),其自研XPU架构提升算力利用率,并依托百度云生态与文心一言应用场景 [17] - 昆仑芯于2021年4月首轮融资估值约130亿元人民币 [13][17] - 本周(2025年12月29日-2026年1月2日)恒生互联网科技业指数上涨4.3%,百度集团-SW股价上涨20.3% [14][16] 2、 AI:大模型概念股集中上市在即,关注MiniMax多模态机会 - 智谱与MiniMax将分别于2026年1月8日及1月9日在港交所上市,成为国产大模型首批重要上市标的 [6][21] - MiniMax发行价格区间为151-165港元,计划发行2538.922万股,预计募资38.3-41.9亿港元,股份市值区间为461.23-503.99亿港元 [6][21] - 公司收入快速增长,截至2025年前三季度实现收入5343.7万美元,同比增长175% [6][24] - 公司净亏损率持续收窄,拥有订阅制、充值、广告营销及企业服务等多样化创收模式,产品线包括M2大语言模型、海螺AI(视频生成)、Talkie/星野(C端应用)等 [6][21][22][28] - 2025年前三季度,其收入构成相对均衡:MiniMax海螺AI占35%,Talkie/星野占33%,企业服务占29%,MiniMax语音占2%,其他占1% [28] - 从2025年12月数据看,MiniMax M2模型在OpenRouter上的tokens消耗量处于第二梯队,且是主要大模型厂商中唯一布局多模态的非大厂玩家 [6][30][35] - 在其优势的图生视频领域,海螺2.3模型排名保持前10,文生语音领域Speech 2.6模型排名也靠前 [6][36] 3、 技术、成本、政策推动下Robotaxi有望加速落地 - 随着技术成熟、成本下降与政策驱动,Robotaxi有望加速落地,是L4级以上自动驾驶中增长势头最为强劲的场景之一 [7][42][43] - 主机厂、自动驾驶公司、出行服务商三方合作的商业模式有利于综合能力、分摊成本、共享数据与乘客资源,加速商业化进程 [44] - 海外头部企业加速推进,Waymo已在多个城市实现无安全员全天候运营,并于2025年12月以1100亿美元估值寻求新一轮融资 [47][48] - 国内企业如百度、小马智行、文远知行均已开启小规模全无人商业化运营 [50] - 百度萝卜快跑截至2025年10月覆盖全球22个城市,国内运营城市实现100%全无人驾驶,2025年10月每周全无人订单超过25万单 [50] - 小马智行2025年第三季度Robotaxi收入为4770万元人民币,文远知行同期收入为3530万元人民币 [51] 4、 周度数据更新 - 本周(2025.12.29-2026.01.02)恒生指数上涨2.01%,在全球主要市场中涨幅靠前 [53] - 行业板块方面,恒生传媒、汽车、科技涨幅居前,其中恒生传媒指数本周上涨6.14% [53][57] - 本周港股通成交净额为流出34.25亿元人民币 [59] - 港股通资金净流入居前的个股包括:招商银行(+17.0亿港元)、中芯国际(+10.8亿港元)、工商银行(+9.5亿港元) [59][60] - 本周恒生沪港通AH溢价指数为120.89,环比有所下降,或已触底 [64] 5、 投资建议 - **互联网**:关注AI商业化及应用场景拓展,推荐阿里巴巴-W、拼多多、百度集团-SW,受益标的腾讯控股 [8][67] - **计算机**:AI需求可预见性提升,软件侧孕育机会,重点推荐浪潮数字企业,受益标的包括金蝶国际、百融云、北森控股、第四范式等,同时关注即将上市的AI大模型标的MiniMax [8][67] - **汽车&自动驾驶**:国内L3级获得准入试点许可,高阶智驾商业化有望迎来拐点,Robotaxi有望加速落地,受益标的包括整车(小鹏汽车-W、小米集团-W、特斯拉)、自动驾驶解决方案(百度集团-SW、小马智行-W、文远知行-W)及零部件(地平线机器人-W、速腾聚创、禾赛-W) [8][67]
2026年,这个自驾社区计划做这些事情......
自动驾驶之心· 2026-01-02 16:08
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区 该社区定位为国内首个自动驾驶全栈技术交流与学习平台 致力于通过整合学术与产业资源 降低行业入门壁垒 帮助从业者及学习者提升竞争力 [4][17] - 社区已运营三年 目前拥有超过4000名成员 并计划在未来两年内将规模扩大至近万人 目标是打造一个集技术分享、学习路线、求职交流、行业调研于一体的综合性聚集地 [4][5] - 社区内容覆盖自动驾驶全技术栈 梳理了超过40个技术方向的学习路线 并提供了包括视频课程、专家访谈、技术问答、直播分享、岗位内推等在内的多元化服务 [4][7][9][10][11] 社区定位与规模 - 社区是国内首个自动驾驶全栈社区 旨在为学术界和工业界人士提供技术交流平台 成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校以及蔚小理、地平线、华为、大疆等头部公司 [17] - 社区目前成员已超过4000人 并计划在未来2年内将规模做到近万人 [4][5] - 社区内容形式多样 集视频、图文、学习路线、问答、求职交流为一体 [4] 内容体系与资源 - 社区系统梳理了超过40个自动驾驶技术方向的学习路线 包括感知、规划控制、仿真、端到端、VLA、多模态大模型、BEV感知、世界模型等 [7][9][18] - 汇总了丰富的学习资源 包括近40+开源项目、近60+自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [18] - 提供了七大福利视频教程 涵盖感知融合、多传感器标定、SLAM、规划预测、数据工程、目标跟踪、仿真、端到端及大模型技术等 [11] - 整理了自动驾驶领域企业介绍、国内外高校著名团队、经典书籍、开源数据集、会议信息等实用资料 [10][29][31][33][37] 社区活动与服务 - 定期举办“星友面对面”活动 已开展五期 覆盖学术界和工业界、科研就业和申博、跳槽和转行等话题 [4] - 计划开展企业技术专家访谈和行业调研 重点关注智驾规模化量产及L4赛道发展 [4] - 已举办超过一百场专业技术直播 邀请行业一线专家分享前沿工作 如VLA、3D检测、V2X、扩散模型规划、3DGS等 [90] - 提供技术问答服务 已为近4500名星友解答问题 并设有圆桌访谈和日常问题讨论 [4][21][92] - 与多家自动驾驶公司建立岗位内推机制 帮助成员对接就业机会 [11][22] 覆盖的技术方向与热点 - **端到端自动驾驶与VLA**:详细梳理了一段式/二段式量产方案、VLA开源数据集、模块化与端到端VLA等 是当前学术与工业界热点 [39][47] - **多模态与大模型**:涵盖自动驾驶多模态大模型预训练与微调数据集、VLM、大模型在自动驾驶中的应用等 [7][45][86] - **感知技术**:全面覆盖BEV感知、3D目标检测、2D/3D分割、多传感器融合、车道线检测、Occupancy Network、鱼眼感知等方向 [10][53][55][57][64][68][83][84] - **规划控制与预测**:包括传统规划控制算法、决策框架、轨迹预测、强化学习等 [10][49][62] - **仿真与重建**:涉及3DGS、NeRF与自动驾驶仿真结合、闭环仿真、Carla/Apollo等仿真平台 [41][82] - **前沿模型**:重点关注扩散模型、世界模型等技术在自动驾驶领域的原理与应用 [43][51] - **工程落地**:提供模型压缩、部署优化、CUDA编程、TensorRT部署等实战内容 [10][70][72]
重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级
机器之心· 2026-01-02 09:55
文章核心观点 - 多模态大模型在视频时序定位能力上存在严重缺陷,制约了精细化视频理解的发展 [2] - 南京大学、腾讯ARC Lab和上海AI Lab的联合研究团队提出了TimeLens,通过系统性解决数据质量和算法设计问题,显著提升了模型性能 [2] - 仅8B参数的TimeLens模型在多项指标上超越了GPT-5和Gemini-2.5-Flash等闭源大模型,成为开源模型的新SOTA [2][27] 数据质量与评测基准 - 研究发现,Charades-STA、ActivityNet Captions和QVHighlights等主流视频时序定位评测基准存在大量标注错误,包括文本描述模糊、事件未出现、时间边界错误和漏标等问题 [7] - 团队构建了经过严格交叉验证的高质量评测基准TimeLens-Bench,纠正了原有基准严重高估开源模型能力、掩盖闭源模型真实水平的问题 [11] - 团队通过自动化流水线清洗和重标训练数据,发布了高质量大型训练数据集TimeLens-100K,数据质量提升带来了显著的模型性能增长 [13] - 实验数据显示,使用TimeLens-100K训练后,在Charades-TimeLens数据集上R1@0.3指标从52.6提升至70.0,在ActivityNet-TimeLens上R1@0.5从35.6提升至48.3,在QVHighlights-TimeLens上R1@0.5从61.3提升至73.0 [14] 算法设计与最佳实践 - 在时间戳编码方面,实验表明最优策略是简单的交错文本编码,即在每一帧的视觉Token前插入文本形式的时间戳token,该方法实现简洁且效果最优 [17] - 在训练范式上,单阶段的Thinking-free RLVR范式在计算效率和性能上均优于其他范式,它直接输出定位结果并根据IoU给予奖励,无需生成中间思考过程 [19] - 训练技巧方面,针对RL训练应采用早停策略,奖励指标进入平台期后继续训练会导致性能下降;同时,基于难度的数据采样对提升模型性能至关重要 [23] - 消融实验表明,Thinking-free RLVR范式在Charades-TimeLens数据集上R1@0.5达到53.9,优于SFT范式的54.9,且训练时间仅为1.0倍基准 [22] 模型性能与行业影响 - TimeLens-8B模型性能卓越,在Charades-TimeLens基准上R1@0.5达到63.0,超过GPT-5的42.0和Gemini-2.5-Flash的56.1 [28] - 在ActivityNet-TimeLens基准上,TimeLens-8B的R1@0.5为58.4,超过GPT-5的44.9和Gemini-2.5-Flash的57.5 [28] - 在QVHighlights-TimeLens基准上,TimeLens-8B的R1@0.5为71.6,超过GPT-5的60.4和Gemini-2.5-Flash的69.4 [28] - 该成果证明,通过系统性提升数据质量和采用有效算法设计,开源小尺寸模型完全具备挑战甚至超越闭源大模型的能力 [27][28] - TimeLens在数据和算法双维度的系统性探索为后续研究提供了方法论与设计蓝图,其代码、模型、训练数据和评测基准均已开源 [29][30]
商汤Kapi相机跃居中国区App Store「摄影与录像」榜首,此前在海外多国热度领先
新浪财经· 2026-01-01 00:01
公司产品表现 - 商汤旗下AI相机产品Kapi相机于12月31日成功登顶苹果App Store中国区“摄影与录像”类应用榜首 [2][7] - 该产品于12月20日正式亮相,定位为行业首个真正的“AI拍照助手”,打破了传统相机应用的功能局限 [2][7] - 产品通过复刻Apple Log曲线打造电影级质感直出效果,内置40余款复古滤镜,并能在1-2秒内智能识别场景、主体与时间,自动推荐最优滤镜与构图建议 [2][7] 产品全球市场表现 - 在东南亚市场,Kapi相机于12月8日登顶菲律宾App Store免费应用总榜第一,目前稳居“照片与视频”类应用榜首,总榜位列第三 [3][8] - 在安卓平台,该产品在菲律宾位居同类应用第一,总榜第四 [3][8] - 在欧洲市场,产品在英国、意大利、法国、德国等国的App Store“照片与视频”应用排行榜中,近期均成功跻身前五名 [3][8] 核心技术支撑 - Kapi相机的成功基于商汤科技在计算机视觉、多模态大模型等领域的长期技术积累 [3][8] - 产品通过搭建专业的图像处理工作流,从拍摄源头模仿电影的记录方式,最大程度保留画面的原始光影信息,以呈现柔和细腻的质感 [3][8] - 12月29日,权威评测基准SuperCLUE报告显示,商汤日日新V6.5(SenseNova V6.5 Pro)以75.35的总分位列国内多模态模型第一,并在视觉推理维度上拿下国内最高分 [4][9] - 报告指出,商汤日日新V6.5在基础认知维度已接近头部平均水平,部分看齐Gemini 3.0 Pro,在视觉推理维度上,是国产模型中唯一超过头部平均的模型,处于行业领先地位 [4][10] 行业趋势与意义 - 随着AI技术成熟,消费级AI应用正迎来爆发期 [5][10] - Kapi相机的成功预示着AI正以更接地气的方式融入大众生活,开启人人皆可创作的新时代 [5][10] - 此次突破为AI应用的商业化落地注入了新的信心与动力 [5][10]
星源智与征和工业达成战略合作,聚焦七大方向构建全方位协同创新体系
IPO早知道· 2025-12-31 13:26
合作概述 - 青岛征和工业股份有限公司与北京星源智机器人科技有限公司正式签署战略合作协议 [2] - 合作旨在实现“硬件+软件”优势互补,共同推动智能灵巧手与具身智能技术的融合创新 [2] - 合作将为人形机器人、协作机器人等领域提供更具竞争力的末端执行解决方案 [2] 行业背景与趋势 - 人形机器人产业正从技术验证期向规模化商用期快速过渡 [2] - 核心零部件国产化进程加速,市场规模持续扩大 [2] - 智能灵巧手作为机器人末端执行核心部件,其感知、决策与自适应能力是决定机器人作业效能的关键 [2] - 多模态大模型技术的融入为提升灵巧手智能化水平提供了核心支撑 [2] 合作核心方向 - 建立战略合作和联合开发,致力于让灵巧手拥有自主感知、规划决策和自适应能力,提供系统性末端泛化执行方案 [4] - 星源智依托其在具身智能及灵巧手的多模态操作模型等领域的核心技术优势,与征和工业合作开发灵巧手大模型,并在实际场景中测试训练 [4] - 基于征和工业的链式智能灵巧手,双方合作进行场景训练、数据采集和模型迭代 [5] - 成立项目工作组,联合推进技术、产品、场景等方面的合作,建立定期交流机制 [5] - 征和工业邀请星源智专家担任灵巧手项目顾问,对研发、模型适配、业务拓展给予指导并提供咨询建议 [5] - 双方开放必要的技术接口、场景数据等,联合打造训练和试点应用场景 [5] - 征和工业将在其工厂自动化产线中开展星源智模型的场景训练与技术验证,通过在真实工业场景中的持续运行与数据采集,提升模型的适应性与泛化能力 [5] - 联合开发下游各类工业或商业场景,共享具身智能机器人和灵巧手的下游场景及客户资源,推动产品在场景中的落地部署、技术推广及产品销售 [5] - 逐步深化技术与销售合作,征和工业将利用自身的国内外销售网络、渠道、客户资源等,向客户推广星源智全系列产品 [5] 双方核心优势 - 星源智拥有世界领先的多模态模型能力和多模态空间智能能力,致力于实现多模态空间智能,构建物理世界的通用具身大脑 [6] - 星源智的核心愿景是打造一个可跨越机器人本体的高泛化性通用大脑,其本质是连接数字智能与物理世界的“物理AI”系统 [6] - 星源智创始团队汇聚了来自智源研究院、京东、北京大学、中科院等平台的顶尖科学家与商业领袖 [6] - 2025年10月,智元发布的新一代工业级交互式具身作业机器人“精灵G2”上搭载了星源智的具身大脑产品 [6] - 星源智T5算力平台基于NVIDIA Jetson Thor处理器开发,具备强大的Transformer模型加速能力,可满足复杂场景下的实时感知、智能决策与精准控制需求 [6] - 征和工业依托链传动领域核心技术,研发链式智能灵巧手产品,致力于将硬件与软件深度融合 [6] - 征和工业的灵巧手产品面向具体的工商业场景,旨在实现通用抓取、功能操作、人机交互等功能 [6] 合作目标与展望 - 此次合作为征和工业在具身智能机器人领域的业务布局提供协同发展路径 [6] - 未来,双方将以此次合作为起点,持续深化技术融合与资源协同 [6]
智赋未来,链动生态 |征和工业 x 星源智达成战略合作
新浪财经· 2025-12-31 09:44
公司与星源智的战略合作 - 青岛征和工业股份有限公司与北京星源智机器人科技有限公司正式签署战略合作协议,双方将依托各自在智能硬件研发制造与多模态大模型领域的核心优势,开展深度协同合作 [1][9] - 合作旨在共同推动智能灵巧手与具身智能技术的融合创新,为人形机器人、协作机器人等领域提供更具竞争力的末端执行解决方案 [1][9] - 此次合作是顺应人形机器人产业从技术验证期向规模化商用期快速过渡、核心零部件国产化进程加速、市场规模持续扩大趋势的重要举措,实现“硬件+软件”优势互补 [1][9] 合作的具体方向与内容 - 合作聚焦七大核心方向,构建全方位协同创新体系 [2] - 征和工业聚焦智能灵巧手硬件与控制系统的研发与制造,星源智聚焦多模态大模型(包括灵巧手操作大模型),双方联合开发,致力于让灵巧手拥有自主感知、规划决策和自适应能力 [2][9] - 双方将成立项目工作组,联合推进技术、产品、场景合作,并建立定期交流机制,征和工业邀请星源智专家担任灵巧手项目顾问 [2][11] - 双方将开放必要的技术接口与场景数据,联合打造训练和试点应用场景,征和工业将在其工厂自动化产线中开展星源智模型的场景训练与技术验证 [2][11] - 双方将联合开发下游各类工业或商业场景,共享具身智能机器人和灵巧手的下游场景及客户资源,推动产品落地与销售 [2][11] - 征和工业将利用自身的国内外销售网络、渠道和客户资源(服务客户3000+),向客户推广星源智全系列产品 [2][11] 合作双方的核心能力与愿景 - 星源智拥有世界领先的多模态模型能力和多模态空间智能能力,致力于构建物理世界的通用具身大脑,其核心愿景是打造可跨越机器人本体的高泛化性通用大脑,即“物理AI”系统 [3][12] - 星源智创始团队汇聚了来自智源研究院、京东、北京大学、中科院等平台的顶尖科学家与商业领袖 [3][12] - 星源智的具身大脑产品已搭载于智元2025年10月发布的新一代工业级交互式具身作业机器人“精灵G2”上 [5][14] - 星源智T5算力平台基于NVIDIA Jetson Thor处理器开发,具备强大的Transformer模型加速能力 [5][14] - 征和工业依托链传动领域核心技术,研发链式智能灵巧手产品,致力于将硬件与软件深度融合,实现灵巧手的通用抓取、功能操作、人机交互等功能 [3][12] - 征和工业预告其全球首创的链式灵巧手即将发布 [5][14] 征和工业的公司背景 - 青岛征和工业股份有限公司是中国链传动行业首家A股上市公司,证券代码003033.SZ [7][16] - 公司产品涉及汽车链系统、工业链系统、农机链系统、摩托车链系统、自行车链、锯链、耕耘部件、链式智能装备等领域 [7][16] - 公司是国家认定企业技术中心,国家制造业单项冠军示范企业,国家及行业标准制定企业,CMCA中国链传动分会理事长单位 [7][16] - 公司是全球最大的车辆链条生产基地之一,拥有专利300余项,产品远销80多个国家及地区 [7][16]
三维空间太难懂?RoboTracer让机器人理解复杂空间指令,推理3D空间轨迹,开放世界也能精确行动
机器之心· 2025-12-30 20:10
文章核心观点 - 研究团队推出名为RoboTracer的多模态大模型,旨在解决具身机器人在复杂开放世界(如家庭环境)中理解和执行包含多步、带真实尺度约束的空间指令的难题[2][4][5] - 该模型通过创新的两阶段训练(SFT和RFT)及专用数据集TraceSpatial,在3D空间理解、度量和指代任务上达到先进水平,并能生成精确的3D空间轨迹以指导机器人动作,实现“开箱即用”[6][10][17] RoboTracer模型概述 - RoboTracer是一个具备三维空间理解与推理能力的多模态大模型,拥有独立的图片编码器和支持任意多几何输入(如绝对深度图、相机内参)的空间编码器[13] - 模型不仅能回答定性与定量的空间感知问题,还能进行复杂的组合式推理,最终生成精确的3D空间轨迹[13] - 模型可直接灵活集成到不同类型的机器人(如UR5机械臂、G1仿人机器人)上,在真实环境中完成复杂、动态、多步骤任务[10] 技术核心与创新 - **解耦(u, v, d)表达**:采用图像像素(u, v)和深度d结合相机内参来换算真实3D坐标,降低了模型学习复杂相机几何的门槛,并增强了数据复用能力[15] - **通用空间编码器与尺度解码器**:尺度解码器通过回归损失监督,将特征与真实世界绝对长度对应;通用空间编码器借助强几何先验,能按需融合不同几何信息,提升绝对尺度感知能力[16] - **两阶段训练策略**:SFT阶段针对性提升单步3D空间理解、度量与指代能力;RFT阶段创新性地使用度量敏感过程奖励,显式监督轨迹生成中的关键中间步骤,从而增强多步、带真实尺度约束的推理能力[17] 性能表现与评测 - **空间理解/度量/指代任务**:经过SFT训练的RoboTracer在相关任务中达到79.1%的平均成功率,比Gemini-2.5-Pro高出11%的平均准确率[10][21] - **空间轨迹生成任务**:在TraceSpatial-Bench评测基准上,经过RFT训练的RoboTracer领先所有其他模型,比Gemini-2.5-Pro高出36%的平均准确率[10][24] - **仿真与真机实验**:在机械臂仿真评测中,RoboTracer的总平均成功率达到64.0%,远超其他视觉-语言-动作系统;在真实世界机器人空间追踪任务中,其成功率(如60%和30%)也显著高于对比模型(如Open VLA和RoboRefer的0%)[27][28] TraceSpatial数据集 - 为支持SFT和RFT训练,研究团队构建了大规模、高质量、带真实尺度的TraceSpatial数据集[20] - 数据集核心特点包括:场景多样(覆盖室内外和桌面环境)、维度丰富(48.2%的数据与尺度相关,推理步骤最高达9步)、规模庞大(包含450万个样本和3000万个问答对,是目前最大的3D空间数据集)、精细标注(包含层级式物体描述和绝对尺度几何信息)以及易于扩展[22]
合合信息二次递表港交所 扫描全能王已上线超15年、MAU超1亿
智通财经· 2025-12-30 07:29
公司上市申请与业务概况 - 上海合合信息科技股份有限公司于2024年12月29日向港交所主板提交上市申请,中金公司为独家保荐人,此为该公司年内第二次递交申请 [1] - 公司是全球文本智能技术领域的领军者,业务覆盖全球超过200个国家和地区,其核心驱动力来自能够同步处理文本、图像、视频等多种数据形式的多模态大语言模型 [4] - 根据灼识咨询,在2024年全球C端效率类AI产品月活跃用户数上亿的企业中,按相应产品收入计,公司位居中国第一名、全球第五名 [4] 核心产品与市场地位 - 公司旗下核心C端产品包括扫描全能王、名片全能王和启信宝 [4] - 扫描全能王是全球用户规模最大的图像文本处理AI产品,截至2025年9月月活跃用户数超过1亿,且是一款已上线超过15年、2022年至2024年收入复合年增长率超过20%的长期稳定增长的APP,全球范围内取得该成就的APP不超过五款 [4] - 名片全能王曾在Apple App Store上41个国家和地区的商务类免费应用下载量排行榜位列第一,公司于2024年推出在线数字名片功能以探索全球数字名片市场 [5] - 启信宝构建了覆盖超过3亿企业的信用分析平台,对2,000亿条商业数据实现毫秒级实时处理与分析 [5] 财务表现 - 公司收入持续增长,2022年、2023年、2024年及2025年前九个月收入分别约为9.88亿元、11.87亿元、14.38亿元和13.03亿元人民币 [6] - 公司毛利率维持在较高水平且稳步提升,同期毛利率分别为83.7%、84.3%、84.3%和86.4% [7] - 公司盈利能力强劲,同期录得年内/期内溢利分别约为2.84亿元、3.23亿元、4.01亿元和3.51亿元人民币 [8] - 2023年和2024年全年收入增长率分别为20.0%和21.2%,2025年前九个月收入同比增长24.2% [10] 行业前景与市场空间 - AI技术正从感知、认知向决策能力提升发展,多模态大模型与现实环境深度融合,使AI产品日益成为C端及B端智能决策的关键工具 [11] - 2024年全球AI产品市场规模达465亿美元,市场参与者超10,000名,预计到2029年将增长至2,280亿美元,复合年增长率为37.4% [11] - 2024年全球C端AI产品市场规模达109亿美元,预计到2029年将增长至771亿美元,复合年增长率为48.0% [13] - 在C端AI产品市场中,效率类AI产品占据最大市场份额,占2024年总体市场的57.5%,其市场规模为62亿美元,预计到2029年将增长至495亿美元,复合年增长率为51.3% [13][16] 公司治理与股权结构 - 董事会由九名董事组成,包括五名执行董事、一名非执行董事及三名独立非执行董事,董事任期为三年 [17] - 创始人镇立新博士(57岁)担任执行董事、董事长兼总经理,负责集团整体战略规划、业务发展及经营管理 [18] - 截至2025年12月20日,镇博士通过直接及间接方式控制公司已发行股本总额的29.95%,其中直接持股比例为24.19% [21][23]
火山引擎成为总台春晚独家AI云合作伙伴
新浪财经· 2025-12-29 12:37
火山引擎成为2026年春晚独家AI云合作伙伴 - 火山引擎成为中央广播电视总台《2026年春节联欢晚会》独家AI云合作伙伴 [1][3] - 合作将基于业界前沿的多模态大模型和云计算技术 [1][3] - 火山引擎将深度参与总台春晚的节目、线上互动和视频直播环节 [1][3] 火山引擎的背景与过往业绩 - 火山引擎是字节跳动旗下的云和AI服务平台 [1][3] - 在过去5年间,公司持续为抖音的春晚直播提供技术支撑 [1][3] - 在2021年总台春晚期间,公司成功支持了抖音703亿次红包互动 [1][3]
AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白
机器之心· 2025-12-28 12:44
行业趋势:从多模态拼接迈向全模态统一智能 - 多模态大语言模型正经历快速范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频等信息的统一全模态大模型 [2] - 该转变的驱动力源于真实物理世界的复杂性,人类通过观察和分析视觉、听觉、空间动态等多模态信息来理解世界 [3] - 面向真实物理世界的先进全模态智能架构,不仅需对多模态交互做出正确响应,还应具备遵循物理世界规律的感知与推理能力 [4] 行业痛点:现有评测体系存在不足 - 当前评测体系难以跟上模型能力扩张,存在模态覆盖不完整、模态间缺乏真实物理世界关联、任务长期局限于文本输出等问题 [4] - 这使得研究者无法全面评估模型在复杂物理世界场景中的实际能力,也无法进行公平、统一的跨模态比较 [4] - 现有跨模态基准多数局限于以文本为中心的有限模态,鲜有工作能彻底涵盖文本、图像、视频、音频等全模态信息 [16] - 现有基准输出形式单一,多数仅考察文本输出,几乎不涉及多模态生成,也缺乏语音驱动的多模态交互任务 [16] - 现有数据集常将不同模态信息简单拼接,忽略了模态间的关联性与耦合性,导致信息密度低,不要求模型进行真正的跨模态理解和推理 [16] 公司产品:FysicsWorld 评测基准 - 飞捷科思智能科技(Fysics AI)与复旦大学认知与智能技术实验室共同推出了全球首个面向真实物理世界的统一全模态评测基准 FysicsWorld [4] - 该基准能够评测模型在图像、视频、音频与文本间进行双向输入与输出的能力,覆盖模型对真实物理世界场景的感知、理解、生成及跨模态推理等核心能力 [4] - FysicsWorld 包括具备高质量样本的 16 大任务,涉及上百类真实开放域场景,并精心设计了跨模态信息之间的依赖关系与互补性 [6] - 基准创新地提出了跨模态互补性筛选策略,通过严格的模态依赖性验证机制,确保每个样本求解时必须依赖多种模态的信息融合,有效避免“单模态捷径”带来的偏差 [8] - 通过大量实验证明,FysicsWorld 能够清晰揭示当前全模态模型在融合多模态理解推理、语音驱动人机交互、跨模态生成及物理场景感知等环节的真实短板 [10] 产品细节:任务体系与数据构建 - FysicsWorld 构建了一套从基础感知到高阶交互的系统化任务体系,包含 16 项多模态任务 [15] - 任务体系首次实现了对全模态模型从单模态到多模态、从静态到动态、从时序到空间、从感知到生成与推理的连续覆盖 [17] - 在数据构建阶段采用了严谨的多源融合流程,通过人工审校与半自动化辅助校对的双重机制,对语义一致性、表达自然度和场景匹配性进行严格筛查 [22] - 在语音驱动的人机交互任务中,构建了闭环数据构造与验证流程,基于 10 余种不同的真人语音音色构造真实自然且高度拟人化的语音交互数据 [22] 评测结果:模型能力现状与瓶颈 - 研究团队基于 FysicsWorld 对国际上 30 余个最先进的 AI 模型进行了系统性评测 [27] - 在图像、视频和音频理解的基础任务中,GPT-5 与 Gemini-2.5-Pro 等闭源模型整体领先,开源全模态模型在部分任务上逐渐缩小差距,但在长视频语义链路、复杂听觉理解及高难度推理中仍显薄弱 [28] - 当任务切换到真实物理场景下的多模态协作时,模型性能普遍出现明显下滑,尤其是在必须依赖图像、视频、音频之间真实互补关系才能作答的任务中,短板暴露无遗 [31] - 主流模型在面向真实世界的多模态对齐、信息融合、跨模态生成以及物理场景适应能力等关键环节,仍存在显著不足 [31] 未来展望:全模态智能的发展方向 - 面向真实物理世界的全模态智能的下一阶段,不仅需要继续巩固单模态能力的根基,更需要在模态融合策略上进行系统性优化,实现多模态信息在时空、语义及物理约束维度的协调与整合 [35] - 跨模态动态推理、场景化理解与生成能力,将成为衡量下一代全模态模型核心竞争力的关键指标 [35] - FysicsWorld 为面向真实物理世界的全模态智能提供了可控、系统且可比较的能力映射工具,使研究者能够清晰洞察模型在多模态感知、物理场景信息融合和跨模态推理生成上的真实水平 [36]