Workflow
多模态大模型
icon
搜索文档
火山引擎总裁谭待:谈论Agent与APP冲突还太早
第一财经· 2025-12-18 23:26
豆包大模型业务进展 - 火山引擎发布豆包大模型1.8和音视频创作模型Seedance 1.5 pro [2] - 豆包大模型日均tokens调用量已超过50万亿,相比今年9月的30万亿有显著增长 [2] AI Agent的发展现状与挑战 - 行业将互联网APP对AI的针对性限制解读为“Agent时代与APP时代之间的冲突” [2] - 火山引擎总裁认为行业发展阶段尚早,AI落地处于早期,所谓“冲突”本质取决于观察视角 [2] - AI的核心价值在于让用户更便利、更低成本地达成目标,而非载体形式 [2] - Agent不会淘汰现有载体(如Web、APP),而是会形成共存互补的格局,并因需求扩容和用户时长增加而发展 [2] - 行业对AI与Agent的探索仍处于摸索阶段,这种状态预计还会持续三年左右 [3] - Agent待突破的两大核心挑战包括基础能力支撑与真实线上落地要求,需满足健全性、稳定性、弹性伸缩、数据安全等高标准 [3] 多模态大模型的发展与竞争 - 多模态大模型(如Seedance 1.5 pro)的更新迭代,标志着AI应用正往更深场景发展,让大模型能“看、听、说、做” [4] - 多模态能力对于需要视觉输入的实际应用场景(如路况识别、产品质检、餐饮服务)至关重要 [4] - 模型调用工具后返回的结果常是图片、视频等视觉化内容,模型需要能看懂才能继续处理 [4] - 火山引擎总裁认为多模态模型较去年已能解决非常多问题,模型进步并解锁一个领域的更迭速度非常快 [4] - 关于竞争,厂商之间最重要的是先将市场做大,帮助各行业AI落地更快 [4] AI时代云服务的价值与趋势 - 火山引擎持续强调AI时代云服务的价值 [4] - AWS管理层曾表示其生成式AI平台Bedrock目标是成为“全球最大的推理引擎”,长期潜力可与规模约400亿美元的EC2服务相媲美 [4] - 火山引擎总裁认可该趋势,并将MaaS(模型即服务)业务发展趋势类比芯片业务:两年前行业GPU出货量已超过CPU,MaaS也将迈入从训练转向推理的过程 [4] - 以2025年初AI浪潮为例,DeepSeek带火一体机销售但最终很多人“砸”手里,核心原因是AI技术快速迭代(甚至三个月更新一代),且Agent、AgentKit、RAG等技术产品无法私有化部署 [5] - 一体机固定算力很难支撑丰富的AI应用落地 [5] - 基于此判断,软件时代的私有化一体机模式在AI时代将被淘汰 [5]
商汤科技预计配售31.5亿港元,用于多模态大模型研发和垂直场景商业落地
格隆汇· 2025-12-18 08:55
公司融资与资金用途 - 公司于2025年12月18日通过一般授权配售17.5亿股新B类股份,预计配售总额约为31.5亿港元 [1] - 配售获得六家机构积极认购,反映市场对公司长期价值与发展前景的信心 [1] - 配售所得款项将全面用于深化全栈人工智能领域的领先布局 [1] - 具体资金用途包括:打造行业领先的AI云、持续扩大并提高人工智能基础设施“商汤大装置”的规模与国产化比例 [1] - 资金将支持生成式人工智能的研发,以及基于多模态大模型衍生产品的开发与商业落地 [1] - 资金还将用于探索人工智能在创新垂直领域的技术融合与实践,例如金融、教育等行业 [1] 产品生态与技术进展 - 公司自12月15日启动“商汤产品发布周”,陆续推出多款基于日日新多模态大模型的产品应用 [2] - 发布行业首个创编一体、多剧集生成智能体Seko2.0,其背后的日日新Seko系列模型已完成与国产AI芯片寒武纪的适配 [2] - 推出面向办公场景的AI办公智能体小浣熊3.0 [2] - 推出面向电商运营场景的如影营销智能体 [2] - 即将亮相大晓机器人、咔皮家族等一系列兼具开创性与实用性的AI产品 [2] - 近期产品突破体现了公司在AI技术与实际场景融合方面的持续引领能力 [2]
商汤科技预计配售31.5亿港元,继续扩大大装置规模和提升国产化比例
金融界· 2025-12-18 08:35
公司融资与资金用途 - 公司于2025年12月18日通过一般授权配售17.5亿股新B类股份 [1] - 预计配售总额约为31.5亿港元 并获得六家机构积极认购 [1] - 配售所得款项将用于深化全栈人工智能领域布局 包括打造行业领先的AI云及扩大人工智能基础设施商汤大装置的规模与国产化比例 [1] - 资金将支持生成式人工智能的研发 以及多模态大模型衍生产品的开发与商业落地 [1] - 资金还将用于探索人工智能在金融、教育等创新垂直领域的技术融合与实践 [1] 产品生态与技术进展 - 公司自12月15日启动“商汤产品发布周” 陆续推出多款基于日日新多模态大模型的产品应用 [2] - 发布行业首个创编一体、多剧集生成智能体Seko2.0 其背后的日日新Seko系列模型已完成与国产AI芯片寒武纪的适配 [2] - 推出面向办公场景的AI办公智能体小浣熊3.0 以及面向电商运营场景的如影营销智能体 [2] - 即将亮相大晓机器人、咔皮家族等一系列兼具开创性与实用性的AI产品 [2] - 近期进展体现了公司在AI技术与实际场景融合方面的持续引领能力 [2]
商汤-W(00020)拟配售17.5亿股新B类股份 净筹约31.46亿港元
智通财经网· 2025-12-18 07:19
公司融资公告 - 商汤-W于2025年12月18日订立配售协议,将配售17.5亿股新股 [1] - 配售价为每股1.80港元,较前一交易日收市价1.97港元折让约8.63% [1] - 配售股份相当于公告日已发行B类股份总数约4.60%及已发行股份总数约4.52% [1] 融资规模与资金用途 - 配售事项所得款项总额预计约为31.50亿港元,所得款项净额预计约为31.46亿港元 [1] - 所得款项净额的30%将用于支持核心业务发展,包括打造AI云及扩大人工智能基础设施“商汤大装置”的规模与国产化比例 [1] - 所得款项净额的30%将用于支持生成式人工智能的研发,以及多模态大模型衍生产品的开发与商业落地 [1] - 所得款项净额的20%将用于探索人工智能在金融、教育等创新垂直领域的技术融合与实践 [1] - 所得款项净额的20%将用作公司的一般营运资金 [1]
商汤-W(00020.HK)拟配售17.5亿股新B类股份 总筹31.5亿港元
格隆汇· 2025-12-18 07:07
配售协议核心条款 - 商汤-W与配售代理国泰君安国际及招银国际订立配售协议,将尽力促使不少于六名承配人认购17.5亿股配售股份 [1] - 每股配售股份的配售价定为1.80港元 [1] - 配售股份相当于公告日期已发行B类股份约4.60%及已发行股份总数约4.52% [1] 融资规模与资金用途 - 假设配售股份悉数获配售,预期所得款项总额约为31.50亿港元,所得款项净额约为31.46亿港元 [1] - 所得款项净额的30%将用于支持公司核心业务发展,包括打造AI云及扩大人工智能基础设施商汤大装置的规模与国产化比例 [1] - 所得款项净额的30%将用于支持生成式人工智能的研发,以及多模态大模型衍生产品的开发与商业落地 [1] - 所得款项净额的20%将用于探索人工智能在创新垂直领域的技术融合与实践,例如金融、教育等行业 [1] - 所得款项净额的20%将用作公司的一般营运资金 [1]
最近收到了很多同学关于具身方向选择的咨询......
具身智能之心· 2025-12-17 08:05
行业研究方向与选择 - 具身智能领域当前的研究方向包括视觉语言导航、视觉语言操作、强化学习以及真实到仿真再到真实的闭环方法[1] - 对于从事同步定位与地图构建研究的从业者,视觉语言导航和视觉语言操作被视为较好的切入方向[1] - 拥有机械臂硬件的研究者适合展开视觉语言操作研究,而无硬件的研究者可利用仿真环境或低成本硬件平台进行实验[1] - 四足机器人和人形机器人更适合采用强化学习方法进行研究,而视觉语言操作的研究难度相对较高[1] 研究方法与资源 - 研究过程中,拥有优秀的创新想法至关重要,但新人研究者往往需要经历多次试错才能获得[1] - 行业存在多种低成本的科研平台可供选择,例如移动操作平台[1] - 仿真方法是解决预算有限问题的可行方案之一[1] 专业辅导服务内容 - 提供的论文辅导服务覆盖从CCF-A到CCF-C级别的会议,以及SCI一区到四区的期刊[2] - 服务范围包括EI、中文核心期刊论文、毕业论文以及博士申请辅导等[2] - 辅导团队由来自国内外名校的博士及头部企业研究员组成,具备在ICML、ICLR、CoRL、ICRA、NeurIPS、CVPR等顶级会议的投稿与审稿经验[2] - 辅导流程为全闭环服务,涵盖选题创新点挖掘、实验设计、代码调试、论文写作到投稿策略[2] - 辅导服务兼具工业界与学术界双重视角,不仅关注论文发表,也重视研究的落地价值[3] - 公司为前10名咨询者提供免费匹配专属导师的机会[5]
商汤科技与寒武纪实现多模态大模型Day 0成功适配 激发AI前沿应用创新活力
智通财经网· 2025-12-16 19:25
事件概述 - 寒武纪与商汤科技在“国产芯片+国产模型”协同发展上取得重要里程碑,寒武纪于“Day 0”成功适配商汤科技自研的日日新Seko系列多模态大模型 [1] - 此次适配是国产算力底座与国产大模型协同创新的重要实践,旨在降低多模态AI使用成本 [1][3] 技术合作与适配细节 - 寒武纪官方宣布在“Day 0”成功适配的模型仅有商汤科技的“日日新”和DeepSeek,Seko系列是行业内少数完成国产芯片适配的多模态模型系列 [1] - “Day 0”适配指在新模型发布的当天,寒武纪的芯片硬件即完成对模型的适配与支持,这是衡量国产芯片生态建设能力和技术响应速度的关键指标 [2] - 商汤科技在其LightX2V框架中设计了强兼容的国产化适配插件模式,可快速完成各类国产硬件的适配 [3] - Seko系列模型与LightX2V框架引入了低比特量化、压缩通信、稀疏注意力等硬件友好创新机制,已实现将推理性能提升3倍以上的显著效果 [3] 合作背景与战略意义 - 今年10月,寒武纪与商汤科技已达成战略合作,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态 [1] - 此次快速适配意味着国产AI生态圈已从语言模型全面延伸至更复杂、更具挑战性的多模态生成领域 [2] - 商汤的日日新Seko系列模型,包括SekoIDX、SekoTalk等图像与视频生成模型,构成了Seko2.0智能体的核心技术底座 [2] 未来合作方向与目标 - 适配完成后,双方的合作将进入更深化的优化阶段,未来将围绕多个方向展开联合攻关 [3] - 通过深入协同优化,旨在全面提升模型效率、显著增强算力与资源利用率并优化跨硬件环境的协同适配 [3] - 双方将共同推动国产AI应用生态的繁荣与发展,打磨更高效、更易用的阶梯式产品体系,并面向广大开发者构建更开放、友好的工具与生态 [1][3]
商汤科技(00020)与寒武纪(688256.SH)实现多模态大模型Day 0成功适配 激发AI前沿应用创新活力
智通财经网· 2025-12-16 19:22
核心观点 - 寒武纪与商汤科技在“国产芯片+国产模型”协同发展上取得重要里程碑 寒武纪在“Day 0”成功适配商汤科技最新发布的日日新Seko系列多模态大模型 标志着国产AI生态的响应速度和协同能力显著提升 [1][2] - 此次成功适配是国产算力底座与国产大模型协同创新的重要实践 旨在让更多开发者和企业能够以更低成本使用多模态AI能力 并共同推动国产AI应用生态的繁荣与发展 [1][3] 合作事件与里程碑 - 2023年12月15日 寒武纪宣布完成对商汤自研日日新Seko系列的适配 适配成功日期为“Day 0” [1] - 寒武纪官方曾宣布在“Day 0”成功适配的模型仅有商汤科技的“日日新”和DeepSeek [1] - 此次适配意味着国产AI生态圈已从语言模型全面延伸至更复杂、更具挑战性的多模态生成领域 [2] - 双方已于2023年10月达成战略合作 重点推进软硬件的联合优化 并共同构建开放共赢的产业生态 [1] 技术细节与产品 - 商汤科技的日日新Seko系列模型 包括SekoIDX、SekoTalk等图像与视频生成模型 构成了Seko2.0智能体的核心技术底座 [2] - 商汤科技在其LightX2V框架中设计了强兼容的国产化适配插件模式 可快速完成各类国产硬件的适配 [3] - Seko系列模型与LightX2V框架在设计之初引入了低比特量化、压缩通信、稀疏注意力等硬件友好创新机制 已实现将推理性能提升3倍以上的显著效果 [3] 合作意义与未来方向 - “Day 0”适配是衡量国产芯片对国产AI厂商生态建设能力和技术响应速度的关键指标 [2] - 此次适配体现了国内AI厂商之间齐心协力、合作紧密 [2] - 未来 双方将围绕多个方向展开联合攻关 通过深入协同优化 全面提升模型效率、显著增强算力与资源利用率并优化跨硬件环境的协同适配 [3] - 双方将共同打磨更高效、更易用的阶梯式产品体系 并面向广大开发者构建更开放、友好的工具与生态 激发前沿应用的创新活力 [1][3]
商汤全面出击,冲在“AI 国产化”第一线
远川研究所· 2025-12-15 21:08
文章核心观点 - 中国AI产业正展现出从底层算力到上层模型实现全国产自主可控的能力与决心,市场对此反应积极[2] - 实现系统性AI国产化需要模型、算力、应用等全栈技术的自主创新与协同,而不仅是单点突破[3][11] - 商汤科技作为AI Native公司,通过前瞻性布局和系统性实践,正引领从国产算力适配、原生多模态架构创新到应用落地的全链条AI国产化进程[5][11][19] 国产AI算力突破与生态构建 - 摩尔线程作为“国产GPU第一股”上市,首日股价暴涨超400%,五天后市值飙升至约4500亿元,较发行市值增长超7倍,市场看好中国科技自主创新[2] - 商汤科技自2020年起前瞻性投入AI大装置,并积极推动其模型与寒武纪、摩尔线程、沐曦、华为、璧仞等几乎所有国产芯片进行全面适配,打造自主可控护城河[5][6][9] - 商汤与寒武纪联合发布深度优化方案,其日日新Seko系列多模态生成模型已完成对寒武纪芯片的适配,未来国产芯片将能支持实时视频生成[6][8] - 商汤与摩尔线程合作,使国产GPU首次在千亿参数级大模型训练与推理任务中接受工业级标准考验[9] - 商汤完成与华为昇腾910C 384超节点的全面适配,解决了大模型训练中的算力协同与通信效率问题[10] - 商汤联合十余家国产芯片生态伙伴发布“商汤大装置算力Mall”,为客户提供经过验证的高性能国产芯片,降低使用门槛和成本[10] 多模态模型架构与技术创新 - 商汤发布并开源自主研发的多模态模型架构NEO,作为其日日新大模型的新架构基石,旨在突破以语言为中心的传统多模态架构限制[16] - NEO架构仅需业界同等性能模型1/10的数据量(3.9亿图像文本样本),就能开发出顶尖视觉感知能力,在多项公开权威评测中斩获高分[17] - 商汤通过多阶段早期融合等技术,将多模态模型性价比提升3倍[16] - 商汤在空间智能模型SenseNova-SI上表现优异,超过了GPT-5、Gemini-3 Pro及专用模型Cambrian-S[17] - 商汤开源的实时视频生成推理框架LightX2V,累计下载超350万次,设计了强兼容的国产化适配插件模式,可快速完成各类国产硬件适配[17][18] 应用落地与成本效率突破 - 传统AI短剧生成1分钟高质量视频需1小时八卡英伟达最新GPU计算,成本高难以大规模落地,传统开源模型每小时仅生成20秒视频[18][19] - 商汤开发的实时语音驱动数字人技术SekoTalk,生成同等质量视频,一小时计算可生成1280秒,经优化后使用消费级5090显卡一小时生成时长可达4500秒,效率大幅提升[19] - 商汤的Seko、小浣熊等产品将全面支持国产化,国产硬件与AI模型的深度融合将为信创、数据安全及本地化部署提供自主可控的关键解法[19] AI国产化的系统化路径 - AI国产化需从算力到模型、再到应用的全国产化,是兼具技术实践与前瞻洞察的系统性工程[11] - 商汤“AI国产化”战略的关键在于模型底层架构创新与产品落地,进行了从底层算力适配、中间模型算法创新到上层应用部署的系统性全面布局[13][19] - 商汤作为少数既有心又有力的AI上市企业,正通过推动原始底层创新并联合行业生态力量,引领AI国产化进程[11][19]
基于Qwen3-VL的自动驾驶场景实测......
自动驾驶之心· 2025-12-12 15:35
文章核心观点 - 阿里通义最新的Qwen3-VL多模态大模型在自动驾驶场景的实测中表现卓越,展现出强大的通用视觉语言基础能力,能够在未经专门自动驾驶指令微调的情况下,对复杂交通场景做出合理、连贯且带有安全意识的判断,这为通用视觉语言模型在垂直领域落地提供了更多可能性 [2][82] 场景理解和空间推理 - 模型能够准确描述图片中的场景,包括天气状况、道路类型以及是否存在行人或车辆等基础感知任务 [7][8][9][10][14][16][17] - 模型具备深度的空间推理能力,能够判断距离自车最近的车辆、前方车辆的移动状态、旁边车辆的变道意图、前方车辆的数量与位置、自车所在车道以及车道线数量 [20][21][24] - 模型能够识别交通信号灯及其颜色 [25] 行为决策和因果推理 - 模型能够基于当前情况,为自车提供加速、减速或保持速度的行为决策建议 [28] - 模型能够识别图像中最大的潜在危险 [29] - 模型能够准确识别并解释多个交通标志(如黄色弯道警告标志、绿色ETC指示标志、F200里程牌),并说明相应的应对措施,强调安全驾驶原则 [30][31][32][33] - 模型能够判断在特定场景下是否应该变道并解释原因 [35] - 模型能够根据交通参与者的动态状态、距离和潜在风险,对其危险程度进行从高到低的排序 [37][39][40][41][42] - 模型能够解释旁边车辆“闪灯”的现象,指出其实际是夜间正常开启的大灯,并分析了可能的误解来源 [43][44][45][46] - 模型能够针对安全超车提供详细指导,但在实测的特定夜间场景中,基于对向来车、能见度低、道路条件等因素,强烈不建议尝试超车 [47][48][49] 时序理解与动态变化 - 模型能够分析多帧图像序列,判断前方车辆的相对速度是在增加还是减少,并结合交通场景(如出现拥堵排队)进行逻辑推断 [51][52][53][54][55][56] - 模型能够解释交通流从畅通到拥堵的演变过程,阐述其典型阶段,并分析最初可能引发拥堵的局部扰动事件(如前方车辆突发减速、道路瓶颈、外部干扰) [57][58][59][60] - 基于对拥堵场景的分析,模型明确指出在车辆紧密排队、道路条件禁止的情况下,超车极不安全,并列举了核心风险点 [61][62][63][64][65][66] - 在动态场景中,模型能判断哪个交通参与者的行为最危险 [69] - 模型能够模拟复杂突发事件的演变过程,例如旁边停靠车辆突然爆胎后,在隧道场景中可能引发的一系列连锁反应 [71][72][73][74][75] 测试亮点与总结 - Qwen3-VL展现了精准的场景理解、深度的空间推理、动态行为预测、突出的安全意识以及多帧时序理解等多项能力 [81] - 该模型的表现显示出,未来基于通用大模型的自动驾驶系统可能通过“常识推理+多模态理解”的方式,实现更高效、泛化和可信的驾驶决策,减少对海量场景数据反复打磨的依赖 [82]