Workflow
SenseNova V6
icon
搜索文档
大模型“上海队”进入丰产阶段(神州看点) 生成的“猫跳水”视频一周获三亿播放量
人民日报· 2025-07-03 08:10
公司技术突破 - 公司推出全球首个开源大规模混合架构推理模型MiniMax-M1 在权威评测中位列全球开源模型第二 [1] - 模型支持100万token上下文输入 可处理整本英文版《三体》 性能媲美谷歌Gemini2.5Pro [2] - 视频生成模型Hailuo 02生成的"猫跳水"视频在海外社交平台获3亿播放量 [1] - Hailuo 02在复杂动作表现上优于谷歌Veo3 开创"动物奥运会"AI视频新品类 [3][4] 研发与成本优势 - M1强化学习阶段仅花费53.5万美元 远低于行业千万美元级投入 [2] - 采用"稀疏激活"MoE架构 节省计算开销 与行业主流稠密架构形成差异化 [8] - 组建导演、编剧、美术复合团队打磨Hailuo 02 要求达到电影质感和5%影视应用比例 [5] 产品落地与市场表现 - 视频生成应用Hailuo AI已服务200个国家和地区 累计生成3.7亿个视频 [6] - 公司坚持技术驱动路线 认为好模型是产品落地的核心驱动力 [6] - 作为国内少数坚持基座模型研发的创业公司 在行业收缩期保持研发投入 [7] 行业地位与政策环境 - 公司入选大模型"上海队" 与商汤、书生·浦语等共同构成区域AI产业生态 [9] - 上海提出2025年建成世界级AI产业生态 规划建设多个大模型创新孵化器 [9] - 公司早在2022年底ChatGPT爆火前就已布局AGI 展现前瞻性技术路线选择 [1]
中金 | AI智道(9):多模态推理技术突破,向车端场景延伸
中金点睛· 2025-06-03 07:45
多模态推理技术进展 - 2025年3月Google发布Gemini 2.5模型,原生支持文本、图像、音频、视频、代码库等多模态输入,并在LMArena排行榜超越GPT-4.5和Claude 3.7 [1][2] - 2025年4月阶跃星辰发布多模态推理模型Step-R1-V-Mini,商汤发布SenseNova V6模型,后者实现10分钟长视频理解能力 [2] - 2025年5月MiniMax开源视觉RL统一框架V-Triune,使VLM掌握视觉推理和感知的统一能力 [2] 技术架构创新 - MiniMax V-Triune框架采用三层组件架构:多模态样本数据格式化、异步客户端-服务器架构的验证器奖励计算、数据源级指标监控 [3] - 通过动态IoU奖励机制和冻结ViT参数等优化,Orsta 32B模型在MEGA-Bench Core基准测试性能提升14.1% [3][6] - 商汤SenseNova V6采用多模态长思维链构建、多模态强化学习和多模态全局记忆技术创新 [2] 智能驾驶应用 - 蔚来NVM世界模型具备全量理解、想象重构和推理能力,在ETC车道通行和停车场寻路等场景性能显著提升 [3][7] - 理想自研VLA大模型通过多模态推理模拟人类驾驶员思维运作方式 [3] - 多模态推理技术可增强道路交通标志识别判断能力,提升复杂场景泛化性 [3] 性能对比 - Orsta 7B模型在MEGA-Bench Core测试中相比骨干模型提升3.2个百分点 [6] - Orsta 32B模型在知识、数学、感知等多项指标上实现5.9-20.2个百分点的提升 [6] - 在32B+模型对比中,Orsta 32B-0326版本相比骨干模型在核心指标提升2.1个百分点 [6]
商汤-TechNet China 2025_推出基础模型,拓展人工智能驱动的应用场景
2025-06-02 23:44
27 May 2025 | 7:19AM HKT TechNet China 2025: SenseTime (0020.HK) Foundation model introduced; expanding AI-powered user case We hosted SenseTime's management on May 21 at our TechNet Conference China 2025 in Shanghai. Management remains positive on the generative AI trend in China, and highlights their newly launched foundation model, SenseNova V6, carrying upgraded features with competitive costs across training and inferencing. The company also newly signed a MOU with the Faculty of Law at the Chinese Uni ...
TechNet中国2025:商汤科技(0020.HK)推出基础模型;拓展AI驱动的用户案例
高盛· 2025-05-28 13:15
报告公司投资评级 - 报告对AMEC、Cambricon、Huaqin Technology、SMIC(A)、SMIC(H)和VeriSilicon的评级为Buy [14] 报告的核心观点 - 报告公司管理层对中国生成式AI趋势持积极态度,推出的SenseNova V6基础模型功能升级且成本有竞争力,还与香港中文大学法学院签署谅解备忘录探索AI应用案例 [1] - 公司管理层对生成式AI的积极态度与报告对中国AI供应链的积极看法相呼应,预计中国即将到来的推理趋势将使AI供应链受益 [2] 公司概况 - SenseTime是领先的AI软件公司,提供通用多模态和多任务模型的AI能力,涵盖感知智能、自然语言处理等关键领域,其SenseCore整合计算能力、算法和平台,生成“SenseNova”基础模型集和研发系统 [3] 关键要点 AI应用案例拓展 - SenseTime与香港中文大学法学院签署谅解备忘录,通过AI增强法律信息可及性,推动香港法律信息提供和整个行业的数字化转型 [4][6] 基础模型SenseNova V6 - 公司4月推出的SenseNova V6具有多模态推理能力,在训练和推理方面具有成本效益,具备长思维链、有竞争力的多模态推理能力和数据分析性能,能实现长视频理解,支持10分钟长度内容的理解和深度推理,应用场景包括角色扮演、翻译阅读等 [7]
综述|全球人工智能模型又添“新成员”
新华社· 2025-05-25 12:19
大语言模型进展 - Anthropic公司推出"克劳德4"系列两款新模型Opus 4和Sonnet 4 其中Opus 4是行业领先的编程模型 Sonnet 4在3 7版本基础上显著升级具备更强指令理解能力与推理编程表现 [1] - OpenAI发布GPT-4 1系列模型 在编程和指令理解方面表现突出 显著提升长文本处理能力 具备更高性价比 同时推出o3和o4 mini两款推理模型 o3在编程数学科学视觉感知等领域实现突破 o4 mini在数学编程和视觉任务方面表现出色适用于快速且成本效益高的推理 [3] - 商汤科技推出"日日新SenseNova V6"大模型体系 通过多模态长思维链训练全局记忆强化学习等技术突破 形成领先的多模态推理能力并突破成本边界 [3] 多模态模型发展 - 谷歌推出"双子座2 5"系列大语言模型 整体性能和智能推理能力较以往版本大幅提升 同时发布图像生成模型Imagen 4视频生成模型Veo 3音乐生成模型Lyria 2以及AI电影制作工具Flow 这些模型具备从文本等多种输入形式生成高质量视觉内容的能力 [2] - OpenAI的o3模型在图像图表等视觉任务上表现突出 具备严谨的分析能力和批判式思维 [3] 智能体技术突破 - 谷歌发布进化式编程智能体AlphaEvolve 由大语言模型驱动 能演化整个代码库并开发复杂算法 在超过50个数学难题测试中 75%案例重新发现最优解 20%案例提出更优方案 未来有望在材料科学药物发现可持续发展等领域发挥变革性作用 [2] - Anthropic的Opus 4模型能够高效完成复杂且持续时间长的任务 [1]
AI终端深圳“秀肌肉”:AI现场批改作业,机器人能文能武
南方都市报· 2025-05-23 16:14
展会概况 - 2025全球人工智能终端展在深圳开幕,主题为"智联万物·端启未来",来自15个国家和地区的300多家企业参展,展示AI终端从硬件形态到软硬一体化的落地成果 [1] - 深圳发布两只产业基金,总规模达70亿元,瞄准AI手机、人形机器人、大模型一体机等新型终端产品 [1] - 展会集中呈现AI眼镜、教育大模型、人形机器人等产品,构建"端侧智能"时代的人机协作雏形 [1] AI眼镜技术突破 - TCL雷鸟展出AR智能眼镜雷鸟X3 Pro,整机重量76克,搭载全彩MicroLED光波导技术,光引擎体积0.36cc较上一代缩小40% [2] - X3 Pro采用表面浮雕光栅刻蚀光波导,峰值亮度5000nits,抑制95%彩虹纹,强光下显示清晰 [3] - 雷鸟AI/AR眼镜连续三年市场份额第一,2025年一季度市占率超50% [3] AI教育应用 - 商汤SenseNova V6系列大模型实现"拍照识别-错误定位-分步讲解-语音反馈"全流程批改,数学解题正确率达95% [4][5] - V6 Omni版本强调端侧部署与实时互动能力,在教育场景中具备即时响应与情感表达能力 [5] - 教育场景因结构化数据多、需求刚性,被视为大模型规模化落地的高频领域 [6] 人形机器人发展 - 帕西尼人形机器人TORA-ONE展示灵巧操作能力,其DexH13灵巧手集成1140个触觉传感单元,可感知15种信息 [7] - 深圳机器人产业2024年总产值突破2000亿元,同比增长12.58%,2025年一季度工业机器人产量增长40.1% [7][9] - 深圳形成从设计到市场化测试的全链条机器人生态,"机器人谷"汇聚产业链企业 [8] 深圳AI产业生态 - 深圳设立两只AI产业基金(20亿+50亿),分别聚焦算法模型/机器人关键部件和AI终端产品 [8] - 深圳已汇聚超2600家AI企业,2024年智能终端产业集群增加值达2045.54亿元,同比增长9.9% [9] - 深圳机器人产业链2024年总产值2012亿元,相关企业7.4万家占全国16.39% [9]
上海点亮AI“北斗七星” 群星闪耀浦江西岸
第一财经· 2025-05-14 18:01
人工智能产业集群发展 - 上海市徐汇区以模速空间为核心打造千亿级人工智能产业集群,形成"技术研发—场景落地—产业协同"闭环生态 [2][4] - "北斗七星"矩阵包括稀宇极智、商汤科技、阶跃星辰、无问芯穹、星纪魅族、特赞科技和斑马智行七家龙头企业 [4] - 秘塔科技、无限光年等大模型生态企业形成"群星闪耀"格局,共同构建完整产业链 [4][19] 核心企业技术突破 - 商汤科技发布日日新SenseNova V6大模型体系,多模态推理能力对标OpenAI o1,数据分析能力大幅领先GPT-4o [7] - 稀宇极智(MiniMax)多模态大模型支持400万Token上下文,是GPT-4o的32倍,已服务全球超5万家企业与开发者 [7][8] - 无问芯穹实现6种不同品牌芯片交叉混合训练,算力利用率达97.6%,支持700亿参数大模型训练 [9] 应用场景落地 - 阶跃星辰与吉利汽车、OPPO等厂商合作,在汽车、手机等领域打造AI Agent标杆应用 [9] - 斑马智行与宝马、奥迪等车企合作开发智能座舱 [11] - 特赞科技为医药、汽车等行业提供生成式AI内容生产全链路解决方案 [12] 算力基础设施 - 上海电信建成临港智算谷1.2期和青浦云湖数据中心,形成"东西两翼"智算中心格局 [15] - 模速空间公共算力调度平台整合电信、联通、华为等供应商资源,企业算力成本降低60% [15][16] - 上海电信"一跳入算"服务实现万兆光网1ms超低时延,提供GPU云主机等基础设施 [17] 产业生态构建 - 模速空间汇聚算力层、数据层、模型层、应用层超百家企业,形成"上下楼就是上下游"生态 [19] - 2025年上半年模速空间计划扩展至10万平方公里,加速全球级AI孵化生态建设 [19]
中金公司 AI产业动态更新:Agent密集发布、MCP生态快速繁荣
中金· 2025-04-22 12:46
报告行业投资评级 未提及 报告的核心观点 - 近期主要厂商在AI模型和应用方面多次更新,MCP可能推动人工智能技术发展,视频理解和推理技术取得进展,AI代理竞争集中在基础模型和工具调用能力 [1][2][4] - 投资者可关注MCP或AI代理的调用方和技术供应商领域,MCP架构对企业级平台选型重要,未来AI应用需支持该架构 [47][51] 各部分总结 主要厂商模型和应用更新 - OpenAI发布4.5版本、O3和O4 mini系列模型,Sora更新文生图功能,结合图片推理能力,内置联网搜索等功能 [1][2][7] - 谷歌在Google Cloud Next大会推出Gemini 2.5系列推理模型,有Hybrid reasoning能力,推出agent - to - agent协议,更新视频等生成及图片编辑功能,与Google Workspace深度集成 [1][2][8] - Meta发布LLAMA4,有三个版本,Maverick版本表现不错但有争议,具强大工具调用能力、高速度及性价比 [1][3][10] - 商汤科技发布SenseNova V6系列模型,有超长思维链,支持图文多模态推理能力,与多家公司形成竞争 [1][3][11] - 字节跳动低调发布V1.5模型,补齐长推理模型短板,开源agent类模型,有自动化操作网页任务能力 [13] - 智谱科技产品GL牛牛融合代码执行与网页操作能力,与三星、OPPO合作 [14] - 百度更新云擎多模态深度学习模型,发布新推理模型,计划下半年加强;接阅科技全面升级多个模型;Minimax开源Minimax 01模型,采用现代化架构 [15] - 快手更新多模态模型权限;腾讯发布Hybrid Llama亚洲语言模型会员Turbo S模型和常思考的T1模型,推出知识广场IMA [18] MCP相关情况 - MCP是多代理协作平台,强调代理间高效合作与信息共享,可能推动人工智能技术发展 [2][4] - MCP产业链包含客户端、服务器端和Marketplace聚合平台,Marketplace有商业化潜力 [21] - MCP协议是大模型与外部应用桥梁,降低开发成本,实现标准化和统一化通过MCP Server开发 [19][20][23] - MCP客户端与服务器端交互流程为客户端请求工具列表,服务器端返回信息,客户端匹配需求并让服务器执行命令,最终结果返回给用户 [25] - MCP未来格局:客户端是流量入口;服务器端短期内百花齐放,长期可能集中;Marketplace商业化潜力高,会衍生更多商业化思路 [27][28] Agent相关情况 - 主要Agent产品有Menas、Jinspark、Oracle Flowis等,可完成复杂任务,GUI Agent在企业级客户场景准确率高,阿里巴巴计划推出Visual Agent [32] - Agent技术有潜力但距广泛可用有距离,结合多模态模型与GUI agent有望有更好效果,大厂开发面向C端通用agent [33] - AI agent发展历程可追溯到cloud,现阶段模型产品形态趋同,未来沿用类似思路 [35] - 字节跳动技术路线依赖代码,对CPU使用不多,与Manas有区别 [36] - AI agent支持调用私域和公域工具,探索模式比规划模式更适合使用 [37][38] - AI agent制作PPT流程包括找材料等,但排版和美观度不如专业应用,且有幻觉问题;通过调用代码生成Markdown文件展示研究结果 [39][40] - AI代理核心组成部分有基础模型、记忆、规划能力和工具,未来竞争集中在基础模型和工具调用能力 [44][46] 应用场景及效果 - 视频理解和推理技术实现10分钟超长视频理解和推理,预计未来6 - 12个月能处理一小时视频,应用于电竞、体育等多领域 [12] - MCP工具可安排行程,平台在任务规划和执行方面表现出色,但代码类任务表现不佳 [41][42][43] - 初创公司Kyligence展示数据分析应用案例,逐层分析销售数据可定位问题并采取措施 [53][54] - 某上市公司用AI助手提升合规税优服务效率,完成服务时长降低72%,业务几何级增长 [55][56] - AI技术在跨境物流定价、法律文件发送、劳务仲裁等细分场景有商业价值 [57] 其他情况 - ToC的agent通常指大型企业,ToB的agent包括鼎捷等公司,未来会调用其他公司能力 [48] - 被调用方将公有API能力分装,短期内难通过MCP盈利,未来变现方式待讨论 [50] - 通用agent可自主拆解任务但稳定性差,workflow agent按预定步骤执行任务,稳定性高,2025 - 2026年应关注workflow agent [52] - MCP平台ranking机制通过手动操作实现,已形成商业化路径 [58]
AI动态汇总:MetaLIama4开源,openAI启动先锋计划
中邮证券· 2025-04-15 18:50
根据提供的研报内容,该报告主要聚焦于AI领域的技术进展和行业动态,并未涉及量化模型或量化因子的相关内容。因此,无法按照要求总结量化模型或量化因子的构建、测试结果等信息。 报告主要内容包括: 1. AI重点要闻部分介绍了Meta Llama 4系列模型的开源情况、OpenAI的先锋计划、华人团队关于大模型幻觉问题的研究成果,以及豆包团队开源的Multi-SWE-bench代码修复基准[10][11][12][19][23][31][32] 2. 企业动态部分报道了商汤日日新SenseNova V6模型、亚马逊Nova Sonic语音模型、谷歌Gemini 2.5 Flash模型的发布情况,以及日本AI初创公司使用AI挑战东京大学入学考试的结果[36][37][39][40][41][42] 3. 技术前沿部分介绍了中国科学技术大学提出的KG-SFT框架和UC Berkeley团队开源的DeepCoder-14B-Preview代码推理模型[45][47][48][49][50][51][53][55][58][59][61][62][64][66][67] 报告未包含任何与量化投资、量化模型或量化因子相关的内容,因此无法提供相关总结。
540亿商汤,甩出一张新牌
21世纪经济报道· 2025-04-15 10:35
商汤科技发布日日新V6大模型 - 公司正式发布全新升级的"日日新SenseNova V6"大模型体系 以"多模态"为关键词 是今年AI产业的重头戏 [2] - 日日新V6是拥有超6000亿参数的MoE原生多模态通用大模型 凭借单一模型可完成文本、多模态等各类任务 [2] - 公司从去年5、6月开始探索多模态 9、10月技术路线基本跑通 专注多模态推理而非纯文本赛道竞争 [2] 技术能力突破 - 长思维链:超过200B高质量多模态长思维链数据 最长64K思维链 [3] - 数理能力:数据分析能力大幅领先GPT-4o [3] - 推理能力:多模态深度推理国内第一 对标OpenAI o1 [3] - 全局记忆:率先在国内突破长视频理解 支持10分钟视频理解及深度推理 计划2025年实现1小时视频理解 [3][4] 战略布局 - 公司提出"大装置-大模型-应用"三位一体战略 聚焦主业 边缘业务以生态方式孵化 [4] - 目标成为"最懂算力的大模型服务商"和"最懂大模型的算力服务商" 打造端到端竞争力 [4] - 截至4月14日收盘 公司市值超540亿港元 [4] 应用方向 - 提供生产力工具 切入金融、政务、企业等高价值业务环境 提升效率、优化流程、改善体验 [5] - 提供交互工具 包括智能陪伴、智能硬件交互、智能营销等 改善人机交互体验 增强用户粘性 [5] 行业趋势 - 开源模型与工具渐成主流 [5] - 性价比是所有大模型应用的生死线 [5] - 多模态成为最新技术焦点 将打开更多新应用场景和新硬件形态 [5]