日日新SenseNova V6
搜索文档
大模型“上海队”进入丰产阶段(神州看点) 生成的“猫跳水”视频一周获三亿播放量
人民日报· 2025-07-03 08:10
公司技术突破 - 公司推出全球首个开源大规模混合架构推理模型MiniMax-M1 在权威评测中位列全球开源模型第二 [1] - 模型支持100万token上下文输入 可处理整本英文版《三体》 性能媲美谷歌Gemini2.5Pro [2] - 视频生成模型Hailuo 02生成的"猫跳水"视频在海外社交平台获3亿播放量 [1] - Hailuo 02在复杂动作表现上优于谷歌Veo3 开创"动物奥运会"AI视频新品类 [3][4] 研发与成本优势 - M1强化学习阶段仅花费53.5万美元 远低于行业千万美元级投入 [2] - 采用"稀疏激活"MoE架构 节省计算开销 与行业主流稠密架构形成差异化 [8] - 组建导演、编剧、美术复合团队打磨Hailuo 02 要求达到电影质感和5%影视应用比例 [5] 产品落地与市场表现 - 视频生成应用Hailuo AI已服务200个国家和地区 累计生成3.7亿个视频 [6] - 公司坚持技术驱动路线 认为好模型是产品落地的核心驱动力 [6] - 作为国内少数坚持基座模型研发的创业公司 在行业收缩期保持研发投入 [7] 行业地位与政策环境 - 公司入选大模型"上海队" 与商汤、书生·浦语等共同构成区域AI产业生态 [9] - 上海提出2025年建成世界级AI产业生态 规划建设多个大模型创新孵化器 [9] - 公司早在2022年底ChatGPT爆火前就已布局AGI 展现前瞻性技术路线选择 [1]
综述|全球人工智能模型又添“新成员”
新华社· 2025-05-25 12:19
大语言模型进展 - Anthropic公司推出"克劳德4"系列两款新模型Opus 4和Sonnet 4 其中Opus 4是行业领先的编程模型 Sonnet 4在3 7版本基础上显著升级具备更强指令理解能力与推理编程表现 [1] - OpenAI发布GPT-4 1系列模型 在编程和指令理解方面表现突出 显著提升长文本处理能力 具备更高性价比 同时推出o3和o4 mini两款推理模型 o3在编程数学科学视觉感知等领域实现突破 o4 mini在数学编程和视觉任务方面表现出色适用于快速且成本效益高的推理 [3] - 商汤科技推出"日日新SenseNova V6"大模型体系 通过多模态长思维链训练全局记忆强化学习等技术突破 形成领先的多模态推理能力并突破成本边界 [3] 多模态模型发展 - 谷歌推出"双子座2 5"系列大语言模型 整体性能和智能推理能力较以往版本大幅提升 同时发布图像生成模型Imagen 4视频生成模型Veo 3音乐生成模型Lyria 2以及AI电影制作工具Flow 这些模型具备从文本等多种输入形式生成高质量视觉内容的能力 [2] - OpenAI的o3模型在图像图表等视觉任务上表现突出 具备严谨的分析能力和批判式思维 [3] 智能体技术突破 - 谷歌发布进化式编程智能体AlphaEvolve 由大语言模型驱动 能演化整个代码库并开发复杂算法 在超过50个数学难题测试中 75%案例重新发现最优解 20%案例提出更优方案 未来有望在材料科学药物发现可持续发展等领域发挥变革性作用 [2] - Anthropic的Opus 4模型能够高效完成复杂且持续时间长的任务 [1]
当科技巨头押注“多模态”,谁能为AI落地找到终极答案
21世纪经济报道· 2025-04-15 21:07
多模态大模型成为AI 2.0时代核心发展趋势 - 行业共识认为多模态是AI发展的必然趋势,通过整合文本、图像、音频、视频等多种信息模态,实现更接近人类认知方式的复杂信息处理能力 [1][5] - AI大模型竞争焦点正从技术参数转向应用深度,核心竞争力体现在能否理解人类情感、记忆交互上下文,并在教育、医疗、工业等场景中提供“好用”的解决方案 [2] - 国际科技巨头正加速布局,谷歌Gemini 2.0、OpenAI的GPT-4.5、Meta的Llama 4等新品均在显著提升原生多模态能力 [2][4] 多模态发展的驱动因素与挑战 - 数据成为发展关键驱动力,据Epoch AI预测,到2028年互联网上所有高质量文本数据将被使用完毕,高质量语言数据可能在2026年前耗尽,多模态数据(图像、视频、3D)成为新的知识来源 [3] - 多模态模型训练面临挑战,其计算架构比纯文本模型更复杂,需要额外处理视频和图像数据的编码,并涉及不同模态编码方式的协调,训练需要大量计算资源且时间长、效率低 [3] - 技术快速迭代,单纯技术难以形成长久壁垒,新的模型发布后很快会有追赶者,开源会缩小技术差距,技术与行业的深度结合才能形成持久壁垒 [7] 商汤科技的战略布局与业务进展 - 公司发布“日日新SenseNova V6”多模态大模型体系,涵盖通用模型、推理模型、视频理解模型及全模态交互模型,是其技术转型的阶段性成果 [1][6] - 公司已确立“大装置-大模型-应用”三位一体核心战略,以日日新多模态大模型为基石,以生产力工具和交互工具为两大落地方向 [6] - 生成式AI业务已成为公司核心增长引擎,2024年全年生成式AI收入突破24.0亿元人民币,同比增长103.1%,占集团收入比例从2023年的34.8%提升至63.7% [6] 多模态大模型的关键能力与价值 - 大模型在商业应用上的关键价值在于:一是融入真实业务应用,具备处理复杂信息和解决复杂问题的能力;二是以更有亲和力的方式与人交互,提供良好体验 [7] - 实现上述价值需要模型具备强大的推理能力、情感理解与共情能力、实时互动能力以及记忆与关键信息捕捉能力 [7] - 多模态与推理能力的紧密结合是实现更广泛场景落地的关键,目前业界关注点多在纯文本推理,但未来需结合多模态 [1] 行业落地应用与未来方向 - 多模态是AI走向线下和物理现实的必然趋势,是多样行业落地的必备因素,未来的交互将是多模态全模态的交互 [6] - 落地应用在具身智能、教学等场景上有所突破,行业将从特定场景出发进行初步迭代,下游企业和合作伙伴将衍生出更多应用创意 [7] - 行业下半场的胜负取决于谁能更深入产业,构建“数据飞轮”和场景黏性,大模型企业开始专注于技术落地和应用的爆发 [7][9]
540亿商汤,甩出一张新牌
21世纪经济报道· 2025-04-15 10:35
商汤科技发布日日新V6大模型 - 公司正式发布全新升级的"日日新SenseNova V6"大模型体系 以"多模态"为关键词 是今年AI产业的重头戏 [2] - 日日新V6是拥有超6000亿参数的MoE原生多模态通用大模型 凭借单一模型可完成文本、多模态等各类任务 [2] - 公司从去年5、6月开始探索多模态 9、10月技术路线基本跑通 专注多模态推理而非纯文本赛道竞争 [2] 技术能力突破 - 长思维链:超过200B高质量多模态长思维链数据 最长64K思维链 [3] - 数理能力:数据分析能力大幅领先GPT-4o [3] - 推理能力:多模态深度推理国内第一 对标OpenAI o1 [3] - 全局记忆:率先在国内突破长视频理解 支持10分钟视频理解及深度推理 计划2025年实现1小时视频理解 [3][4] 战略布局 - 公司提出"大装置-大模型-应用"三位一体战略 聚焦主业 边缘业务以生态方式孵化 [4] - 目标成为"最懂算力的大模型服务商"和"最懂大模型的算力服务商" 打造端到端竞争力 [4] - 截至4月14日收盘 公司市值超540亿港元 [4] 应用方向 - 提供生产力工具 切入金融、政务、企业等高价值业务环境 提升效率、优化流程、改善体验 [5] - 提供交互工具 包括智能陪伴、智能硬件交互、智能营销等 改善人机交互体验 增强用户粘性 [5] 行业趋势 - 开源模型与工具渐成主流 [5] - 性价比是所有大模型应用的生死线 [5] - 多模态成为最新技术焦点 将打开更多新应用场景和新硬件形态 [5]
极端大风!美团、饿了么紧急提醒丨大公司动态
第一财经· 2025-04-11 22:53
外卖行业应对极端天气 - 美团向北京区域骑手发布大风天气预警,提醒防风慢行,可免费使用外卖柜并提供恶劣天气补贴 [3] - 饿了么成立"安全生产"专项小组,启动特殊天气应急机制,在确保安全前提下保障民生需求 [3] 零售与电商动态 - 盒马面向外贸企业开放24小时绿色入驻通道,提供物流供应链支持并计划上线"外贸专区" [3] - 淘宝生活服务和游戏娱乐赛道用户规模突破1亿,GMV超千亿,未来将持续加大投入 [6] 互联网与科技 - 微信PC端更新支持发表朋友圈、接收单聊转账等功能 [5] - 商汤科技推出"日日新V6"大模型,支持10分钟中长视频深度解析 [7] - 阿里云发布国内首个云电脑MCP服务"无影AgentBay",支持云端生成Agent运行环境 [8] - ChatGPT推出记忆功能升级,可调用历史对话内容 [7] 游戏与娱乐 - 字节跳动否认游戏业务独立上市计划 [4][5] - 字节跳动数据平台团队拆分传闻被澄清为假消息 [7] 消费与家电 - 国内品牌金饰价格突破1000元/克,周六福足金999.9零售价达1010元/克 [8] - 美的集团美国市场收入占比很低,2025年将重点突破海外市场 [8] - 海尔卡奥斯生态科技注册资本增至5.5亿元,增幅1000% [9][10] 汽车行业 - 蔚来否认换电站被宁德时代收购传闻 [12] - 蔚来上线一键上报黑公关功能,打击侵权行为 [12] - 理想MEGA两款新车型开启预订,售价52.98万元起 [15] - 上汽与华为合作的"尚界"新车最快年中亮相 [16] - 特斯拉CyberTruck长续航版本在美上市,起售价69990美元 [17] 金融与投资 - 国泰海通完成合并重组并在A股上市 [19] - 摩根士丹利2025年Q1净营收177.39亿美元,净利润43.15亿美元 [21] - 富国银行2025年Q1营收201.49亿美元,净利润48.94亿美元 [22] 医药与健康 - 中国生物首款带状疱疹mRNA疫苗获批临床 [23][24] - 复星医药拟转让上海复健55%股权,持股比例降至45% [25] 新能源与化工 - 隆基绿能HIBC硅电池转换效率达27.81%,创世界纪录 [27] - 宁德时代H股发行申请获香港联交所审阅 [28] - 巴斯夫表示关税政策对其直接影响有限 [18][19] 企业动态 - 宗馥莉接任重庆娃哈哈昌盛饮料公司董事 [11] - 北京宝格丽酒店回应甜品发霉事件,涉事产品已送检 [12] - 长安汽车预计2025年Q1净利润同比增长12.26%-20.89% [16] - 长安汽车董事长表示汽车央企重组方案已基本完成 [17]
刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理
量子位· 2025-04-10 21:25
核心观点 - 商汤最新发布的日日新SenseNova V6模型在纯文本和多模态任务中多项指标超越GPT-4.5、Gemini 2.0 Pro及DeepSeek V3,具备强推理、强交互和长记忆三大特点[4][6][8] - 该模型采用6000亿参数MoE架构,实现文本、图像和视频的原生融合,并支持秒级视频解析、自动剪辑、实时音视频交互等实用功能[4][10][13] - 技术突破包括原生多模态融合训练、64K tokens长思维链合成、混合增强学习及长视频动态压缩四大核心技术[26][30][36][41] - 商汤强调AI应服务于日常生活场景,如数学辅导、游戏解说、城市识别等,体现"百姓日用"的产品定位[18][19][48][56] 性能表现 - 纯文本任务:MMLU-Pro得分78.66(GPT-4.5为78.63)、BigBench Hard 94.98(GPT-4.5为94.45)、DROP 92.28(GPT-4.5为90.30)[6] - 多模态任务:MMBench(v1.1) 89.40(GPT-4.5为83.40)、MMVet 85.92(GPT-4.5为75.30)、Math Vista 79.40(GPT-4.5为70.50)[6] - 推理能力:V6 Reasoner在MATH-500达到97.40分(OpenAI o1为97.00)、AIME 2024 78.33分(GPT-4.5*仅38.75)[6] 技术架构 - 原生多模态融合:通过桥接技术避免模态间能力失衡,在SuperCLUE和OpenCompass评测中位列国内第一[26][29] - 长思维链合成:支持64K tokens(约5万字)深度思考,储备超1000万条思维链数据用于复杂推理[30][32] - 混合增强学习:结合RLHF与RFT训练方法,平衡逻辑严谨性与情感表达自然度[36][38] - 长视频处理:10分钟视频可压缩至16K tokens保留核心语义,实现跨模态时序对齐[41][42] 应用场景 - 视频解析:支持分钟级视频总结、秒级片段推演(如柯南剧情分析、足球进球剪辑)[2][3][4] - 实时交互:通过商量APP实现韩剧片段情感分析(识别sad情绪)、看图猜城市(精准识别长沙)[13][16] - 教育辅助:识别手写数学题并提供个性化解题指导,突破标准答案局限[19][21] - 具身智能:为机器人集成多模态感知能力,延伸至物理世界交互[22][50] 行业观点 - 商汤联合创始人杨帆认为具身智能需直面质疑才能推动产业成熟[51][52] - 银河通用张直政指出技术泡沫是创新驱动力,需将想象转化为产品[53] - 上海交大闫维新预测危险替代场景或成具身智能3-5年内落地方向[55]