全模态大模型
搜索文档
淘汰一大批!「史上最严」充电宝新规曝光:3C认证全面失效;李想:不会造手机,理想AI眼镜要来了;蔚来李斌喊出明年全年盈利目标!
雷峰网· 2025-11-26 08:52
充电宝新规与行业影响 - 工信部《移动电源安全技术规范》新国标预计12月公示 2026年6月实施 原有3C认证将全面失效[5] - 新规技术要求严苛 预计近七成现有产能因无法达标将被迫退出市场[5] - 新规设置半年缓冲期供企业清理库存 未售出旧标产品须在实施前完成销售或退出市场[6] 蔚来汽车业绩与战略 - 公司2025年第三季度净亏损34.805亿元人民币 同比收窄31.2% 综合毛利率13.9%创近三年新高[8] - 公司创始人李斌提出四季度盈利信心 并设明年全年盈利目标[8] - 公司计划明年推出三款大尺寸新车 并计划将自研辅助驾驶芯片开放给行业使用[9] 百度AI组织架构调整 - 公司新设基础模型研发部和应用模型研发部 分别由吴甜和贾磊负责 均向CEO李彦宏汇报[9] - 公司提升大模型研发部门管理层级 采取分进合击打法以加强人工智能核心优势[9] - 文心大模型5.0在LMArena竞技场取得文本榜全球并列第二 视觉理解榜国内第一的成绩[10] 人工智能行业动态 - 阿里巴巴26财年Q2财报显示AI需求旺盛 阿里云收入增长34% AI相关产品收入连续9个季度三位数同比增长[11] - 公司CEO吴泳铭表示AI服务器上架节奏严重跟不上订单增速 在手积压订单持续扩大 认为AI资源供不应求状态将至少持续三年[12] - 美国前总统特朗普签署行政令启动AI"创世纪计划" 定位为国家战略级别 旨在利用AI变革科学研究[35] 消费电子与智能手机 - 华为发布Mate 80系列 首发无网应急通信功能 最远连接距离13公里 起售价4699元[31] - 2025年10月国产新旗舰机激活设备数前三名为小米17 Pro Max(53.4万台)、小米17 Pro(52万台)和OPPO Find X9 Pro(46.0万台)[33] - 苹果公司证实裁撤部分销售团队 同时iPhone Air机型产量大幅削减 销量仅达最高预期三分之一[35][36] 芯片与算力市场 - 亚马逊宣布将最高投资500亿美元为AWS美国政府客户拓展AI及超算能力 计划新增近1.3吉瓦超算容量[37] - 谷歌向客户推销自研TPU芯片 Meta据悉正讨论斥资数十亿美元从2027年开始整合谷歌TPU[37][38] - 联想集团CFO表示为应对AI引发的内存芯片供应紧张 公司零部件库存囤积量比平时高出约50%[39] 汽车行业其他要闻 - 理想汽车创始人李想表示公司不会造手机 但将推出智能眼镜等生态化产品[15] - 极越汽车母公司上海集度汽车已向法院提交预重整申请并获受理 旨在引入新战略投资人[24][25] - 特斯拉声称荷兰监管机构RDW计划于2026年2月批准FSD在荷兰落地 但遭RDW澄清时间表能否实现仍需观察[40][41] 公司人事与融资动态 - 原华为天才少年彭志辉(稚晖君)当选上市公司上纬新材董事长[11] - 长安汽车调整海外业务负责人 由叶沛分管 公司前10月海外销量达52.3万辆 占总销量比重超22%[13][14] - 灵心巧手公司完成数亿元人民币A+轮融资 为8个月内第四轮融资 当前月订单量已突破千台[24]
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA
机器之心· 2025-11-25 17:37
全模态大模型行业演进 - 人工智能正从“专才”走向“通才”,从“工具”走向“伙伴”,全模态大模型是实现更丰富理解与深度交互的关键 [2] - 当前行业共同挑战在于如何在一个模型中兼顾强大的多模态理解与高质量生成,并构建高效统一的模型架构与训练方案 [2] 哈工大深圳计算与智能研究院发布Uni-MoE-2.0-Omni - 公司在2023年“立知”大语言模型基础上,基于2024年5月提出的原创Uni-MoE架构,正式发布第二代全模态大模型Uni-MoE-2.0-Omni [2] - 该模型以大语言模型为核心,通过渐进式架构演进与训练优化,将稠密大语言模型拓展为混合专家架构驱动的全模态大模型 [3] - 模型实现了从“语言理解”到“多模态理解”,再到“理解与生成兼备”的跨越式升级 [3] 模型核心架构与技术 - 模型架构由统一模态编码、动态混合专家以及全模态生成器三大核心组件构成 [7] - **统一模态编码**:采用统一Token化策略,借助SigLIP编码器处理图像与视频,基于Whisper-Large-v3将30秒音频压缩为仅200个Token,并引入Omni-Modality 3D RoPE机制构建统一坐标系 [7] - **动态混合专家**:核心架构升级为新型Dynamic-Capacity MoE,支持根据Token难易程度动态分配算力,并引入路由专家、共享专家和空专家三类角色,配合路由梯度估计技术提升稳定性 [8] - **全模态生成器**:通过特殊控制Token将所有任务统一纳入语言模型语义空间,实现理解即生成;其Uni-MoE-TTS可实现两分钟以上语音回复,支持中英三种音色;引入任务感知的扩散模型驱动图像生成与编辑 [8] 训练策略与数据效率 - 团队设计了渐进式训练策略,依次推进跨模态对齐、专家预热、MoE微调与强化学习、生成式训练 [11] - 该策略能够以较少的数据量(75B Tokens),将稠密大语言模型高效扩展为全模态大模型 [11] - 提出以语言生成任务为锚点的多模态理解与生成联合训练方式,打破理解与生成之间的界限 [11] 模型性能评估 - 模型在85项基准测试上进行了评估,在76项可对比评测中,Uni-MoE-2.0-Omni超越Qwen2.5-Omni逾50项任务 [3] - 在35个任务上达到最佳性能,在50个评估任务上全面超越了使用1.2T Tokens训练的Qwen2.5-Omni [13] - 在8个视频评估基准和4个全模态理解基准上,较Qwen2.5-Omni提升7% [13] - 在关键基准测试中,Uni-MoE-2.0-Omni在WorldSense、StreamingBench (Omni)、OmniVideoBench、OmniBench上的平均得分达43.7,表现领先 [14] - 在全模态理解任务中,其平均得分达50.6,在多项子任务中超越对比模型 [14] - 在可控图像生成与低层级图像复原任务中,模型在多项指标上表现优异,例如在Canny-to-Image任务中FID为20.23,CLIP-S为28.58 [15] - 在多模态语音交互问答任务中,平均得分达64.27,超越对比模型 [16] 模型功能展示 - 具备视觉数学推理能力,可基于图表OCR结果进行推理 [18] - 具备图像推理生成能力,能根据季节等指令生成符合逻辑的图像 [20] - 具备人像图片修饰能力,可根据指令修改图片并保持主体不变 [25] - 具备图像质量修复能力,可处理雨、雾、雪、暗等低质量图片 [28] - 可作为多轮对话伙伴,连续响应用户意图 [30] 行业影响与开源 - Uni-MoE-2.0-Omni是一个架构先进、完全开源的全模态大模型,为社区提供了强有力的全模态基座 [33] - 该系列模型验证了将稠密大语言模型扩展为全模态模型的路径,实现了从“多模态理解”向“理解生成一体化”的跨越 [33] - 其代码、模型权重及数据清单的开源,将进一步推动通用多模态人工智能的研究与应用发展 [33]
国泰海通:MiniMax发布全模态AI“全家桶” M2登顶全球开源模型
智通财经网· 2025-11-11 19:58
公司技术发布 - 上海AI独角兽MiniMax发布覆盖文本、视频、语音、音乐的全模态大模型"全家桶" [1][2] - 发布四款重磅模型:文本大模型M2、视频生成模型Hailuo 2.3、语音模型Speech 2.6和音乐模型Music 2.0 [2] 文本大模型M2性能表现 - 文本大模型M2在权威测评Artificial Analysis榜单中斩获全球前五、开源第一,成为首个跻身全球第一梯队的中国开源大模型 [2] - M2以10B激活参数(总参230B)的轻量级架构实现顶级性能 [2] - M2综合推理成本低至0.53美元/百万Token,仅为Claude 4.5 Sonnet的8%,同时推理速度接近后者的两倍 [3] - 发布后5天内即在API平台OpenRouter的调用量跃居全球第四、国产第一,编程场景调用量位列全球第三 [3] 全模态产品矩阵技术细节 - Hailuo 2.3视频生成模型支持生成最长10秒的原生1080p高清视频,训练和推理效率相比前代提升约2.5倍 [4] - Speech 2.6语音模型将首包响应时间压减到250毫秒,达到语音赛道绝对头部水平 [4] - Music 2.0音乐模型能够生成结构完整、最长5分钟的歌曲 [4] - 公司坚持投入更高成本的完整注意力机制,以确保模型在长上下文、复杂逻辑推理等场景下的生成质量与稳定性 [4] 行业意义与商业化前景 - 此次发布标志着中国AI企业在全模态技术领域实现全面突破,为商业化落地打开新局面 [1] - M2在模型性能、推理速度与使用成本的"不可能三角"中实现了突破性平衡,为大规模商业化应用提供了坚实的技术基础 [2][3] - M2的市场表现验证了其在高性能与低成本之间的卓越平衡,为国产模型在全球范围内的商业化推广提供了成功范例 [3]
英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
36氪· 2025-11-07 18:48
公司产品发布 - 英伟达正式推出并开源其全模态大模型OmniVinci,该模型能同时精准解析视频和音频信号,特别擅长视觉和听觉信号的时序对齐 [1][2] - OmniVinci模型参数规模为90亿(9B),在多项多模态基准测试中性能超越同级别甚至更高级别的竞争对手 [1][5] - 模型训练数据效率极高,仅使用0.2T(2000亿)tokens的训练数据即达到顶尖水平,而其竞争对手数据集规模普遍在1.2T以上,训练效率是对手的6倍 [9] - 模型通过全对齐网络、时序嵌入分组和约束旋转时间编码等核心技术,实现了视觉和听觉信号的高精度时序对齐 [9] 产品性能优势 - 在视频理解任务中,结合音频进行显式多模态学习后,模型性能出现突破性进步,例如在VideoMME基准上,采用显式学习策略后得分从66.37提升至68.63 [8][9] - 音频的加入为视觉任务引入了新信息维度,使模型在无字幕视频理解等任务上提升显著,例如在无字幕的中长视频任务中,性能分别提升了7.89和6.67个百分点 [8][9] - 模型在视频内容理解、语音转录、机器人导航等场景中能提供高效支持,展现出卓越的多模态应用能力 [1][11] 行业竞争格局 - 开源大模型领域竞争激烈,中国大模型如DeepSeek和Qwen正强势统治开源基础模型领域,凭借卓越性能和快速迭代成为全球AI从业者的重要参照物 [1] - 英伟达作为AI硬件巨头亲自下场开源大模型,其入局传递了硬件厂商也要掌握模型定义权的清晰信号 [1][7] - 英伟达的开源模型策略被视作开源社区的友军而非对手,因为开源模型越多人使用会带动更多GPU需求,公司是开源模型的最大受益者 [18] 市场影响与生态 - OmniVinci的发布在开源社区引起巨大反响,在huggingface上已斩获一万多次下载量 [19] - 该模型是英伟达“软硬一体”生态的自然延伸,也是对AI开源生态的一次强力助推 [22] - 开源格局因此更加清晰,一方是以DeepSeek、Qwen为代表的中国开源力量,另一方是手握算力霸权的英伟达,通过技术标杆和生态孵化加速AI进程 [22]
阿里巴巴旗下通义千问发布Qwen3-Omni原生全模态大模型
智通财经· 2025-09-26 14:18
产品发布 - 阿里巴巴旗下通义千问于9月26日正式发布原生全模态大模型Qwen3-Omni [1] - 该模型能够无缝处理文本、图像、音频和视频等多种输入形式 [1] - 通过实时流式响应同时生成文本与自然语音输出 [1] 技术架构 - Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成 [1] - Talker直接接收来自Thinker的高层语义表征 [1] - 为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列 [1] - MTP模块输出当前帧的残差码本,Code2Wav合成对应波形,实现逐帧流式生成 [1] 模型特性 - 预训练全模态不降智 [1]
阿里巴巴(09988)旗下通义千问发布Qwen3-Omni原生全模态大模型
智通财经网· 2025-09-26 14:12
产品发布 - 阿里巴巴旗下通义千问于9月26日正式发布原生全模态大模型Qwen3-Omni [1] - Qwen3-Omni能够无缝处理文本、图像、音频和视频等多种输入形式 [1] - 模型通过实时流式响应同时生成文本与自然语音输出 [1] 技术架构 - 采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成 [1] - Talker直接接收来自Thinker的高层语义表征 [1] - 通过自回归方式预测多码本序列实现超低延迟流式生成 [1] 技术实现 - MTP模块输出当前帧的残差码本 [1] - Code2Wav合成对应波形实现逐帧流式生成 [1] - 预训练全模态不降智保持多模态处理能力 [1]
36氪晚报|速卖通墨西哥“海外托管”正式上线;字节跳动Seed开源VeOmni框架;腾讯元宝接入京东
36氪· 2025-08-14 19:03
极氪集团财务表现 - 第二季度总收益274.31亿元 同比减少0.9% 环比增加24.6% [1] - 净亏损2.87亿元 同比收窄88.8% 环比收窄62.4% [1] 微博财务及运营数据 - 第二季度总营收4.448亿美元(约32亿元人民币) [3] - 调整后运营利润1.618亿美元(约11.58亿元人民币)超华尔街预期 [3] - 广告收入达3.834亿美元(约27.56亿元人民币) [3] - 月活跃用户5.88亿 日活跃用户2.61亿 [3] 网易云音乐财务表现 - 上半年净收入38.3亿元 营业利润8.4亿元同比增长40.8% [6] - 除所得税前利润10.68亿元同比增长31.3% 期内利润18.82亿元同比增长132.4% [6] - 长音频内容消费持续增加 人均收听时长持续改善 [6] 唯品会财务及运营数据 - 第二季度净营收258亿元 Non-GAAP净利润21亿元 [7] - 商品交易总额514亿元 同比增长1.7% [7] - 超级VIP活跃用户数同比增长15% 贡献线上销售52% [8] - 上半年通过股票回购与分红回报股东超6亿美元 [8] 京东集团财务及业务发展 - 第二季度营收3567亿元 同比增长22.4% [9] - 归属于普通股股东的净利润162亿元 非美国通用会计准则下净利润74亿元 [9] - 零售收入同比增长20.6% 经营利润率达4.5%创大促季度记录 [9] - 外卖业务日单量突破2500万单 入驻商家超150万家 全职骑手超15万人 [9] 企业战略合作与技术进展 - 雷鸟创新与蚂蚁集团合作推出X3 Pro AI眼镜 支持"蓝环"设备支付 [1] - 速卖通在墨西哥上线"海外托管"服务 已在美英等多国落地 [2] - 腾讯元宝支持跳转京东购买纸质书 已支持微信读书等平台 [5] - 经纬恒润基于英伟达Orin-X芯片的城市NOA方案将于年底量产 [10] - 宇信科技中标境外数字法币建设项目 跨境支付为海外战略重点 [11] 技术创新与开源项目 - 谷歌与NASA联合开发AI医疗助理 可实时分析宇航员健康状况 [12] - 字节跳动Seed团队开源VeOmni全模态训练框架 提升训练效率 [12] - 隐语社区升级为数据可信流通技术社区 覆盖六大技术路线 [13] 产品与市场动态 - 万兴科技Filmora移动端集成谷歌Gemini能力 集成效率升至70% [15] - 央行开展5000亿元买断式逆回购操作 期限6个月 [16] - 挪威央行维持基准利率4.25%不变 [17]
转移支付连续三年超10万亿,阿里开源全模态大模型 | 财经日日评
吴晓波频道· 2025-03-28 00:49
规上工业企业利润 - 1—2月全国规模以上工业企业利润总额9109.9亿元,同比下降0.3%,但较2024年全年降幅收窄3% [1] - 制造业利润同比增长4.8%,拉动全部规上工业利润增长3.2% [1] - 营业收入20.09万亿元,同比增长2.8%,营业成本17.10万亿元,增长2.9%,营业收入利润率4.53%,同比下降0.14% [1] - 消费品行业受益春节需求提升,汽车行业利润率由负转正,上游建材、钢铁等行业承压 [1] - 工业企业出现季节性被动补库存迹象,上游行业主动减产限产以修复利润率 [2] 中央对地方转移支付 - 2025年中央对地方转移支付预算10.34万亿元,同比增加3017.84亿元(3%),连续三年超10万亿元 [3] - 四川省获转移支付5983亿元居首,河南5272亿元次之,湖南、湖北、河北均超4000亿元 [3] - 转移支付缓解地方财政压力,但中央财政可持续性面临挑战,需增强地方财政自给能力 [4] 微软数据中心项目调整 - 微软放弃欧美2吉瓦电力需求的数据中心项目,因AI算力集群供过于求 [5] - 微软称将战略性调整基础设施投资节奏,但保持各地区增长,允许OpenAI使用其他云服务 [5] - AI行业面临收益与支出不匹配困境,科技企业被迫持续投入以维持竞争力 [6] 阿里开源全模态大模型 - 阿里开源Qwen2.5-Omni-7B模型,支持文本、图像、音频、视频多模态处理,刷新OmniBench测评纪录 [7] - 模型采用端到端架构提升交互实时性,参数仅70亿便于终端部署,或提振苹果AI功能预期 [8] 张一鸣成中国首富 - 张一鸣财富达4350亿元(增长76%),超越钟睒睒登顶胡润全球富豪榜中国榜首 [9] - 财富增长源于字节跳动估值提升,AI应用豆包推动估值上涨,但未上市估值存争议 [10] 短剧招商骗局 - 短剧招商项目以"版权投资"名义进行非法集资,伪造资质文件,映宇宙等公司声明打假 [11] - 骗局利用中老年群体信息滞后性,需加强监管与防诈骗宣传 [12] 海底捞业绩 - 2024年营收427.55亿元(增长3.1%),净利润47.08亿元(增长4.6%),创历史新高但增速放缓 [13] - 关闭70家低效门店,外卖业务增长20.4%至12.54亿元,客单价下降反映消费市场变化 [14] A股市场表现 - 沪指涨0.15%报3373.75点,深成指涨0.23%报10668.1点,两市成交额1.19万亿元 [15][16] - 化工、光刻机、创新药板块领涨,深海科技、有色金属等板块下跌 [15][17] - 化学制品涨价预期推动板块上涨,但周期上行趋势需更多数据验证 [17]