Workflow
多模态
icon
搜索文档
国产算力景气度持续,关注昇腾产业链
2025-04-28 23:33
纪要涉及的行业和公司 - **行业**:通信行业、光通信行业、AI 行业、国产算力行业 - **公司**:升腾产业链相关公司、新易盛、世佳光子、源杰科技、光迅科技、华工科技、德科立、英维克、仕佳光子、智尚科技、武汉凡谷、汉威科技、润泽科技、旭创、天孚、太辰光、中国移动、华丰科技、探境科技、烽火通信、瑞可达、拓邦股份 纪要提到的核心观点和论据 - **升腾产业链**:近期发布 384 超节点,性能对标 GB200 和 NVL72,集群算力等较之前翻数倍,与英伟达 H 卡及 GB GLOBAL 卡性能差距缩小 升腾 910C 芯片核心用于训练场景突破,主要用于华为云底层基础设施,下游互联网厂商需求旺盛,计划 2025 年 5 月大规模出货,采用双 910B 芯片封装方案 国产卡整体性能和客户接受度改善,上游配套产业链感受到行业景气度提升,各公司加大产能布局 [1][2] - **通信行业财报**:2024 年年报和 2025 年第一季度财报发布,对板块股价波动影响明显 光通信板块表现突出,新易盛、世佳光子等公司财报超预期,源杰科技 CW 光源出货收入和盈利能力大幅好转,新产品毛利率达 80%以上 部分公司受供应链和春节影响产能利用率较低 国产光模块公司如光迅科技一季度环比略有下降,但盈利能力提升明显;华工科技等国内光模块需求高景气,今年产能爬坡至每月七八十万的供给量 [1][4] - **光通信行业公司表现**:新易盛收入和利润强劲 世佳光子业绩超预期,受益于无源器件和对应芯片产品海外需求扩展,以及 AWG、MPO 连接器、室内光缆产品收入与毛利率大幅改善 德科立一季度产能扩充明显,未来几年国内外产能释放将高速增长,海外 DCI 业务将带来业绩增量高速增长 [1][5] - **通信行业整体表现**:本周通信板块整体跑输万得全 A 指数,但申万通信指数涨幅为 1.3%,在 31 个行业中排名第 13 名 光器件和光模块子板块受超预期个股拉动情绪提振明显,涨幅达 12% 工业互联网和光纤光缆公司分别上涨 5%和 4.7% IDC、量子通信和运营商板块下跌,因业绩增速不及预期 [3][9] - **个股表现**:本周涨幅居前的个股包括仕佳光子(66.5%)、智尚科技(44.8%)、武汉凡谷(28.9%)、汉威科技(23%)和新易盛(22.2%) 智尚科技因收购公告上涨显著;武汉凡谷受华为欧洲政策松绑影响;汉威科技受传感器业务及机器人马拉松大赛主题催化;新易盛因其业绩超预期 [10][11] - **AI 大模型发展趋势**:AI 大模型持续进化,多模态成为基础模型标配,对算力需求显著提升 百度新模型每百万 TOKEN 价格下降至约 1/4,成本大幅改善以及多模态交互对算力需求的提升将拉升算力需求 [3][12] - **投资建议**:关注自主可控产业链,包括高速连接器、液冷散热与服务器环节 关注国产算力与 AI DC 产业链景气度及订单体现 关注 AI 应用端推进,特别是涉及硬件端 IoT 智能模组与智能控制器相关公司 本周推荐组合一周平均涨幅达 11.9%,下周建议关注华丰科技、英维克、烽火通信、瑞可达、拓邦股份、新易盛与仕佳光子 [13] 其他重要但是可能被忽略的内容 - 英维克在液冷环节表现低于预期,股价下跌,但收入符合预期,国内温控订单竞争加剧导致毛利率压力增加 作为一家长跑型公司,通过技术创新引领行业发展,预计中短期内仍能脱颖而出 今年行业景气度高,字节跳动、阿里巴巴和腾讯等公司的高投入将推动行业增长 [1][8] - 随着一季报结束以及外部环境敏感度降低,将回归关注 AI 行业快速发展及国产算力加速改进主线,对后续发展持乐观态度 今年特别高景气,从大厂招投标验证信息来看确定性较高 在新产品发布与持续加大出货情况下,公司盈利能力将持续改善,高速成长态势明确 [6][7]
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
量子位· 2025-04-28 11:43
全球AI大模型进入多模态时代 - 行业正围绕多模态技术展开密集创新,多模态能力成为AI应用落地的核心要素[1][2] - 阶跃星辰作为代表性玩家,过去1个月发布3款多模态模型(图生视频、多模态推理、图像编辑),其中2款已开源[5][7] - 公司已发布21款基座模型,多模态占比达70%,覆盖语言、语音、图像、视频、推理五大方向[61][70] 阶跃星辰多模态技术突破 Step1X-Edit图像编辑模型 - 采用19B参数创新架构(7B MLLM+12B DiT),首次实现理解与生成模块解耦[8][9] - 在GEdit-Bench基准测试中,语义一致性(7.183)、图像质量(7.229)、综合得分(7.161)全面领先开源模型,媲美GPT-4o[12][13] - 实测显示具备精准语义解析(大象转身)、身份一致性保持(马斯克秃头)、区域级控制(海水调色)三大核心能力[19][23][27] Step-R1-V-Mini多模态推理模型 - 采用PPO强化学习策略,通过多模态合成数据解决训练跷跷板问题[41][43] - 在MathVision视觉推理榜单以56.6分位列国内第一,超越Claude 3.5(37.99)和Gemini 2.0 Flash(41.3)[40] - 展示出复杂场景推理能力(精确定位北京长安街)、烹饪方法分析(川香藤椒鸡步骤分解)等应用潜力[45][51] Step-Video-TI2V图生视频模型 - 基于30B参数Step-Video-T2V优化,支持生成5秒540P视频,具备运动幅度/镜头运动双控制[56][57] - 通过引入图像条件提升一致性,动态性参数可调(2-20数值范围对应不同运动强度)[58] - 填补开源图生视频领域空白,与闭源Sora形成差异化竞争[55] 终端Agent商业化布局 - 2025年重点发力四大场景:智能汽车(吉利)、手机终端(OPPO)、具身智能(智元机器人)、IoT(TCL)[65][66][67] - 采用深度绑定策略,与各领域头部企业建立全价值链合作,例如为OPPO提供「一键问屏」多模态技术支持[66][69] - 形成「数据-场景-模型」三角闭环,2年内完成21款模型研发,成为国内基座模型种类最全的公司之一[63][73] 行业竞争格局 - 全球科技巨头(OpenAI GPT-4o、谷歌Gemini)与阶跃等企业正围绕多模态展开新一轮竞赛[75] - 多模态技术决定AI模型天花板,阶跃通过「技术奇袭+终端破局」双轮驱动实现后来居上[72][73] - 行业进入新旧范式交替期,非多模态AI模型面临淘汰风险[76]
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]
李彦宏点评 DeepSeek 又贵又慢,网友:这就有点“既要又要”了
程序员的那些事· 2025-04-26 23:13
百度战略转向 - 公司宣布文心大模型将免费并开源,改变了此前坚持的闭源路线 [5] - 公司搜索和智能体平台全面接入DeepSeek及文心大模型深度搜索功能,DeepSeek-R1满血版已在百度APP搜索上线 [5] - 公司从DeepSeek的成功中学到,将优秀模型开源可极大推动应用普及 [5] 李彦宏的AI观点 - 公司认为未来真正统治世界的是应用,模型会有很多但应用才是王者 [7] - 公司在DeepSeek发布后第一时间于千帆平台部署,向数以万计开发者提供免费调用,各业务线均接入DeepSeek满血版 [10] - 公司指出DeepSeek存在局限性:仅能处理文本、幻觉率较高、速度慢且价格贵 [10] 百度新模型发布 - 公司发布文心大模型4.5 Turbo和X1 Turbo,主打多模态、强推理、低成本特性 [10] - 文心4.5 Turbo每百万token输入价格0.8元,输出价格3.2元,相比文心4.5价格下降80%,仅为DeepSeek-V3的40% [11] - 文心X1 Turbo每百万token输入价格1元,输出价格4元,性能提升同时价格再降50%,仅为DeepSeek-R1的25% [11] 行业及用户反应 - DeepSeek爆火后已成为国内推理模型宣发的对标标杆 [10] - 部分用户和开发者认同DeepSeek存在响应延迟、服务器拥堵及多模态能力缺失等问题 [13] - 有观点认为DeepSeek的API价格虽高于部分国内模型,但相比OpenAI仍具性价比,且训练成本仅为GPT-3的一半 [14] - 用户质疑公司既接入DeepSeek又公开贬低的行为存在商业竞争动机,与公司此前"开源模型是智商税"的言论立场矛盾 [15]
酷开一口气甩出 6 个超级智能体!CEO:一定要做 AI 原生,性价比是我们追求的主要方向
AI前线· 2025-04-25 21:48
公司战略与产品发布 - 公司在2025春季发布会上推出超级智能体,涵盖影音、健康、生活、设备、创作、教育六大领域,并发布酷开学习机Y41 Air、酷开闺蜜机C20系列等硬件产品 [2] - 公司宣布正式以AI原生企业的定位面向未来发展 [2] - CEO提出"所有硬件都值得用AI重做一遍"的理念 [3] 行业现状与公司定位 - 当前智能体市场存在应用广度及深度不足、设备交互无法满足场景需求的问题,导致智能体应用价值未充分发挥 [5] - 公司强调自身作为应用厂商更注重性价比,与大厂专注大模型的逻辑形成差异化 [8] 技术规划与产品迭代 - 公司计划分三步推进超级智能体发展:用户数据闭环观察(3个月)、升级意图识别模型(7B→32B)、保持与行业领先大模型同步 [6] - 超级智能体将支持软件售卖、设备授权、PaaS服务、生态共赢等合作模式,Q1签约智能体销售中软件与硬件各占50% [7] 商业化与成本控制 - 公司内部重点核算大规模使用成本,确保成本足够低以实现商业化落地 [8] - 智能体需达到标准化产品要求才能销售,需确保用户数据达到基本程度 [8] 行业合作与场景落地 - 公司已在运营商、车载、酒店、办公等领域与知名企业合作,包括一汽奔腾、极氪汽车等车企及途虎养车等后装服务商 [9] - 公司提供智能座舱和影音娱乐系统软硬件全链路解决方案赋能汽车行业 [9]
“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态
AI前线· 2025-04-25 16:25
百度Create开发者大会核心发布 - 百度发布文心大模型4.5 Turbo和X1 Turbo两款新模型,具备多模态、强推理、低成本特性,价格最高降80% [5][6][14][15] - 文心4.5 Turbo多模态能力与GPT 4.1持平、优于GPT 4o,X1 Turbo性能领先DeepSeek R1/V3最新版 [7][11] - 国内首个全自研三万卡集群点亮,可同时承载多个千亿参数大模型全量训练,支持1000用户并发百亿参数精调 [2][46] 模型技术突破 - **多模态能力**:通过异构专家建模、自适应分辨率编码等技术,跨模态学习效率提升近2倍,理解效果提升超30% [20] - **训练优化**:自反馈增强框架实现"训练-生成-反馈-增强"闭环,降低幻觉;融合偏好学习的强化学习技术提升结果质量判别准确率 [21][22] - **深度思考**:结合工具调用构建复合思维链,问题解决能力显著提升;数据建设闭环实现高效知识生产 [23][24] AI应用创新 - **多智能体应用**:推出"心响"App实现多AI协作,支持健康咨询联合会诊、法律智囊团等场景 [28][29] - **多模态应用**:高说服力数字人具备AI大脑,可自主调度直播资源,百度慧播星支持2分钟视频克隆数字人 [31][33] - **沧舟OS**:全球首个内容操作系统,支持多模态解析/生成,百度网盘AI笔记可一键生成视频思维导图 [38][39] 开发者生态支持 - **MCP协议**:百度智能云千帆平台全面兼容MCP,提供第三方Server发现、电商交易等服务,降低开发适配成本 [40][42] - **人才培养**:5年630万AI人才计划提前完成,未来5年将再培养1000万人才 [44] - **成本优化**:文心4.5 Turbo API价格降至DeepSeek-V3的40%,X1 Turbo价格仅DeepSeek-R1的25% [14][15]
字节快手迎来关键对决
华尔街见闻· 2025-04-22 20:39
AI视频生成竞争格局 - AI竞赛焦点转向多模态 字节和快手在AI视频赛道竞争激烈[1] - 根据Gartner 2024年新兴技术成熟度曲线 AI视频生成技术仍处于创新触发期[2] - 行业尚未出现类似DeepSeek在LLM领域的标杆性产品[2] 快手技术进展 - 正式发布可灵2.0视频生成模型及可图2.0图像生成模型[1][3] - 提出Multi-modal Visual Language(MVL)交互理念 由TXT和MMW组成[3] - 可图2.0拥有强大复杂语义理解能力和电影级画面质感 图生视频占可灵AI视频创作量85%[3] - 可灵AI全球用户规模突破2200万[1] - 截至2025年2月底 可灵AI累计营业收入超1亿元人民币[9] - 与小米、亚马逊云科技等企业合作 超1.5万开发者接入可灵AI API[9] 字节跳动技术进展 - 发布Seedream 3.0技术报告 综合性能追平文生图SOTA模型GPT-4o[1][4] - Seedream 3.0支持原生2K直出 生成时间仅需3秒[4] - 2024年9月发布豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型[5] - 即梦AI月活增速达173.57% 位居全球AI产品增速榜第5 月活规模约2037万[1] 公司战略布局 - 快手将AI作为破解增长曲线难题的最大抓手 同时面向C端和B端提供服务[9] - 字节将即梦AI视为AI战略核心版图 试图打造AI时代的"抖音"[6][8] - 字节内部组建AGI长期研究团队"Seed Edge" 探索跨模态合作[9] - 两家公司都希望在AI时代复制新的"抖音"和"快手" 成功跨越新技术周期[8] 行业发展现状 - AI视频生成领域处于早期发展阶段 技术迭代速度快[2][7] - 产业界对AI视频生成价值存在分歧:可能是AIGC视频生产工具 也可能是通用视频武器[11] - 多模态技术未来可能应用于社交、游戏、VR、AR等多个领域[11] - 相较于大语言模型 AI视频生成在Scaling law、算力需求和商业模式方面挑战更大[11]
科技龙珠雷达系列 - 上海篇-系统梳理中国科技龙珠
2025-04-15 22:30
纪要涉及的行业和公司 - **AI大模型及语调服务行业**:库拉斯 - **机器人行业**:智源机器人、达塔科技、飞西科技 - **国产GPU行业**:沐锡、碧人科技、四元科技 纪要提到的核心观点和论据 库拉斯 - **核心观点**:在AI领域有重要地位,发展态势良好 [3] - **论据**:2024年3月成立,背靠国资,为大模型企业提供语调服务;语调服务规模达260T,合作伙伴超100家,签署几十家战略协议;正在建设大模型语调超级工厂,预计2025年底语调库总容量提升到2PB,每天语调加速加工速度达1000P [2][3] 智源机器人 - **核心观点**:具备AI加本体的全站技术,产品和技术有创新突破 [4][6] - **论据**:有远征精灵、灵犀等三大机器人系列家族,已量产下线超一千台通用巨神机器人;灵犀X2全身有28个自由度,能做高难度动作;3月10日发布智源起源大模型,提出VLM + MOE混合架构;3月11日推出新一代人形机器人零星XR,在四个痛点方面有改进,实现三大技术创新 [4][5][6][7] 达塔科技 - **核心观点**:创新性提出云端机器人架构并实现商业化 [8] - **论据**:通过人工智能、多模态融合AI、数字软生论等先进技术,实现机器人自我学习、进化和成长 [8] 飞西科技 - **核心观点**:专注工业化机械臂生产,产品应用场景广泛 [9] - **论据**:核心创业团队来自斯坦福大学机器人和人工智能实验室;飞西玄辉系列凭借多自由度力矩传感器,可在工业、医疗、科研教育、农业等领域应用 [9][10] 沐锡 - **核心观点**:在高性能通用GPU研发有成果和突破 [11] - **论据**:核心团队有近20年高性能GPU产品开发经验;有N、C、G三个系列GPU产品;联合联想发布首个国产Digifig一体机解决方案;实现中国首个四种以上异构芯片混训技术落地;2022年8月发布的BR100芯片创造全球算力纪录,16位浮点算力达1000T以上,8位定点算力达2000T以上 [11][12] 碧人科技 - **核心观点**:针对Queen32B推理模型有部署成果 [13] - **论据**:推出全面支持Queen32B大模型推理的TM106全系列一体机,该大模型接近DeepSea R1的推理能力水平 [13] 四元科技 - **核心观点**:在人工智能云端算力产品有优势 [14] - **论据**:计算集群布局领先,能为企业提供开箱即用的快速部署效果;依托智能加速卡和计算集群,为大型计算中心提供加速产品,降低客户成本;有预算和建算两个软件开发平台,还有内容生成服务产品;2025年率先完成对deepseq全量模型高效适配,一体机已在多地智能计算中心完成1万张卡部署 [14][15] 其他重要但是可能被忽略的内容 - 科技龙珠企业不仅在各自领域领先,在国际上有影响力,能突破国际巨头垄断,引领中国技术发展潮流,有望引发国家对科技企业的关注热潮 [16] - 建议加大对计算机等科技类资产配置,为未上市但有突破的科技企业提供资金支持 [16]
Meta,重磅发布!
证券时报· 2025-04-06 12:58
Meta推出Llama 4开源AI模型 - Meta发布Llama 4系列首批模型,包括Llama 4 Scout和Llama 4 Maverick两个版本,是公司迄今为止最先进的模型,也是同类产品中多模态性最强的模型 [1][5] - Llama 4是Llama系列模型中首批采用混合专家(MoE)架构的模型,与传统的稠密模型相比,MoE架构中单独的token只会激活全部参数中的一小部分,训练和推理的计算效率更高 [7] - Llama 4 Behemoth是Meta未来最强大的AI模型之一,总参数高达2万亿,作为对照,DeepSeek-R1总参数规模为6710亿 [8] Llama 4的技术特点 - 参数规模大:Llama 4 Scout共有16位"专家"、1090亿参数、170亿激活参数量;Llama 4 Maverick有128位"专家"、4000亿参数、170亿激活参数量;Llama 4 Behemoth具有2880亿激活参数量 [8] - 多模态能力突出:采用早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据预训练模型,实现文本和视觉token无缝整合 [8] - 长文本能力突破:Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录,市场上其他领先模型如GPT-4o也未能达到此规模 [9] 开源模型竞争格局 - Meta是开源模型的重要奠基者,2023年开源Llama 2并免费商用,激活了开发者社区的创新潜力,基于Llama 2构建的应用项目数量大大增加 [11] - DeepSeek的崛起对Meta在开源模型社区的领先地位构成巨大冲击,仅用550万美元训练的DeepSeek-V3在基准测试中表现优于Llama模型 [12] - 阿里巴巴通义千问系列开源大模型也表现优异,阿里至今已向全球开源200多款模型,千问衍生模型数量突破10万,超越美国Llama系列 [12] 行业发展趋势 - OpenAI计划在几周后发布最新的推理模型o3和基座模型o4-mini,几个月后推出GPT-5 [13] - DeepSeek与清华大学研究团队联合发布重磅论文,提出两项核心技术,为提升大语言模型的推理能力提供新方法论 [13] - 大模型竞争进入推理强化和应用拓展的下半场,开源开放日益成为大模型的核心竞争力 [13]
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
量子位· 2025-03-27 12:16
模型发布与核心特性 - 公司发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B [1] - 模型为7B参数规模的一体式模型,能原生处理文本、音频、图像、视频全模态输入,并实时生成文本和自然语音 [2][36] - 模型采用Apache 2.0开源协议,开发者与企业可免费商用,并支持在手机等终端设备上轻松部署运行 [9] 技术架构与创新 - 模型采用首创的Thinker-Talker双核架构,Thinker作为“大脑”处理多模态输入信息,Talker作为“嘴巴”流式合成语音 [29][30][31] - 团队提出新的位置编码算法TMRoPE,用于编码多模态输入的三维位置信息 [32][33] - 与传统串联单链路模型不同,该模型原生支持多模态输入与输出,实现端到端的训练和推理,效率更高 [34][35][36] 性能表现与基准测试 - 在多模态任务OmniBench评测中,模型刷新记录取得新SOTA,表现远超谷歌Gemini-1.5-Pro等同类模型 [5] - 在单模态任务如语音识别、翻译、音频理解、图像推理等领域,全维度表现优于类似大小的单模态及闭源模型 [5] - 在seed-tts-eval语音生成基准中,模型展现出与人类水平相当的语音合成能力 [6] 应用场景与实测效果 - 模型能实时交互,胜任数学家教、论文解读、PPT讲解、艺术指导等多种场景 [14][15][16][19][20][21] - 实测表明模型能理解商品界面和优惠政策,响应速度快,交互体验流畅 [23][24] - 模型具备识别音视频情绪的能力,能很好地和世界进行实时交互 [8] 行业生态与市场影响 - 模型开源后吸引超90%国产手机品牌接入,包括OPPO、vivo、荣耀、传音等,并获众多汽车品牌和AI硬件产品采用 [39] - 通义千问Qwen已成为全球最大AI大模型族群,截至2025年2月,公司已累计开源200多款模型 [42] - 在海内外开源社区中,通义千问Qwen衍生模型数量超过10万,超越Llama系列,Hugging Face全球开源大模型榜单前十名均为其变体模型 [43] 开发者生态与平台支持 - 阿里魔搭社区ModelScope模型总量已超4万个,服务超1000万开发者 [45] - 公司通过提供算力资源与开发工具等全方位服务,构建起活跃的大模型生态,阿里云已成为中国大模型领域的公共AI算力底座 [44]