多模态模型

搜索文档
百度的后DeepSeek时代,一切为了应用
北京商报· 2025-04-27 17:50
百度AI开发者大会核心内容 - 百度创始人李彦宏强调大模型的终局是应用 提出"模型有很多 但统治这个世界的是应用"的观点 [2] - 百度发布从模型到应用 生态的"九件套" 包括性能提升价格下降的两款模型 数字人 智能体等 目的是降低模型成本提高能力并提供开发工具和平台 [2] - 2024年四季度有49个大模型发布 2025年一季度一周内行业共发布了8个模型 模型迭代速度极快 [2] 百度新发布的大模型 - 百度发布文心大模型X1 Turbo和4 5 Turbo 其中X1 Turbo是基于4 5 Turbo的深度思考模型 价格最高降了80% [3] - 两款模型都属于多模态 强推理 李彦宏判断"多模态将成为未来基础模型的标配 纯文本模型的市场会越变越小 多模态模型的市场会越来越大" [3] - 基础设施成本持续下降 创新的应用和产品才有可能出现 移动互联网已经证明了这一点 [3] 百度推出的应用开发工具 - 无代码编程工具秒哒向全社会开放 用户可以通过秒哒一句话生成应用 [4] - 通用智能体"心响"可以一站式解决用户复杂问题 以租房维权为例 会理清事件关键问题 寻找专家律师AI分身 提供专业建议并生成法律分析报告 [4] - 百度搜索宣布构建了MCP server的发现平台 可以索引全网市场上优质的server [4] 行业动态与趋势 - 阿里云百炼上线全生命周期MCP服务 腾讯云升级大模型知识引擎 支持调用MCP插件 [4] - 大模型出世之初 业界就提出所有应用重新做一遍 从基础设施到企业端应用端接受度来说 成熟度上了一个台阶 [4] - 科技大厂有多重身份 既是AI基础设施服务商 也是应用开发商 同时提供开发工具 跟开发商是竞合关系 [3]
GPU租赁价格调研
是说芯语· 2025-04-27 14:54
行业趋势总览 - AI与云计算产业形成紧密飞轮效应,核心逻辑为技术迭代、应用扩展和算力需求的正反馈循环[4] - AI大模型能力快速提升(如Qwen3、Llama4多模态升级与逻辑推理优化),推动AI从辅助工具向核心生产力渗透[4] - 云服务商通过硬件性能优化和规模效应降低成本,如阿里云第九代ECS实例算力提升20%而价格下降5%[4] - AI应用向企业级和消费级市场双向渗透,如谷歌Gemini 2.5 Pro在复杂推理任务中超越人类表现,阿里Qwen2.5-Omni实现手机端全模态交互[4] - 模型效率提升降低单次推理算力消耗,但用户规模与调用频次指数级增长导致整体算力需求激增,H100 GPU租赁价月涨22%,北美IDC租金涨幅超60%[4] 云服务商技术升级与竞争格局 - 头部厂商通过差异化技术路径构建护城河:阿里云以全栈能力覆盖为核心策略,第九代ECS实例通过AMX加速技术提升AI预处理效率20%,CPFS文件存储吞吐达40GB/s,PAI平台响应时间降低92%[5] - 阿里云"灵骏"集群故障自愈能力将万卡训练有效时长提升至93%,降价5%策略牺牲短期利润换取客户黏性[5] - 华为云聚焦架构创新与行业纵深,CloudMatrix 384超节点实现3倍于传统服务器的GPU密度,盘古大模型在400余个场景落地[5] - AWS等国际厂商H100调用价格两周内跳涨22%,反映全球算力供需失衡[5] AI模型进展与多模态突破 - AI模型迭代进入"多模态+深度思考"双轮驱动阶段,Qwen3与Llama4即将发布,补强逻辑推理与语音交互能力[7] - 阿里Qwen2.5-Omni以7B小参数量实现文本、图像、语音、视频四模态端到端处理,打破传统多模态模型对高算力依赖[7] - 谷歌Gemini 2.5 Pro"人类最后考试"得分18.8%,验证复杂推理能力在专业场景潜力[7] - GPT-4o图像生成精度提升瞄准企业级设计、营销等高频刚需[7] 算力需求激增与产业链价格传导 - 推理端对高性能计算的刚性需求与供给端结构性短缺矛盾驱动算力需求井喷,阿里、腾讯2024Q4资本开支同比增幅超250%[8] - AWS H100调用价格两周内跳涨22%,英伟达H20芯片8卡服务器单价从100万元飙升至110万元,涨幅10%[10] - 北美数据中心上架率超95%,IDC租金同比最高上涨60%[10] - 中国市场AI专用数据中心改造升级推高单位机柜成本,国产算力卡尚未完全填补英伟达断供缺口[12] - 算力租赁模式兴起,CoreWeave H100服务器租赁价格两年内上涨29%[13]
GPU租赁价格调研
傅里叶的猫· 2025-04-26 19:15
行业趋势总览 - AI与云计算产业形成紧密的飞轮效应,核心逻辑在于技术迭代、应用扩展和算力需求的正反馈循环 [3] - AI大模型能力快速提升(如Qwen3、Llama4的多模态升级与逻辑推理优化),推动AI从辅助工具向核心生产力渗透 [3] - 阿里云第九代ECS实例算力提升20%而价格下降5%,通过硬件性能优化和规模效应降低AI开发门槛 [3] - 谷歌Gemini 2.5 Pro在复杂推理任务中超越人类表现,阿里Qwen2.5-Omni实现手机端全模态交互,显示AI应用向企业级和消费级市场双向渗透 [3] 技术降本与需求扩张的矛盾 - 模型效率提升(如GPT-4o响应速度优化)降低单次推理算力消耗,但用户规模与调用频次指数级增长导致整体算力需求激增 [4] - H100 GPU租赁价月涨22%,北美IDC租金涨幅超60%,算力资源从过剩周期转入稀缺周期 [4] - 头部云厂商通过架构创新(如华为CloudMatrix超节点)和生态绑定(阿里"繁花计划")试图平衡供给缺口,但短期内供需错配仍将主导市场 [4] 云服务商技术升级与竞争格局 - 阿里云以全栈能力覆盖为核心策略,第九代ECS实例通过AMX加速技术提升AI预处理效率20%,CPFS文件存储吞吐达40GB/s,PAI平台响应时间降低92% [5] - 华为云聚焦架构创新与行业纵深,CloudMatrix 384超节点实现3倍于传统服务器的GPU密度,盘古大模型在400余个场景落地 [6] - AWS等厂商H100调用价格两周内跳涨22%,反映全球算力供需失衡,通用云服务商因架构灵活性不足面临溢价能力下降 [6] AI模型进展与多模态突破 - Qwen3与Llama4即将发布,补强逻辑推理与语音交互能力,阿里Qwen2.5-Omni以7B小参数量实现四模态端到端处理,打破传统多模态模型对高算力的依赖 [7] - 谷歌Gemini 2.5 Pro凭借18.8%的"人类最后考试"得分验证复杂推理能力,GPT-4o图像生成精度提升瞄准企业级设计、营销等高频刚需 [7] - 多模态模型数据处理复杂度激增导致训练成本指数上升,消费端付费意愿尚未匹配成本曲线,可能催生"轻量化多模态+垂直场景付费"的混合商业模式 [8] 算力需求激增与产业链价格传导 - 阿里、腾讯2024Q4单季度资本开支同比增幅超250%,数据中心硬件采购放量引发全链条价格上行 [10] - AWS H100调用价格两周内跳涨22%,英伟达H20芯片8卡服务器单价从100万元飙升至110万元,涨幅达10%,二手市场A100芯片价格上涨15% [11] - 北美数据中心上架率超95%,IDC租金同比最高上涨60%,中国市场AI专用数据中心改造升级推高单位机柜成本 [11][15] 算力租赁市场动态 - CoreWeave等专业厂商H100服务器租赁价格两年内上涨29%,NVIDIA HGX H100租赁价格为每小时49.24美元 [21] - 算力租赁模式可持续性依赖于下游应用端付费能力同步提升,若AI应用商业化滞后于算力成本攀升,租赁市场可能出现价格泡沫 [17]
寒武纪和海光信息的更新
2025-04-16 23:46
纪要涉及的行业和公司 - 行业:AI芯片、算力 - 公司:寒武纪、海光信息、英伟达、字节跳动、商汤科技、阿里 纪要提到的核心观点和论据 英伟达H20芯片许可政策影响 - 观点:政策不确定性促使客户加大国产AI芯片采购,推动国产芯片量价齐升 - 论据:英伟达计提55亿美元费用涉及约55万张H20芯片卡,2025年上半年预计交付80多万张,全年预计120万张;政策无明确期限,美国政府可随时决定是否发放许可[1][2] 国产AI芯片发展前景 - 观点:发展前景显著提升,未来市场份额和技术水平将显著提升 - 论据:寒武纪计划三季度小批量供货公共安全领域专用推理芯片,海光信息有望三季度推出新款高算力推理产品;国内互联网大厂投入研发和采购,客户倾向采购国产产品[1][4] 国内算力市场分层及国产卡表现 - 观点:市场分层明显,国产卡产品种类丰富能精准匹配需求 - 论据:市场以T4、A14、090V100和H20、A800、H800分层,下沉市场产品可匹配需求,单价高算力强的产品有保障[5] 国产卡供给能力 - 观点:海外及国内供给能力超预期,为出货提供保障 - 论据:寒武纪二季度出货量环比大幅提升,得益于需求和供给[7] 国产厂商绑定大客户影响及寒武纪拓展新客户重要性 - 观点:绑定单一大客户对需求端不利,寒武纪拓展新客户是关键任务 - 论据:2025年寒武纪预计在运营商等新客户实现增量,外部租赁S业务采购量下半年或提升[1][7] 大客户选择文字类模型原因 - 观点:因模型质量和推理卡类型,优先选文字类模型 - 论据:早期推理卡显存带宽低,适合文字模型推理;多模态试验模型发展使图片和视频理解推理需求上升,适合发挥国产卡优势[8] 寒武纪二季度订单及竞争格局影响 - 观点:二季度订单超预期,国产卡量价齐升是基本面拐点 - 论据:某互联网大客户原计划下单约3万张,实际可能达5万张左右;910C延迟到三季度,对寒武纪需求旺盛;H20稀缺致价格上涨[3][9] 海光信息业务发展情况 - 观点:业务综合性强,CPU和DCU业务均增长 - 论据:2025年CPU业务预计增长20%-30%,DCU业务明显增长,AI版预计至少出口10万张卡,总体保底至少5万张;深算三号需求量预计3万 - 5万张,集中在地方智算领域[3][10][11] 国产大模型发展及对推理卡需求影响 - 观点:国产大模型飞速发展,下半年差距缩小加快,将带来更大推理卡需求 - 论据:字节跳动、商汤科技和阿里等公司进步显著[13] 其他重要但可能被忽略的内容 - 国内国产芯片市场格局逐渐稳定,寒武纪、升腾、昆仑芯和海光基本形成前三或前四名[12] - 地方政府上半年对深算三号进行预算和规划,下半年资金交付确认,业务确定性更多体现在下半年[11]
540亿商汤,甩出一张新牌
21世纪经济报道· 2025-04-15 10:35
商汤科技发布日日新V6大模型 - 公司正式发布全新升级的"日日新SenseNova V6"大模型体系 以"多模态"为关键词 是今年AI产业的重头戏 [2] - 日日新V6是拥有超6000亿参数的MoE原生多模态通用大模型 凭借单一模型可完成文本、多模态等各类任务 [2] - 公司从去年5、6月开始探索多模态 9、10月技术路线基本跑通 专注多模态推理而非纯文本赛道竞争 [2] 技术能力突破 - 长思维链:超过200B高质量多模态长思维链数据 最长64K思维链 [3] - 数理能力:数据分析能力大幅领先GPT-4o [3] - 推理能力:多模态深度推理国内第一 对标OpenAI o1 [3] - 全局记忆:率先在国内突破长视频理解 支持10分钟视频理解及深度推理 计划2025年实现1小时视频理解 [3][4] 战略布局 - 公司提出"大装置-大模型-应用"三位一体战略 聚焦主业 边缘业务以生态方式孵化 [4] - 目标成为"最懂算力的大模型服务商"和"最懂大模型的算力服务商" 打造端到端竞争力 [4] - 截至4月14日收盘 公司市值超540亿港元 [4] 应用方向 - 提供生产力工具 切入金融、政务、企业等高价值业务环境 提升效率、优化流程、改善体验 [5] - 提供交互工具 包括智能陪伴、智能硬件交互、智能营销等 改善人机交互体验 增强用户粘性 [5] 行业趋势 - 开源模型与工具渐成主流 [5] - 性价比是所有大模型应用的生死线 [5] - 多模态成为最新技术焦点 将打开更多新应用场景和新硬件形态 [5]
Meta,最新发布!“多模态性最强模型”
券商中国· 2025-04-06 14:10
文章核心观点 Meta推出开源人工智能模型Llama 4,是应对新兴开源势力的“回击”,推动开源模型技术发展和生态完善,当前大模型竞争趋于白热化,行业进入推理强化和应用拓展阶段 [2][8] 大规模、多模态、长文本的Llama 4发布 - Meta于4月6日凌晨发布Llama 4系列首批模型,包括Llama 4 Scout、Llama 4 Maverick,还预览了Llama 4 Behemoth [3] - Llama 4是Llama系列中首批采用混合专家(MoE)架构的模型,与传统稠密模型相比,训练和推理计算效率更高 [3] - Llama 4参数规模大,Llama 4 Scout有1090亿参数、170亿激活参数量;Llama 4 Maverick有4000亿参数、170亿激活参数量;Llama 4 Behemoth总参数高达2万亿,有2880亿激活参数量 [4] - Llama 4多模态能力突出,采用早期融合技术,用无标签文本、图片和视频数据预训练,实现文本和视觉token无缝整合 [4] - Llama 4用图像和视频帧静止图像训练,支持多图像输入与文本提示交互,预训练最多用48张图像,后训练测试最多8张图像 [5] - Llama 4长文本能力有突破,Llama 4 Scout支持高达1000万token的上下文窗口,处理长文档等任务表现出色 [5] 大模型竞争趋于白热化 - Meta于2022年推出Llama系列模型,2023年开源Llama 2并可免费商用,2024年4月发布Llama 3,实现多模态处理能力 [6] - DeepSeek崛起冲击Meta在开源模型社区的领先地位,1月末有爆料称DeepSeek - V3让Llama模型相形见绌,Meta工程师分析其技术 [7] - 阿里通义千问系列开源大模型表现出色,Qwen2.5 - Omni登上Hugging Face大模型榜单总榜榜首,千问衍生模型数量超Llama系列 [7] - OpenAI计划几周后发布推理模型o3和基座模型o4 - mini,几个月后推出GPT - 5 [8] - DeepSeek与清华团队发布论文,成果被视为下一代推理模型R2的重要技术铺垫 [8] - 大模型竞争进入推理强化和应用拓展阶段,个人智能体潜力显现,开源开放成核心竞争力,大算力等成发展趋势 [8]
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
阿里通义千问Qwen2.5-VL-32B-Instruct发布 - 公司发布Qwen2.5-VL-32B-Instruct视觉语言模型,进一步扩充开源家族产品线[1][2] - 新模型尺寸为32B,填补了此前3B、7B和72B之间的空白,兼顾本地运行能力与性能表现[2][3] - 通过强化学习优化,模型在文本能力上达到同规模SOTA水平,部分基准测试甚至超越72B版本[4] 模型技术性能突破 - 具备精细化图像理解与推理能力,可结合时间、距离、限速等要素进行多步骤逻辑推算[5] - 数学推理能力显著提升,能完成几何角度计算等复杂问题,分步骤推导过程清晰[8][9][10][11] - 图像解析和视觉逻辑推导任务中表现出更高准确性与细粒度分析能力[5][13] 行业影响与用户反馈 - 模型已在Hugging Face平台开源,支持在Qwen Chat直接体验[14][15] - 技术社区快速响应,MLX Community已有用户成功运行[16] - Hacker News网友热议开源策略,认为此举验证了开源模式优势[17] 行业动态观察 - 公司近期与DeepSeek多次同步发布新模型,引发行业对协同策略的关注[18] - 模型发布节奏显示国内AI企业技术迭代加速,形成竞争性创新格局[1][18]
智谱上线GLM-4-Voice端到端情感语音模型:迈向AGI之路的最新一步
IPO早知道· 2024-10-26 10:12
智谱GLM-4-Voice模型发布 - 智谱于10月25日上线GLM-4-Voice端到端情感语音模型,具备情感表达、语速调节、多语言支持和随时打断等功能 [3] - 模型采用端到端架构,避免了传统"语音转文字再转语音"级联方案的信息损失和误差积累 [3] - 支持中英文及中国各地方言,尤其擅长粤语、重庆话、北京话等 [3] - 即将上线视频通话功能,实现"能看又能说"的AI助理 [3] - 这是智谱首个开源的端到端多模态模型,延续了"发布即开源"的风格 [2][3] GLM-4-Plus基座模型能力 - GLM-4-Voice的推出标志着智谱在迈向AGI道路上的最新进展 [4] - 背后依托新的基座模型GLM-4-Plus,其语言文本能力与GPT-4o及405B参数的Llama3.1相当 [4] - 基于GLM-4-Plus,智谱在多模态领域取得阶段性成果,使GLM多模态模型家族更加完整 [4] 模型功能特点 - 情感表达和共鸣:支持高兴、悲伤、生气、害怕等细腻情感变化 [3] - 实时交互能力:可随时打断并调整语音输出的内容和风格 [3] - 语速调节:在同一轮对话中可要求加快或放慢语速 [3]