多模态
搜索文档
OpenAI 推出两款开源模型,GPT-5蓄势待发!
经济观察报· 2025-08-06 14:36
开源模型发布 - OpenAI推出两款开源模型GPT-oss-120b和GPT-oss-20b,这是自2020年发布GPT-2以来首次推出开源语言模型 [2] - 两款模型采用专家混合(MoE)架构的Transformer,以减少活跃参数数量 [3] - GPT-oss-120b每个token激活5.1亿参数,总参数量为1170亿;GPT-oss-20b激活3.6亿参数,总参数量为210亿 [3] - 模型支持高达128k的上下文长度,GPT-oss-20b需要至少16GB显存,GPT-oss-120b需要至少60GB显存 [3] 性能表现 - GPT-oss-120b在核心推理基准测试中表现接近OpenAI o4-mini,在竞赛编码、通用问题求解等方面超越o3-mini [4] - GPT-oss-120b在健康相关查询和竞赛数学表现上优于o4-mini [4] - GPT-oss-20b在相同评估中达到或超过o3-mini性能,尤其在竞赛数学和健康领域表现突出 [4] 战略转变与竞争 - OpenAI此次开源模型发布是对市场趋势的回应,旨在重新融入开源生态 [5] - 谷歌DeepMind于8月4日宣布推出第三代通用世界模型Genie 3,加剧市场竞争 [5] - OpenAI与英伟达、AMD等芯片制造商合作,确保模型在各种芯片上良好运行 [5] 模型安全性与市场预期 - 两款开放模型相比o3和o4-mini更容易出现"幻觉"现象,GPT-oss-120b和GPT-oss-20b分别对49%和53%的问题产生幻觉 [6] - OpenAI在预训练期间过滤了与化学、生物、放射性等相关的有害数据 [6] - 市场普遍预期OpenAI的下一个重大更新将是推出GPT-5 [6] GPT-5预期 - GPT-5将整合GPT系列基础模型、o系列推理模型以及GPT-4o全模态模型的三方能力 [7] - GPT-5单次推理的算力消耗不会大幅增加,API价格或较GPT-4o仅小幅增长甚至维持不变 [7] - GPT-5推理性价比有望提升一倍以上,将显著改善AI应用的盈利能力 [7]
多重催化驱动趋势加速,锚定多模态与出海机遇
东方证券· 2025-08-06 13:45
行业投资评级 - 传媒行业评级为"看好"(维持) [5] 核心观点 - AI视频生成产业存在三大市场预期差逻辑:单位时长延伸(年内或达1分钟)、成本下降带动价格降低(如阿里Wan2.2节省50%计算消耗)、内容新品类扩容(如AI漫剧AI参与度达80%) [1][2] - 技术突破显著:字节Captain Cinema框架通过双规划器实现电影级短片生成,快手可灵实现推理成本下降与毛利打平,行业技术迭代速度超预期 [1][2] - 商业化空间测算达416亿美元(P端38亿+B端397亿),其中P端基于2亿海外+1.6亿国内创作者,假设35%月活渗透与10%/8%付费率;B端基于1984亿内容制作市场20%渗透率 [3][9][13][17] 技术进展 - 视频时长:主流产品达5-10秒一致性,字节Captain Cinema框架通过关键帧生成+动态填充技术探索1分钟长视频 [1] - 成本优化:阿里Wan2.2采用MoE架构节省50%计算消耗,快手可灵实现推理成本下降与边际利润转正 [2] - 内容生产:AI漫剧生成参与度从50%升至80%,AI转绘技术提升全球发行普适性 [2] 投资标的 - 重点推荐:快手-W(01024)、美图公司(01357)、万兴科技(300624)、MiniMax,关注多模态AI出海企业 [4] - 逻辑支撑:海外市场ARPU达35美元(国内17美元),内容创作人工成本更高,出海企业商业化弹性更大 [3][10] 市场测算 - P端模型:海外2亿创作者×35%月活×10%付费×35美元ARPU+国内1.6亿×35%×8%×17美元=38亿空间 [9][10][11] - B端模型:1984亿内容制作市场×20%渗透率=397亿空间,与P端重合部分按50%折算 [13][17] - 汇率换算:416亿美元对应2912亿人民币(汇率1:7) [17]
别听模型厂商的,Prompt 不是功能,是 bug
Founder Park· 2025-08-04 21:38
AI投资与创业趋势 - Conviction投资的AI公司包括Cursor、Cognition、Mistral等,覆盖基础设施、模型和应用层[10] - AI公司收入增长迅猛,部分公司在极短时间内实现从零到1亿美元年化收入,增速超历史任何技术革命[11] - 传统行业拥抱AI速度最快,称为"AI跨越式发展效应",如法律、医疗等领域已实现规模化应用[31][33] AI技术进展与多模态机会 - 推理能力成为AI最显著突破,解锁高风险决策、序列化问题等新场景[13] - Agent类创业公司申请量增长50%,多模态应用如HeyGen、ElevenLabs年收入突破5000万美元[14][15] - 语音将成为多模态最先落地领域,医疗咨询、销售等场景迎来新机会[17] - GPT-4价格18个月内从$30/百万token降至$2,蒸馏版低至$0.1,推动应用普及[18] AI应用成功案例与方法论 - Cursor 12个月内收入从100万增至1亿美元,用户达50万开发者[21] - Cognition成为企业代码提交量最高"贡献者",Windsurf被OpenAI以30亿美元收购[21] - 代码成为AI应用突破口因:结构化逻辑、结果可验证、研究人员重视、工程师自我工具开发[23][24] - 成功产品需领域知识、智能编排、精心呈现输出,避免通用文本框[30] 产品构建与竞争策略 - Prompt是过渡阶段缺陷而非功能,最佳产品应"读懂用户心思"[28] - Copilot模式价值被低估,从辅助到自动化是完整光谱[32] - 执行力是AI时代护城河,Cursor通过卓越执行赢得市场[35] - 私有数据和深度工作流构成应用构建者优势,非模型巨头可轻易复制[36] 行业机会分布 - 法律行业Harvey成立两年年收入超7000万美元,医疗领域OpenEvidence覆盖美国1/3医生[33] - 机器人学、生物学等领域存在巨大机会,需创新数据收集方法[34] - 游戏规则每12个月重塑一次,新模型发布带来持续获胜机会[36]
中金 | AI十年展望(二十五):视频生成拐点将至,成长性赛道迎中国机遇
中金点睛· 2025-08-01 08:09
技术路径演进 - 2024年OpenAI发布Sora后视频生成技术路径收敛至DiT(Diffusion Transformer)架构,取代了此前图像拼接、自回归扩散等混合路径[2][4] - DiT架构通过时空注意力联合建模实现89%的生成一致性,支持60秒长视频生成和多分辨率输入,物理模拟能力显著提升[7][11] - 仍存在自回归路径分歧,OpenAI GPT-4o和Sand AI采用自回归模型,认为其对长时间序列建模更合适[14] - 技术发展将沿两个方向延伸:端到端多模态大模型(如Google Gemini)和多模态理解生成统一架构(如DeepSeek Janus-pro)[16][17] 市场空间与格局 - 2024年全球AI视频生成市场规模约6亿美元,中期P端+B端市场空间有望达100亿美元[3][22] - P端市场中性测算空间32亿美元,基于1.6亿国内创作者和2亿海外创作者的付费渗透率假设[23][24] - B端市场中性测算空间94亿美元,主要来自广告、电商视频和影视行业的AI渗透[25][26] - 2025年竞争格局集中,快手可灵以20%市占率领先,Runway、海螺、爱诗等中国厂商占据主要份额[27][28] 中国厂商表现 - 中国公司在模型能力和产品力上超越海外,快手可灵2025年ARR超1.5亿美元全球领先[3][22] - 技术榜单显示字节Seedance、MiniMax海螺、快手可灵在文生视频和图生视频排名靠前[39][40][41] - 产品定位分化:可灵、海螺专注P端/B端专业用户;爱诗PixVerse、字节即梦主攻C端低门槛市场[45][48] - 商业模式以订阅制为主,高质量模式单秒定价进入0.4-2元区间,已触及创作者价格不敏感阈值[50][51] 技术应用与影响 - 视频生成已初步渗透影视、电商、广告场景,顶级动画电影制作成本从200万美元/分钟降至300美元/分钟[22][31] - 生成时长10秒内已满足多数需求,核心矛盾转向角色一致性和提示词理解能力[38] - 多模态技术重构内容生产流程,催生Prompt导演、审美把关人等新岗位,传统视频剪辑等职位面临转型[31] - 开源生态加速发展,快手Orthus、通义万相等开源模型推动行业技术民主化[19][37]
国产AI算力的“阶跃”时刻
观察者网· 2025-07-30 17:26
国产算力芯片生态发展 - 四家国产算力芯片领军企业创始人罕见同台对话 凸显行业协同趋势[1] - 阶跃星辰联合近10家芯片及基础设施厂商发起"模芯生态创新联盟" 首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯等[3] - 上海企业在模芯联盟中占据半壁江山 2024年上海人工智能企业达24733家 较上年增长5.1% 新增注册资本1000万及以上企业104家[17][18] 阶跃星辰Step 3模型突破 - Step 3在国产芯片上推理效率最高达DeepSeek-R1的300% 在NVIDIA Hopper架构芯片上吞吐量提升超70%[3][6] - 采用多矩阵分解注意力机制(MFA) 较DeepSeek的多头注意力机制(MLA)降低键值缓存用量93.7% 对国产芯片更友好[11] - 模型开发阶段主动适配国产芯片特性 在算术强度特性上与昇腾910B高度匹配[8] 多模态商业应用落地 - 阶跃星辰预计2024年全年营收达10亿元 对比智谱2024年收入约2-3亿元[13] - 多模态模型覆盖国内超一半头部手机厂商 与吉利合作实现端到端语音大模型首次量产上车[15] - 已发布十余款多模态模型 包括Step系列基础模型及语音、视觉理解、图像编辑等垂直模型[15] 硬件适配系统化创新 - 阶跃星辰将模型与硬件视为协同系统 在昇腾910B上解码效率超过华为盘古Pro MoE模型[9] - 模芯联盟旨在建立产品开发进度同步机制 未来可能提前获取芯片设计信息[12] - 国产芯片制程工艺和HBM性能相对落后 需在算法设计层面进行调整优化[8] 上海AI产业发展优势 - 上海坐拥中芯国际和华虹等主要晶圆厂 HBM所需先进封装产能多位于长三角[18] - 上海模速空间日均Token调用量突破100亿大关 基于3000卡沐曦GPU集群实现600小时不间断训练[18] - 上海国投先导人工智能产业母基金首投壁仞科技 生态体系将参与阶跃星辰最新融资[18]
WAIC|商汤首席科学家林达华:多模态是通向AGI的必经之路
中国经营报· 2025-07-29 22:57
人工智能发展趋势 - 人工智能的终极目标是构建能够与真实世界自主交互的真实智能 [1] - 大模型演进趋势是从语言模型向多模态能力发展 这是实现AGI的关键路径 [1] - 多模态模型已从简单嫁接发展到融合理解 并进一步延伸到思考层面 [1] 多模态模型技术进展 - 多模态模型在纯语言任务中表现优于纯语言模型 单独语言模型已无必要 [2] - 公司在"日日新"6.0前打通融合训练流程 发现预训练中段融合效率最高 [2] - "日日新"6.5实现融合思考能力 通过图文交错生成新图形启发思考 [2] - 公司是国内最早开展多模态融合且技术成熟的企业 起步早于同业 [2] AI技术变革机会 - 通用AI模型具有自主性强、通用性高的特点 能完成复杂工作 [3] - AI将重塑软件构建方式 使普通人无需专业语言就能开发软件 [3] - AI将改变办公模式 提升办公效率 变革生产力 [3] - 未来交互将无处不在 智能硬件能像伙伴一样贴心回应需求 [4] 具身智能布局 - 公司进军具身智能领域是为了实现数字与物理空间的连接 这是到达AGI的重要一步 [5] - 公司在计算机视觉和多模态模型领域的技术积累为具身智能提供了基础 [5] - 世界模型结合多模态基座积累与端到端闭环反馈 已成功应用于自动驾驶模块训练 [6] - 具身智能市场快速成长 公司希望凭借技术优势占据市场重要位置 [6] 研发与商业平衡 - 公司强调研发要与最终商业愿景对齐 通过商业落地校正科研方向 [6] - 基础模型投入需支撑业务 形成关键闭环逻辑 [6] - 具身智能和基础模型并非完全分割资源 额外投入相对可控 [6]
AI推理算力需求即将爆发,深圳云天励飞加注推理芯片
新浪财经· 2025-07-29 10:53
行业趋势 - AI推理芯片成为人工智能行业新方向 云天励飞宣布全面聚焦该领域 围绕边缘计算 云端大模型推理和具身智能三大场景 [1] - AI正从训练时代迈入推理时代 推理算力需求将迎来爆发式增长 2025年成为人工智能发展重要转折点 大模型技术达到新成熟高度 模型调用成本显著降低 [1] - 三大增量助力推理算力需求加速 包括互联网大厂加速AI与原有业务结合 Agent和深度思考推理结合 多模态加速渗透 [2] - AI将全面重塑各类电子产品 包括智能穿戴设备 家用电器和电动汽车 设备将具备主动工作能力 实现人性化交互和功能跃升 [2] 公司战略与产品 - 云天励飞开发四款AI推理芯片 包括DeepEdge10C DeepEdge10标准版 DeepEdge10Max和DeepEdge200 [3] - DeepEdge10系列芯片面向边缘人工智能 核心定位满足边缘端千亿参数大模型部署需求 支持Transformer BEV CV大模型和LLM大模型等主流模型 [3] - 芯片采用算力积木架构 通过D2D Chiplet技术和C2C Mesh技术 覆盖8T-256T算力需求 实现7B至671B参数量大模型推理 [4] - 架构实现算力纵向拓展 单个封装最多集成8个算力积木 形成128T推理算力的单芯片成果 [4] - 通过C2C Mesh技术实现算力扩展 将多个节点连接形成更大规模算力池 支撑MoE架构大模型推理 [5] 技术突破与适配 - DeepEdge10芯片平台成功适配DeepSeek R1系列模型 QwQ-32B模型及国产鸿蒙操作系统 [5] - DeepSeek R1采用GRPO强化学习策略 专门优化数学推理任务 减少计算资源消耗 实现更低成本 [1] - DeepSeek R1模型价格仅为OpenAI o1模型的几十分之一 具有极高性价比优势 [1] 财务表现 - 云天励飞2024年营收增长81% 今年一季度增速提升至160% [5] - 管理层预计下半年随着AI推理算法迭代 算力需求攀升和应用拓展 将继续保持高速增长态势 [5] 市场前景 - AI推理芯片市场仍处于蓝海阶段 市场规模较数千亿美元训练芯片市场仍较小 [3] - 预计未来三至五年内 AI推理芯片增长速度将大幅超越训练芯片 [3]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 14:01
行业投资趋势 - 2025年上半年AI初创企业吸纳全球53%风险投资资金 成为最热门投资领域 [1] - AGI产业处于快速发展阶段 技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司 大模型领域保持高速增长 [1] 技术发展预测 - 200万Token上下文窗口将成为顶级AI模型标配 上下文工程成为核心驱动力 [4] - 通用视频模型有望1-2年内出现 推动视频内容生成与交互革新 [4] - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠等新技术崭露头角 [5] - Token消耗量将提高1-2个数量级 集群/终端/软硬协同优化成为降成本关键技术 [5] AI应用场景演进 - AI Agent将从"工具辅助"升级为"任务承接" 首批"AI员工"将参与企业核心流程 [4] - 多模态Agent在医疗/金融/法律行业突破 融合视觉/语音/传感器进行复杂任务执行 [4] - AI交互范式转移加速 语音等自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用采用"Go Narrow and Deep"策略 与大厂形成差异化竞争 [6] - AI BPO模式转向"按结果付费" 在金融/客服/营销等标准化行业快速扩张 [6] 具身智能发展路径 - 具身智能机器人将优先在拣选/搬运/组装场景实现规模化部署 [6] - 规模化部署需达到上千台机器人 形成"模型-本体-场景数据"闭环飞轮 [7]
AI吸纳全球53%的风险投资!启明创投发布AI十大展望
第一财经· 2025-07-28 13:07
AI行业投资趋势 - 2025年上半年AI初创企业吸纳了全球53%的风险投资资金,占全球风险投资总额的一半以上 [1] - AGI产业处于快速发展阶段,技术性能提升和成本下降推动大规模应用落地 [1] - 投资人持续加码AI基础模型公司,表明大模型领域仍保持高速增长 [1] 技术发展展望 - 未来1-2年200万Token上下文窗口将成为顶级AI模型的标配,上下文工程成为核心驱动力 [3] - 通用视频模型有望在1-2年内出现,推动视频内容生成与交互革新 [3] - AI芯片领域将出现更多国产GPU批量交付,新一代AI云端芯片采用3D DRAM堆叠等技术 [4] - AI推理成本过去两年降低100倍以上,未来Token消耗量将提高1-2个数量级 [4] AI Agent发展 - AI Agent将从"工具辅助"升级为"任务承接",首批"AI员工"将参与企业核心流程 [4] - 多模态Agent将融合视觉、语音等输入,在医疗、金融等行业实现突破 [4] AI应用变革 - AI交互范式将加速转变,自然交互方式推动AI原生超级应用诞生 [5] - 垂直场景AI应用潜力巨大,初创公司采取"垂直深耕"策略与大厂差异化竞争 [6] - AI BPO模式将在金融、客服等行业实现商业化突破,采用"按结果付费"方式 [6] 具身智能发展 - 具身智能机器人将率先在拣选、搬运、组装场景实现规模化部署 [8] - 规模化部署需要上千台机器人落地,形成"模型-本体-场景数据"闭环 [8]
对话商汤联创林达华:多模态是AGI的必经之路,是不可缺少的部分
新浪科技· 2025-07-28 12:24
公司动态 - 商汤科技在2025世界人工智能大会期间发布"悟能"具身智能平台 该平台以具身世界模型为核心引擎 依托商汤大装置提供端侧和云侧算力支持 能为机器人 智能设备提供感知 视觉导航及多模态交互能力 [1] - 商汤科技联合创始人表示 多模态是AGI的必经之路 公司在计算机视觉领域积累多年 拥有多模态模型和AI技术 并与硬件公司有广泛合作 在智能驾驶过程中积累了模型应用和控制技术体系 [1] - 公司旗下拥有元萝卜机器人及绝影等机器人及智驾业务 同时通过国香资本重点投资具身智能赛道 被投企业包括银河通用 众擎机器人 钛虎机器人 鹿明机器人等 [1] 行业趋势 - 具身智能市场正在快速成长 商汤科技希望从商业角度捕捉这一机会 公司认为其多模态大脑与具身智能相结合 在世界模型上的积累将形成重要竞争优势 [1] - 具身智能领域近期融资活跃 商汤投资的银河通用获得宁德时代参投的11亿元新一轮融资 众擎机器人完成近10亿元融资 [1]