Workflow
多模态
icon
搜索文档
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立|钛媒体AGI
钛媒体APP· 2025-05-08 16:33
公司动态 - 阶跃星辰将于7-8月发布满血版推理模型Step R1,并计划推出更先进的Step图片编辑模型 [2] - 公司成立于2023年4月,已发布22款自研基座模型,其中16款为多模态模型,占比超70% [5] - 2024年12月完成B轮融资,金额达数亿美元,投资方包括上海国资、腾讯投资、五源资本等 [5] - 2024年1月发布首款推理模型Step R-mini,2月开源文生视频/图生视频模型 [7] - 5月与ACE Studio联合开源3.5B版本音乐大模型ACE-Step,并与灿星文化战略合作 [7] 技术路线 - 公司坚持"多模理解生成一体化"技术路径,认为这是建立世界模型的最佳方式 [2] - 视觉领域"理解生成一体化"是计算机视觉需要突破的关键堡垒 [3] - 多模态能力是实现AGI的必经之路,对标人类多元化智能 [8] - 公司聚焦三大技术方向:预训练基础模型+强化学习、视觉理解生成一体化、智能体应用 [12] - 智能终端Agent是重点发力领域,包括汽车、手机、具身智能、IoT等场景 [11] 行业观点 - 认为AI时代产品流量增长逻辑不同于传统互联网,不认同投流模式 [2] - 2024年多模态和慢思考能力取得突破性进展,为AI Agent爆发奠定基础 [3] - 汽车辅助驾驶目前是简单预测模型,尚未实现真正推理能力 [11] - 看好AI眼镜发展,认为人形机器人泛化能力仍需长期发展 [11] - 国内AI产品更强调理解领先性,而公司注重基础模型+应用代际发展 [13] 商业模式 - 模型突破优先于商业化,应用与模型相辅相成 [2][11] - 通过端侧AI Agent服务实现C端盈利,最终服务于消费者 [11] - 已与吉利汽车、千里科技、OPPO、智元机器人、TCL等企业展开合作 [7] - 形成从模型到Agent、从云上到端侧的生态体系 [13]
为什么AI视频工具长得越来越像?
36氪· 2025-05-07 15:50
AI视频赛道竞争格局 - 行业从对标Sora转向关注商业化落地,中国玩家可灵、即梦等成为新焦点 [1][4] - 2025年半年内超10家AI视频公司密集发布新模型,迭代周期缩短至半月级 [4][12] - 头部玩家如Runway、可灵、Vidu保持半年一次基座模型更新节奏 [11][12] 技术竞争维度 - 行业聚焦三大方向:一致性(帧间连贯性)、可用性(工作流整合)、可玩性(创意特效) [6][9][14] - 一致性优化手段包括首尾帧控制、笔刷工具、多图参考等,Runway推出Act-One面部表情迁移功能 [9] - 可用性体现在动态编辑、镜头运动控制、端到端工作流(分镜-生成-剪辑)能力 [13] 产品功能同质化与商业化 - 主流产品功能趋同,均支持主体参考、音效生成、多模态编辑等基础功能 [5][15] - 可灵2.0生成5秒视频成本10元,B端API价格2元/5秒,国内厂商B端价格优势显著 [16][20] - 行业未现价格战,闭源模型仍主导市场,开源模型存在性能短板 [21][22] 市场参与者与融资动态 - 2025年初超10家AI视频初创公司获融资,Runway获3.8亿美元D轮,HeyGen获6000万美元A轮 [23][25] - 参与者分化为AGI派(如谷歌DeepMind)、平台派(如Runway)、产品派(如Pika) [26] - 创作者多平台组合使用,Runway强于可控性,Pika擅动漫风格,Vidu稳定写实输出 [26][27] 行业挑战 - 商用落地存在成本高企问题,3分钟短片制作成本达数万元,客户预算持续压缩 [16][18] - 技术路径未收敛,开源与闭源模型性能差距缩小但效率不足问题仍存 [21]
多模态和Agent成为大厂AI的新赛点
创业邦· 2025-05-01 10:54
大模型C端落地的核心方向 - 大模型落地C端场景的核心是让模型能力接近人类,分为降低用户沟通难度和提升复杂任务执行能力两个方向 [4] - 降低沟通难度依赖多模态能力提升,复杂任务执行依赖Agent产品生态成熟 [4] - 字节、百度、谷歌、OpenAI近期均推出多模态基础模型,阿里夸克上线"拍照问夸克"功能实现图文交互 [4][9] 多模态能力进展与场景渗透 - 火山引擎豆包1.5具备视觉理解能力,文心4.5 Turbo展示图像/视频识别能力,OpenAI o3/o4-mini实现"用图像思考" [9] - 谷歌Gemini 2.5 Flash可分析股票走势图并生成游戏场景设计图 [9] - 夸克"拍照问夸克"支持拍照搜索、文案生成、卡路里识别等功能,未来可能延伸至实时摄像头交互 [10][11][14] - 多模态能力将推动AI眼镜发展,目前受限于模型成熟度 [14] Agent产品生态现状 - 通用Agent产品形态趋向Manus提出的"对话框+工作区"模式,字节扣子空间、百度心响App等均采用该框架 [16][17] - 扣子空间擅长文字梳理但网页转化效果欠佳,心响App侧重移动端轻量化任务 [17][19] - 海外Agent更聚焦单一场景:Notion Mail处理邮件,OpenAI Operator操控浏览器,X AI Grok Studio生成文档/代码 [5] Agent核心能力要求 - 关键能力1:连接第三方数据/工具,需通过MCP/A2A协议扩展工具箱,纳米AI已接入近百工具 [20][21] - 关键能力2:编码能力,OpenAI拟收购Windsurf强化AI编程,支撑PPT/网页/游戏生成 [23] - 关键能力3:模型任务理解能力,OpenAI通过o3/o4-mini实现上网查资料/执行代码等"大脑"功能 [23] 厂商差异化发展路径 - 字节/百度采用API逻辑开发Agent,OpenAI按职业培养拟人化Agent(如司机型Operator、学者型Deep Research) [24] - OpenAI预计2025年Agent业务收入达30亿美元,2029年增至290亿美元,需结合多模态与执行能力成为底层入口 [25]
多模态和Agent成为大厂AI的新赛点
36氪· 2025-04-30 07:29
大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜,多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力,进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级,代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能,基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力,谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线,包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent,如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式,能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务,包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力:第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力,国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要,OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础,OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展,未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元,2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent,OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]
通义千问 Qwen3 发布,对话阿里周靖人
晚点LatePost· 2025-04-29 16:43
文章核心观点 - 阿里云CTO周靖人认为大模型发展已进入早期阶段中期,需在多模态、工具使用、Agent支持和持续学习等多方向布局[5][14] - 通义千问Qwen3作为全球首个开源混合推理模型,通过融合推理和非推理模式实现性能与成本平衡,代表技术新趋势[6][15] - 阿里开源战略成效显著:Qwen系列下载量达3亿次,衍生模型超10万个,超越Meta Llama成为全球最活跃开源模型[7][8][18] - 公司坚持技术规律导向的研发节奏,强调长期创新而非短期竞争,认为AGI发展需要云计算体系与大模型的深度协同[12][13][21] 技术突破 - Qwen3-235B-A22B以2350亿总参数在多项基准测试超越6710亿参数的DeepSeek-R1,小尺寸MoE模型Qwen3-30B-A3B激活参数仅30亿但性能更优[7] - 混合推理模型创新性实现"思考预算"设置,开发者可自定义深度思考的token消耗量以平衡成本效益[15] - 模型支持vLLM/SGLang推理框架和MCP协议,配合Qwen-Agent框架可快速开发智能体[18] - 多模态技术积累始于2019年,2021年已发布万亿参数MoE多模态模型M6,当前视频生成模型万相2.1与Sora互有胜负[17][26] 开源生态 - 开源决策基于两大判断:模型作为核心生产元素需通过开源普及,开源已成为大模型重要创新驱动力[18] - 魔搭社区累计开源超200个模型,Qwen系列占Hugging Face下载量30%以上,衍生模型数量持续领先Llama系列[7][8][18] - 版本策略覆盖全场景需求:0.6B-32B稠密模型满足端侧到企业部署,MoE模型提供高性价比选择[18] - 开发者服务导向体现在消费级显卡适配、及时支持主流框架等举措,形成技术生态正循环[18] 研发体系 - 采用pipeline式研发管理,预研方向通过小规模实验验证后阶梯式投入,保持多技术方向并行探索[24] - 实验平台支持快速迭代,避免直接超大规模投入,强调科学评估和数据驱动的决策机制[25] - 人才策略结合职级普调与使命驱动,通过系统性工程积累形成代际技术优势[25][26] - 研发投入聚焦三大方向:类人思考能力进化、多模态融合、云模型协同优化带来的效率突破[13][20] 行业竞争 - 认为当前模型竞争本质是系统工程较量,需云计算、数据平台和工程能力的全面配合[13][21] - 指出纯Infra优化无法替代完整云服务,强调阿里云在SLA保障、多模型兼容等方面的企业级优势[22] - 预判行业将面临供电瓶颈,提前布局智算中心选址的energy-aware优化[22][23] - 3800亿新基建投入应对AI应用指数增长,目前MaaS服务已现供不应求态势[22]
国产算力景气度持续,关注昇腾产业链
2025-04-28 23:33
纪要涉及的行业和公司 - **行业**:通信行业、光通信行业、AI 行业、国产算力行业 - **公司**:升腾产业链相关公司、新易盛、世佳光子、源杰科技、光迅科技、华工科技、德科立、英维克、仕佳光子、智尚科技、武汉凡谷、汉威科技、润泽科技、旭创、天孚、太辰光、中国移动、华丰科技、探境科技、烽火通信、瑞可达、拓邦股份 纪要提到的核心观点和论据 - **升腾产业链**:近期发布 384 超节点,性能对标 GB200 和 NVL72,集群算力等较之前翻数倍,与英伟达 H 卡及 GB GLOBAL 卡性能差距缩小 升腾 910C 芯片核心用于训练场景突破,主要用于华为云底层基础设施,下游互联网厂商需求旺盛,计划 2025 年 5 月大规模出货,采用双 910B 芯片封装方案 国产卡整体性能和客户接受度改善,上游配套产业链感受到行业景气度提升,各公司加大产能布局 [1][2] - **通信行业财报**:2024 年年报和 2025 年第一季度财报发布,对板块股价波动影响明显 光通信板块表现突出,新易盛、世佳光子等公司财报超预期,源杰科技 CW 光源出货收入和盈利能力大幅好转,新产品毛利率达 80%以上 部分公司受供应链和春节影响产能利用率较低 国产光模块公司如光迅科技一季度环比略有下降,但盈利能力提升明显;华工科技等国内光模块需求高景气,今年产能爬坡至每月七八十万的供给量 [1][4] - **光通信行业公司表现**:新易盛收入和利润强劲 世佳光子业绩超预期,受益于无源器件和对应芯片产品海外需求扩展,以及 AWG、MPO 连接器、室内光缆产品收入与毛利率大幅改善 德科立一季度产能扩充明显,未来几年国内外产能释放将高速增长,海外 DCI 业务将带来业绩增量高速增长 [1][5] - **通信行业整体表现**:本周通信板块整体跑输万得全 A 指数,但申万通信指数涨幅为 1.3%,在 31 个行业中排名第 13 名 光器件和光模块子板块受超预期个股拉动情绪提振明显,涨幅达 12% 工业互联网和光纤光缆公司分别上涨 5%和 4.7% IDC、量子通信和运营商板块下跌,因业绩增速不及预期 [3][9] - **个股表现**:本周涨幅居前的个股包括仕佳光子(66.5%)、智尚科技(44.8%)、武汉凡谷(28.9%)、汉威科技(23%)和新易盛(22.2%) 智尚科技因收购公告上涨显著;武汉凡谷受华为欧洲政策松绑影响;汉威科技受传感器业务及机器人马拉松大赛主题催化;新易盛因其业绩超预期 [10][11] - **AI 大模型发展趋势**:AI 大模型持续进化,多模态成为基础模型标配,对算力需求显著提升 百度新模型每百万 TOKEN 价格下降至约 1/4,成本大幅改善以及多模态交互对算力需求的提升将拉升算力需求 [3][12] - **投资建议**:关注自主可控产业链,包括高速连接器、液冷散热与服务器环节 关注国产算力与 AI DC 产业链景气度及订单体现 关注 AI 应用端推进,特别是涉及硬件端 IoT 智能模组与智能控制器相关公司 本周推荐组合一周平均涨幅达 11.9%,下周建议关注华丰科技、英维克、烽火通信、瑞可达、拓邦股份、新易盛与仕佳光子 [13] 其他重要但是可能被忽略的内容 - 英维克在液冷环节表现低于预期,股价下跌,但收入符合预期,国内温控订单竞争加剧导致毛利率压力增加 作为一家长跑型公司,通过技术创新引领行业发展,预计中短期内仍能脱颖而出 今年行业景气度高,字节跳动、阿里巴巴和腾讯等公司的高投入将推动行业增长 [1][8] - 随着一季报结束以及外部环境敏感度降低,将回归关注 AI 行业快速发展及国产算力加速改进主线,对后续发展持乐观态度 今年特别高景气,从大厂招投标验证信息来看确定性较高 在新产品发布与持续加大出货情况下,公司盈利能力将持续改善,高速成长态势明确 [6][7]
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
量子位· 2025-04-28 11:43
全球AI大模型进入多模态时代 - 行业正围绕多模态技术展开密集创新,多模态能力成为AI应用落地的核心要素[1][2] - 阶跃星辰作为代表性玩家,过去1个月发布3款多模态模型(图生视频、多模态推理、图像编辑),其中2款已开源[5][7] - 公司已发布21款基座模型,多模态占比达70%,覆盖语言、语音、图像、视频、推理五大方向[61][70] 阶跃星辰多模态技术突破 Step1X-Edit图像编辑模型 - 采用19B参数创新架构(7B MLLM+12B DiT),首次实现理解与生成模块解耦[8][9] - 在GEdit-Bench基准测试中,语义一致性(7.183)、图像质量(7.229)、综合得分(7.161)全面领先开源模型,媲美GPT-4o[12][13] - 实测显示具备精准语义解析(大象转身)、身份一致性保持(马斯克秃头)、区域级控制(海水调色)三大核心能力[19][23][27] Step-R1-V-Mini多模态推理模型 - 采用PPO强化学习策略,通过多模态合成数据解决训练跷跷板问题[41][43] - 在MathVision视觉推理榜单以56.6分位列国内第一,超越Claude 3.5(37.99)和Gemini 2.0 Flash(41.3)[40] - 展示出复杂场景推理能力(精确定位北京长安街)、烹饪方法分析(川香藤椒鸡步骤分解)等应用潜力[45][51] Step-Video-TI2V图生视频模型 - 基于30B参数Step-Video-T2V优化,支持生成5秒540P视频,具备运动幅度/镜头运动双控制[56][57] - 通过引入图像条件提升一致性,动态性参数可调(2-20数值范围对应不同运动强度)[58] - 填补开源图生视频领域空白,与闭源Sora形成差异化竞争[55] 终端Agent商业化布局 - 2025年重点发力四大场景:智能汽车(吉利)、手机终端(OPPO)、具身智能(智元机器人)、IoT(TCL)[65][66][67] - 采用深度绑定策略,与各领域头部企业建立全价值链合作,例如为OPPO提供「一键问屏」多模态技术支持[66][69] - 形成「数据-场景-模型」三角闭环,2年内完成21款模型研发,成为国内基座模型种类最全的公司之一[63][73] 行业竞争格局 - 全球科技巨头(OpenAI GPT-4o、谷歌Gemini)与阶跃等企业正围绕多模态展开新一轮竞赛[75] - 多模态技术决定AI模型天花板,阶跃通过「技术奇袭+终端破局」双轮驱动实现后来居上[72][73] - 行业进入新旧范式交替期,非多模态AI模型面临淘汰风险[76]
重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
机器之心· 2025-04-28 09:26
大规模语言模型技术发展 - 大语言模型(LLM)正以前所未有的速度推动科技进步和产业变革,重塑人机交互方式并成为学术研究与产业创新的关键技术[3] - 2023年9月复旦大学团队发布《大规模语言模型:从理论到实践》,两年内该领域在理论研究、预训练方法、后训练技术等方面取得重要进展[6] - 大语言模型展现出惊人泛化性(仅需60条数据即可学习)但存在脆弱性(130亿参数模型中修改1个参数可能导致功能崩溃)[6] 书籍核心升级内容 - 新增40%前沿内容,深度剖析MoE、强化学习、多模态、智能体、RAG、效率优化等技术趋势[8][10] - 知识体系重构后覆盖预训练、微调、强化学习、应用开发、效率优化全流程[9] - 新增多模态大语言模型、智能体、RAG、大模型效率优化等实用章节,指令微调和强化学习部分大幅修改[11] 技术体系架构 - 理论基础部分涵盖Transformer结构、LLaMA模型实例及混合专家模型(MoE)[15] - 预训练部分详解数据分布/预处理方法及DeepSpeed框架下的分布式训练技术[15] - 指令理解部分包含LoRA等高效微调方法,强化学习章节涉及PPO/RLHF算法及DeepSeek-R1等案例[15] - 能力增强部分探讨多模态架构设计、LangChain智能体实现及RAG系统协作机制[15] - 应用部署部分包含vLLM等推理框架优化技术和本地化部署实践方法[16][21] 作者团队背景 - 复旦大学NLP团队由张奇(发表200+论文)、桂韬(NeurIPS 2023最佳论文)、郑锐(NeurIPS 2024最佳论文)、黄萱菁(8项论文奖)等学者组成[24][25] - 团队在ACL/ICML/NeurIPS等顶会持续产出,研究方向覆盖预训练模型、智能体交互、多模态学习等前沿领域[25] 行业专家评价 - 中国工程院院士蒋昌俊认为该书"恰逢其时",是学术界和产业界探索LLM的必备读物[28] - 上海人工智能实验室主任周伯文指出该书系统覆盖预训练、多模态、智能体等前沿领域,具有重要参考价值[28] - 专家共识认为第二版新增内容(如RAG、智能体章节)显著提升了理论深度与实践指导性[27][28]
李彦宏点评 DeepSeek 又贵又慢,网友:这就有点“既要又要”了
程序员的那些事· 2025-04-26 23:13
以下文章来源于MaxAIBox ,作者Max 2 月 14 日,百度宣布了文心大模型不止要免费,而且还要开源。 2 月 16 日晚,百度搜索和文心智能体平台分别宣布,将全面接入 DeepSeek 和文心大模型最新的深度 搜索功能。2 月 18 日,DeepSeek-R1 满血版已经在百度 APP 搜索上线。 此外,2 月 18 日晚间,李彦宏在 2024 年第四季度及全年财报表示: MaxAIBox . MaxAIBox.com 汇集优秀 AI 工具,探索 AI 无限可能 1 众所周知,百度曾经坚持闭源路线,但 DeepSeek 爆火出圈后,随着各行各业众多企业接入满血版 DeepSeek-R1,百度也跟上了。 从 DeepSeek 我们学到一点,那就是将最为优秀的模型开源供所有人使用,将可以极大地推动其 应用,因为大家出于好奇自然会想去尝试开源模型,进而推动其更广泛的应用。 2 4 月 25 日,百度在武汉举办了一场 AI 开发者大会,李彦宏上台发表了题为《模型的世界,应用的天 下》的演讲。 他指出,"只要找对场景,选对基础模型,学一点调模型的方法,做出来的应用不会过时。" + "没有应 用,芯片、模型都没 ...
酷开一口气甩出 6 个超级智能体!CEO:一定要做 AI 原生,性价比是我们追求的主要方向
AI前线· 2025-04-25 21:48
公司战略与产品发布 - 公司在2025春季发布会上推出超级智能体,涵盖影音、健康、生活、设备、创作、教育六大领域,并发布酷开学习机Y41 Air、酷开闺蜜机C20系列等硬件产品 [2] - 公司宣布正式以AI原生企业的定位面向未来发展 [2] - CEO提出"所有硬件都值得用AI重做一遍"的理念 [3] 行业现状与公司定位 - 当前智能体市场存在应用广度及深度不足、设备交互无法满足场景需求的问题,导致智能体应用价值未充分发挥 [5] - 公司强调自身作为应用厂商更注重性价比,与大厂专注大模型的逻辑形成差异化 [8] 技术规划与产品迭代 - 公司计划分三步推进超级智能体发展:用户数据闭环观察(3个月)、升级意图识别模型(7B→32B)、保持与行业领先大模型同步 [6] - 超级智能体将支持软件售卖、设备授权、PaaS服务、生态共赢等合作模式,Q1签约智能体销售中软件与硬件各占50% [7] 商业化与成本控制 - 公司内部重点核算大规模使用成本,确保成本足够低以实现商业化落地 [8] - 智能体需达到标准化产品要求才能销售,需确保用户数据达到基本程度 [8] 行业合作与场景落地 - 公司已在运营商、车载、酒店、办公等领域与知名企业合作,包括一汽奔腾、极氪汽车等车企及途虎养车等后装服务商 [9] - 公司提供智能座舱和影音娱乐系统软硬件全链路解决方案赋能汽车行业 [9]