多模态
搜索文档
「阶跃星辰」的一次豪赌
36氪· 2025-05-12 08:27
公司战略与定位 - 阶跃星辰专注于多模态技术研发,认为多模态是实现AGI的必经之路,并将大部分资源投入该领域[4][8] - 公司采取差异化竞争策略,未参与应用投流热潮,仅试水To C应用,保持低调但技术领先的身位[2][3] - 技术路线选择"难上加难"的理解生成一体化原生多模方向,从成立之初即定为主线[5][14] 技术布局与成果 - 成立两年发布22款自研基座模型,其中16款为多模态模型,占比超70%,覆盖文字、语音、图像等六大模态[4] - 多模态技术处于早期探索阶段,类比语言模型相当于GPT-1.0前的Transformer时期,需解决模态融合不降智的难题[5][18] - 重点布局两大技术趋势:预训练模型+强化学习提升推理能力,以及视觉领域理解生成一体化[10][14] - 组建多支技术路线并行团队,采取"并发突破"策略应对技术不确定性[7] 产品与商业化路径 - 2025年将产品"跃问"更名为"阶跃 AI",实现从类ChatGPT产品向Agent能力转型[22] - 选择智能终端Agent为主攻方向,与Oppo、吉利汽车等头部企业合作落地手机、汽车、机器人场景[23][24] - 商业化逻辑强调模型突破先于应用爆发,通过绑定行业头部公司获取场景和数据,暂不直接ToC[20][24] - 认为AI产品流量增长不依赖传统投流模式,以DeepSeek为例验证技术驱动增长路径[19] 行业趋势判断 - 多模态与Agent成为2025年两大关键词,Agent爆发依赖多模态能力和慢思考能力的突破[6][23] - 技术演进路线从单模态到多模态,再到理解生成一体化,最终延伸至AI for Science[9][18] - 视觉领域尚未解决predict next frame难题,因模态复杂度远超语言(图片数据达百万维连续空间)[17] - 行业技术发展仍处陡峭增长期,基础模型研发决定应用上限,应用场景反哺模型迭代[22]
虞晶怡教授:大模型的潜力在空间智能,但我们对此还远没有共识|Al&Society百人百问
腾讯研究院· 2025-05-09 16:20
大模型技术发展 - 当前技术发展尚未遇到极限 跨模态整合仍有巨大潜力未被挖掘 如DALL-E 3结合语言模型与扩散模型已实现惊人图像生成效果 [10] - GPT-4o采用语言模型的Next-Token-Prediction方式 展示出图像编辑和用户需求理解的突破性能力 [10] - Scaling law在多模态背景下讨论为时尚早 当前重点在于深度挖掘语言模型能力并探索与其他模态结合的上限 [11] 空间智能演进 - 发展历程从数字孪生/仿真平台起步 逐步扩展至VR/元宇宙 光场技术提升沉浸体验质量 [12] - 神经网络技术如NeRF推动空间智能从数字复刻转向智能理解 生成式AI进一步实现空间创造能力 [12] - 文生3D技术突破传统建模限制 通过单张图片实时生成三维结构 CLAY项目获SIGGRAPH最佳论文提名 [14] 关键技术瓶颈 - 3D场景数据严重不足 真实世界复杂物体交互数据尤其匮乏 如家庭环境物品分布变化案例 [18] - 三维表达方式未统一 NeRF/SDF/Mesh参数化等方案各有优劣 影响数据利用效率 [26] - 物理规则建模是核心难点 需解决物体间动态关系模拟 如堆叠物体操作中的连锁反应 [20] 行业应用前景 - 短期聚焦影视/游戏内容生成 大幅降低元宇宙构建成本 中长期成为具身智能基础模型 [42] - 低空经济是潜力场景 无人机配送需厘米级空间精度 相关研究年底将展示demo [45] - 养老机器人需突破翻身/洗澡等刚需功能 15年内有望成熟 需解决负重与安全平衡 [49] 研究方法论创新 - 引入"行动者网络理论" 认为三维物体具有潜在行动力 其变化会显著影响环境 [16] - 整体性方法强调感知-认知-行为协同 如NLOS成像技术可推断物体背面几何形态 [36][37] - 合成数据与真实数据互补 通过跨模态学习缓解3D数据不足 如文本描述辅助推断物体关系 [19] 教育范式变革 - 编程课程将提前至高中阶段 学生接受度与能力提升显著 AI课程将成为通识教育 [52] - 教学模式转向短课程快迭代 美国quarter system显示课时压缩有助于内容更新 [8][53] - 教师需对接工业界痛点 传统教材被教参取代 持续学习能力成为核心要求 [53]
国内大模型人才大战打响!大厂各出奇招,薪资不设上限、CTO亲自参与指导、无需实习经验
量子位· 2025-05-09 13:00
大厂AI人才争夺战核心策略 - 核心观点:科技巨头通过高薪、明星导师和特色培养机制争夺顶尖AI人才,尤其聚焦大模型和多模态领域,反映出行业对高端技术人才的极度渴求[1][3][39] 招聘计划与要求 - 计划名称:京东"TGT-顶尖青年技术天才计划"、百度"文心新星计划"、阿里国际"Bravo 102"、腾讯"青云计划"、华为"Top Seed人才2025"[2] - 招聘对象:主要针对校招生/实习生(京东/腾讯/华为),部分要求博士生(字节)或优秀在校生(百度/阿里)[2] - 招聘要求:需在顶会发表论文(京东)、获得重量级奖项或技术专利,字节强调技术信仰与好奇心,百度/阿里要求"超级学霸"或"竞赛达人"[2][6][7] 技术方向聚焦 - 大模型领域:百度主攻大模型/深度学习框架,腾讯侧重AI大模型/基础设施,字节专注大模型训练/多模态[2][8] - 多模态应用:京东涉及搜索推荐广告方向,华为覆盖AI算法/软件开发,阿里国际侧重算法/数据工程[2][10][13] - 业务场景结合:腾讯/阿里/华为强调底层算法,京东/字节更紧密联系核心业务如电商推荐和内容生态[13][14][29] 人才吸引策略 - 薪酬机制:京东"薪资不设上限",腾讯提供"行业TOP薪酬",OpenAI机器人团队岗位最高385万年薪[2][15][37] - 培养体系:京东实行三导师制,百度由CTO亲自指导,阿里提供"反选团队"和快速晋升通道[2][16] - 招聘规模:百度未来三年开放21000实习岗,腾讯计划新增28000员工,华为2025校招同比两位数增长[20] 行业竞争态势 - 人才供需:国内AI人才供需比仅0.5(1岗对应1人),头部公司算法工程师年薪达300万[21][27] - 国际对比:硅谷企业如OpenAI通过百万美元薪酬(约720万人民币)和CEO亲自沟通挖角[35][36][38] - 业务驱动:腾讯元宝登顶C端下载榜,阿里通义App增长迅猛,字节豆包累计用户近3亿[29][31]
盘前情报|国家发改委:今年将推出3万亿元规模优质项目;华为首款鸿蒙电脑正式亮相
21世纪经济报道· 2025-05-09 08:38
A股市场表现 - 市场全天低开高走,创业板指领涨1.65%,深成指涨0.93%,沪指涨0.28% [1] - 沪深两市成交额1.29万亿元,较上个交易日缩量1749亿元 [1] - 军工、铜缆高速连接、脑机接口、CPO等板块涨幅居前,PEEK材料、农业、化肥、黄金等板块跌幅居前 [1] 全球股指表现 - 道琼斯工业平均指数上涨0.62%至41368.45点,标准普尔500指数上涨0.58%至5663.94点,纳斯达克综合指数上涨1.07%至17928.14点 [2] - 英国富时100指数下跌0.32%至8531.61点,法国CAC40指数上涨0.89%至7694.44点,德国DAX指数上涨1.02%至23352.69点 [2] 大宗商品市场 - 纽约WTI原油期货价格上涨3.17%至每桶59.91美元,伦敦布伦特原油期货价格上涨2.81%至每桶62.84美元 [3] - COMEX黄金价格上涨2%至3323.60美元/盎司 [4] 政策与投资计划 - 国家发改委将推出总投资规模约3万亿元优质项目,重点布局交通运输、能源、水利、新型基础设施等领域 [4] - 民营企业参与国家重大项目建设机制完善,核电项目民间资本参股比例达20%,工业设备更新领域民营企业资金占比超80% [4] 科技产业动态 - 首款鸿蒙电脑亮相,搭载HarmonyOS 5系统,华为积累超2700项核心专利 [5] - 多模态AI推动算力需求升级,光模块、交换机等底层网络硬件升级周期缩短 [5] 跨境电商政策 - 美国取消对华小额包裹免税政策,商务部表示反对并愿加强国际合作促进跨境电商可持续发展 [6][7] 消费促进政策 - 商务部提出促进"人工智能+消费""IP+消费",培育人工智能消费品牌,建设IP消费商业地标 [7] - 加快传统消费数字化转型,实施促进健康消费专项行动 [7] 汽车市场数据 - 4月全国乘用车市场零售179.1万辆,同比增长17%,新能源车零售92.2万辆,同比增长37% [8] - 新能源车市场零售渗透率达52.3%,累计零售334.2万辆,同比增长37% [8] 光伏产业情况 - 单晶硅片价格承压下行,N型G10L单晶硅片周环比跌幅9.82%,N型G12R单晶硅片周环比跌幅13.85% [9] - 下游终端需求回落,组件、电池各环节价格下行 [9] 机构观点 - 美联储维持政策利率不变,预计年内降息次数小于或等于2次 [10] - 房地产政策持续推动,头部房企市占率有望抬升 [10] 公司动态 - 中芯国际一季度净利润13.56亿元,同比增长166.5% [11] - 招商银行拟150亿元设立金融资产投资公司 [11] - 四川长虹拟2.5亿元—5亿元回购公司股份用于股权激励 [11] 资金流向 - 通信设备行业主力资金净流入28.21亿元,净占比4.02% [11] - 半导体行业主力资金净流出17.23亿元,净占比-3.25% [11] - 宁德时代获主力资金净流入8.17亿元,净占比10.66% [12]
晚报 | 5月9日主题前瞻
选股宝· 2025-05-08 22:44
鸿蒙PC - 鸿蒙电脑操作系统首次亮相 首款鸿蒙电脑将搭载鸿蒙5.0操作系统 将于5月19日正式发布 [1] - 鸿蒙电脑实现AI能力与底层硬件、操作系统、软件应用深度融合 小艺成为系统级智能助理 支持制作PPT、会议纪要等操作 [1] - 依托分布式软总线技术 鸿蒙电脑支持与华为手机、电脑、平板三设备键鼠共享 [1] - 东吴证券表示多模态是AI商业宏图的起点 有望为企业降本增效 推动生产力提升 [1] - 中泰证券表示多模态推动算力需求升级 持续看好算力网络产业机会 北美大厂CAPEX整体指引乐观并侧重AI算力投入 [1] 机器人 - 千寻智能迎来华为哈勃和深圳招商局创新投资基金入股 为具身智能机器人研发注入新活力 [2] - 华为在人工智能、云计算及大数据等领域的积累将为千寻智能的研发和市场推广提供支持 [2] - 中信证券研报表示2025年将成为具身智能机器人产业的量产元年 推动人工智能AGI和机器人产业深度融合 [2] - 光大证券表示2025年人形机器人将实现万台级别量产 带动下游产业链放量 解决数据匮乏难题 [2] 低空经济 - 中银金租将向沃兰特采购100架VE25型eVTOL航空器 中国银行将提供不低于十亿元综合授信额度 [3] - 沃兰特已确定VE25-100型航空器的审定基础 中国高等级商用客运eVTOL航空器适航审定进入实质性阶段 [3] - Sino Jet宣布向吉利子公司Aerofugia采购100架AE200载人eVTOL 两起订单合计200架 标志中国低空经济进入规模化落地阶段 [3] 宏观、行业新闻 - 国家主席习近平同普京总统签署关于进一步深化中俄新时代全面战略协作伙伴关系的联合声明 中俄交换20多份双边合作文本 [4] - 工信部公开征集对《汽车车门把手安全技术要求》强制性国家标准制修订计划项目的意见 强化安全逻辑和冗余设计要求 [4] - 商务部部长王文涛表示加快补上内需特别是消费短板 使内需成为拉动经济增长的主动力和稳定锚 [4] - 国务院国资委发布首批央企高质量数据集优秀建设成果 [4] - 硅业协会表示下游终端需求回落 组件、电池价格下行 硅片价格继续下跌 [5] - 重庆啤酒总裁李志刚对2025年啤酒行业前景持谨慎乐观态度 认为外部环境向好和政策支持将促进行业发展 [5] - 百度Apollo与神州租车将联合推出自动驾驶汽车租赁服务 [5] - 宁德时代发布全球首款9MWh储能系统 [5] - 夸克AI超级框上线"深度搜索" [6] - 任天堂预计Switch 2首年销量为1500万台 [7] - 苹果Safari浏览器上搜索量首次下降 [7] - 戴比尔斯计划关闭实验室培育钻石珠宝业务Lightbox [7] 磁悬浮压缩机 - 丹佛斯磁悬浮压缩机总裁表示未来三年中国数据中心对磁悬浮压缩机的需求至少翻倍 [10] - 相关上市公司包括走伍股份、佳力图、磁谷科技、联德股份、通业科技、走翔股份、鑫磊股份、汉钟精机、山东章鼓、百达精工、联合精密、余通灵、冰轮环境、润见航科等 [10] 军工 - 巴基斯坦与印度在巴控克什米尔发生交火 [11] - 相关上市公司包括航天长峰、成飞集成、晨曦航空、走任股份、天箭科技、利君股份、银河电子、通达股份、金通灵、中航成飞、展鹏科技、海能达、航天南湖、保利联合、四创电子、中超控股、春光科技、神驰机电、侨银股份等 [11] 机器人 - 智元研究院发布消费级外骨骼机器人 世界人形机器人运动会8月在北京举行 [11] - 相关上市公司包括豪能股份、冀东装备、万向钱潮、冀凯股份、荣泰健康、盛通股份、山东章鼓、宸展光电等 [11] 华为鸿蒙 - 鸿蒙PC亮相 [12] - 相关上市公司包括高测股份、盛通股份、视觉中国、东华软件、金龙机电、东方中科等 [12] 大消费 - 相关上市公司包括大千生态、华纺股份、中百集团、上海凤凰、东百集团、天邦食品等 [12] 新能源汽车 - 相关上市公司包括日上集团、汉马科技、山子高科、广东鸿图等 [12] 东数西算/算力 - 相关上市公司包括沃尔核材、剑桥科技等 [12] 脑科学 - 强脑科技义肢刷屏 [12] - 相关上市公司包括麒盛科技、荣泰健康等 [12] 跨境电商 - 相关上市公司包括久祺股份、跨境通等 [12] 股权转让 - 相关上市公司包括皓宸医疗、贝肯能源等 [12] 光刻机 - 相关上市公司包括奥普光电等 [12] ST摘帽 - 相关上市公司包括山东墨龙、*ST同洲、*ST宇顺、*ST亚太、ST加加、*ST和科、ST证通、*ST步森、ST升达、*ST贤丰、*ST东易、ST瑞和、*ST原尚、*ST春天、*ST四通、*ST兰黄、ST起步、*ST亚振、*ST元成、*ST创兴、*ST立航、*ST荣控、*ST花王、*ST高斯、*ST生物、ST华闻、*ST宝鹰、*ST景峰、ST宁科、*ST恒久、*ST正平、*ST科新、ST凯文、*ST椰岛、*ST东通、ST雪发、*ST 科等 [13][15] 其他 - 相关上市公司包括花甲江能、豪尔赛、兴峰集团等 [15]
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立|钛媒体AGI
钛媒体APP· 2025-05-08 16:33
公司动态 - 阶跃星辰将于7-8月发布满血版推理模型Step R1,并计划推出更先进的Step图片编辑模型 [2] - 公司成立于2023年4月,已发布22款自研基座模型,其中16款为多模态模型,占比超70% [5] - 2024年12月完成B轮融资,金额达数亿美元,投资方包括上海国资、腾讯投资、五源资本等 [5] - 2024年1月发布首款推理模型Step R-mini,2月开源文生视频/图生视频模型 [7] - 5月与ACE Studio联合开源3.5B版本音乐大模型ACE-Step,并与灿星文化战略合作 [7] 技术路线 - 公司坚持"多模理解生成一体化"技术路径,认为这是建立世界模型的最佳方式 [2] - 视觉领域"理解生成一体化"是计算机视觉需要突破的关键堡垒 [3] - 多模态能力是实现AGI的必经之路,对标人类多元化智能 [8] - 公司聚焦三大技术方向:预训练基础模型+强化学习、视觉理解生成一体化、智能体应用 [12] - 智能终端Agent是重点发力领域,包括汽车、手机、具身智能、IoT等场景 [11] 行业观点 - 认为AI时代产品流量增长逻辑不同于传统互联网,不认同投流模式 [2] - 2024年多模态和慢思考能力取得突破性进展,为AI Agent爆发奠定基础 [3] - 汽车辅助驾驶目前是简单预测模型,尚未实现真正推理能力 [11] - 看好AI眼镜发展,认为人形机器人泛化能力仍需长期发展 [11] - 国内AI产品更强调理解领先性,而公司注重基础模型+应用代际发展 [13] 商业模式 - 模型突破优先于商业化,应用与模型相辅相成 [2][11] - 通过端侧AI Agent服务实现C端盈利,最终服务于消费者 [11] - 已与吉利汽车、千里科技、OPPO、智元机器人、TCL等企业展开合作 [7] - 形成从模型到Agent、从云上到端侧的生态体系 [13]
为什么AI视频工具长得越来越像?
36氪· 2025-05-07 15:50
AI视频赛道竞争格局 - 行业从对标Sora转向关注商业化落地,中国玩家可灵、即梦等成为新焦点 [1][4] - 2025年半年内超10家AI视频公司密集发布新模型,迭代周期缩短至半月级 [4][12] - 头部玩家如Runway、可灵、Vidu保持半年一次基座模型更新节奏 [11][12] 技术竞争维度 - 行业聚焦三大方向:一致性(帧间连贯性)、可用性(工作流整合)、可玩性(创意特效) [6][9][14] - 一致性优化手段包括首尾帧控制、笔刷工具、多图参考等,Runway推出Act-One面部表情迁移功能 [9] - 可用性体现在动态编辑、镜头运动控制、端到端工作流(分镜-生成-剪辑)能力 [13] 产品功能同质化与商业化 - 主流产品功能趋同,均支持主体参考、音效生成、多模态编辑等基础功能 [5][15] - 可灵2.0生成5秒视频成本10元,B端API价格2元/5秒,国内厂商B端价格优势显著 [16][20] - 行业未现价格战,闭源模型仍主导市场,开源模型存在性能短板 [21][22] 市场参与者与融资动态 - 2025年初超10家AI视频初创公司获融资,Runway获3.8亿美元D轮,HeyGen获6000万美元A轮 [23][25] - 参与者分化为AGI派(如谷歌DeepMind)、平台派(如Runway)、产品派(如Pika) [26] - 创作者多平台组合使用,Runway强于可控性,Pika擅动漫风格,Vidu稳定写实输出 [26][27] 行业挑战 - 商用落地存在成本高企问题,3分钟短片制作成本达数万元,客户预算持续压缩 [16][18] - 技术路径未收敛,开源与闭源模型性能差距缩小但效率不足问题仍存 [21]
多模态和Agent成为大厂AI的新赛点
创业邦· 2025-05-01 10:54
大模型C端落地的核心方向 - 大模型落地C端场景的核心是让模型能力接近人类,分为降低用户沟通难度和提升复杂任务执行能力两个方向 [4] - 降低沟通难度依赖多模态能力提升,复杂任务执行依赖Agent产品生态成熟 [4] - 字节、百度、谷歌、OpenAI近期均推出多模态基础模型,阿里夸克上线"拍照问夸克"功能实现图文交互 [4][9] 多模态能力进展与场景渗透 - 火山引擎豆包1.5具备视觉理解能力,文心4.5 Turbo展示图像/视频识别能力,OpenAI o3/o4-mini实现"用图像思考" [9] - 谷歌Gemini 2.5 Flash可分析股票走势图并生成游戏场景设计图 [9] - 夸克"拍照问夸克"支持拍照搜索、文案生成、卡路里识别等功能,未来可能延伸至实时摄像头交互 [10][11][14] - 多模态能力将推动AI眼镜发展,目前受限于模型成熟度 [14] Agent产品生态现状 - 通用Agent产品形态趋向Manus提出的"对话框+工作区"模式,字节扣子空间、百度心响App等均采用该框架 [16][17] - 扣子空间擅长文字梳理但网页转化效果欠佳,心响App侧重移动端轻量化任务 [17][19] - 海外Agent更聚焦单一场景:Notion Mail处理邮件,OpenAI Operator操控浏览器,X AI Grok Studio生成文档/代码 [5] Agent核心能力要求 - 关键能力1:连接第三方数据/工具,需通过MCP/A2A协议扩展工具箱,纳米AI已接入近百工具 [20][21] - 关键能力2:编码能力,OpenAI拟收购Windsurf强化AI编程,支撑PPT/网页/游戏生成 [23] - 关键能力3:模型任务理解能力,OpenAI通过o3/o4-mini实现上网查资料/执行代码等"大脑"功能 [23] 厂商差异化发展路径 - 字节/百度采用API逻辑开发Agent,OpenAI按职业培养拟人化Agent(如司机型Operator、学者型Deep Research) [24] - OpenAI预计2025年Agent业务收入达30亿美元,2029年增至290亿美元,需结合多模态与执行能力成为底层入口 [25]
多模态和Agent成为大厂AI的新赛点
36氪· 2025-04-30 07:29
大模型应用场景的竞争策略 - 大厂AI竞争策略向应用场景倾斜,多模态能力和代理执行成为两大焦点 [1] - 大模型落地C端需接近人类能力,进化方向包括降低沟通难度和提升复杂任务执行能力 [1] - 多模态能力实现需依托基础大模型升级,代理执行能力依赖Agent产品生态成熟 [1] 多模态能力发展现状 - 字节、百度、谷歌、OpenAI近期推出多模态能力更强的基础大模型产品 [1] - 阿里夸克上线"拍照问夸克"功能,基于通义推理及多模态大模型+后训练实现 [1] - 多模态应用场景包括看图分析地貌、生成流程图、识别图像视频内容等 [5] - OpenAI最新o3和o4-mini具备"用图像思考"能力,谷歌Gemini 2.5 Flash可分析股票走势图 [5] 代理执行产品发展 - 通用Agent产品近期集中上线,包括字节扣子空间、百度心响App、360纳米AI等 [1] - 海外巨头倾向打造单一场景Agent,如Notion Mail、OpenAI的Operator和Deep Research [2] - 通用Agent产品雏形为对话框+工作区模式,能理解任务意图并调用工具模块 [12] - 百度心响App侧重移动端轻量化任务,包含数学解题、AI相亲等生活化功能 [13] Agent产品关键能力 - 优化任务体验需培养三大能力:第三方数据工具连接、编码能力、大模型任务理解能力 [14][16] - MCP和A2A协议为Agent提供统一接口和协作能力,国内厂商已接受该解决方案 [14] - AI编程能力对复杂任务执行至关重要,OpenAI可能收购编程公司Windsurf提升该能力 [16] - 大模型任务理解能力是底层基础,OpenAI正培养职业化Agent如司机、学者等角色 [16] 行业发展趋势 - 多模态能力提升将影响AI硬件发展,未来交互可能从手机迁移到智能眼镜 [11] - OpenAI预计2025年Agent业务销售额达30亿美元,2029年达290亿美元 [17] - 国内厂商采取API逻辑开发Agent,OpenAI采用职业化培养模式 [17] - 未来入口可能是多模态能力与Agent执行能力的结合 [17]
通义千问 Qwen3 发布,对话阿里周靖人
晚点LatePost· 2025-04-29 16:43
文章核心观点 - 阿里云CTO周靖人认为大模型发展已进入早期阶段中期,需在多模态、工具使用、Agent支持和持续学习等多方向布局[5][14] - 通义千问Qwen3作为全球首个开源混合推理模型,通过融合推理和非推理模式实现性能与成本平衡,代表技术新趋势[6][15] - 阿里开源战略成效显著:Qwen系列下载量达3亿次,衍生模型超10万个,超越Meta Llama成为全球最活跃开源模型[7][8][18] - 公司坚持技术规律导向的研发节奏,强调长期创新而非短期竞争,认为AGI发展需要云计算体系与大模型的深度协同[12][13][21] 技术突破 - Qwen3-235B-A22B以2350亿总参数在多项基准测试超越6710亿参数的DeepSeek-R1,小尺寸MoE模型Qwen3-30B-A3B激活参数仅30亿但性能更优[7] - 混合推理模型创新性实现"思考预算"设置,开发者可自定义深度思考的token消耗量以平衡成本效益[15] - 模型支持vLLM/SGLang推理框架和MCP协议,配合Qwen-Agent框架可快速开发智能体[18] - 多模态技术积累始于2019年,2021年已发布万亿参数MoE多模态模型M6,当前视频生成模型万相2.1与Sora互有胜负[17][26] 开源生态 - 开源决策基于两大判断:模型作为核心生产元素需通过开源普及,开源已成为大模型重要创新驱动力[18] - 魔搭社区累计开源超200个模型,Qwen系列占Hugging Face下载量30%以上,衍生模型数量持续领先Llama系列[7][8][18] - 版本策略覆盖全场景需求:0.6B-32B稠密模型满足端侧到企业部署,MoE模型提供高性价比选择[18] - 开发者服务导向体现在消费级显卡适配、及时支持主流框架等举措,形成技术生态正循环[18] 研发体系 - 采用pipeline式研发管理,预研方向通过小规模实验验证后阶梯式投入,保持多技术方向并行探索[24] - 实验平台支持快速迭代,避免直接超大规模投入,强调科学评估和数据驱动的决策机制[25] - 人才策略结合职级普调与使命驱动,通过系统性工程积累形成代际技术优势[25][26] - 研发投入聚焦三大方向:类人思考能力进化、多模态融合、云模型协同优化带来的效率突破[13][20] 行业竞争 - 认为当前模型竞争本质是系统工程较量,需云计算、数据平台和工程能力的全面配合[13][21] - 指出纯Infra优化无法替代完整云服务,强调阿里云在SLA保障、多模型兼容等方面的企业级优势[22] - 预判行业将面临供电瓶颈,提前布局智算中心选址的energy-aware优化[22][23] - 3800亿新基建投入应对AI应用指数增长,目前MaaS服务已现供不应求态势[22]