原生多模态
搜索文档
每日投行/机构观点梳理(2025-11-18)
金十数据· 2025-11-18 18:59
黄金市场 - 高盛预计到2026年底金价将达到4900美元,若私人投资者持续分散投资组合,金价可能进一步上涨[1] - 各国央行可能在11月大量购金,9月央行购金量为64吨,高于8月的21吨,此为分散储备以对冲地缘政治和金融风险趋势的一部分[1] - 今年迄今金价已上涨55%,主要受经济和地缘政治担忧、交易所交易基金流入增加以及对美国进一步降息预期推动[1] 原油市场 - 高盛因全球(俄罗斯除外)供应强劲,预计2026年将出现200万桶/日的巨大盈余,将布伦特和WTI原油2026年均价预测下调至56美元/桶和52美元/桶[2] - 高盛预计石油价格将在2028年底前回升至长期目标水平,即布伦特原油80美元/桶,WTI原油76美元/桶[2] - 瑞银预计布伦特原油价格在60-70美元/桶区间波动,2025年末目标价为62美元/桶,2026年底目标价为67美元/桶[3] - 瑞银认为陆上库存尚未增加对油价构成支撑,同时乌克兰对俄罗斯炼油厂的攻击及制裁措施预计将冲击俄罗斯的出口和产量[3] 中国股市 - 瑞银预计中国股市将迎来又一个丰年,MSCI中国指数2026年末目标位为100,较当前有14%的上涨空间[4] - 预计2026年股价表现更多由盈利驱动,每股收益将增长10%,由反内卷措施和折旧摊销费用下降所拉动[4] - 看好互联网、硬件科技和券商板块,同时移除高股息股,并加入看好部分“出海”股票[4] 外汇市场(美元/日元) - 巴克莱认为考虑到日本首相偏向“安倍经济学”的政策立场,日元可能继续承压,建议投资者继续做多美元/日元[5] - 鉴于日元对财政风险的高度敏感性,进一步的财政扩张预计将使美元/日元维持在较高水平[5] 全球央行政策 - 高盛资管预计美联储在2026年可能降息两次,主因劳动力市场疲软[6] - 欧洲央行在可预见的未来可能维持利率不变,英国央行可能在12月恢复降息,日本央行可能因通胀高企且增长强劲而加息[6] - 摩根士丹利预计欧洲央行将在2026年上半年进一步降息,到年中政策利率将从目前的2.00%下调至1.50%[8] - 道明证券指出美联储的政策正常化将成为2026年全球利率的关键驱动因素,美国收益率的下降将有助于抑制其他地区长期借贷成本的上升[8] 全球资产配置 - 高盛资管2026年倾向全球股票多元化配置、基本面与量化策略结合[7] - 固定收益强调久期和战略性曲线仓位的多元配置,证券化、高收益及新兴市场信用产品可能出现良机[7] - 私募市场新交易和退出活动整体环境利好,私募信贷违约率历史上低于银团贷款,基础设施领域在人工智能和能源转型驱动下出现新机会[7] 中国财政与经济 - 中银证券指出三季度以来财政支出节奏回调,税收收入增速连续八个月修复,累计增速上行至1.7%[9] - 专项债发行将在11-12月内再度加速,年内剩余两月财政支出仍有望保持一定支出强度以托底经济[9] 中国通胀展望 - 广发证券研报称,中性情况下2026年通胀中枢会较2025年有所抬升,因猪周期2026年启动回升概率较大,且关键行业产能压力最大阶段已过[10] - 约束因素是地产销售价格尚未企稳,只有该线索确定,市场对于再通胀的定价才会更为坚决[10] 半导体行业 - 银河证券认为支撑半导体板块长期发展的逻辑未变,供应链安全与自主可控是长期趋势[11] - 设备与材料在国产替代顶层设计下逻辑最硬,数字芯片是算力自主的核心载体,先进封测受益于技术升级[11] 消费电子(AI智能眼镜) - 银河证券指出随着阿里、百度等大厂进入,AI智能眼镜行业发展进入加速阶段[12] - 基于庞大的用户群体基础,智能眼镜有望成为下一个仅次于智能手机的消费电子大品类[12] 人工智能(多模态AI) - 中信证券研报表示,主流模型正从“模块化”转向“原生多模态”架构,这是解决AI理解瓶颈、驱动产业价值跃迁的奇点[13] - 建议沿“基础”和“应用”两大主线布局,基础设施层关注推理算力产业链,应用层关注垂类应用及技术赋能机遇[13] 电力与煤炭行业 - 华泰证券称10月规上工业发电量8002亿千瓦时,同比增长7.9%,预测10月全社会用电量增速或达10.2%[14] - 火电发电量同比增幅扩大12.7个百分点,看好强火电需求、低库存及供给受压制支撑四季度动力煤价[14]
中信证券:建议关注推理算力产业链相关环节
证券时报网· 2025-11-18 08:28
人民财讯11月18日电,中信证券发布计算机行业研报称,多模态产业的奇点在理解端而非生成端,主流 模型正从"模块化"转向"原生多模态"架构,这是解决AI理解瓶颈、驱动产业价值跃迁的奇点。一方面, 它抬高了构建基础模型的门槛,使得OpenAI、Google等全栈巨头能够构建垂直整合的生态闭环;另一 方面,它也为垂类应用及技术赋能的公司打开了特定场景的商业化价值,多元化应用逐渐突围。中信证 券建议沿着"基础"和"应用"两大主线布局:基础设施层,建议关注推理算力产业链的相关环节;应用层 来看,原生多模态趋势下,建议关注垂类应用及技术赋能两大机遇。 ...
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 09:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
猿大侠· 2025-08-31 12:11
模型发布与市场反响 - 谷歌匿名发布的图像编辑模型nano-banana在LMArena平台突然爆火后由官方确认为Gemini 2 5 Flash Image模型[5][7][8] - 该模型在国内外社交平台引发大规模试玩热潮 尤其在手办生成领域形成刷屏现象[2][4][9] 核心功能与技术特性 - 支持通过文本提示词生成1/7比例写实风格手办 需指定亚克力底座 电脑屏幕显示ZBrush建模过程及TAMIYA风格包装盒等细节[10][11] - 采用原生多模态架构 实现图像理解与生成的深度整合 通过交错式生成技术支持多轮复杂编辑 可分解包含50个编辑要求的任务[61][63][64] - 创新性使用文本渲染作为核心评估指标 该指标具备客观可量化特性 能持续指引模型改进并带来意外性能提升[55][56][58][59] 实际应用表现 - 能够识别动漫角色名称(如艾伦耶格尔)并生成对应手办 对非全身像参考图可能产生局部异常但整体效果逼真[13][15][16] - 支持宠物照片转手办 生成效果引发用户主动寻求购买链接 并可结合3D打印实现实体化[18][20][21] - 真人照片需使用全身图生成 包括动态姿势 需额外提示词添加支撑结构防止模型漂浮[24][26][28][29] 多元化应用场景 - 支持三图联合创作 通过姿态控制实现角色互动(如搭肩比心 战斗动作)[33][44][46] - 可生成漫展场景下的真人化二次元角色 效果接近真实cosplayer生图[41][42][48][51] - 结合视频生成模型创作连贯动画 仅需火柴人草图即可驱动完整动作[36][37] 模型优化路径 - 团队通过社交平台系统性收集用户失败案例构建评估基准 新版本需通过真实场景测试[65][66] - 针对Imagen 2 0存在的像素级编辑偏差 角色一致性不足及图像质感不自然等问题进行专项优化[68][69][70] 生态建设与访问方式 - 谷歌计划举办为期2天的Nano Banana Hackathon活动 提供免费API额度及奖品激励[72][73] - 模型可通过AI Studio Gemini API或直接集成至Gemini使用 支持中文提示词但建议英文以降低错误率[11][73][75]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 12:21
文章核心观点 - 谷歌Gemini 2.5 Flash Image模型(匿名代号nano-banana)因卓越的图像生成能力爆火 尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑 其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试 解决了像素级编辑 角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标:提供客观可量化的性能衡量标准 解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合:图像理解与生成能力协同工作 支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑:可分解包含6-50个编辑要求的提示词 通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著:使用英文提示词生成1/7比例实体模型 支持动漫角色 宠物及真人全身像转换 需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态:支持同时参考3张图片进行创作 包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力:将二次元插画转换为真人cosplay照片 背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松:提供2天免费API额度 获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道:用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]
商汤林达华万字长文回答AGI:4层破壁,3大挑战
量子位· 2025-08-12 17:35
核心观点 - 多模态智能是当前AI发展的关键趋势,商汤科技通过"原生多模态"技术路线和"四次破壁"演进框架,推动通用人工智能(AGI)的发展 [1][2][4][6] - 商汤科技发布的日日新6.5模型实现了"图文交错思维"突破,标志着多模态推理能力的显著提升 [16][21] - 公司通过统一融合模型架构、优化数据生产体系和创新组织模式,在多模态领域保持领先优势 [12][25][40][41] 多模态智能的重要性 - 智能的核心是与外界进行自主交互的能力,而世界是以多元形态存在的,仅依赖文本数据的语言模型无法构建真正的AGI [7][8] - 多模态模型必须能够处理和理解图像、声音、视频等多种模态的信息,才能具备通用性 [8] - 商汤将多模态锚定为技术主轴,从日日新6.0开始只发布多模态模型,这在国内大模型厂商中独树一帜 [12] 技术路径选择 - 实现多模态模型主要有两种技术路径:适应训练(嫁接模式)和原生训练(融合模式) [11] - 商汤通过大规模对比实验确立了"原生多模态"技术路线,采用从预训练阶段就混合多种模态数据的融合模式 [10][11] - 实验证明,在合适的数据配比下,一个原生多模态融合模型在纯文本和图文任务上的表现都优于各自独立的专门模型 [23] 四次破壁演进框架 - 第一次破壁:Transformer实现长序列建模,为大语言模型奠定基础 [14] - 第二次破壁:语言与视觉会合形成多模态理解,模型学会跨模态关联 [15] - 第三次破壁:突破逻辑与形象思维边界,实现多模态推理,日日新6.5引入"图文交错思维链" [16] - 第四次破壁:突破与物理空间边界,实现与真实世界交互,即具身智能 [22][24] 数据体系构建 - 多模态训练最关键的数据是强关联的"图文对",商汤通过大规模自动化构造解决了稀缺问题 [26][27] - 建立"续训验证"机制确保数据质量,只有能带来性能增益的数据才会被准入 [28][29] - 采用"人写种子+自动扩展+强化学习"三段式方法获取高阶专业数据 [31][32][33][34] 模型架构优化 - 模型架构设计的核心是效率,而非单纯追求更大参数规模 [36] - 日日新6.5推动视觉编码器轻量化(参数量从60亿减至10亿),同时使MLLM主干网络更深更窄 [38] - 架构调整结合数据优化使模型效率提升超过3倍,实现比肩顶级模型的效费比 [38][39] 创新力源泉 - 计算机视觉起家的技术基因使公司对多模态价值有更早更深刻的理解 [40] - 重构研究组织实现资源统一调度,设立专项创新小组探索高风险高回报方向 [41] - 构建"基础设施-模型-应用"三位一体的正向循环,使技术理想与商业价值相互促进 [42][43]
腾讯张正友:具身智能必须回答的三个「真问题」
机器之心· 2025-08-10 12:31
腾讯具身智能开放平台Tairos发布 - 公司发布具身智能开放平台Tairos,以模块化方式提供大模型、开发工具和数据服务,旨在为行业提供通用支撑体系 [2] - 该平台基于Robotics X实验室七年技术积累,涵盖多模态四足机器人Max、轮腿机器人Ollie、灵巧手TRX-Hand等自研项目 [2] - 平台化路径是对行业挑战的回应,也预示未来生态布局,在技术路线尚无定论背景下具有战略意义 [2] 分层架构的技术路线选择 - 分层架构是当前更务实路径,源于效率与现实权衡,将人类对智能结构的先验知识注入模型架构 [5][6] - SLAP³架构包含多模态感知模型、规划大模型和感知行动联合大模型,边界动态变化 [7][8] - 感知行动联合大模型(小脑)负责快速反应(系统1),感知和规划大模型(系统2)处理复杂任务 [9] - 底层经验通过记忆库机制反哺上层模型,实现闭环学习 [11] 具身智能的第一性原理 - 核心问题是探究"身体"与"大脑"如何实现有机融合,而非简单将AI大模型适配到机器人 [17] - 真正具身智能需深刻理解身体形态、环境物理规律和任务目标 [18] - 动作规划本质是稀疏、第一人称的生成过程,与稠密、第三人称的视频生成存在本质区别 [20][21] 行业创新与商业化平衡 - 行业呈现爆发式发展,需要处理短期利益与长远目标的关系 [23] - 创新定力体现为放弃短期商业化诱惑,专注根本性科学问题探索 [24] - 生态繁荣需要不同角色贡献,初创团队选择确定性高场景是务实生存策略 [24]