Workflow
谷歌Nano Banana
icon
搜索文档
华尔街见闻早餐FM-Radio | 2026年2月27日
华尔街见闻· 2026-02-27 07:26
市场概述 - 英伟达财报强劲但股价大跌近5.5%,拖累美股大盘、AI概念股和芯片板块,纳指跌近1.2% [2] - 各期限美债收益率普遍下跌3至4个基点,10年期美债收益率创去年11月28日以来低点 [2] - 加密货币与科技股同步下跌,比特币跌超2%失守6.8万美元,以太坊下跌3.5% [3] - 市场关注美伊谈判,WTI原油波动剧烈,一度下挫3%后较日低拉升4.9%,最终微跌 [5] - 亚洲时段A股分化,沪指微跌,恒科指大跌近3%,人民币升破6.83关口 [6] 中国公司要闻 - 百度第四季度营收327.4亿元,AI算力订阅收入同比增143%,预计AI云2025年收入达300亿元,“萝卜快跑”订单狂飙200% [7][24] - 芯原股份2025年营收同比增长35.77%至约31.52亿元,AI算力相关新签订单占比超73%,亏损收窄至5.28亿元 [7][24] - 瑞幸咖啡Q4净营收同比增长33%但利润下滑,净利润5.18亿元低于去年同期的8.51亿元,主因配送费飙升94.5% [37] - 百济神州2025年全年营收53.43亿美元同比增长40%,全年扭亏为盈,旗舰药百悦泽单季销售额创11亿美元新高 [37] - 特斯拉中国推出促销方案,Model 3/Y首付7.99万元起,可选7年超低息或5年0息金融政策,旨在提振销量 [38] 海外公司要闻 - 英伟达财报超预期但股价盘中重挫5.7%,创三个月最大盘中跌幅,市场焦点转向AI需求可持续性及供给约束 [26][34] - Block宣布裁员约4000人(近半数员工),股价盘后一度上涨逾24% [10][27] - 三星存储部门以100%涨幅向苹果报价并被接受,三星手机部门为保供应被迫在Galaxy S26中采用50%美光存储芯片 [11][27] - CoreWeave Q4营收翻倍猛增,年末积压订单收入达668亿美元,但Q4每股亏损0.89美元同比扩大1.6倍,盘后跌超10% [13][28] - 戴尔业绩与指引双超预期,预计2027财年AI服务器收入将同比翻倍至约500亿美元,盘后一度涨超12% [14][29] - 奈飞拒绝提高收购华纳兄弟探索的报价并宣布重启股票回购计划,美股盘后一度涨13% [14][30] 人工智能与算力 - DeepSeek联合清北发布论文提出推理系统DualPath,在1152张GPU集群上验证,将离线推理吞吐量最高提升1.87倍 [8][25] - 全球AI模型API聚合平台数据显示,中国模型周调用量达5.16万亿Token,首次超过美国模型,全球前五模型中中国占四席 [47] - DeepSeek宣布即将推出V4“海狮轻型版”,深度适配华为昇腾平台,推理速度提升超35倍 [48] - 华为云发布码道(CodeArts)代码智能体公测版,机构预计AI代码工具市场价值到2030年将达到260亿美元 [45] - 英伟达与AI初创公司Groq达成非独家技术许可协议,获得其LPU架构授权,旨在提高AI基础设施性能 [49] 半导体与存储 - SK海力士与闪迪联手推进高带宽闪存(HBF)全球标准化,旨在填补HBM与SSD间空白,计划2027年商业化 [42][50] - IDC预测受内存芯片短缺影响,2026年全球智能手机出货量将同比下滑12.9%至约11亿部 [31] - 美国稀土供应恶化,钇价一年内暴涨69倍,部分航天与芯片企业被迫限产 [39] 机器人 - 德国总理参访中国机器人企业宇树科技,公司期待与德国企业合作推动全球智能机器人产业发展 [24] - 摩根士丹利看好机器人轴承市场,预测将从2025年的8.27亿美元增长至2050年的2550亿美元 [35] 能源与商品 - 高盛预测2026年Q4布伦特原油将跌至60美元/桶,但2027年下半年将重新陷入短缺 [35] - 津巴布韦锂矿出口禁令引发供应担忧,碳酸锂价格冲破18万关口,高盛认为锂价将创新高 [31] - 中国科学院团队在铜锌锡硫硒太阳能电池上实现超过15%的光电转换效率,达到商业化门槛 [50] 金融与宏观 - 美联储理事米兰重申2026年需降息100个基点,并倾向于尽早行动 [15][30] - 欧洲央行连续第三年亏损,2025年净亏13亿欧元,创成立以来最长连亏纪录 [40] - 美国30年期按揭利率自2022年来首破6%,降至5.98% [39] - 印度允许主动管理型股票基金将最高35%的资产配置于黄金、白银及相关工具 [40] - 李嘉诚旗下长和系三家公司出售英国电网业务,套现逾1100亿港元 [9][25] 行业与概念 - 商业航天领域,中科宇航力箭二号火箭计划3月下旬首飞,蓝箭航天朱雀三号计划Q2再次开展回收试验 [46] - 广州从化马场将于10月迎来常规国际标准速度赛马比赛,并规划建设10平方公里穗港马产业深度合作区 [51]
谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
机器之心· 2025-10-23 13:09
行业趋势与竞争格局 - AI图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成冲击[2] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现出OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法[2] - 行业技术路线正向多模态指令融合方向发展,旨在将语言理解、视觉识别与生成控制能力结合,实现更自然的创作体验[2] DreamOmni2模型核心优势 - 模型在开源两周内于GitHub上获得1.6k的Star量,显示开源社区的高度认可[12] - 在基于指令的多模态编辑任务中,DreamOmni2在具体物体和抽象属性处理上均显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana[3][53] - 定量结果显示,DreamOmni2在具体物体任务上的人类评估得分达0.6098,在抽象属性任务上的人类评估得分达0.6829,全面领先于GPT-4o和Nano Banana等竞争对手[54][55] 技术突破与创新 - 公司独创三阶段式数据构建范式,通过特征混合方案创建包含具体物体与抽象属性的高质量数据对,解决了多模态训练中抽象概念稀缺及缺乏参考图像条件的结构性缺陷[58][60][65] - 框架设计实现了多参考图索引编码优化,通过将索引编码添加到位置通道并计算偏移,有效缓解了复制粘贴现象和参考图像之间的像素混淆[67][68] - 提出VLM与生成模型联合训练机制,使模型能更好地理解复杂且不规则的现实用户指令,并通过LoRA方法分别训练编辑与生成模块,在统一模型中无缝融合两项功能[68] 实际应用表现 - 在证件照背景替换任务中,模型能快速完成且保留毛发等细节,效果不输专业修图[16][20] - 在图像风格转换任务中,模型能精准还原参考图的色调与氛围,并将风格感无缝融入原图[22][25] - 在物体替换任务中,模型能准确识别主体与衣物的层级关系,自然保留人物脸部特征与姿态,其效果在对比测试中优于GPT-4o,与Nano Banana各有优势[28][31][37][52] 公司技术战略与影响 - DreamOmni2是公司过去两年深耕多模态领域的延续,团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈[72] - 公司通过将多项研究成果(如Mini-Gemini、ControlNeXt、DreamOmni、MGM-Omni)向社区开放,增强了其多模态技术的影响力并推动生态演进[72][73] - 该模型的系统性创新为下一代AI视觉创作工具的智能进化提供了参考,使模型的多模态理解、编辑与生成能力能做到自然衔接与切换[72]
刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了
量子位· 2025-10-05 13:43
文章核心观点 - 腾讯混元图像3 0模型在LMArena文生图竞技场榜单中位列全球第一,超越了谷歌、字节跳动和OpenAI等公司的模型[1][7] - 该模型是业界首个开源的工业级原生多模态生图模型,参数规模高达800亿,展现了公司在AI领域的厚积薄发[10][13] - 模型采用创新的广义因果注意力和二维位置编码等技术,实现了文本和图像的统一理解与生成,在多项评测中媲美甚至超越行业顶尖闭源模型[12][40][63][65] 模型性能与排名 - 在LMArena文生图榜单中,腾讯混元图像3 0以1167分的成绩排名第一,谷歌Gemini 2 5 Flash Image Preview以1151分位列第二[1] - 该榜单由美国加州大学伯克利分校推出,采用基于人类真实偏好的盲测机制,累计总投票数达3,159,029次,被公认为国际权威的AI模型竞技场[4][5][6] - 模型在人工评测GSB中相较于Seedream 4 0胜率为1 17%,相较于Nano Banana胜率为2 64%,相较于GPT Image胜率为5 00%[65] 技术架构创新 - 模型采用原生多模态架构,能够通过单一模型处理文字、图片、视频与音频等多种模态的输入与输出,无需依赖多个组合模型[12][17] - 引入广义因果注意力机制,有效整合了文本的自回归生成特性和图像的全局上下文捕捉能力[41][42] - 实现广义二维RoPE位置编码,确保与预训练语言模型的向后兼容性,同时支持图像tokens的二维位置处理[46][48] - 创新自动分辨率预测功能,模型可根据上下文自动决定合适的图像形状,无需用户确定性输入[50][51] 模型能力展示 - 模型具备强大的语义理解能力,能够响应复杂长文本并利用世界知识进行推理,例如生成中秋节海报、十二生肖表情包等创意内容[19][22][24] - 可处理复杂概念和场景生成,如“林黛玉大战孙悟空”、完全由火焰构成的猫咪以及具有高级艺术感的香水广告大片[25][28][31][33] - 支持多任务处理,包括解方程并展示计算过程、生成复古票券拼贴画以及科技感和人物特写图像,细节处理精细[68][70][72][74] 数据构建与训练策略 - 采用三阶段过滤流程从超过100亿张原始图像中筛选出近50亿张高质量、多样化图像用于训练[53] - 构建中英双语、分层级的描述体系,并集成OCR和命名实体识别代理来保证描述的真实性[55] - 预训练过程分为四个渐进式阶段,数据从粗到精筛选,VAE编码器图像分辨率逐步提高,并引入思维链生图任务[56][59] - 通过SFT、DPO、MixGRPO、SRPO和ReDA等多阶段后训练优化模型,提升图像真实感与清晰度[59][60] 行业发展与影响 - 文生图领域正从传统DiT架构转向原生多模态模型架构,混元图像3 0的开源为行业提供了新的技术路径[16] - 模型登顶权威榜单标志着公司在AI生成式模型领域已达到全球领先水平,对行业竞争格局产生重要影响[1][67] - 模型开源发布可促进AI社区发展,开源仓库和Hugging Face平台已开放访问,助力行业技术普及与创新[78]