Seedream 4.0
搜索文档
谷歌Nano Banana 2来了,设计师时代结束了?
第一财经· 2026-02-27 13:54
产品发布与迭代 - 谷歌于北京时间2月27日发布了其最新的图像生成模型 Nano Banana 2 (Gemini 3.1 Flash Image) [1] - 该模型是谷歌团队目前最好的图像生成和编辑模型,兼具了速度和此前Pro版的性能,同时价格也更便宜 [1] - 相比初代Nano Banana,Nano Banana 2大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像 [16] 性能与基准测试 - 根据AI基准测试机构Artificial Analysis的数据,Nano Banana 2在文生图榜单中排名第一,在图像编辑榜单中排名第三 [1] - 大模型竞技场LMArena发布的排行榜同样显示,Nano Banana 2拿下全球第一,文生图测试得分为1280分,超越了GPT Image 1.5 (1268分) 和 Nano Banana Pro (1220分) [4] - 在谷歌AI Studio平台,Nano Banana 2输出每张1k图片的单价为0.067美元,输入为0.5美元,而Nano Banana Pro对应的价格是0.134美元和2美元,价格便宜一半 [4] 技术特性与功能 - 模型具备先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等功能 [4] - 模型可以呈现生动的光照、更丰富的纹理、更清晰的细节 [4] - 在单个工作流中,最多能保持五个角色的形象相似性,以及最多14个对象的特征一致性 [16] - 模型支持高级文本渲染和本地化,能够直接在图像中生成或翻译多种语言的文本 [13] 应用案例与客户反馈 - 谷歌创建了名为“Window Seat”的程序进行演示,用户可指定世界上任一地区的窗户位置,模型能生成逼真画面并根据实时天气数据更新景色 [5] - 谷歌开发了“全球广告本地化器”演示应用,可将英语版本的图像广告翻译成不同语言(如日文、法语等)以适应国际市场 [13] - AI应用开发公司HubX通过集成Nano Banana 2,实现了74%–76%的延迟降低,人脸编辑工作流速度提升了4倍,同时没有牺牲专业级画质 [16] - 有博主测评显示,无论是人物表情控制、还是文本生成和排版,Nano Banana 2都比Pro版本有很大提升 [16] 当前局限性与挑战 - 有测试发现,Nano Banana 2在生成图像时存在位置错误、中文字体标注错误等问题 [6] - 模型输出水平不稳定,例如在网页版中连广州塔的位置都绘制错误 [11] - 或许是由于参数量较小的原因,Nano Banana 2对人体结构、复杂度动作、物体结构认知不足,在一些复杂场景(如人体倒立)上会有问题 [16] - 有评论认为当前AI生图的不真实感仍然较重,生成并不准确 [4]
谷歌 Nano Banana 2 一夜补齐短板,各种图解都能画,价格才是 OpenAI 一半
36氪· 2026-02-27 12:10
文章核心观点 谷歌最新发布的Nano Banana 2文生图模型,凭借其创新的“实时联网”能力、卓越的图像生成质量与细节、显著提升的文本渲染与主体一致性,以及极具竞争力的价格,在权威测评中登顶榜首,标志着文生图行业的竞争焦点已从单纯画面质量转向速度、理解力与生态整合[1][10][66] 产品核心能力与性能 - **实时联网与信息整合**:模型整合了Gemini的搜索能力,能够边理解、边检索、边生成,使图像内容更贴合真实世界的信息结构,例如生成基于真实地理和气象信息的“窗口视角”构图[1][5] - **图像质量与细节**:生成的图像细节丰富、真实感强,街景中的招牌、广告牌等细节可放大查看,人物神态、光影到位,难以一眼辨别为AI生成[2][3][15] - **信息图与可视化生成**:模型擅长将抽象概念可视化,能生成逻辑清晰、标注准确的信息图、示意图、食谱、医学解剖图等,承担知识组织与表达的角色[6][31][33][39][41] - **文本渲染与多语言支持**:解决了AI图像中文字生成的短板,生成的文字清晰、拼写准确、排版自然,支持图中内容的翻译和本地化,保持原风格不变[47] - **主体一致性**:在工作流中可保持最多5个角色的特征一致及14个对象的高保真度稳定输出,即使转换视角也能保持稳定,适合系列创作[51][54][56] - **分辨率与画幅**:支持从512px到4K的多分辨率,新增512px档位优化低延迟场景;画幅比例丰富,新增4:1、1:4等超长比例,满足横幅广告、竖屏长图等原生生成需求[64] - **风格与材质控制**:支持自由更换纹理、材质和颜色,可快速切换不同视觉风格,如生成“香蕉恐龙”、“水母跑车”等创意图像[58][62][63] 市场表现与行业地位 - **测评排名与性价比**:在权威测评Artificial Analysis榜单中,Nano Banana 2位列第一,其API价格为每千张图像67.0美元,仅为第二名OpenAI(133.0美元/千张)的一半,堪称“性价比之王”[8] - **行业竞争态势**:榜单头部模型之间分数差距非常小(如第一名1,272分与第二名1,268分),表明行业已进入竞争焦灼的“贴身肉搏”阶段[8][9] - **用户增长与生态整合**:Gemini应用月活跃用户达6.5亿,Nano Banana系列的“病毒式传播”是增长重要原因;模型已在谷歌产品体系中完成替换,并整合进Google Ads的广告生成建议能力[10][69][71] 应用场景与潜在影响 - **效率工具**:模型从“创意玩具”转向“可控的图像渲染引擎”,对普通用户更好用,对企业而言更具可规模化部署的潜力[66] - **专业领域应用**:在教育领域可将抽象概念可视化;在科研中可快速生成复杂模型示意图;在政策汇报、企业报告中可将冗长材料压缩为重点明确的可视化内容[43] - **设计领域影响**:其强大的可视化能力被用户认为将颠覆信息图表领域,甚至有人测试后惊呼“设计已死”[12][33] - **内容真实性管理**:针对AI造假担忧,谷歌为生成内容叠加SynthID水印并整合C2PA内容凭证体系,以进行溯源[8]
国海证券晨会纪要-20260129
国海证券· 2026-01-29 09:05
核心观点 - 晨会纪要包含四份研究报告摘要 分别覆盖动力新科公司深度研究、宏观策略周报、金工深度研究以及AI算力事件点评 [2] - 报告核心观点包括:动力新科在剥离亏损业务后轻装上阵 AIDC电源用发动机业务有望驱动增长[3] 宏观资金面均衡偏松但ETF大幅净流出[9] 委托挂单手数蕴含选股信息并可构建有效因子[11] AI驱动算力需求激增 头部云厂商相继涨价 算力产业链正经历通胀[14][15][16] 动力新科公司深度研究 - 公司未来核心增长潜力在于AIDC电源用兆瓦级发动机、拓展上汽体系外客户、切入新能源业务以及聚焦国际化[3] - 动力新科是国内少数具备大功率大排量中高速内燃机制造能力的厂商之一 拥有菱重发动机与上柴动力双品牌覆盖[3][4] - AIDC电源用发动机行业壁垒高 需满足高功率和可连续满负载运行等条件 国内具备相关能力的厂商包括潍柴动力、玉柴机器与动力新科[4] - 菱重发动机2025年上半年净利润约1亿元 2026年产量或持续快速增长[4] - 并表的上柴动力兆瓦级vk16已投产 2026年销量或明显增长 且单台盈利能力较强[4] - 2025年12月公司完成上汽红岩重整出表 持股比例从100%降至14.66% 该业务不再纳入合并报表[5] - 出表带来33.67-34.67亿元一次性股权处置收益 预计2025年归母净利润扭亏为盈[5] - 剥离整车业务后 合并资产负债率预计较此前大幅下降并靠拢行业合理区间 母公司ROE预计呈现向上拐点[5] - 2025年新领导班子上任 提出“十五五”战略目标 计划在2025年基础上实现销量与收入双倍增长 核心聚焦新能源与国际化[6] - 新业务方向包括动力电池与电驱桥 相关产品偏向系统集成与解决方案属性 有望凭借更高毛利率潜力成为新增长引擎[6] - 公司将加大体外配套比例 提升非上汽体系市场渗透 优化产品结构与整体毛利率[6] - 预计公司2025-2027年实现营业收入60.9、67.7、76.9亿元 同比增速-6%、+11%、+14%[7] - 预计2025-2027年实现归母净利润27.9、3.0、4.6亿元 同比增速+239%、-89%、+51%[7] - 预计2025-2027年EPS分别为2.01、0.22、0.33元 对应PE估值分别为4.5、41.6、27.5倍[7] 宏观策略周报 - 2026年1月19日至1月23日 宏观资金面均衡偏松 央行通过7天逆回购净投放2295亿元[9] - 资金价格方面 短端利率与长端利率均下行 且长端下行幅度大于短端 期限利差走窄[9] - 权益基金发行显著回升 两融余额仍在高位震荡[9] - 融资净流入较多的行业为有色金属、非银金融等 融资净流出较多的行业有电子、计算机等[9] - 股票ETF净流出3331.17亿元[9] - 宽基ETF资金主要流入中证2000、科创200等指数 净流出的宽基指数主要有中证1000、沪深300[9] - 行业主题ETF中细分化工、电网设备主题等板块净流入较多 净流出较多的指数为科创AI、卫星通信[9] - 策略风格方面 红利低波资金净流入较多 净流出较多的指数为中证红利[9] - 中证A500本周净流出100.81亿元 上周净流出99.28亿元[9] - 股市资金需求端压力缓和 股权融资规模回落至56.81亿元 限售解禁规模小幅回升至595.5亿元 产业资本减持回落至145.08亿元[10] 金工深度研究报告 - 报告挖掘Level2逐笔委托数据挂单手数中的微观结构信息 构建具备选股能力的因子[11] - 挂单手数占比因子具备稳健选股能力 其中 体现机构算法拆单的1手极小单与体现大资金介入的50、100、200手大额挂单占比对股价有显著正向预测作用[11] - 带有“整数偏好”特征、反映散户过度参与的5、10、15手小额挂单占比则对股价构成负向压制[11] - 合成后的委买主要手数占比因子在2015至2025年T1-T6 VWAP RankIC为0.048 多头年化超额收益18.6% 多空年化收益30.6%[11] - 通过识别投资者参与主体构建的活跃度指标能捕获长效稳健Alpha 游资比机构挂单因子在2015-2025年RankIC为-0.032 ICIR为-0.863 多头年化超额收益10.6% 多空年化收益15.2%[12] - 纯机构标的展现出稳健的趋势性上涨潜力 而游资介入仍能提供一定的流动性支撑[12] - 投资者参与主体指标可拓展至时序维度 刻画如寒武纪(机构主导)与新易盛、农业银行及上海建工(散户追涨)等个股的资金流向差异[12][13] - 通过识别AAAA、AABB等4位数异常委托单构建的“游资股票池” 在叠加低波动与低换手逻辑过滤后形成的“游资吸筹组合”年化超额收益8.6%[13] - 引入机器学习因子增强后 年化超额收益提升至14.7% 信息比率改善至1.083[13] - 该策略在市场下行期表现出良好的净值韧性 能够有效捕捉处于低位隐蔽吸筹阶段的标的机会[13] AI算力事件点评 - 2026年1月27日 谷歌宣布自5月1日起上调其数据传输服务价格 北美地区从0.04美元/GB上调至0.08美元/GB 欧洲地区从0.05美元/GB上调至0.08美元/GB 亚洲地区从0.06美元/GB上调至0.085美元/GB[14][15] - 此前 AWS已将其EC2机器学习容量块实例p5e.48xlarge(搭载8颗H200)的每小时单价在多数区域从34.61美元上调约15%至39.80美元 其中美国西部等热门区域价格上涨至近50美元/小时[15] - 本轮云涨价核心驱动为AI训练与推理需求激增下的算力供需趋紧[15] - 腾讯、甲骨文等指出AI推理市场规模远大于训练市场 或将驱动AI云需求持续释放[15] - 微软Azure、阿里云等头部云厂商有望评估调价策略 全球云计算市场或迎来定价重整[15] - 2025年至2026年初 算力产业链正经历一轮通胀 范围覆盖存储、CPU及其他半导体芯片[16] - 存储领域 Trendforce预计2026年一季度DRAM合约价上涨55%-60% NAND合约价上涨33%-38%[16] - CPU方面 受AI挤占产能、代工厂涨价、AI Agent需求拉动 芯片巨头计划将服务器CPU产品价格上调10%-15%[16] - 2026年服务器CPU产能已基本被大型云服务商预售一空[16] - 中微半导指出受严峻供需形势影响 对MCU、Nor flash等产品进行价格上调15%至50%[16] - 产业头部厂商正通过战略投资强化生态协同 例如英伟达向CoreWeave追加投资20亿美元 支持其到2030年前增加超5GW AI基础设施[16] - 英伟达此前承诺在2032年前从CoreWeave采购超过60亿美元的服务[16] - 当前算力链供需失衡尚未见顶 成本压力或进一步向其他环节传导 形成更广泛的产业通胀效应[16] - 2025年头部AI模型厂商密集出新 包括OpenAI的GPT-5.2、Sora 2和Codex 谷歌的Gemini 3.0 Pro、Nano Banana Pro及Veo 3.1 字节的豆包1.8、Seedream 4.0等[17] - 新模型解锁更多应用场景 包括具身智能、智能硬件、巡检安防、短剧制作、漫画生成、PPT设计与海报创作等[17] - 截至2025年10月 全球企业级MaaS服务市场中 OpenAI大模型日均tokens调用量接近70万亿 谷歌大模型日均tokens调用量接近43万亿[17] - 2025年12月 字节跳动旗下豆包大模型超100家客户累计tokens调用量超1万亿 总日均tokens调用量突破50万亿 同比增长超10倍[17] - 报告维持对计算机行业的“推荐”评级[18] - 报告列出重点关注个股 涵盖云计算、CDN/MSP、边缘计算、端侧计算及云链核心上游等多个细分领域[19]
我们是如何把中国最会搞AI的一群人,做成手办礼物送给他们的|Jinqiu Scan
锦秋集· 2025-11-07 12:04
文章核心观点 - 公司通过AI技术为CEO大会定制个性化手办,将AI从技术工具转变为具有温度和创造力的协作者,实现从虚拟形象到实体产品的全流程转化 [3][4][44] AI手办定制流程 - 收集每位参与者1-2张照片及个人领域、爱好等信息,使用Seedream 4.0、造好物等工具生成多种风格设计方案,最终选定Q版风格 [8] - 采用基础prompt生成1/7比例商业模型,并根据个人外形、气质特点及参考图清晰度补充描述细节 [9][10] - 针对半身照补充下半身设计,根据人物气质用语言绘制完整服装并调整神态 [11][13] - 通过多图参考和prompt将人物与产品、兴趣爱好结合,并关注眼镜、胡子、发型等标志性细节 [18][24] - 对区分度较小形象在衣服上印制公司名称以增强个性化 [29] AI生成技术能力评估 - 生成模型能稳定产出可直接使用结果,在风格转换、多图参考与局部修改方面展现成熟能力,可准确将真实照片转为Q版形象并捕捉人物神态 [33] - 细节问题如遗漏眼镜、下装缺失或短发变形可通过精细prompt描述解决,带文字元素画面易出现模糊或乱码 [34][37] - 多图参考时模型主体融合能力强,但需明确主体交互、位置和尺寸以避免比例失衡 [35] - 局部修改可实现高精度,如替换服饰细节或调整动作,AI正从工具转变为创作协作者 [35] 制造链协同与生产 - 合作伙伴数美万物基于自研大模型Hitem3D进行辅助建模,将三维模型分辨率从行业常见的1024³提升至1536³,实现高效个性化定制 [39] - 采用AI→建模→修模→打印→质检链路,通过人机协同修模校正AI模型结构,达到可生产标准 [39][41] - 使用全彩3D打印一体成型节省人工与周期,后处理包括打磨抛光、关键部位上光油及商品级质检 [42] - 包装采用吊卡手办形式,左侧实物与右侧原图对比,强化AI×制造转化趣味,并定制背板设计增强收藏属性 [41]
16个AI的锦秋CEO大会海报比稿大战,谁能拿到设计费?
锦秋集· 2025-11-01 08:06
锦秋基金AI海报测评项目概述 - 锦秋基金以"Experience with AI"为主题举办首届CEO年度大会,旨在探讨科技、资本与创造力在AI时代的融合[1] - 公司针对大会海报设计需求展开横跨16款AI文生图工具的实战测评,检验其在中文语境与品牌美学下的表现[2][3] - 测评目标包括探索品牌视觉未来边界及总结AI海报设计最佳实践[5][6] AI工具选择与测评方法 - 测评覆盖16款全球主流及中国本土AI文生图模型,包括腾讯Hunyuan Image 3.0、字节跳动Seedream 4.0、OpenAI GPT Image 1等[7] - 设置三类典型场景:主视觉测试(极简现代风格)、艺术概念场景(抽象梦幻风格)及社交媒体应用测试(紧凑科技感)[8][9][15][21] - 所有AI工具在统一Prompt和风格参数下运行,确保结果可比性[8] 测评结果分层分析 - 第一梯队(4款模型)具备稳定中文识别、高完成度构图能力,可直接用于品牌主视觉,代表产品包括Hunyuan Image 3.0(中文识别优异)、Seedream 4.0(输出稳定)等[29][30][31][34] - 第二梯队(4款模型)艺术表达突出但中文稳定性弱,适合概念创作,如Ideogram 3.0英文构图强而中文波动,Midjourney视觉质感惊艳但缺失中文[36][38][40][41] - 第三梯队(8款模型)存在尺寸偏差、文字乱码问题,整体完成度低,如GPT Image 1中文适配不足,文心4.5 Turbo生成结果粗糙[42][46][47][49] 行业技术现状总结 - 16款模型中仅25%(4款)达到品牌可用标准,多数产品在中文语义理解与品牌语言表达上存在明显短板[50] - AI图像生成技术已具备基础作图能力,但距"懂得设计"仍有差距,尤其在科技感与审美感的平衡上表现稚嫩[27][53] - 行业整体处于从"能画图"向"懂设计"演进的早期阶段,技术进化速度较快但创新空间仍广阔[52][54]
AI几分钟生成的绘本,你敢给孩子读吗?
创业邦· 2025-10-31 08:08
AI绘本技术发展现状 - AI绘本生成技术已实现通过自然语言描述在一分钟内快速生成10页图文内容的电子书[6] - 谷歌Gemini的Storybook功能仅需输入几句话描述情节即可自动生成完整绘本[6] - 角色一致性能力显著提升,基本避免"角色突变"等硬伤问题[14] - 支持画风切换功能,例如可从"大眼萌"风格更改为宫崎骏动漫风[14] - 字节跳动Seedream 4.0模型能一次性免费输出最多20张差异化图像,超越谷歌Gemini 2.5 Flash Image性能[18] - 国内文生图模型持续升级,改善多图生成一致性问题,完善连续故事生成功能[18] AI绘本市场应用场景 - 短视频平台出现大量AI绘本视频,平均点赞量达大几千,部分视频数据近百万[6] - 英语启蒙绘本成为热门应用,通过图文结合方式帮助孩子记忆单词[26] - 特殊需求群体关怀工具出现,如阿里通义针对孤独症儿童开发的"追星星的AI"绘本工具,可生成四类内容并设置3个认知层级[26] - 儿童教育领域定制化需求显著,家长希望获得包含性别平等议题的个性化绘本[27] - Listenhub平台开发AI有声绘本功能,结合音频能力一键演绎故事[28] - 童语故事小程序提供按年龄段选择、AI推荐故事概要等定制化功能[28] AI绘本商业模式分析 - 自媒体博主通过售卖AI插画提示词或教程实现变现,单价为19.9元[24] - 某平台"AI十页绘本代做"服务单价二十元,销量超200份[28] - 市场主要盈利模式为"教人画"和"提供工具",而非直接销售绘本成品[30] - 一站式生成平台通过收取会员费方式售卖创作能力[30] - 传统绘本行业受影响较小,因AI绘本尚达不到出版社32页基础要求和1-2年制作周期标准[29] - 商业本质是满足家长深度参与孩子成长的定制化需求,而非绘本本身[29][30] AI绘本技术局限性 - 无法对生成绘本的单独页面进行删改,必须重新修改文字脚本和画面描述[32] - 面临大模型"黑盒问题",存在价值判断偏差风险[32] - 未经规范的语言模型在伦理判断问题上的准确率仅有60.2%[33] - 故事吸引力和趣味性较低,结构缺乏明显"起承转合"[13] - 复杂图像中角色形象仍不稳定,人像和动物表现摇摆不定[19]
爆火的AI三宫格图片,比我们的生活更像电影。
数字生命卡兹克· 2025-10-24 09:32
社交媒体现象与用户参与度 - 三宫格AI图片在社交媒体平台(如抖音、小红书)上广泛传播,用户参与度极高,单条内容点赞量可达数千至数万次[3] - 该内容形式在各类社群中也极为流行,形成了广泛的用户互动和分享行为[5] - 内容创作主体多样化,包括各地文旅账号、宠物主题账号及普通用户,表明其具有广泛的适用性和吸引力[11][13] 技术实现与工具应用 - 所有三宫格图片均通过豆包平台上的Seedream 4.0 AI工具生成,凸显了该AI图像生成技术的强大能力[32] - 提供了标准化的提示词模板,用户可通过修改场景、人物、衣着、景别、动作、字幕等具体参数来定制生成内容,操作流程高度标准化且易于上手[33] - 生成图片的比例可调(如2:3、3:4、9:16),其中3:4比例因能增强电影感而受到推荐[34] 内容演变与创意表达 - 内容风格从初始的唯美电影感写真迅速演变为包含地方文旅特色、宠物恶搞、表情包等多种抽象和创意形式[10][11][13][17] - 创作素材来源广泛,涵盖游戏角色(如《宝可梦ZA》中的角色)、真人形象(如艺人陶喆)及影视角色(如斯内普教授)等,展示了强大的二次创作潜力[22][24][28] - 用户可根据固定框架自由发挥,创作出文艺、抽象或情感真挚等不同风格的内容,体现了该形式在创意表达上的灵活性[46] 现象背后的文化心理分析 - 该现象被视为十年前流行的“为照片添加黑边和字幕以模仿电影截图”风潮的技术升级版,核心用户心理未变,即执着于将个人生活“电影化”[47][49] - 用户行为本质上是为平淡或充满压力的日常生活“赋魅”,通过调用电影这一文化符号,为个人生活片段赋予故事性和意义[50][51][53] - “山的那边是什么”等经典台词成为一种精神寄托,AI技术工具使用户能够生成理想化的自我形象,以此向心中的彼岸致敬,这被认为是AI时代最迷人的特性之一[54][55][56][57]
张一鸣公开谈AI人才“过拟合”
搜狐财经· 2025-10-13 21:51
字节跳动AI战略与人才观 - 公司创始人张一鸣指出当前AI人才培养存在“过拟合”现象,即人才虽专业技能扎实,但面对创新任务时表现不佳 [1] - 张一鸣与上海交通大学ACM班创始人俞勇联手推出民办非营利机构“上海徐汇知春创新中心”,旨在培育新一代创新人才 [3] - 该举措被视为公司“AI野望”的关键落子,将人才视为决定算法进化上限的核心参数 [3] AI人才市场供需状况 - 2025年前7个月,AI岗位需求同比上涨10倍,但算法人才持续紧缺,“搜索算法”人才面临“5岗争2人”的极端供需矛盾 [3] - 在“新发AI岗位量最多企业TOP20”榜单中,字节跳动的招聘指数为29.83,位列首位 [3] - 在公司“2026校园招聘计划”中,计划招募超5000名应届毕业生,其中研发类岗位需求相比此前增加23% [8] 字节跳动AI业务布局与进展 - 公司几乎在所有关键AI赛道进行重磅布局,展现出前所未有的推进力度 [6] - 具体产品布局包括:4月开启Agent产品“扣子空间”内测;4月至6月每月升级通用大模型“豆包”,并于6月推出豆包1.6版本 [6][7] - 在多模态生成模型方面,视频生成模型“Seedance 1.0 pro”在文生视频、图生视频两类任务方面于国际知名评测榜单均排名首位;9月推出图像生成模型Seedream 4.0 [7] - Seed团队在7月入局具身智能赛道,推出全新VLA模型“Seed GR-3” [7] 创新人才培养模式 - 知春创新中心计划招聘对泛计算机和AI感兴趣的年轻人,从预备研究员做起,以实践探索中学习的方式培养人才 [9] - 公司希望培养的人才核心特质包括:独立思考、重视实践、关注长期和全局、在探索中学习、保持平常心、拥抱不确定性 [10] - 公司Seed工作室2026届人才招募计划“不限专业背景,更关注研究潜力;不拘泥既有技术,鼓励探索智能边界” [11] - 专家指出,公司寻求的是能够跨学科、跨领域、跨场景解决真实世界复杂问题的人才,而非仅解决已知固定问题的人才 [11] 公司战略重心与行业背景 - 张一鸣自2021年退出一线管理后,重心明显转向对公司未来十年新边界的探索 [13] - 其目标被解读为推动底层范式的突破,弥补中国互联网在从0到1原始创新上的欠缺 [14] - 合作方上海交大ACM班自2002年成立以来,培养出640名毕业生,其中99%从事计算机科学研究工作,被誉为中国计算机科学家的“摇篮” [4] - 张一鸣从2024年下半年开始,每月参加一次公司核心AI研发部门“Seed”的复盘和讨论会,持续关注AI业务 [5]
全球Agent产业化竞速
财通证券· 2025-10-12 14:42
报告行业投资评级 - 投资评级:看好(维持)[2] 报告的核心观点 - 全球大模型Agent能力产业化加速落地,发展主线已从“参数规模竞赛与榜单跑分”转向“Agent能力嵌入系统与核心入口”[7][10] - 本轮变革核心是大模型从“单一语言交互的能说会答”升级为“多模态感知的能看会做、全链路可控可管”,从单点技术突破转向系统化能力构建[7][10] - AI产业已步入规模化落地关键阶段,下一阶段竞争核心聚焦“工程化的三角”体系构建——涵盖Agent工程化、入口承载力、供给侧计量三大维度[7][47] - 海内外发展核心差异体现在节奏与财务结构选择:海外企业加速通用智能前沿探索但承担高财务风险,国内企业侧重“规模化盈利”但需警惕技术迭代滞后风险[7][56] - 产业终局将收敛至“通用智能即基础设施”,在“节奏把控”与“财务健康”间实现平衡者将在终局竞争中占据主导地位[7][56] 全球大模型Agent能力产业化加速落地 - 2025年9月以来,全球大模型领域重心加速从技术演示向产业化落地迁移[10] - OpenAI以Sora 2模型及独立Sora App推动视频生成技术进入商业化可运营期,整合了长镜头物理一致性、音画同步优化与内容分发功能[10] - Anthropic发布Claude Sonnet 4.5模型,强化“模拟电脑操作、长时任务执行”的工程化能力,聚焦“从榜单分数领先转向生产环境可用”[10] - Google将Gemini深度融入Chrome浏览器,以高频场景承载内容理解、跨标签协作,并推出专用模型实现浏览器内表单提交、流程测试等操作[10] - 国内厂商围绕“模型—入口—算力”协同布局,阿里巴巴、腾讯、字节、百度、快手、华为等公司的产业三角架构已初步成形[7][10] 海外头部厂商的AI系统升级路径 - **OpenAI**:视频生成进入“产品—合规—分发”三位一体的运营期,Sora App发布后数天下载量即跃升至百万量级,平台侧治理与合规被前置为重要工程任务[12] - **Anthropic**:从“会答题”到“会做事”,以工程化链路把Agent落到生产,Claude Sonnet 4.5在长时任务上可“连续数十小时保持同一项目上下文”[13][14] - **Google**:把智能嵌入浏览器入口,Gemini 2.5 Computer Use专用模型可通过对界面截图的视觉理解与推理,循环产生“点击、输入、滚动、下拉选择”等13类原子动作[18] - 海外厂商共同方向是用产品形态与系统接口承载Agent,让模型从“能说会答”升级到“能看会做、可控可管”,并把入口与工具链做厚[7][22] 模型—入口—算力三线合围的中国路径 - **阿里巴巴**:发布Qwen3-Max旗舰基模,Qwen3-Max-Instruct在SWE-Bench Verified获69.6分,在Tau2-Bench以74.8分超越ClaudeOpus4与DeepSeek-V3.1[23][27] - **腾讯**:推出智能体开发平台3.0(ADP 3.0),新增近600项功能,“元宝”日提问量较年初增长30倍,跻身国内AI原生应用DAU前三,软件开发中AI生成超50%的新增代码[28] - **百度**:发布文心大模型X1.1,事实性提升34.8%、指令遵循提升12.5%、智能体提升9.6%,在权威基准评测中与GPT-5、Gemini2.5Pro效果持平[29][30] - **快手**:可灵2.5 Turbo模型定价下调30%,高品质5s视频生成灵感值从35降至25,视频效果实现超世代提升[33] - **华为**:推出CloudMatrix384超节点承载的AITokenService推理计量服务,全球AI云服务客户已增至1805家[38][39] - **字节跳动**:Seedream4.0推理提速超10倍,在MagicBench评测中,文生图与图像编辑居业界头部,单图编辑综合Elo排第一[41][44] - 国内厂商共同方向是以“旗舰基模”确立能力上限,以“Agent/ADP/ADK”打通开发与运维,以“算力与计量服务”稳定供给[7][46] 海内外AI升级共振与产业终局研判 - 全球路径同步收敛到三件事:把模型升级为能理解多模态、能操控界面与工具的Agent;用标准化工具链降低企业引入成本;把高频入口与供给侧能力做厚[47] - OpenAI通过“资本+供给”的复杂交易结构锁定未来算力,与Nvidia、AMD达成直供与协同开发并含股权安排的长期协议,被称为“循环式”或“以股换供给”的结构创新[47] - Agent工程化是企业规模化落地的核心壁垒,需将工具使用的接口标准化、长程规划的算法模块化、可审计动作序列的日志体系规范化[51] - 入口承载力是C端与办公场景渗透的关键抓手,需实现“生成内容直接关联操作指令”并完善“校验→回滚”机制,以提升用户DAU与功能复用率[52] - 供给侧计量是大客合作与生态构建的信任基石,需将推理计量、并发调度与成本弹性转化为可量化、可对账的产品能力[53] - 海外路径侧重“交易结构创新+自托管预备”以锁定长期资源,中国路径聚焦“体系力+性价比”通过全产业链协同降低成本[54][55]
从摄影棚到Prompt:锦秋基金用AI拍了组官网团队照片
锦秋集· 2025-10-11 16:59
文章核心观点 - AI生图模型在人物身份一致性方面已接近“直出可用”水准,能够替代传统摄影完成企业职业照拍摄[3][4][5] - 通过对比测试,字节的Seedream 4.0模型在人物一致性、皮肤质感、光影细节方面表现优于Google的Nano-Banana,被选为最终生成工具[7][20] - AI生成职业照标志着该技术从“尝鲜”迈向“可用”,将改变企业视觉资产的管理方式,使其从一次性“成品”变为可持续运营的“资产”[36][37] 制作流程与模型选择 - 选择Google的Nano-Banana和字节的Seedream 4.0作为主要测试工具,因其在前期测评中能稳定保留人物面部特征且效果自然[7] - 测试对象为4位同事(2男2女),通过在社交媒体挑选理想参考图并结合ChatGPT撰写提示词进行优化[8][10][12] - 最终选定Seedream 4.0完成三组职业照的完整生成,因其在人物一致性、皮肤质感和光影细节方面表现更优[20] AI生成效果评估 - Seedream 4.0能出色呈现光影质感,轻松解决户外集体写真因时间流逝导致光线不统一的问题[24] - 模型能还原原图中被过度修饰的皮肤自然纹路(如法令纹),在保持美观的同时使画面更自然可信[24] - AI技术使人物表情变得更生动自然,能重构面部表情与神态,解决了摄影师难以彻底调整表情的难题[24] - 模型能准确保留服装上的品牌Logo细节,并根据原始图片与提示词的差异程度,智能调整人物神态、角度和动作[30] 技术当前局限性 - 当参考图表情中性而提示词要求微笑时,模型生成的表情普遍雷同、刻板,难以进行差异化调整[40] - 在局部替换(如统一换上文化衫)的准确度上,Seedream 4.0略逊于Nano-Banana,因此服装替换部分由后者完成[40] - 模型在生成人物动作与姿态时,输出结果要么几乎未改变原图姿态,要么动作略显僵硬[41] - 部分同事对生成照片不满意,尤其集中在人物面部表情上,且普遍反馈Nano-Banana生成图会使人物显得比实际年纪偏大[39][41] 行业影响与未来展望 - AI职业照技术正重塑企业视觉表达方式,使团队照不再受摄影师日程和光线限制,成为随时可调的“变量”[38] - 该技术将职业照从周期性、集中式的事件转变为可持续运营的“资产”,企业可像更新产品版本一样随时迭代团队形象[37] - AI提供“参数化”风格统一,能在保持整体品牌识别度的同时,根据个人气质和使用场景进行灵活微调[37] - AI生成的职业照被视为数字身份的基座,未来可能应用于虚拟会议、数字展台、企业内部系统及AI驱动的虚拟助理等更多场景[37]