Seedream 4.5
搜索文档
第一梯队的大模型安全吗?复旦、上海创智学院等发布前沿大模型安全报告,覆盖六大领先模型
机器之心· 2026-01-22 12:05
报告概述 - 由复旦大学、上海创智学院、迪肯大学与伊利诺伊大学厄巴纳-香槟分校的研究团队联合发布,旨在系统性评估前沿大模型的安全性 [2] - 构建了一套覆盖语言、视觉语言与图像生成三大核心场景的统一安全评测框架,对六大前沿模型进行了全景式刻画 [2] - 评测融合了四大关键维度:基准评测、对抗评测、多语言评测和合规性评测,形成多层次、立体化的评估体系 [2][4] - 评测对象为通用能力处于第一梯队的前沿模型,包括GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5,未覆盖Claude系列模型 [2][6] 语言模态安全 - **GPT-5.2** 平均安全率为78.39%,业界领先,其安全机制已进入以深层语义理解与价值对齐为核心的阶段,在复杂灰区场景中判断稳定,对抗输入下失效风险低 [11] - **Gemini 3 Pro** 平均安全率为67.9%,呈现“强但不均衡”特征:基准测试达88.06%,多语言安全率67.00%,合规性73.54%,但对抗鲁棒性下降至41.17%,在语义伪装与复杂操纵中泛化能力有待提升 [11] - **Qwen3-VL** 平均安全率为63.7%,与Gemini 3 Pro比肩,合规性表现突出,以77.11%的成绩位居第二,但对抗安全性(33.42%)与多语言安全(64.00%)明显回落 [12] - **Grok 4.1 Fast** 平均安全率为55.2%,表现不均衡:基线安全性(66.60%)和合规性评测(45.97%)垫底,但在对抗评测中以46.39%的安全率位列第二,显示出对特定攻击模式的拦截能力 [12] 多模态安全 - **GPT-5.2** 平均多模态安全率为94.69%,全面领先,对抗评测下达97.24%,基准场景中92.14%稳居首位,代表当前多模态安全对齐的最高成熟度 [13] - **Qwen3-VL** 平均安全率为81.11%,超越Gemini 3 Pro,基准成绩83.32%,对抗成绩78.89%,在视觉-语言交互场景中安全策略具备较好的结构完整性 [13] - **Gemini 3 Pro** 平均安全率为78.99%位列第三,呈现“可靠但保守”特征,面对多轮视觉诱导、隐性语义嵌套等复杂攻击时防御强度弱于前两名 [15] - **Grok 4.1 Fast** 平均安全率为68.16%,对抗成绩68.34%略高于基准成绩67.97%,其防护机制可能停留在浅层过滤与简单触发逻辑上 [15] 文生图安全 - **Nano Banana Pro** 平均安全率为59.86%,在基准评测(60.00%)、对抗评测(54.00%)与合规性评测(65.59%)三个维度均位居首位,安全机制具备风险语义重构与情境适配能力 [16] - **Seedream 4.5** 平均安全率为41.71%,展现了坚实的合规基础,基准安全47.94%,合规性57.53%,但对抗安全性仅19.67%,在面对语义伪装、隐性诱导等对抗型提示时鲁棒性不足 [16] 模型安全人格画像 - **GPT-5.2(全能内化型)**:安全雷达图谱近乎全向饱和,安全机制已从外置规则演进为内生推理能力,在灰区与复杂语境中能给出克制而精确的合规引导 [19] - **Qwen3-VL(准则合规型)**:在法律政策边界清晰、监管要求明确的场景中展现出极强的稳定性与可预期性,安全策略明显偏向规则驱动范式 [20] - **Gemini 3 Pro(伦理交互型)**:采用“先响应、后校准”的人本化安全交互范式,擅长处理偏见与歧视类风险,但安全策略偏向事后纠偏,面对对抗性重构时稳定性有提升空间 [21] - **Grok 4.1 Fast(自由效率型)**:呈现出轻量化与极速响应的产品哲学,原生防御机制相对克制,强调开放表达与低摩擦交互体验,体现效率与表达自由优先的取舍 [22][23] - **Nano Banana Pro(柔性重塑型)**:擅长通过内生语义净化策略对高风险提示进行隐性重构,平衡安全与创作自由,但对边界模糊风险的处理高度依赖隐式转换机制 [24] - **Seedream 4.5(坚实屏障型)**:坚持以强约束为核心的安全设计理念,在版权与暴力内容防御方面构建了稳定可靠的拦截闭环,但安全体系呈现“阻断优先”特征,缺乏对灰区场景的语义判别弹性 [25] 核心安全挑战 - **多轮自适应攻击的深层威胁**:攻击者通过持续观测模型响应并动态调整诱导策略,可形成具备“自我进化”能力的多步攻击链路,单一拦截层和静态规则体系难以形成有效防线 [27] - **跨语言安全的结构性不均衡**:多数模型在非英语语境(如泰语、阿拉伯语等)下的安全表现出现20%–40%的系统性下滑,暴露出安全对齐在语料分布与策略迁移上的显著不平衡 [28] - **决策透明度与可解释性的治理短板**:当前安全机制更多体现为“结果合规”,而非“过程可审计”,在高风险领域中决策可解释性与责任可追溯性存在结构性不足 [29] 行业观察与趋势 - 基于静态安全基准的评测会普遍高估安全性,在真实越狱攻击下没有模型具备可靠的防御能力,即使GPT-5.2在最坏情况下的安全率也仅约6%,其他模型接近于0% [14] - 大模型安全对齐必须转向从底层架构、训练范式到多模态交互机制的全栈式深度嵌入,学术界、产业界与治理机构需协同构建兼具包容性、标准化与动态演进能力的安全评估体系 [30]
豆包 1.8 多模态超越谷歌Gemini 3!字节祭出“推理代工”,要做模型届的英特尔?
AI前线· 2025-12-18 15:24
豆包大模型1.8核心性能与能力 - 火山引擎正式推出新一代豆包大模型1.8,面向多模态Agent场景深度优化 [2] - 模型上下文窗口达256k,最大输入Token长度为224k,最大输出及思考内容Token长度均为64k [2] - 运行效率高,TPM(每分钟处理Token数)达5000k,RPM(每分钟请求数)为30k [3] - 原生支持智能上下文管理,可配置策略清除低价值历史信息,确保多步骤任务稳定完成 [7] 评测表现与行业地位 - 在AIME 2025等Agent评测集上稳步提升,在通用智能体测评Benchmark上取得全球领先成绩 [3] - 多模态理解方面,在视觉判断准确性、空间理解、文档解析、视频运动识别等多项能力上超越Gemini 3,其他任务处于全球第一梯队 [3] - 具体评测数据:在数学(AIME-25)得分94.3,推理(GPQA-Diamond)得分83.8,复杂指令遵循(MultiChallenge)得分66.7,通用智能体(BrowseComp-en)得分67.6 [4] - 多模态能力评测:多模态推理(MMMU-Pro)得分73.2,通用视觉问答(VLMsAreBiased)得分62.0,空间理解(MMS/Bench)得分25.8,文档与图表理解(OmniDocBench)得分0.106,动作机感知(MotionBench)得分70.6,长视频理解(VideoMME)得分87.8 [4] 多模态与Agent应用场景 - 演示中成功规划流程,调用十余个工具,在多个电商平台完成耳机全网比价与最优选择,能力可应用于电商、生活服务及企业自动化流程 [5] - 能快速低帧率浏览1小时4分钟的监控视频,精准定位事故画面并分析肇事车辆与时间,能力可拓展至在线教育、安全巡检、产品质检等领域 [5] - 大幅提升视觉理解基础能力,可低帧率理解超长视频,并在视频运动理解、复杂空间理解、文档结构化解析能力上有所提升 [7] - Tool Use能力、复杂指令遵循能力、OS Agent能力均实现大幅增强 [7] 图像与视频生成能力 - 豆包大模型拥有全球领先的图像与视频生成能力,覆盖从图像创作与编辑、视频生成、数字人制作到3D模型生成的完整创作链条 [8] - 新一代豆包生图模型Seedream 4.5在复杂指令遵循、画面元素保持能力上大幅提升,融入更丰富世界知识 [8] - Seedream 4.5能将不同人物、物体与场景照片智能组合生成创意合影,将汽车渲染成分解结构图,制作多卡通角色主题拼图,实现逼真的模特虚拟试穿及专业级产品营销海报 [8] - 视频生成模型Seedance 1.5 Pro正式登场,核心特点为音画同步输出、多人多语言对白配音及更强的影视级叙事张力 [9] - Seedance 1.5 Pro实现声音与画面在时间、语义上的精准同步,能根据角色数量和身份精准匹配口型,原生支持多种语言及中国各地方言 [9] - Seedance 1.5 Pro能通过提示词生成充满细节和情感张力的画面,驾驭影视级镜头语言和叙事张力 [11] - Seedance系列将上线“Draft样片”功能,可先快速生成低分辨率样片验证创意,帮助用户将整体创作效率提升65%,并减少60%的无效创作成本 [13] 企业服务与市场进展 - 截至今年12月,豆包大模型的日均tokens调用量已突破50万亿,自发布以来实现417倍增长,与去年12月相比实现超过10倍增长 [6] - 2025年已有超过100万家企业及个人使用火山引擎大模型服务,覆盖百余行业,其中超过100家企业在火山引擎的累计tokens使用量突破1万亿 [16] - 火山引擎正式推出“豆包助手API”,将豆包APP核心的对话、思考、搜索、创作等Agent能力以API形式开放,首批文本相关能力已上线 [16] - 豆包APP是国内用户规模最大的AI应用,从技术角度看是中国最复杂、难度最高的AI Agent之一 [16] 成本优化与推理服务 - 火山引擎推出业界首个“AI节省计划”,平台上所有按量付费的大模型均可参与,企业各部门享受统一价格优惠,不同模型用量可合并累计 [17] - “AI节省计划”采用阶梯折扣,用量越多节省越多,最高可节省47%的成本 [17] - 火山方舟正式推出“推理代工”服务,针对典型开源大模型结构提供极致的弹性伸缩、全栈推理优化与分布式缓存等支持 [18] - 用户上传加密模型参数后无需运维底层GPU,根据测试,以云上集群替代自建集群可使硬件与运维成本下降约一半,采用方舟推理代工服务对比云上租赁GPU算力可获得额外1.6倍左右的吞吐提升 [18] - 火山引擎能在分钟级完成百卡到千卡的算力伸缩以应对突发流量 [18] - AI产业的推理与训练走向分工与分层是大势所趋,对大多数团队而言,低成本、高吞吐地“推理好”一个大模型可能比“后训练好”一个模型更为困难 [19]
Nano Banana平替悄悄火了!马斯克、Meta争相合作
搜狐财经· 2025-12-15 18:57
公司技术实力与市场地位 - 在Artificial Analysis的文生图榜单中,公司旗舰模型FLUX.2[pro]以ELO评分1,195分排名第二,仅次于谷歌的Nano Banana Pro(1,223分)[2][3] - 公司轻量版模型FLUX.2[flex]在Artificial Analysis榜单排名第四(ELO 1,182分),在LMarena榜单以1,156分与谷歌Gemini 2.5 Flash Image打成平手,位列第四[2][3][4][5] - 公司模型FLUX.2[pro]和FLUX.2[dev]在LMarena榜单分别排名第六(1,151分)和第七(1,149分)[4][5] - 公司开源模型在Hugging Face上的下载量已达到225,346次,在图生图模型排名中位列第二[5] - 公司联合创始人兼首席执行官Robin Rombach是潜在扩散(latent diffusion)技术的核心发明人,其关键论文《High-resolution image synthesis with latent diffusion models》被引用27,039次,总被引量达44,880次[12][13] 公司融资与估值 - 公司于2024年8月成立,迄今累计融资超4.5亿美元(约合人民币31.8亿元)[8] - 公司于12月1日完成3亿美元(约合人民币21.2亿元)的B轮融资,估值达32.5亿美元(约合人民币229.6亿元),估值在一年多时间里增长三倍[8][22] - B轮融资由Salesforce Ventures和Anjney Midha联合领投,投资方包括a16z、英伟达、Northzone、Creandum、General Catalyst、淡马锡、贝恩资本等知名机构,以及合作伙伴Canva和Figma Ventures[22] 公司商业合作与收入 - 公司与Meta签署了一份价值1.4亿美元(约合人民币9.9亿元)的多年度合同,第一年支付3,500万美元(约合人民币2.5亿元),第二年支付1.05亿美元(约合人民币7.4亿元)[15][16] - 公司早期与马斯克旗下xAI的Grok合作推出AI图像生成功能,借此打开市场知名度[15][16][19] - 公司已与Adobe、Canva和Snap等行业知名企业签署合作协议,加上与Meta的协议,总合同价值约达3亿美元[19] - 截至今年8月,公司年度经常性收入已达9,630万美元(约合人民币6.8亿元),并预计在2026财年攀升至3亿美元(约合人民币21.2亿元)[19] 公司产品与技术发展 - 公司核心产品为FLUX系列AI图像生成模型,最新版本FLUX.2优化了文本和图像渲染,支持以多达10张图像作为参考,并可生成最高4K分辨率的图像[20][22] - FLUX.1 Kontext模型于今年5月发布,首次引入文本与图像双输入机制,采用流匹配技术改变传统扩散模型架构[20] - 公司技术根基源于潜在扩散方法,该方法是许多生成式AI技术的基础,最初在消费级硬件的超小型GPU上开发以实现高效算法[14] 公司团队与战略 - 公司创始团队来自Stable Diffusion的核心研发团队,于2024年从Stability AI离职后创立该公司[15] - 公司将总部设在德国弗赖堡,以远离硅谷喧嚣,保持团队极度专注的研发状态,团队规模已从10人扩展至50名全职员工[23][24] - 公司核心战略包括:通过开源部分FLUX模型赢得开发者社区认可且成本低于竞争对手;将新融资重点投入计算基础设施升级与商业团队扩充;立志在从广告到好莱坞的颠覆性市场中竞争[24] - 公司正积极在创意产业建立信任,在好莱坞开拓人脉,并强调严肃对待知识产权,目标是增强创作者能力而非取代现有创作[25]
国信证券晨会纪要-20251209
国信证券· 2025-12-09 09:01
核心观点 - 报告整体认为,当前市场处于等待春季躁动行情的阶段,权益市场可能进入宽幅震荡,建议布局景气与红利方向 [11] - 宏观层面,美联储面临人事换届,其政策独立性可能受到冲击,预计2026年将进入“政治性降息”阶段,基准情形下降息两次 [7][8] - 国内政策强调“提质增效”与内需主导,财政政策预计保持积极,货币政策侧重流动性适度宽松 [9] 宏观与策略 - **美联储换届前瞻**:FOMC票委换届是未来货币政策方向与独立性的关键拐点,特朗普再度上台对美联储独立性构成持续冲击 [7] 当前7名理事中形成“核心依附型”与“制度防线型”两派,未来格局更可能呈现“内部分化、制衡共存” [8] 基准情形下,预计2026年美联储降息两次,联邦基金利率落在3%-3.25%区间 [8] - **国内政策解读**:12月政治局会议总体基调新增“提质增效”,凸显高质量发展重要性 [9] 宏观政策将更加积极有为,财政政策赤字率预计仍为4.0%,货币政策“适度宽松”更多体现在流动性层面 [9] 防风险方面,债务化解仍然是2026年的重点工作 [9] - **转债市场策略**:展望后市,在流动性难以推动大级别主升行情、各景气主线等待验证的背景下,权益市场或进入宽幅震荡,等待春季躁动 [11] 转债操作难度大,建议相对收益投资者小仓位均衡配置不赎回的绩优偏股型品种,绝对收益投资者关注130元以下高赔率方向 [11] 农林牧渔行业 - **核心观点**:牧业大周期反转预计在即,看好国内肉奶景气共振上行,牧业公司业绩有望迎来高弹性修复 [13] 生猪行业在产能收缩背景下,龙头成本优势有望明显提高 [13] - **价格与行情跟踪**:11月末生猪价格11.25元/公斤,月环比下跌10% [14] 11月SW农林牧渔指数上涨1.51%,跑赢沪深300指数3.97个百分点 [14] 周度数据显示,12月5日生猪价格11.11元/公斤,周环比微跌0.18% [15] 肉牛价格开启新一轮上涨,12月5日国内育肥公牛出栏价为25.20元/kg [16] - **投资建议**:核心推荐牧业板块的优然牧业、现代牧业,生猪板块的牧原股份、温氏股份等龙头,以及宠物板块的乖宝宠物等 [13][15][17] 食品饮料行业 - **行情回顾**:当周食品饮料板块累计下跌1.80%,跑输沪深300指数约3.15个百分点 [18] - **细分板块观点**:酒类板块进入左侧布局阶段,推荐具备价位和区域话语权的优质公司如泸州老窖、山西汾酒 [19] 乳制品板块需求平稳复苏,供给渐进出清,重点推荐伊利股份 [19] 零食板块魔芋零食品类红利突出,重点推荐卫龙美味、盐津铺子 [19] - **投资展望**:2026年看好食品饮料板块,认为其红利属性将体现,且B端和商务场景复苏可能更快 [20] 下周推荐组合包括巴比食品、东鹏饮料、卫龙美味、山西汾酒 [20] 传媒互联网行业 - **行业表现**:当周传媒行业下跌3.35%,跑输沪深300指数(1.53%)和创业板指(2.57%) [22] - **重要动态**:OpenAI推出能处理超100万token的GPT-5.1-Codex-Max [23] 字节跳动发布豆包手机助手技术预览版,重构手机交互体验 [23] 电影《疯狂动物城2》当周票房达10.4亿元,占比80.6% [24] - **投资建议**:建议把握游戏板块超跌布局机会,推荐巨人网络、恺英网络等 [24] 关注AI应用在动漫、营销等场景的机会,以及《疯狂动物城2》带动的影视院线板块机会 [24] 房地产行业 - **行业现状**:楼市持续筑底,2025年1-10月全国商品房销售额同比下跌9.6%,10月单月同比降幅扩大至24% [25] 非热门城市(三四线)人口流出,但本地居民改善置业需求仍在,其新房销售额全国占比在2024年为55% [26] - **结构性机会**:非热门城市土拍竞争弱,楼面价涨幅远低于一二线城市,为房企留足了开发利润空间 [27] 例如,2025年前9月,三线城市成交楼面均价为0.2万元/㎡,仅为2019年的1.3倍,而一线城市均价为2019年的2.6倍 [27] - **投资建议**:关注深耕下沉市场的房企,如中国海外宏洋集团,其能获取当地核心地块开发改善产品,实现较理想的去化率 [28] 电子(半导体)行业 - **行业表现**:2025年11月SW半导体指数下跌4.67%,跑赢电子行业0.38个百分点,估值处于2019年以来74.63%分位 [31] - **产业趋势**:存储涨价趋势延续,2025年10月全球半导体销售额727.1亿美元,同比增长27.2% [32] TrendForce预计4Q25整体DRAM合约价将上涨50-55% [32] AI端侧硬件催化密集,如豆包手机助手发布,带来AI SoC需求 [33][34] - **投资策略**:建议关注存储产业链的江波龙、德明利等 [33] 关注国产半导体制造链的中芯国际、华虹半导体等 [33] 关注AI端侧SoC企业如翱捷科技、晶晨股份等 [34] 重点公司研究 - **金蝶国际**:公司是企业SaaS服务领军者,2025H1云服务收入占比达83.74% [34] 其云原生EBC(企业业务能力)架构是AI落地的必要方案,客户粘性持续提升 [35] 预计2025-2027年营业收入分别为69.57/79.28/90.59亿元 [36] - **ServiceNow**:2025Q3公司订阅收入达32.99亿美元,按固定汇率同比增长20.5%,超出指引 [37] AI产品表现亮眼,公司维持2026年AI收入超10亿美元的目标,预计今年AI产品ACV(年度合同价值)有望超5亿美元 [38] - **亚钾国际**:公司老挝小东布矿区第三个百万吨钾肥项目成功投料试车,该矿区氯化钾资源量达6.77亿吨 [40][41] 全球钾肥供需紧张,2026-2027年仅亚钾国际有新产能释放,看好行业未来2-3年高景气 [42] 预计公司2025-2027年归母净利润为18.6/27.3/32.9亿元 [43] 金融工程(ETF市场) - **业绩表现**:上周股票型ETF周度收益率中位数为1.08%,其中军工ETF领涨,涨幅中位数为2.72% [43] - **资金流向**:上周股票型ETF净申购41.79亿元,总体规模增加398.29亿元 [44] 宽基ETF中,A500ETF净申购最多,达44.12亿元 [44] - **估值与发行**:宽基ETF中,创业板类ETF估值分位数相对较低 [44] 本周将有8只新ETF发行,涵盖创业板、港股通高股息、卫星产业等主题 [45]
DeepSeek-V3.2和豆包手机助手解读
国投证券· 2025-12-07 20:08
行业投资评级 - 投资评级为“领先大市-A”,并维持该评级 [7] 核心观点 - DeepSeek发布V3.2正式版,推理能力达到全球领先水平,在公开推理类Benchmark测试中达到GPT-5水平,仅略低于Gemini-3.0-Pro [1][12] - DeepSeek-V3.2-Speciale是长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,成功斩获IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌 [2][13] - 豆包手机助手发布技术预览版,将豆包大模型深度融入手机操作系统,展现出跨应用操作(Agent)能力,有望加速AI Agent在C端落地并带来推理需求大幅提升 [3][15] - 建议关注AI企业服务、端侧AI等方向的投资机会,并列举了包括鼎捷数智、汉得信息、赛意信息等在内的多家公司 [15] 本周行业观点 - **DeepSeek-V3.2技术亮点**:1)采用DSA稀疏注意力机制,将计算复杂度从O(L²)降至O(Lk),其中k为固定值2048,大幅降低上下文计算成本 [2][13];2)后训练计算预算超过预训练成本的10%,为数学、编程、通用逻辑推理等六个领域训练了专门的专家模型 [2][13];3)首次将思考融入工具调用,通过合成大规模Agent训练数据(1800+环境,85000+复杂指令)提高了模型泛化能力 [3][14] - **豆包手机助手**:基于豆包大模型能力,通过与手机厂商在操作系统层面合作,打造系统级服务,用户可通过语音指挥手机执行复杂操作,例如比价点外卖、跨应用打车等,搭载该助手的工程样机nubia M153已少量发售 [3][15] 市场行情回顾 - **板块指数表现**:本周(报告期)计算机(中信)指数下跌1.52%,年初至今上涨24.91% [17] - **相对表现**:本周计算机板块跑输上证综指1.89个百分点,在中信30个行业指数中排名第25,在TMT四大行业(电子、通信、计算机、传媒)中排名第3 [16][17][19] - **市场整体**:本周上证综指上涨0.37%,深证成指上涨1.26%,创业板指上涨1.86%,沪深300上涨1.28% [16] - **个股表现**:本周计算机板块周涨幅前十的个股中,实达集团上涨19.88%,航天智装上涨12.92%,赢时胜上涨12.48%;周跌幅前十的个股中,ST立方下跌48.21%,浪潮软件下跌20.91%,品高股份下跌14.33% [23] 行业重要新闻 - **谷歌TPUv7挑战英伟达**:谷歌TPUv7在系统级性能、算力利用率及总体拥有成本方面对英伟达GPU形成挑战,其系统总体拥有成本较英伟达GB200低约30%-40%,并开始向Anthropic等外部客户提供算力服务,Anthropic部署的TPU集群规模已超过1GW [25] - **2025世界计算大会**:大会焦点从“单卡性能”转向“体系能力”,曙光发布scaleX640超节点支持多架构加速卡,华为展示全栈自主的384卡深度封装体系,标志着中国算力进入“体系能力竞争”时代 [26] - **火山引擎发布图像模型**:火山引擎发布新一代图像生成模型Seedream 4.5,面向广告、电商等商业场景,强化了视觉一致性与风格融合能力,支持4K输出 [28][29] - **量子通信进展**:中国移动在安徽合肥推进首个量子城域网建设项目,信通数智量子科技有限公司以不含税596.2万元中标,项目总采购预算781万元 [30] - **商业航天动态**:蓝箭航天朱雀三号火箭首次尝试一级箭体回收验证,但因姿态控制与动力调节异常导致失败 [29]