Workflow
图像生成
icon
搜索文档
腾讯混元上新:话没说完,图就生成了……
观察者网· 2025-05-16 17:57
(文/万肇生 编辑/张广凯) 5月16日,腾讯发布最新混元图像2.0模型,该模型号称改变传统"抽卡—等待—抽卡"的方式,在行业内率先实现实时生图,带来交互体验革新。 目前市面上的各类大模型中,除了非推理语言大模型的生成外,几乎所有模态大模型的生成过程,都或多或少需要经历等待。尤其在文生图领域,抽卡一 样重复生成多个结果,严重影响效率。然而据腾讯介绍,该混元图像2.0就主打一个"快",支持文生图和绘画生图。且无论是输入文字指令、语音指令, 或上传本地图、在线绘制图,"都能毫秒级获得高质感图像"。 根据演示案例显示,用户在输入"一位女士"时,模型首先生成了一张证件照。此时在输入框内继续输入"…风景照、沙漠中",画面的背景于是瞬间变成翠 绿色,紧接着又秒变成沙漠黄。继续再输入"扎着头发、回眸一笑",画面也飞速切换,最终随着输入操作的结束,画面直接生成完毕。 本文系观察者网独家稿件,未经授权,不得转载。 在另一个生成"爱因斯坦在东方明珠前自拍"的案例中,该模型也非常迅速的展现出整个生成的过程。 通常情况下,绘画过程中的即时反馈可以让用户对作品迅速做出调整,但AI图像生成的修改往往是反复投喂产出。因此,如果在生成的过程 ...
腾讯混元图像2.0:毫秒级AI生图,实时绘画板引领创作新潮流
搜狐财经· 2025-05-16 17:15
技术革新 - 腾讯推出混元图像2 0模型 实现实时图像生成和超写实画面质感 [1] - 模型采用超高压缩倍率图像编解码器和全新扩散架构 显著提升参数量 [1] - 图像生成速度达毫秒级 远超行业平均5-10秒的推理速度 [1] 性能表现 - 在Geneval评估基准上准确率超过95% 远超同类模型 [2] - 生成图像真实感强 细节丰富 有效避免常见"AI味" [1] - 支持多种风格图片生成 包括人像摄影 动物特写 复古摄影等 展现电影级别质感 [2][4][6][8] 创新功能 - 推出实时绘画板功能 支持绘制线稿时同步生成上色效果 [8] - 支持多图融合功能 可叠加多个草图自由创作 AI自动协调透视与光影 [8] 战略意义 - 标志着公司在图像生成领域的重要里程碑 [10] - 自2014年推出首个中文原生DiT架构文生图开源模型以来持续投入多模态技术 [10] - 未来将继续深耕多模态领域 推动技术创新 [10]
“图片秒生”,腾讯混元图像2.0模型正式发布,主打速度和真实感
AI科技大本营· 2025-05-16 16:16
腾讯混元图像2.0模型发布 - 公司发布混元图像2.0模型 基于架构创新实现实时生图 带来全新AI生图交互体验 模型已在官网开放注册 [1] - 模型参数量较前代提升一个数量级 采用超高压缩倍率图像编解码器和全新扩散架构 生图速度达毫秒级 显著快于行业5-10秒水平 [3] - 模型通过强化学习和人类美学知识对齐 有效减少"AI味" 生成图像真实感强 细节丰富 可用性高 [3] 技术性能优势 - 在GenEval评估基准上 模型准确率超过95% 大幅领先同类产品 [4] - 文生图客观指标全面领先 在Overall(0.9597) Single Obj(0.9968) Two Obj(0.9747) Counting(0.9343) Colors(0.9973) Position(0.885) Color Attribution(0.975)等细分维度均表现优异 [5] 应用场景展示 - 模型支持多种风格生成 包括人像摄影 动物特写 复古摄影 动漫风格等 画面达到电影级质感 [6][7][8][9][11] - 推出实时绘画板功能 支持线稿实时上色预览 突破传统线性流程 助力专业设计师创作 [13] - 支持多图融合功能 可叠加多个草图自动协调透视光影 按提示词生成融合图像 [13] 战略布局 - 公司预告将发布原生多模态图像生成大模型 在多轮生成和实时交互方面有突出表现 [15] - 持续加码多模态领域 此前已开源中文原生DiT架构文生图模型和130亿参数视频生成大模型 [15]
Manus突发上新文生图!告别“抽卡”,Agent+深度思考联合创作
量子位· 2025-05-16 13:36
举个例子,丢给它一张房间照片,让它去宜家官网找家具,生成可视化装修效果。 并且按照演示中的要求,除了画图之外还要在结果当中附上选择的家具链接,结果Manus一通操作都完成了。 拿到照片后,Manus首先根据地板、墙壁等布置分析了房间的风格,形成了一份分析报告。 网友评价,把智能体工作流与图像生成结合到一起,是一个很好的主意。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Manus深夜官宣,现在 支持生成图像 了! 图像生成,先动脑再动手 和一般AI绘图工具的"抽卡"模式不同,Manus 能够理解你画图的目的,规划出生成方案后再"动手" 。 我们不妨看一下,Manus在合成效果图时,具体都做了些什么。 之后,Manus通过搜索找到了宜家官网并在沙盒环境当中进行浏览。 一通浏览之后,Manus筛选出了它认为适合放在房间里的家具,并且生成了文字版的介绍。 最后,Manus合成了最终的效果图并按照要求创建了带有商品链接的页面。 再看看Manus展示的其他案例。 Manus被要求基于对饮料市场流行视觉元素的理解,为一个名为"TeaVive"的茶饮料设计一款饮料瓶,并且要求中还提到推广青少年健康。 可以看到, ...
Manus推出图像生成功能
快讯· 2025-05-16 13:21
《科创板日报》16日讯,Manus宣布推出图像生成功能。据介绍,Manus不仅是生成图像,它了解用户 的意图,规划解决方案,并知道如何有效地使用图像生成和其他工具来完成用户的任务。 Manus推出图像生成功能 ...
刚刚,Manus生图功能强势登场!从设计到搭建网站一站式搞定,1000积分免费薅
机器之心· 2025-05-16 12:39
Manus平台开放注册与功能升级 - Manus平台结束邀请码制度,全面开放注册[1] - 新用户注册即赠1000积分作为体验奖励[2] - 新增图像生成功能,具备意图理解、任务规划和多工具协同能力[2] 图像生成功能实测表现 - 成功完成饮料瓶设计任务:生成符合青少年健康理念的瓶身设计,包含品牌名、"TEA FOR TEENS"字样及清新配色(浅绿+橙色)[5][9] - 生成图片与背景融合自然,如时尚商品展示图达到"浑然天成"效果[20] - 支持多种场景生成:包括野外露营、宠物生活等主题图片[24][26][28] - 整体画面构造和细节处理获得正面评价[31] 智能工作流特性 - 采用分步骤任务执行模式:包含市场调研、趋势分析、概念构思等完整流程[5] - 支持任务中途修改和进度追踪,自动生成总结报告[11][13] - 实现意图理解与图像生成的深度结合[32] 性能表现与用户反馈 - 图像生成速度较快,但复杂任务(如网站创建部署)耗时较长(约30分钟)[15][18][33] - 用户对智能体工作流设计给予肯定,但对执行效率存在改进期待[32][33]
美的集团(000333):2025年一季报点评:持续拓展全球推动数智驱动
东莞证券· 2025-04-30 17:04
报告公司投资评级 - 维持对美的集团“增持”评级 [1][5] 报告的核心观点 - 美的集团2025年一季度业绩符合预期,公司持续推进“科技领先、用户直达、数智驱动、全球突破”四大战略主轴,不断深化全球化布局,建立完善研发体系,聚焦全面智能化和全面数字化,预计2025 - 2026年每股收益分别为5.61元、6.15元,当前股价对应PE分别为13倍、12倍 [1][5] 根据相关目录分别进行总结 财务数据 - 2025年一季度,美的集团实现营业总收入1284.28亿元,同比增长20.61%;归母净利润124.22亿元,同比增长38.02%;扣非后归母净利润127.5亿元,同比增长38.03% [1] - 2025年一季度,公司毛利率同比下降1.87个百分点至25.45%;期间费用率同比下降3.82个百分点至13.23%,其中销售费用率、管理费用率和财务费用率分别同比下降0.74、0.35和2.73个百分点,分别达到9.25%、6.14%和 - 2.21%;净利率同比提高1.45个百分点至9.97% [5] - 盈利预测简表显示,2024 - 2027年营业总收入分别为4090.84亿、4439.73亿、4757.15亿和5085.08亿元;归母公司所有者的净利润分别为385.37亿、430.16亿、471.48亿和515.36亿元;摊薄每股收益分别为5.03元、5.61元、6.15元和6.72元;PE分别为14.8倍、13.2倍、12.1倍和11.0倍 [6] 业务布局 - 美的集团业务遍及200多个国家和地区,美国收入占比很低,在海外设有22个研发中心和23个主要制造基地,未来将持续拓展海外制造布局,推动海外新工厂建设与投产 [5] - 公司持续加强自有品牌产品研发投入,通过本地化用户洞察与创新完善全球各区域产品布局和竞争力,2024年美的系自有品牌在多个国家和家电品类取得市场突破 [5] 技术发展 - 美的集团加速全面智能化落地,推进大模型和Agent技术探索与应用,建立家居领域语言大模型 - 美言,应用于多种产品,提供人机交互服务,实现全屋家居家电融合的深度智能控制和智能管家服务体验 [5] - 公司首次将Agent能力应用于家居场景生成,实现快速响应和可控生成效果,研究团队积极参与行业大模型技术研究,在多个国际AI会议发表多篇专业论文,拓展具身智能、多模态大模型和图像生成等领域前沿研究 [5]
设计速度提升100倍,质量翻10倍:豆包超能创意1.0体验
歸藏的AI工具箱· 2025-04-29 16:18
豆包前段时间新的图片模型的实力大家应该也看到了。 强大的提示词理解加上字体和营销图片生成能力直接让人人都能生成自己需要的营销图片或者进行字体设计。 就在前天 豆包又更新了超能创意 1.0 模式 ,我被灰度到了试了一下,给我整麻了。 图片的生成效率和修改效率大幅提升,让本来就很低的设计门槛又低了一大截。 我们可以先看个例子再介绍 我输入的提示词为: 参考下面的提示词帮我生成十个其他知名品牌的胶囊 16:9 图片,先基于品牌和主营业务更改提示词 中的内容然后在生成。 示例提示词为:一个高高的、外观逼真且充满活力的胶囊体水平漂浮着。它的左半边是标志性的星 巴克绿色,标有"Starbucks – Uplifting the Everyday"字样以及经典的美人鱼(Siren)标志。右半 边是透明的,里面填充着漂浮的烘焙咖啡豆、细腻的奶泡漩涡、手绘咖啡杯图标以及代表社区连接 的抽象暖色调线条,需要有背景色。 来看看他给我的结果,我根本没提要哪些品牌,也没提这些品牌的主营业务和典型产品。 他直接从LLM 模型拿到了这些知识然后还按照要求改了提示词 ,太离谱了,而且 这十张图片的生成速度比 4 o 一张都要快很多 。 我测 ...
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
量子位· 2025-04-23 12:50
InstantCharacter 投稿 量子位 | 公众号 QbitAI GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源 定制化角色生成插件——InstantCharacter 。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。 例如,基于适配器的方案虽然基本实现主体一致和文本可控,但在泛化性、姿势变化和风格转换的开放域角 色方面仍然存在困难。基于微调则需对模型进行重新训练,从而浪费过长的时间。更不必说,费用高昂的推 理时间的微调。 为了更好地适应DiT模型,研究员提出了一种可扩展的 full-transformer适配器 ,它作为角色图像与基础模 型潜在生成空间之间的关键连接,通过增加层深度和隐藏特征尺寸实现可扩展性。 而现在这个插件基于 DiTs(Diffusion Transformers) ,能在保证推理效率和文本可编辑性的同时,完 美实现角色个性化创作。 那么一起看看它具体是如何实现的? 方法介绍 现代 DiTs与传统的UNet架构相比,展现出前所未有的保真度和容量,为生成和编辑任务提供了更强大的基 础。基于此,InstantChara ...
视觉Token无缝对齐LLMs词表!V²Flow:基于LLMs实现高保真自回归图像生成
量子位· 2025-04-03 10:12
1、 传统视觉tokenizer生成的离散表征与LLM词表存在显著的分布偏差。 V²Flow团队 发自 凹非寺 量子位 | 公众号 QbitAI 视觉T oken可以与LLMs 词表无缝对齐了! V²Flow,基于LLMs可以实现高保真自回归图像生成。 实现自回归图像生成的关键是设计向量化(Vector-Quantization)的视觉Tokenizer,将视觉内容离散化成类 似于大语言模型词表的离散Token。 现有方法虽取得进展,却始终面临两大桎梏: 2、 维度诅咒:图像的二维结构迫使大语言模型以逐行方式预测视觉token,与一维文本的连贯语义预测存 在本质冲突。 结构性与特征分布性的双重割裂,暴露了当前自回归视觉生成的重大缺陷:缺乏能够既保证高保真图像重 建,又能与预训练LLMs词汇表在结构上和特征分布上统一的视觉tokenizer。解决这一问题对于实现有效的 多模态自回归建模和增强的指令遵循能力至关重要。 因此,一个核心问题是: 能否设计一种视觉tokenizer,使生成的离散视觉token在保证高质量视觉重建的同时,与预训练LLMs 词汇表实现无缝融合? 统一视觉Token与大语言模型词表 最新开源 ...