Workflow
AI图像生成
icon
搜索文档
年轻人用AI生成流浪汉吓坏父母,吸引810万人围观,这次玩笑开大了
机器之心· 2025-10-16 10:20
AI生成内容在社交媒体娱乐中的应用 - 当前互联网流行使用AI生成流浪汉图像对家人进行整蛊 记录其恐慌反应 [3][4] - TikTok博主通过AI生成陌生人入侵家庭场景的系列图片 例如使用牙刷 躺在床上的图片 引发父亲强烈反应并连续拨打7通未接电话 [4][5][6] - 该整蛊视频获得超过810万播放量和近87万点赞量 显示出极高的用户参与度 [10] AI整蛊内容的制作方法与传播 - 整蛊视频制作门槛低 使用谷歌Gemini等工具 通过上传家庭内部照片并输入添加无家可归者的指令即可快速生成逼真图像 [11] - 制作流程包括在不同房间重复生成图像 例如让AI生成人物坐在沙发或翻冰箱 并在父母不在家时发送图片制造恐慌 最后将反应上传至社交媒体 [11] - 该模式成为流量密码 引发众多博主模仿 内容形式从静态图像升级到AI视频造假 例如生成流浪汉使用毛巾擦脸 躺在床上休息的视频 尽管存在AI生成瑕疵如人物切换 但仍能对不熟悉AI的年长父母造成恐慌 [12] AI整蛊内容的社会影响与风险 - AI图像和视频生成技术逼真度高 难以辨别真假 容易引发年长父母的强烈焦虑和恐慌 可能导致过激反应或不必要冲突 [18] - 此类恶作剧可能造成严重后果 例如家长因恐慌选择报警或让保安上门 浪费警力资源 甚至可能引发特警队出动 [22][23] - 娱乐和创意表达需注意分寸 不应建立在伤害他人或引发不必要困扰的基础上 [25]
混元图像3.0 全球“盲测”登顶
贝壳财经· 2025-10-05 20:17
文章核心观点 - 腾讯混元图像3 0模型在国际权威评测平台LMArena的文生图榜单中超越全球其他25个大模型位居第一 [1] - 该模型被LMArena官方评为最佳综合文生图模型与最佳开源文生图模型 [1] - 评测结果基于全球用户的真实偏好盲测机制具有较高权威性 [1] 模型技术特性 - 混元图像3 0是腾讯发布并开源的原生多模态生图模型于9月28日推出 [2] - 当前版本已开放文生图能力图生图图像编辑多轮交互等功能将在后续版本发布 [2] 行业竞争地位 - 混元图像3 0在评测中超越了Seedream 4以及代号nano-banana的Gemini 2 5 Flash Image Preview等竞争对手 [1] - LMArena是美国加州大学伯克利分校推出的创新AI模型评估平台其榜单被视为国际权威标准 [1]
著名机器人专家警告:投资人形机器人初创企业是浪费资金|首席资讯日报
首席商业评论· 2025-09-29 11:50
机器人行业投资争议 - 著名机器人专家罗德尼・布鲁克斯警告投资人形机器人初创企业是浪费资金 尤其质疑特斯拉和Figure通过视频训练机器人灵巧操作的做法 称为纯粹幻想思维 [2] 万达集团债务危机 - 大连万达集团及法定代表人王健林被限制高消费 公司此前被强制执行1.86亿元 另有47条股权冻结记录和10条被执行人信息 总金额达52.62亿元 [3] - 为缓解现金压力 万达2025年以来出售7座万达广场 2023-2024年间出售超30座万达广场 [3] 传媒行业评级调整 - KeyBanc将华纳兄弟探索评级从增持下调至持有 认为若潜在收购未实现可能面临下行风险 特别提及派拉蒙天空之舞可能出价 [4] 住房公积金政策优化 - 广州允许提取住房公积金支付购房首付款 适用范围包括现售商品住房 存量商品住房 配售型保障性住房和共有产权住房 [6] - 广州允许提取住房公积金支付住宅老旧电梯更新改造的家庭分摊费用 [6] 上市公司动态 - 安科生物控股股东不存在将所持股份出借给量化机构的情况 [7] - 小熊电器回应养生壶爆炸事件 称正在调查中 无法接触产品判断事故原因 [8] 住房市场规范调整 - 上海出台住宅品质提升新规 调整阳台面积计算方式 回应市场对宽敞阳台需求 新规包含5大类17条举措 [9] 餐饮企业动态 - 西贝创始人贾国龙清空社交账号 仅保留一条视频显示西贝年营收达62亿元 [10] 新能源汽车行业 - 零跑汽车创始人朱江明被解除限高令 此前因公司业务纠纷被强制执行 [11] 食品安全监管 - 深圳市市场监管局抽检167批次月饼样品 全部合格 涉及104家经营主体 [12] AI初创公司融资 - AI图像生成公司Black Forest Labs正以40亿美元估值筹集2-3亿美元 此前曾在10亿美元估值下进行未公开融资 [12]
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 18:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
生数科技完成数亿元A轮融资:刚发布正面对标Nano Banana的Vidu Q1参考生图
IPO早知道· 2025-09-19 10:37
公司融资与资金用途 - 公司完成数亿元人民币A轮融资 [2] - 融资由博华资本管理的梁溪数字产业基金领投 老股东百度战投、北京市人工智能产业投资基金、启明创投、达泰资本、卓源亚洲、BV百度风投等持续跟投 建发新兴投资等产业合作方加码入场 [2] - 本轮融资将用于模型研发和技术创新 探索多模态大模型的智能上限和应用广度 同时将持续加强产品拓展、用户服务、产业合作和全球商业布局 [2] 公司核心技术与产品 - 公司专注于多模态大模型及应用的自主研发 核心产品Vidu具备AI图像生成、视频生成与音频生成等多项能力 [2] - Vidu在全球上线 全球首创「参考生」图片/视频概念 在AI视频生成和AI生图领域快速覆盖全球200多个国家和地区的超3000万用户和6000家开发者及企业 [3] - 公司于2023年4月发布中国首个全面对标Sora的视频大模型产品Vidu 并于2024年7月正式全球上线 [3] 公司业务表现与市场地位 - Vidu上线8个月后 其年度经常性收入突破2000万美元 业务覆盖全球200多个国家和地区 [3] - 公司成为近年来AI赛道炙手可热且极具影响力的创新公司之一 [3] - 公司核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆大学等全球顶尖高校的科研人才组成 具备深厚的产业实践经验与出色的全球化技术落地能力 [2] 行业应用与投资者观点 - Vidu产品广泛应用于互联网、广告、电商、动漫、文旅、广电、教育、游戏及影视等行业领域 [2] - 梁溪数字产业基金将人工智能赛道作为重点投资方向 认为公司在多模态领域的持续深耕以及Vidu产品的商业化落地与其前瞻布局高度契合 [3]
用光学生成图像,几乎0耗电,浙大校友一作研究登Nature
机器之心· 2025-09-15 12:00
技术原理 - 开发了一种受扩散模型启发的光学生成模型 利用光学原理而非传统计算机运算完成图像生成[1][2] - 系统通过数字编码器生成静态噪声模式 再通过空间光调制器将噪声刻印到激光束上 最终由解码装置转化为图像[2] - 采用浅层数字编码器将随机二维高斯噪声快速转换为二维相位结构 形成光学生成种子[11] - 包含即时生成和迭代生成两种模式:即时模式通过预计算光学种子实现按需生成 迭代模式采用递归去噪操作重建图像[13][17] 性能表现 - 光学系统生成图像效果与传统图像生成器相当 但能耗显著降低[3] - 在MNIST和Fashion-MNIST数据集上分别达到131.08和180.57的FID评分 证明生成图像符合目标分布[22] - 实现高分辨率图像生成:单色图像采用520纳米波长 彩色图像使用450/520/638纳米三波长通道[24] - 彩色图像生成共享同一解码器状态 虽存在轻微色差但仍保持优异质量[28] 应用前景 - 凭借超高速和超低能耗特性 可应用于VR/AR图像视频生成[6] - 适用于智能手机、AI眼镜等可穿戴电子设备的小型化终端[6] - 为数字AI模型提供可扩展且高能效的替代方案[3] 研究现状 - 目前仍处于物理实验阶段 距离实用化尚有距离[9] - 采用5.8亿参数数字编码器实现高分辨率生成 对比教师数字扩散模型需10.7亿参数和1000次迭代步骤[28]
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 09:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 15:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
谷歌旗下最强图像模型来了,P图师要消失了?
第一财经· 2025-08-27 19:20
产品发布与市场表现 - 谷歌发布最新图像生成和编辑模型Gemini 2 5 Flash Image 并登顶多个主流图像排行榜 [1] - 模型在大模型竞技场LMArena的文生图与图像编辑两个场景均排名全球第一 其中图像编辑榜单得分1362分 领先第二名171分 [5] - 在文生图榜单中模型以1147分排名第一 超过第二名Imagen-4 0-ultra-generate的1135分 [6] - 模型在图像编辑榜单排名第一 超过OpenAI的GPT-4o和阿里巴巴的Qwen-Image-Edit 在文生图榜单排名第三 略逊于字节Seedream 3 0和GPT-4o [6] 技术能力与性能特点 - 模型在角色一致性 提示词跟随 物理逻辑真实性和画面审美方面表现优秀 [4] - 核心亮点是图像编辑能力 支持多图像混合 自然语言针对性修改 并利用Gemini世界知识生成和编辑图像 [13] - 在渲染文本方面表现出色 能生成包含清晰易读且位置合理文本的图片 适合徽标 图表和海报制作 [18] - 模型支持用自然语言进行针对性变换和精准局部编辑 如模糊背景 去除污渍 移除人物 改变姿势 添加颜色等 [32] - 在物理知识方面表现较为出色 能够预判气球爆炸后的物理特征 [35] 商业化应用与成本优势 - 单张图像生成成本不到3毛钱 定价为30美元/100万个输出token 每张图像1290个输出token 价格约0 039美元 远低于OpenAI的0 19美元/张 [4][17] - 模型已具备替代部分人工修图的能力 可帮助设计师一键完成图像修改与创意生成 适用于电商产品图制作 [4] - 在电商场景中 海外用户尝试用模型生成商品展示图 如将涂抹区域替换为香奈儿手袋 效果逼真几乎看不出合成痕迹 [34][37] - 模型能适应产品模型和商业摄影 为电子商务 广告或品牌宣传制作清晰专业的商品照片 [18] 局限性 - 对中国用户的一大限制在于不支持中文输入 即使用英文提示 若生成内容涉及中文效果会显著下降 [4] - 在涉及中文场景的画面时会出现错误 如无法正确生成中文字体 [28] - 在复杂构图指令方面仍存在缺陷 如偶尔会出现多肢体等结构错误 [4][32]
00后看数博(二)| 社交媒体浪潮里的“科技印记”
搜狐财经· 2025-08-13 20:23
2025年数博会概况 - 2025年中国国际大数据产业博览会将于8月28日至30日在贵阳举行 主题为"数聚产业动能 智启发展新篇" [1] AI图像技术 - 腾讯混元图像2.0模型具备实时性及超写实画质 解决AI绘图效率与质感问题 [7] - 腾讯云"大模型图像创作引擎"提供图像风格化 AI写真 线稿生图等企业级服务 例如通过线稿设计图快速生成实物设计图缩短生产周期 [7] - AI图像生成技术可通过用户上传照片生成多元风格头像 满足00后群体美学需求 [5] AI数字人应用 - AI合成主播依托语义理解 唇形预测 图像处理技术实现全方位仿真还原 已应用于《贵阳新闻联播》等场景 [13] - 数字人生成技术从数博会展示延伸至抖音短视频 新闻直播 直播带货等领域 推动虚拟形象与内容创作融合 [15] AI社交辅助功能 - 网易云信AI助聊基于真实社交场景训练 可生成精准适配的开场白解决方案 用户可通过投喂个人标签定制内容 [23] - AI助聊功能实时监测聊天节奏 在对话平淡时主动建议生活化话题打破僵局 例如分享趣事避免尬聊 [25] - 该技术瞄准00后社交焦虑 将兴趣标签转化为个性化开场白 成为社交应用的底层支持功能 [19] 企业参展动态 - 网易数智在2024年数博会携五大业务板块参展 包括网易易盾 网易云信 网易云商等一站式企业服务 [21] - 腾讯云在2024年数博会展示三款PaaS产品 涵盖知识服务与音视频创作工具链 [7]