Workflow
AI图像生成
icon
搜索文档
著名机器人专家警告:投资人形机器人初创企业是浪费资金|首席资讯日报
首席商业评论· 2025-09-29 11:50
机器人行业投资争议 - 著名机器人专家罗德尼・布鲁克斯警告投资人形机器人初创企业是浪费资金 尤其质疑特斯拉和Figure通过视频训练机器人灵巧操作的做法 称为纯粹幻想思维 [2] 万达集团债务危机 - 大连万达集团及法定代表人王健林被限制高消费 公司此前被强制执行1.86亿元 另有47条股权冻结记录和10条被执行人信息 总金额达52.62亿元 [3] - 为缓解现金压力 万达2025年以来出售7座万达广场 2023-2024年间出售超30座万达广场 [3] 传媒行业评级调整 - KeyBanc将华纳兄弟探索评级从增持下调至持有 认为若潜在收购未实现可能面临下行风险 特别提及派拉蒙天空之舞可能出价 [4] 住房公积金政策优化 - 广州允许提取住房公积金支付购房首付款 适用范围包括现售商品住房 存量商品住房 配售型保障性住房和共有产权住房 [6] - 广州允许提取住房公积金支付住宅老旧电梯更新改造的家庭分摊费用 [6] 上市公司动态 - 安科生物控股股东不存在将所持股份出借给量化机构的情况 [7] - 小熊电器回应养生壶爆炸事件 称正在调查中 无法接触产品判断事故原因 [8] 住房市场规范调整 - 上海出台住宅品质提升新规 调整阳台面积计算方式 回应市场对宽敞阳台需求 新规包含5大类17条举措 [9] 餐饮企业动态 - 西贝创始人贾国龙清空社交账号 仅保留一条视频显示西贝年营收达62亿元 [10] 新能源汽车行业 - 零跑汽车创始人朱江明被解除限高令 此前因公司业务纠纷被强制执行 [11] 食品安全监管 - 深圳市市场监管局抽检167批次月饼样品 全部合格 涉及104家经营主体 [12] AI初创公司融资 - AI图像生成公司Black Forest Labs正以40亿美元估值筹集2-3亿美元 此前曾在10亿美元估值下进行未公开融资 [12]
谷歌“香蕉”爆火启示:国产垂类AI的危机还是转机?
36氪· 2025-09-26 18:44
Nano Banana的市场影响与用户增长 - Nano Banana上线两周内全球生成超2亿张图片 亚太地区用户热情最高[1] - 英伟达CEO黄仁勋公开宣称是其忠实粉丝[1] - 为Gemini App带来超1000万新用户 并助其超越ChatGPT登顶苹果应用榜[1] 行业竞争格局变化 - OpenAI以11亿美元全股票交易收购产品实验平台Statsig以应对冲击[3] - 字节跳动快速推出Seedream4.0强化豆包和即梦产品[5] - 美图股价因通用模型威胁出现巨量波动[5] 技术突破与产品特性 - 通过自然语言对话实现精准图像编辑 无需结构化提示词[8][9] - 具备Gemini大模型的"原生世界知识" 支持风格一致性/多图融合/逐步编辑等功能[9] - 成本为0.039美元每张图片(按30美元/百万token 每张消耗1290 token计算)[11] - 核心技术依赖文字渲染/交错生成/速度哲学及世界知识引入[11] 垂类应用的竞争壁垒 - 摩根士丹利认为美图核心价值在于"最后一公里"解决方案[14] - 美图优势包括垂直领域数据积累/付费功能专注/多模型整合能力[14] - C端业务依赖美颜美体精细化理解 B端业务聚焦商拍场景know-how[14] - 与阿里达成18亿元战略合作 重点推进AI试衣和AI商品图功能[17] 行业发展趋势与战略方向 - 通用模型与垂类应用的竞争焦点在于场景赋能能力[24][25] - 垂类应用需聚焦"用户付费转化" 避免与通用模型直接技术对抗[24] - AI时代演化速度是移动互联网的三倍 需寻找差异化竞争机会[25] - 终极胜负手取决于能否将通用技术转化为用户愿付费的场景服务[25]
生数科技完成数亿元A轮融资:刚发布正面对标Nano Banana的Vidu Q1参考生图
IPO早知道· 2025-09-19 10:37
专注于多模态大模型及应用的自主研发。 据 IPO早知道消息, 生数科技 日前 完成数亿元人民币 A轮融资。本轮融资将用于模型研发和技术 创新,探索多模态大模型的智能上限和应用广度,同时将持续加强产品拓展、用户服务、产业合作和 全球商业布局。 本轮 融资由博华资本管理的梁溪数字产业基金领投,百度战投、北京市人工智能产业投资基金、启 明创投、达泰资本、卓源亚洲、 BV百度风投等老股东持续跟投,建发新兴投资等产业合作方加码入 场。 成立于 2023年3月 的 生数科技核心团队由来自清华大学、北京大学、帝国理工学院、卡耐基梅隆 大学等全球顶尖高校的科研人才组成,具备深厚的产业实践经验与出色的全球化技术落地能力。公司 专注于多模态大模型及应用的自主研发,其核心产品 Vidu具备AI图像生成、视频生成与音频生成等 多项能力,广泛应用于互联网、广告、电商、动漫、文旅、广电、教育、游戏及影视等行业领域。 2024年7月,Vidu在全球上线,全球首创的「参考生」图片/视频概念,并凭借在商业内容创作领域 中一致性保持方面的关键突破,在AI视频生成和AI生图领域快速覆盖全球200多个国家和地区的超 3000万用户和6000家开发者 ...
用光学生成图像,几乎0耗电,浙大校友一作研究登Nature
机器之心· 2025-09-15 12:00
技术原理 - 开发了一种受扩散模型启发的光学生成模型 利用光学原理而非传统计算机运算完成图像生成[1][2] - 系统通过数字编码器生成静态噪声模式 再通过空间光调制器将噪声刻印到激光束上 最终由解码装置转化为图像[2] - 采用浅层数字编码器将随机二维高斯噪声快速转换为二维相位结构 形成光学生成种子[11] - 包含即时生成和迭代生成两种模式:即时模式通过预计算光学种子实现按需生成 迭代模式采用递归去噪操作重建图像[13][17] 性能表现 - 光学系统生成图像效果与传统图像生成器相当 但能耗显著降低[3] - 在MNIST和Fashion-MNIST数据集上分别达到131.08和180.57的FID评分 证明生成图像符合目标分布[22] - 实现高分辨率图像生成:单色图像采用520纳米波长 彩色图像使用450/520/638纳米三波长通道[24] - 彩色图像生成共享同一解码器状态 虽存在轻微色差但仍保持优异质量[28] 应用前景 - 凭借超高速和超低能耗特性 可应用于VR/AR图像视频生成[6] - 适用于智能手机、AI眼镜等可穿戴电子设备的小型化终端[6] - 为数字AI模型提供可扩展且高能效的替代方案[3] 研究现状 - 目前仍处于物理实验阶段 距离实用化尚有距离[9] - 采用5.8亿参数数字编码器实现高分辨率生成 对比教师数字扩散模型需10.7亿参数和1000次迭代步骤[28]
Nano-Banana核心团队首次揭秘,全球最火的 AI 生图工具是怎么打造的
36氪· 2025-09-02 09:29
模型技术特点 - Nano banana实现图像生成和编辑功能的巨大质量飞跃 生成速度快 能理解模糊和口语化指令 并在多轮编辑中保持角色和场景一致性 效果更自然 [6] - 模型具备原生多模态能力 特别是交错式生成功能 可像人类一样分步骤处理复杂指令 联系上下文进行创作 而非一次性生成所有内容 [6][20][21] - 文本渲染能力提升成为评估图像生成效果的有效指标 当模型能生成有结构文字时 也能更好学习图像中的结构 [13][15][18] - 每个图像生成仅需13秒 支持快速迭代创作 用户可快速重新生成并修改提示词 [30][31] - 交错生成带来全新范式 可将复杂提示拆解为多个步骤 通过增量生成方式构建复杂图像 [32][34][35] 模型能力比较 - Imagen模型定位专业文本生成图像 在成本和响应速度上高效 适合需要快速生成高质量图像的场景 [36][37] - Nano banana作为多模态创意伙伴 适合多轮编辑和创意探索等复杂工作流 具备世界知识理解能力 [6][36][39] - 原生图像生成模型可插入图像作为参考 在理解提示词意图方面表现更出色 [40][42] 团队协作与改进 - 结合Gemini团队的世界知识与指令遵循能力 以及Imagen团队的图像美学追求 实现技术融合 [3][49] - 通过收集用户反馈构建基准数据集 持续跟踪常见失败模式并改进模型表现 [43][45] - Imagen团队贡献了自然美观的审美判断 显著改善图像生成质量 [49] 应用场景 - 支持像素级精确编辑 可只改动图像中特定元素而保持其他部分不变 [27][29] - 可实现角色多角度渲染和场景重构 将物体放入完全不同的新场景中进行真实融合 [46] - 适用于广告设计 室内装饰 角色设定等多种创意场景 [26][27][40] 未来发展方向 - 未来目标不仅是提升视觉质量 更追求模型智能性和事实准确性 [7][51][54] - 致力于打造能理解用户深层意图 甚至超越用户提示词创造更好结果的聪明模型 [7][51] - 重点改进数据保真能力 确保工作用图表和信息图既美观又准确 [54][57]
「香蕉革命」首揭秘,谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
36氪· 2025-08-29 15:53
产品核心功能 - 多图像融合生成全新画面,最多支持13张图片合并 [2] - 二维地图转化为三维景观,理解地理等高线知识 [19][25] - 从图像中提取物理结构,精准转化线稿和上色 [38][40] - 多轮交错生成技术,实现有记忆的连续创作 [53][57] - 支持逆向图像处理,包括黑白线框重新上色和破损照片修复 [37][44] 技术架构突破 - 集成Gemini世界知识引擎,具备地理建筑识别与标注能力 [6][10][12] - 采用原生与交错式生成技术,13秒内生成五张风格统一图像 [57][59] - Gemini团队负责逻辑推理与指令遵循,Imagen团队负责美学优化 [68][70] - 通过文字渲染训练提升图像宏观与微观结构理解力 [64][65][67] 应用场景创新 - 影视制作分镜生成,实现AI辅助拍电影 [10] - 建筑设计视角转换,支持工程绘图与三维视图生成 [26][29] - 虚拟试衣与动作复刻,达成摄影棚级效果 [28][33] - 室内设计与花园改造,生成多种风格方案 [59] - 机器人视角人物轮廓勾勒,实现终结者风格图像 [17] 市场反响与测试表现 - 在LMArena平台上线后迅速风靡社区 [46][48] - 盲测中Gemini 2.5 Flash Image成绩一骑绝尘 [48] - 网友创作涵盖超人COS、奥特曼整蛊等多样化内容 [2][42] - 内部测试处理芝加哥街景等现实场景精度获验证 [50] 开发方法论 - 基于推特用户反馈建立"差评榜"优化模型 [62] - 通过多模态上下文理解实现创意指令执行 [53][55] - 团队目标开发具备事实准确性的智能办公辅助功能 [74] - 追求超越用户指令的智能涌现与创造性输出 [76][78]
谷歌旗下最强图像模型来了,P图师要消失了?
第一财经· 2025-08-27 19:20
产品发布与市场表现 - 谷歌发布最新图像生成和编辑模型Gemini 2 5 Flash Image 并登顶多个主流图像排行榜 [1] - 模型在大模型竞技场LMArena的文生图与图像编辑两个场景均排名全球第一 其中图像编辑榜单得分1362分 领先第二名171分 [5] - 在文生图榜单中模型以1147分排名第一 超过第二名Imagen-4 0-ultra-generate的1135分 [6] - 模型在图像编辑榜单排名第一 超过OpenAI的GPT-4o和阿里巴巴的Qwen-Image-Edit 在文生图榜单排名第三 略逊于字节Seedream 3 0和GPT-4o [6] 技术能力与性能特点 - 模型在角色一致性 提示词跟随 物理逻辑真实性和画面审美方面表现优秀 [4] - 核心亮点是图像编辑能力 支持多图像混合 自然语言针对性修改 并利用Gemini世界知识生成和编辑图像 [13] - 在渲染文本方面表现出色 能生成包含清晰易读且位置合理文本的图片 适合徽标 图表和海报制作 [18] - 模型支持用自然语言进行针对性变换和精准局部编辑 如模糊背景 去除污渍 移除人物 改变姿势 添加颜色等 [32] - 在物理知识方面表现较为出色 能够预判气球爆炸后的物理特征 [35] 商业化应用与成本优势 - 单张图像生成成本不到3毛钱 定价为30美元/100万个输出token 每张图像1290个输出token 价格约0 039美元 远低于OpenAI的0 19美元/张 [4][17] - 模型已具备替代部分人工修图的能力 可帮助设计师一键完成图像修改与创意生成 适用于电商产品图制作 [4] - 在电商场景中 海外用户尝试用模型生成商品展示图 如将涂抹区域替换为香奈儿手袋 效果逼真几乎看不出合成痕迹 [34][37] - 模型能适应产品模型和商业摄影 为电子商务 广告或品牌宣传制作清晰专业的商品照片 [18] 局限性 - 对中国用户的一大限制在于不支持中文输入 即使用英文提示 若生成内容涉及中文效果会显著下降 [4] - 在涉及中文场景的画面时会出现错误 如无法正确生成中文字体 [28] - 在复杂构图指令方面仍存在缺陷 如偶尔会出现多肢体等结构错误 [4][32]
00后看数博(二)| 社交媒体浪潮里的“科技印记”
搜狐财经· 2025-08-13 20:23
2025年数博会概况 - 2025年中国国际大数据产业博览会将于8月28日至30日在贵阳举行 主题为"数聚产业动能 智启发展新篇" [1] AI图像技术 - 腾讯混元图像2.0模型具备实时性及超写实画质 解决AI绘图效率与质感问题 [7] - 腾讯云"大模型图像创作引擎"提供图像风格化 AI写真 线稿生图等企业级服务 例如通过线稿设计图快速生成实物设计图缩短生产周期 [7] - AI图像生成技术可通过用户上传照片生成多元风格头像 满足00后群体美学需求 [5] AI数字人应用 - AI合成主播依托语义理解 唇形预测 图像处理技术实现全方位仿真还原 已应用于《贵阳新闻联播》等场景 [13] - 数字人生成技术从数博会展示延伸至抖音短视频 新闻直播 直播带货等领域 推动虚拟形象与内容创作融合 [15] AI社交辅助功能 - 网易云信AI助聊基于真实社交场景训练 可生成精准适配的开场白解决方案 用户可通过投喂个人标签定制内容 [23] - AI助聊功能实时监测聊天节奏 在对话平淡时主动建议生活化话题打破僵局 例如分享趣事避免尬聊 [25] - 该技术瞄准00后社交焦虑 将兴趣标签转化为个性化开场白 成为社交应用的底层支持功能 [19] 企业参展动态 - 网易数智在2024年数博会携五大业务板块参展 包括网易易盾 网易云信 网易云商等一站式企业服务 [21] - 腾讯云在2024年数博会展示三款PaaS产品 涵盖知识服务与音视频创作工具链 [7]
10 人 1600 万美金 ARR,华人团队 OpenArt 用了这 11 个 AI 技术栈
投资实习所· 2025-06-29 19:53
定位策略 - 早期面临定位挑战,AI图像生成市场竞争激烈,Midjourney以艺术化输出见长,DALL-E以技术实力著称 [1] - 核心功能与竞品相似,差异化在于用户体验和使用场景的精准把握 [1] - 确定三大核心用户群体:内容创作者、奇幻爱好者、中小企业 [2] 增长策略 - 传统SEO增长趋缓,转向程序化SEO(pSEO)策略 [2] - 针对长尾关键词创建特定主题的AI生成器页面,结构包括H1标题、示例按钮、示例画廊、使用指南 [3] - 与daydream合作,8个月内创建600多个pSEO页面,月访问量达100万次,跻身"AI艺术生成器"搜索前10 [4] 战略转型 - 从AI图像生成转向视觉故事讲述,定位为"品类定义公司" [5] - 赞助MIT AI电影黑客马拉松,验证方向可行性,团队两天创作出接近皮克斯水准的短片 [5] - 采用"Uber模式",简化复杂流程为输入→输出体验,区别于Sora/Pika/Runway的"手动挡工具" [6][7] 技术突破 - 解决角色一致性问题,通过多模态集成组合多个开源工具 [8] - 技术栈包括Stability AI、Flux、ElevenLabs、Kling、Hailuo等 [10] 产品开发与运营 - 编程工具使用Cursor或Windsurf,支持全局上下文搜索,提升效率 [13] - 测试工具Checkly和Stably减少手动QA工作量,提升稳定性 [14][15] - 客户支持工具Serif自动生成70%以上回复,减少人工干预 [16] 用户研究与内容管理 - 用户反馈工具Claude实时分析需求与情绪 [17] - 用户研究工具Dovetail快速梳理访谈内容,提取关键需求 [18] - 内容审核工具Cinder每日处理数百万张图片,保障内容安全 [19] 市场营销 - 程序化SEO工作流每月产出数百个高质量页面,带来数百万自然流量 [20] - SEM广告管理仅需1人兼职,OpenArt生成素材,DeepSeek撰写文案 [21] - 网红挖掘工具Beacons AI匹配契合度90%+的网红,GMass批量触达 [22][23] - 网红管理工具Serif和MightyScout优化沟通与追踪 [24] - YouTube分析工具VidIQ助力订阅量从0增至7万 [25] 未来愿景 - 长期目标是成为AI原生社交媒体平台,探索互动式内容格式 [9] - 定位为故事可视化解决方案,保存用户角色、故事和模板,增强用户粘性 [9]
迪士尼(DIS.N)、宽带网络供应商康斯卡特起诉AI图像生成器Midjourney。
快讯· 2025-06-11 22:50
迪士尼与康斯卡特起诉Midjourney - 迪士尼联合宽带网络供应商康斯卡特对AI图像生成器Midjourney提起诉讼 [1] - 诉讼涉及AI生成内容可能侵犯知识产权 [1] - 案件凸显传统媒体与新兴AI技术之间的法律冲突 [1]