Workflow
FLUX.1 Kontext
icon
搜索文档
人均1亿美元年薪挖人;机器狗售价1299美元,会踢球会聊天;小米1999元AI眼镜,深夜放大招…… |混沌 AI 一周焦点
混沌学园· 2025-07-04 18:12
本周核心趋势 - Meta以人均1亿美元年薪+无限制算力挖走8名OpenAI核心研究员,其中7人为华人顶尖人才,计划组建50人"超级智能团队"对抗OpenAI [2][3] - 开源模型加速普及,小公司机会增多,Meta通过吸纳OpenAI人才推动开源模型发展 [3][6] - AI智能体40%项目因成本失控与价值模糊面临失败,能真正解决实际问题的才能存活 [3][8][9] - AI深入改造传统行业,美团推出餐饮AI决策助手"袋鼠参谋",小米发布AI眼镜,推动行业落地 [3][5][15] - 小模型性能突出,智谱开源9B模型获23项SOTA,快手开源8B视频理解模型,推动高效模型竞争 [12] 巨头人才争夺与开源发展 - Meta挖角OpenAI暴露AI行业顶尖人才垄断化趋势,Llama 4模型失利加速人才掠夺 [4] - OpenAI面临GPT-5研发窗口期被压缩危机,xAI等新势力加入加剧全球AI人才流动 [4] - 开源与闭源阵营对抗,Meta通过吸纳人才推动Llama系列开源模型发展 [6] - 算力与数据垄断焦虑,顶尖人才依赖巨头资源加速模型迭代 [6] AI产品与商业化落地 - 美团推出"袋鼠参谋",依托400万门店数据为商家提供智能经营解决方案,覆盖赛道选择、开店选址等四大场景 [5] - Hengbot推出全球首款集成OpenAI的机器狗Sirius,售价1299美元,瞄准消费级市场 [7] - 出门问问发布AI硬件TicNote,内置Shadow AI实现自动化记录与分析,售价999元起 [13][14] - 小米发布AI眼镜,起售价1999元,续航8.6小时,融合多模态交互功能 [15] 模型能力与开源突破 - Black Forest Labs开源120亿参数图像编辑模型FLUX.1 Kontext,挑战闭源巨头 [10][11] - 智谱开源9B视觉语言模型GLM-4.1V-9B-Thinking,获23项SOTA,浦东创投10亿元投资 [12] - 快手开源8B语言模型Keye-VL,视频理解得分67.4,支持复杂任务 [12] AI Agent与行业应用 - Gartner预测40% Agentic AI项目因成本与价值问题将终止,但长期看好2028年15%日常工作由AI完成 [8][9] - Siro获5000万美元B轮融资,专注AI销售教练方案,将线下销售"暗数据"转化为可复用资产 [16][18] - 真正成功的AI Agent需解决实际产业问题,如美团餐饮AI与Siro销售AI [17][19]
早报|苹果或推出智能戒指/马斯克脑机计划曝光明年治愈失明/多地机场:充电宝新规不影响携带锂电池
搜狐财经· 2025-06-30 09:21
苹果智能穿戴新品研发 - 苹果正在开发新款Apple Watch SE和Apple Watch Ultra 3,后者预计今年发布,具备不依赖iPhone的卫星连接功能 [4] - AirPods将跟随iOS 26获得实时翻译功能 [4] - 苹果可能推出智能戒指产品,与Apple Watch和Vision Pro联动,瞄准健康监测和时尚领域 [5][6] - 智能戒指相比智能手表更适合睡眠监测,续航更长且减少通知干扰 [6] - 苹果正在开发有线连接版Vision Pro,可与Mac设备联动,减少传输延迟 [6] 特斯拉自动驾驶技术 - 特斯拉完成首例全程自动驾驶交付,最高时速达115公里,无驾驶员和远程操控 [10] - 特斯拉上线无人出租车服务Robotaxi,采用研发十年的自动驾驶技术,具有可扩展性 [10] - 测试车队在三天内出现多起安全隐患,引发对大规模部署安全性的质疑 [10][11] Meta与OpenAI人才竞争 - Meta挖走OpenAI四名华人AI研究人员,涉及模型开发和多模态方向核心工作 [12] - OpenAI首席研究官Mark Chen表示正调整薪资结构并探索奖励人才的新方式 [13][14] - OpenAI员工面临每周80小时超负荷工作,公司计划集体放假 [14] Neuralink脑机接口进展 - Neuralink已有七名志愿者完成脑机接口植入,可通过脑信号控制游戏和机械臂 [15] - 公司公布未来三年路线图,计划2026年实现低分辨率视觉恢复,2028年全面接入大脑任意区域 [15] - 第二代手术机器人将电极线植入速度提升11倍至每根1.5秒 [15] 小米汽车刹车片事件 - 小米YU7 Max在赛道测试中刹车片起火,公司回应称因高温导致有机物材料燃烧,制动性能未失效 [17] - 小米强调YU7 Max定位城市豪华高性能SUV,不建议未经专业升级的车辆进行赛道尝试 [17] 高通骁龙8 Elite Gen 2代工 - 高通骁龙8 Elite Gen 2部分将由三星2nm制程代工,计划良品率提升至60%以上 [29][30] - 三星代工的版本可能由Galaxy S26系列搭载 [30] 华为三折叠手机专利 - 华为新款三折叠手机专利曝光,采用两面内折叠设计,与Mate XT方案不同 [28] - 新设计可能用于Pura X迭代版本,预计明年发布 [28] 充电宝新规实施 - 民航局新规禁止携带无3C标识或标识不清的充电宝,但相机锂电池要求不变 [33][35] - 国外生产的充电宝按原标准执行,无需3C认证 [35] 泡泡玛特供应链压力 - 泡泡玛特因订单激增导致发货延迟,部分订单预计7天左右发出 [37][38] - 公司正紧急扩充产能,但市场需求远超供应链反应速度 [38] 乐高乐园设施故障 - 上海乐高乐园"乐高大飞车"因故障停运,十余名游客被困半空40分钟 [39] - 乐园称设施符合安全标准,当天下午已恢复运营 [39] 电影行业动态 - 马丽加入《流浪地球3》,影片计划2027年春节档上映 [40][42] - 诺兰新片《奥德赛》首曝海报,改编自荷马史诗,采用全新IMAX技术 [46]
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 08:38
模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,可在消费级芯片上运行[1] - 模型仅12B参数,推理速度快,性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能:移除对象(如小狗)、添加元素(如胡须、文字)、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像,支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像,视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型,采用双流块和单流块混合架构,在图像自动编码器潜在空间中训练[23] - 通过标记序列构建(冻结FLUX编码器生成潜在标记)和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏(LADD)技术,减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中(1026个图像-提示对),优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理,Replicate平台单次成本0.0067USD(1USD可运行149次)[41] - 推理速度较前代提升4-5倍,但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体,适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP(结合LoRA技术)[17] - 官方开放试玩API,支持直接上传图片体验[19][42]
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
AI前线· 2025-05-30 13:38
公司动态 - Black Forest Labs(BFL)发布全新图像生成模型FLUX1 Kontext,支持文本和图像输入实现基于上下文的生成和编辑[1] - 该模型通过流匹配架构统一图像生成和编辑功能,在1MP分辨率下保持3~5秒交互速度,实现跨多轮编辑的顶尖字符一致性[3] - 公司推出BFL Playground供用户测试,并发布两个商业版本FLUX1 Kontext [pro]和[max],已在KreaAI等平台上线[3] 技术特性 - FLUX1 Kontext支持基于参考图像的上下文生成,避免从零开始创作[4] - 四大核心能力包括:角色一致性、局部编辑、风格迁移和低延迟输出(具体数值未披露)[7] - 采用流模型架构,与Diffusion模型技术路线不同,实现更灵活的噪声数据路径学习[19] - 在文生图基准测试中,模型在美观度、提示词遵循性等维度达到顶尖水平[20] 公司背景 - BFL成立于2023年8月,由Stable Diffusion核心开发者Robin Rombach创立,团队包含12名前Stability AI员工[6][14] - 已完成3100万美元种子轮融资,投资方包括General Catalyst和Andreessen Horowitz[6][15] - 目前团队规模30人,正在德国和美国招聘6个远程技术岗位[14] 产品矩阵 - FLUX1 Kontext [pro]定位快速迭代编辑,速度较先进模型快一个数量级[17] - [max]版本在保持速度的同时提升提示词遵循性和编辑一致性[17] - 即将推出12B参数的开放权重版本FLUX1 Kontext [dev][18] 市场反馈 - 用户实测显示模型可在10秒内完成头像生成/编辑,接近实拍效果[23] - 局部编辑能力获认可,能实现像素级修改(如添加绿龙案例)[28] - 此前发布的Flux 11 Pro模型已通过API集成至第三方应用[22] 行业竞争 - 需直面MidJourney、Adobe Firefly等成熟产品的竞争,后者已具备参考图编辑功能[17] - 技术路线差异化为竞争优势,流模型架构区别于主流Diffusion方案[19]
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
量子位· 2025-05-30 13:01
AI生图技术突破 - FLUX1 Kontext采用流匹配架构(Flow Matching)实现文本和图像输入的同步处理,突破传统文本编码器与扩散模型分离的技术路线[2] - 该模型由Black Forest Labs开发,具备真正的上下文生成和编辑能力,在奥特曼照片编辑和猩猩打羽毛球生成案例中展现细节丰富度[3][4][5] - 提供专业版(pro)和最高配版(max)两种型号,后者在提示遵循、文字排版和一致性方面有提升[7] 核心功能特性 - 角色一致性:支持跨场景保留人物特征,需通过详细描述保持面部、服饰等元素[11][28][29] - 局部编辑:可精准修改特定区域而不影响其他部分,复杂编辑需分步骤描述[11][15][18] - 风格迁移:需具体到艺术流派或艺术家特征,模糊描述会导致效果偏差[19][20] - 文本编辑:支持增删改文本,但需注意字体易读性和文本长度匹配[22][24][25] 技术性能比较 - 第三方测试显示FLUX1 Kontext在图像质量上优于OpenAI的GPT-4o,且成本更低、无偏色问题[12] - 当前文生图领域排名前三为GPT-4o、Seedream 30和Recraft V3,FLUX1前代产品已落后[34][35] 使用优化建议 - 编辑场景时需明确摄像机角度等构图要素,动词选择需具体化(如"换衣服"优于"改造")[32][37] - 复杂修改应分解为小步骤,通过"保持原始构图"等短语保护关键元素[37] - 颜色和视觉元素需精准命名,避免模糊表述,文本编辑需使用引号标注[37]