自回归模型

搜索文档
12秒生成1万token!谷歌推出文本「扩散模型」Gemini Diffusion,研究员:演示都得降速看
量子位· 2025-05-21 18:39
技术突破 - Google DeepMind推出Gemini Diffusion,将图像生成常用的"扩散技术"引入语言模型,通过逐步优化噪声来学习生成输出,不同于传统自回归模型[4][9] - Gemini Diffusion生成速度达2000token/秒,12秒可生成1万tokens,比Gemini 2.0 Flash-Lite更快[1][7][11] - 演示过程中需要放慢视频速度才能看清生成过程,显示其极快的生成速度[3] 性能优势 - 基准测试显示Gemini Diffusion表现可与更大的Gemini 2.0 Flash-Lite相媲美,在多项测试中表现接近或更好[7][8] - Code测试:30.9% vs 28.5%[8] - BigCodeBench:56.8% vs 56.0%[8] - HumanEval:76.0% vs 75.8%[8] - 能够一次生成整个标记块,比自回归模型做出更连贯的响应[14] - 在迭代细化中能够纠正生成过程中的错误,获得更一致的输出[10][15] 技术特点 - 采用并行或迭代式去噪实现数据生成,可以进行非因果推理[16][17] - 解决了自回归模型难以处理的数学问题,如"(√(81) * (2/3))^2 + (15 - 3) / (2^2))"等于多少的问题[17] - 在代码生成任务中表现良好,包括token化、预填充、安全过滤器等开销情况下仍保持高速生成[11] 行业影响 - 表明自回归不是LLM的唯一路径,人大高瓴人工智能研究院、蚂蚁也提出了类似研究LLaDA[19] - 语言模型逐步引入扩散技术,未来可能出现更多混合模型[20]
阶跃星辰开源图像编辑模型Step1X-Edit;阿里巴巴AI旗舰应用夸克发布全新“AI相机”丨AIGC日报
创业邦· 2025-04-28 07:48
阶跃星辰开源图像编辑模型Step1X-Edit - 阶跃星辰宣布开源图像编辑大模型Step1X-Edit,性能达到开源SOTA水平 [2] - 模型总参数量为19B(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力 [2] - 支持11类高频图像编辑任务类型,包括文字替换、风格迁移、材质变换、人物修图等 [2] 阿里巴巴AI旗舰应用夸克发布全新"AI相机" - 阿里巴巴AI旗舰应用夸克AI超级框发布全新AI相机,新增"拍照问夸克"功能 [2] - 基于视觉理解和推理模型能力,AI相机能深入理解用户意图,实现视觉搜索、多轮问答、图像处理与创作 [2] Meta推出Token-Shuffle技术突破自回归模型瓶颈 - Meta AI创新推出Token-Shuffle,解决自回归模型在生成高分辨率图像方面的扩展难题 [3] - 自回归模型在语言生成方面表现优异,但在高分辨率图像生成中需要数千个token,计算成本高 [3] - 该技术使自回归模型能够生成2048×2048分辨率图像,突破原有局限 [3] Adobe发布Firefly Image Model 4模型 - Adobe推出Firefly Image Model 4和Firefly Image Model 4 Ultra两款文本生成图像AI模型 [4] - Firefly Image Model 4被Adobe称为"迄今最快、最可控、最逼真的图像模型",最高支持生成2K分辨率图像 [4] - 新模型在风格、尺寸和相机角度控制方面更加精准 [4] 其他AIGC行业动态 - 谷歌宣布在医疗保健领域推出人工智能计划 [4] - Stability AI发布3D视频生成工具SV3D,可根据单一输入图像创建和转换多视图3D网格 [4]
“计算机视觉被GPT-4o终结了”(狗头)
量子位· 2025-03-29 15:46
GPT-4o多模态图像生成技术突破 - GPT-4o原生多模态图像生成能力被开发出多种新玩法,包括将表情包转化为语义分割图和深度图[2][3][4] - 该技术对传统AI画图工具、设计师和计算机视觉研究领域产生颠覆性影响[6] - 在自动驾驶领域展现潜力,能识别特斯拉自动驾驶系统无法识别的伪装"隐形墙"[8] 技术实现路径争议 - 应用研究主管提出自动驾驶领域只需训练强大基础模型后微调即可实现[10] - 反对观点认为Stable Diffusion+ControlNet已具备同等能力[11] - 技术突破关键在于通过扩大基础模型规模实现意想不到的效果[12] 模型架构技术细节 - GPT-4o图像生成采用原生嵌入ChatGPT的自回归模型,与DALL·E的扩散模型不同[13][15] - 推测采用多尺度自回归组合技术,首先生成粗略图像再逐步填充细节[17] - 存在争议观点认为解码阶段可能仍使用扩散模型,参考Meta 24年8月论文提出的多模态模型同时预测token和扩散图像的方法[20][24] 行业活动信息 - 中国AIGC产业峰会将于4月16日在北京举行,汇聚百度、无问芯穹等AI领域企业[26]