Workflow
OmniGen2
icon
搜索文档
腾讯研究院AI速递 20250704
腾讯研究院· 2025-07-03 23:31
一、AI游戏引擎Mirage - 谷歌、英伟达等八大机构联合发布全球首款AI原生UGC游戏引擎Mirage,支持通过自然语言指令实时生成游戏内容 [1] - Mirage突破传统游戏局限,支持16FPS流畅体验和5-10分钟连续游玩,画面质量直逼GTA和极限竞速 [1] - 核心技术基于Transformer和扩散模型打造的"世界模型",通过大量游戏数据训练实现动态交互与实时控制 [1] 二、OmniGen2图像生成模型 - 智源研究院发布OmniGen2统一图像生成模型,采用分离式架构与双编码器策略,支持文生图、图像编辑和主题驱动图像生成 [2] - 模型创新性引入图像生成反思机制,显著提升上下文理解能力、指令遵循能力和图像生成质量 [2] - OmniGen2已开放科研体验版,模型权重、训练代码及训练数据全面开源,GitHub星标一周内突破2000 [2] 三、Gemini for Education - 谷歌将Gemini为首的AI工具套件免费提供给全球教育工作者,深度集成到Google Classroom和ChromeOS中 [3] - Gemini in Classroom包含30多个AI工具,可自动生成教案、课堂活动和测验题,节省教师备课时间 [3] - 推出NotebookLM和Gems等教师主导的AI工具,以及全新数据分析功能,实现个性化学习体验和数据驱动教学 [3] 四、星流Agent创作平台 - 星流Agent是一个多功能AI创作平台,可通过自然语言指令一键完成批量表情包、品牌VI设计、视频生成、3D建模等多种创意任务 [4] - 核心功能包括批量高质量内容生成、Kontext智能图像编辑功能和全媒体工作流支持,实现"Vibe designing"设计新范式 [5] - 平台提供免费体验额度和积分,支持多样化创意输出,将设计师角色从"掌握技术"转向"理解需求与表达创意" [5] 五、腾讯元宝新功能 - 腾讯元宝新增一句话搜索功能,能智能匹配图片和视频号内容,支持全部模型使用 [6] - 回答结果可智能引用视频号相关教程,实现文字与视频配合讲解的形式,并支持一键跳转视频号观看 [6] - 用户可在获取初始回答后继续追问,此前5月份元宝已打通微信读书和起点读书,实现搜索直接跳转阅读功能 [6] 六、Blender Fusion框架 - 谢赛宁团队发布Blender Fusion框架,实现通过方向键或滑块精准控制画面中物体的移动、旋转和缩放,无需依赖文本提示词 [7] - 技术核心是三步流程:先用SAM模型分离物体和场景,再用Blender进行3D编辑,最后用扩散模型生成高质量合成图像 [7] - 系统采用双流扩散合成器接收原始场景和编辑后渲染图像,并通过源遮挡和模拟物体抖动等技巧提高泛化能力和真实感 [7] 七、Grok 4新模型 - xAI即将发布新模型Grok 4系列,包括旗舰版Grok 4和专用编程模型Grok 4 Code,预计于美国国庆日后推出 [8] - Grok 4特性包括13万tokens上下文窗口、支持函数调用、结构化输出和推理能力,但仅支持文本到文本模态 [8] - 马斯克表示希望用Grok 4重写人类知识库,补充缺失信息并删除错误,而Grok 4 Code将作为专业编程助手 [8] 八、DeepSeek-R2神秘模型 - 大模型竞技场秘密上线代号为"steve"的神秘模型,通过对话透露来自DeepSeek,引发网友猜测其为DeepSeek-R2或其他新版本 [10] - "steve"模型知识截止时间为2023年10月,通过部分智力测试,但表现不够惊艳 [10] - 此前The Information报道称DeepSeek-R2再度延期,原因是内部对模型表现不满意,同时可能受英伟达H20芯片缺乏影响 [10] 九、EDA行业动态 - 西门子、新思、楷登电子宣布收到美国商务部BIS通知,解除对中国大陆市场的临时禁令,恢复中国客户对其软件和技术的全面访问 [11] - 此前5月下旬BIS对EDA三巨头突然下发出口限制通知且未设缓冲期,导致三巨头股价暴跌,新思科技曾预测中国区收入将同比下降28% [11] - 国产EDA行业面临"成熟度与市占率"困境,中国已有三家EDA公司上市,但芯片设计公司为保证流片成功率仍倾向使用成熟度高的国外产品 [11] 十、AI就业影响 - 世界经济论坛《2025年全球未来就业报告》显示AI与机器学习专家成为增长最快职业,岗位数量预计增长86% [12] - AI将重塑全球劳动力市场,大数据、网络安全和技术素养成为增长最快的三大技能,同时数据录入员和行政助理等传统岗位面临需求下降 [12] - 全球约39%员工技能将在2025-2030年间发生显著变化,但仅50%员工接受过系统培训,63%雇主将技能差距视为业务转型最大障碍 [12]
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 12:14
核心观点 - 智源研究院发布统一图像生成模型OmniGen2,支持文本生成图像、图像编辑和主题驱动图像生成等多种任务,仅需自然语言指令即可实现,无需额外提示或插件[1][2] - OmniGen2在保持简洁架构的基础上,显著提升上下文理解能力、指令遵循能力和图像生成质量,同时支持图像和文字生成,打通多模态技术生态[2] - 模型权重、训练代码及训练数据全面开源,推动统一图像生成模型从构想向现实转变[2][30] 技术架构 - 采用分离式架构解耦文本和图像,结合ViT和VAE双编码器策略,独立作用于MLLM和Diffusion Transformer中,提高图像一致性同时保留文字生成能力[3][4] - 开发从视频和图像数据中生成图像编辑和上下文参考数据的构造流程,解决开源数据集质量缺陷问题[6] - 引入反思能力,构建由文本和图像交错序列组成的反思数据,分析生成图像的缺陷并提出解决方案[8][9] - 未来计划通过强化学习进一步训练模型的反思能力[11] 功能特性 - 支持基于自然语言指令的图片编辑,包括物体增删、颜色调整、人物表情修改、背景替换等[21][22] - 可从输入图像中提取指定元素并生成新图像,更擅长保持物体相似度而非人脸相似度[24] - 能够生成任意比例的图片[26] 性能优化与基准 - 依托FlagScale框架优化推理部署,通过重构推理链路和TeaCache缓存加速策略,实现32%的推理效率提升[29] - 引入OmniContext基准,包含8个任务类别,专门评估个人、物体和场景的一致性,采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法构建[28] 应用与体验 - 科研体验版已开放,支持图像编辑、上下文参照的图像生成等功能,用户可通过提示词解锁丰富能力[19][20] - 提供模型、论文及体验版链接,方便开发者访问和使用[31]