Workflow
OmniGen
icon
搜索文档
腾讯研究院AI速递 20250704
腾讯研究院· 2025-07-03 23:31
一、AI游戏引擎Mirage - 谷歌、英伟达等八大机构联合发布全球首款AI原生UGC游戏引擎Mirage,支持通过自然语言指令实时生成游戏内容 [1] - Mirage突破传统游戏局限,支持16FPS流畅体验和5-10分钟连续游玩,画面质量直逼GTA和极限竞速 [1] - 核心技术基于Transformer和扩散模型打造的"世界模型",通过大量游戏数据训练实现动态交互与实时控制 [1] 二、OmniGen2图像生成模型 - 智源研究院发布OmniGen2统一图像生成模型,采用分离式架构与双编码器策略,支持文生图、图像编辑和主题驱动图像生成 [2] - 模型创新性引入图像生成反思机制,显著提升上下文理解能力、指令遵循能力和图像生成质量 [2] - OmniGen2已开放科研体验版,模型权重、训练代码及训练数据全面开源,GitHub星标一周内突破2000 [2] 三、Gemini for Education - 谷歌将Gemini为首的AI工具套件免费提供给全球教育工作者,深度集成到Google Classroom和ChromeOS中 [3] - Gemini in Classroom包含30多个AI工具,可自动生成教案、课堂活动和测验题,节省教师备课时间 [3] - 推出NotebookLM和Gems等教师主导的AI工具,以及全新数据分析功能,实现个性化学习体验和数据驱动教学 [3] 四、星流Agent创作平台 - 星流Agent是一个多功能AI创作平台,可通过自然语言指令一键完成批量表情包、品牌VI设计、视频生成、3D建模等多种创意任务 [4] - 核心功能包括批量高质量内容生成、Kontext智能图像编辑功能和全媒体工作流支持,实现"Vibe designing"设计新范式 [5] - 平台提供免费体验额度和积分,支持多样化创意输出,将设计师角色从"掌握技术"转向"理解需求与表达创意" [5] 五、腾讯元宝新功能 - 腾讯元宝新增一句话搜索功能,能智能匹配图片和视频号内容,支持全部模型使用 [6] - 回答结果可智能引用视频号相关教程,实现文字与视频配合讲解的形式,并支持一键跳转视频号观看 [6] - 用户可在获取初始回答后继续追问,此前5月份元宝已打通微信读书和起点读书,实现搜索直接跳转阅读功能 [6] 六、Blender Fusion框架 - 谢赛宁团队发布Blender Fusion框架,实现通过方向键或滑块精准控制画面中物体的移动、旋转和缩放,无需依赖文本提示词 [7] - 技术核心是三步流程:先用SAM模型分离物体和场景,再用Blender进行3D编辑,最后用扩散模型生成高质量合成图像 [7] - 系统采用双流扩散合成器接收原始场景和编辑后渲染图像,并通过源遮挡和模拟物体抖动等技巧提高泛化能力和真实感 [7] 七、Grok 4新模型 - xAI即将发布新模型Grok 4系列,包括旗舰版Grok 4和专用编程模型Grok 4 Code,预计于美国国庆日后推出 [8] - Grok 4特性包括13万tokens上下文窗口、支持函数调用、结构化输出和推理能力,但仅支持文本到文本模态 [8] - 马斯克表示希望用Grok 4重写人类知识库,补充缺失信息并删除错误,而Grok 4 Code将作为专业编程助手 [8] 八、DeepSeek-R2神秘模型 - 大模型竞技场秘密上线代号为"steve"的神秘模型,通过对话透露来自DeepSeek,引发网友猜测其为DeepSeek-R2或其他新版本 [10] - "steve"模型知识截止时间为2023年10月,通过部分智力测试,但表现不够惊艳 [10] - 此前The Information报道称DeepSeek-R2再度延期,原因是内部对模型表现不满意,同时可能受英伟达H20芯片缺乏影响 [10] 九、EDA行业动态 - 西门子、新思、楷登电子宣布收到美国商务部BIS通知,解除对中国大陆市场的临时禁令,恢复中国客户对其软件和技术的全面访问 [11] - 此前5月下旬BIS对EDA三巨头突然下发出口限制通知且未设缓冲期,导致三巨头股价暴跌,新思科技曾预测中国区收入将同比下降28% [11] - 国产EDA行业面临"成熟度与市占率"困境,中国已有三家EDA公司上市,但芯片设计公司为保证流片成功率仍倾向使用成熟度高的国外产品 [11] 十、AI就业影响 - 世界经济论坛《2025年全球未来就业报告》显示AI与机器学习专家成为增长最快职业,岗位数量预计增长86% [12] - AI将重塑全球劳动力市场,大数据、网络安全和技术素养成为增长最快的三大技能,同时数据录入员和行政助理等传统岗位面临需求下降 [12] - 全球约39%员工技能将在2025-2030年间发生显著变化,但仅50%员工接受过系统培训,63%雇主将技能差距视为业务转型最大障碍 [12]
智源新出OmniGen2开源神器,一键解锁AI绘图「哆啦 A 梦」任意门
机器之心· 2025-07-03 12:14
核心观点 - 智源研究院发布统一图像生成模型OmniGen2,支持文本生成图像、图像编辑和主题驱动图像生成等多种任务,仅需自然语言指令即可实现,无需额外提示或插件[1][2] - OmniGen2在保持简洁架构的基础上,显著提升上下文理解能力、指令遵循能力和图像生成质量,同时支持图像和文字生成,打通多模态技术生态[2] - 模型权重、训练代码及训练数据全面开源,推动统一图像生成模型从构想向现实转变[2][30] 技术架构 - 采用分离式架构解耦文本和图像,结合ViT和VAE双编码器策略,独立作用于MLLM和Diffusion Transformer中,提高图像一致性同时保留文字生成能力[3][4] - 开发从视频和图像数据中生成图像编辑和上下文参考数据的构造流程,解决开源数据集质量缺陷问题[6] - 引入反思能力,构建由文本和图像交错序列组成的反思数据,分析生成图像的缺陷并提出解决方案[8][9] - 未来计划通过强化学习进一步训练模型的反思能力[11] 功能特性 - 支持基于自然语言指令的图片编辑,包括物体增删、颜色调整、人物表情修改、背景替换等[21][22] - 可从输入图像中提取指定元素并生成新图像,更擅长保持物体相似度而非人脸相似度[24] - 能够生成任意比例的图片[26] 性能优化与基准 - 依托FlagScale框架优化推理部署,通过重构推理链路和TeaCache缓存加速策略,实现32%的推理效率提升[29] - 引入OmniContext基准,包含8个任务类别,专门评估个人、物体和场景的一致性,采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法构建[28] 应用与体验 - 科研体验版已开放,支持图像编辑、上下文参照的图像生成等功能,用户可通过提示词解锁丰富能力[19][20] - 提供模型、论文及体验版链接,方便开发者访问和使用[31]
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-20 11:28
核心观点 - 当前主流AI图像生成模型在复杂逻辑推理和多模态信息融合方面存在局限,难以理解隐含语义(如"(3+6)条命=猫")[3][6] - 清华大学等机构联合开发的MindOmni模型通过三阶段训练框架显著提升AI的推理生成能力,支持多模态输入下的逻辑链生成[7][9][32] - MindOmni在MMMU等视觉理解基准测试中比Janus-Pro提升10.6%,在GenEval生成任务中取得83%总体分数[38][40] 模型架构 - 基于Qwen2.5-VL构建视觉语言模型,通过ViT提取图像特征并与文本标记序列对齐[14] - 采用OmniGen扩散解码器实现高质量图像生成,通过Transformer层连接器融合视觉与文本特征[15][16] - 支持视觉理解、多模态推理生成和视觉编辑的统一任务处理框架[18] 训练策略 - **基础预训练阶段**:利用图像-文本对训练连接器,通过扩散损失和KL散度优化语义对齐[20][21] - **监督微调阶段**:构建粗细粒度指令数据,结合高性能生成图像提升推理文本生成能力[23][24][25] - **RGPO强化学习**:引入格式奖励和一致性奖励机制,通过KL散度蒸馏避免策略偏移[26][29][30] 性能表现 - **视觉理解**:MMBench测试得分83.2,超越MetaMorph的75.2;RealworldQA得分68.1[37][38][42] - **图像生成**:GenEval基准单物体生成准确率99%,全局关系任务得分89.7,总体分数超越SDXL 2.6B模型[43] - **推理任务**:WISE基准文化知识类得分0.71,时空推理任务可视化结果符合物理规律[45][46][47] 技术验证 - 消融实验证实三阶段训练缺一不可,RGPO算法使WISE基准性能提升12%[50] - 连接器设计和KL系数(0.1-0.3范围)对特征对齐效果影响显著[51]
Reasons to Add PAHC Stock to Your Portfolio Right Now
ZACKS· 2025-06-18 22:26
公司核心业务表现 - 动物健康业务在2025财年第三季度实现42%的同比增长 其中药用饲料添加剂(MFA)及其他产品销售增长68% 营养特种产品净销售额增长8% 疫苗净销售额增长1% [4][8] - 矿物营养业务同比增长4% 调整后EBITDA增至580万美元 性能产品业务销售额同比增长28% [7][8] - 国际业务贡献总收入的40% 主要增长区域包括拉丁美洲、印度、东南亚等新兴市场 [5][6][8] 财务与市场表现 - 公司市值达10亿美元 过去一年股价上涨39.9% 远超行业(9.6%)和标普500指数(9.1%)表现 [2] - 连续四个季度盈利超预期 平均超出预期30.62% 2025财年每股收益共识预期上调1.5%至2.04美元 收入预期12.8亿美元(同比增长25.6%) [2][10] - 2025财年第三季度销售成本同比上升32.5% [9] 增长驱动因素 - 动物健康领域持续投资关键产品线 包括药用饲料添加剂、营养特种产品(如OmniGen-AF)及疫苗 [3][4] - 新兴市场扩张战略覆盖巴西、中国、印度等高增长地区 预计当地畜牧业增速将高于平均水平 [5] - 矿物营养与性能产品业务复苏 受益于销量提升、价格调整及个人护理原料需求增长 [7] 行业比较 - 同行业其他高评级公司包括Align Technology(长期盈利增长率11.2%)、Hims & Hers Health(股价年涨129.7%)、Cencora(股价年涨25.9%) [11][12][13]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测框架设计 - 基于三大知识范畴:事实性知识(颜色、数量等)、概念性知识(物理化学常识)、程序性知识(多步推理) [8] - 细分为7大推理维度和22种编辑任务覆盖全谱系难度 [6] - 样本总量1267对图像-指令由专家手工打磨数据来源多样化 [12] 评估指标与方法 - 首创四维度自动化评估:视觉一致性、视觉质量、指令跟随、知识合理性 [10][11][13] - 深度知识任务附带手工知识提示以验证模型理解能力 [11] - 评测10款模型包含3款闭源(GPT-Image-1等)和7款开源(OmniGen等) [14] 评测结果 - 闭源旗舰GPT-Image-1表现领先开源黑马BAGEL-Think在知识合理性上有提升但仍有差距 [17] - 多数模型在事实性知识(如数量变化)基础任务上表现欠佳 [17] - 所有模型在程序性推理、自然科学及多步骤合成任务上普遍失分 [17] 行业意义 - 推动图像编辑模型从像素搬运向具备认知能力的视觉智者进化 [16] - 未来目标是在模型中植入物理化学常识与因果推理实现真正的理解 [16]
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 13:07
研究背景 - 东南大学联合马克斯·普朗克信息研究所、上海交通大学、阶跃星辰、加州大学伯克利分校与加州大学默塞德分校的研究团队共同提出KRIS-Bench评测框架 [2] - 首创从知识类型视角系统化评测图像编辑模型的推理能力 [3] - 借鉴布鲁姆认知分类与教育心理学分层教学理念设计评测体系 [4] 评测体系设计 - 基于三大知识范畴构建评测框架:事实性知识(颜色/数量/空间/时间)、概念性知识(物理/化学/生物常识)、程序性知识(多步操作与规则推理) [8] - 细分为7大推理维度和22种典型编辑任务覆盖全谱系难度包括物体计数变化、化学反应预测、多元素合成等 [6] - 样本总量1,267对图像-指令由专家团队手工打磨数据来源包含真实照片、开源基准、模型生成、3D渲染等多样分布 [12] 评估方法创新 - 首创四维度自动化评估指标:视觉一致性(非目标区域保持)、视觉质量(自然度)、指令跟随(完整性)、知识合理性(常识符合度) [10][11][13] - 深度知识任务附带手工知识提示辅助判断模型理解程度 [11] 模型评测结果 - 评估10款模型包含3款闭源(GPT-Image-1、Gemini 2.0 Flash、Doubao)和7款开源(OmniGen/Emu2/BAGEL/Step1X-Edit等) [14] - 闭源旗舰GPT-Image-1表现领先开源模型BAGEL-Think通过引入推理过程提升知识合理性但仍落后闭源模型 [18] - 所有模型在程序性推理、自然科学及多步骤合成任务上表现不佳显示深层推理能力不足 [18] 行业影响 - 推动图像编辑模型从像素搬运向具备人类认知能力的视觉智者演进 [16] - 未来目标是在AI编辑中植入物理/化学/社会常识与因果推理实现真正的理解与预测 [16]
深度学习与强化学习两大巨头齐聚2025北京智源大会 智源发布“悟界”系列大模型
机器人圈· 2025-06-07 12:02
2025北京智源大会核心内容 - 第七届北京智源大会以"全球视野、思想碰撞、前沿引领"为特色,汇聚30余位AI公司创始人/CEO、100余位全球青年科学家、200余位顶尖学者和产业专家,围绕多模态、下一代AI路径等前沿议题展开讨论 [3] - 大会邀请到Yoshua Bengio、Richard Sutton等图灵奖得主及Google、DeepMind、Meta等国际机构代表,以及华为、百度、腾讯等国内互联网大厂参与 [3] 智源研究院技术成果 悟道系列大模型 - 悟道1.0于2021年3月推出,是中国首个超大规模信息智能模型 [9] - 悟道2.0于2021年6月发布,以1.75万亿参数规模成为全球最大预训练模型,在9项核心任务上国际领先 [9] - 悟道3.0于2023年全面开源,在通用视觉与多模态六大技术维度取得突破 [9] 悟界系列大模型 - 包含Emu3原生多模态世界模型、Brainμ脑科学模型、RoboOS 2.0/RoboBrain 2.0具身智能框架、OpenComplex2全原子生命模型 [10] - Emu3实现文本/图像/视频任意组合理解与生成,支持多模态输入输出的端到端映射 [13][14] - Brainμ完成超过100万单位神经信号预训练,在自动化睡眠分型等任务中超越现有专有模型 [15][16] - RoboOS 2.0整体性能提升30%,全链路平均响应时延低于3ms,端云通信效率提升27倍 [17] - RoboBrain 2.0任务规划准确率较1.0提升74%,新增空间推理能力和闭环反馈机制 [18][19] - OpenComplex2实现原子分辨率层面分子相互作用捕捉,在CASP16竞赛中成为唯一预测蛋白质构象分布的团队 [20][22] 开源生态建设 - FlagOpen开源技术体系已开源约200个模型和160个数据集,模型全球总下载量超6.4亿次 [23] - BGE系列模型成为2023年全球下载量冠军,2024年登顶Hugging Face月度下载榜首 [25] - Video-XL-2实现单GPU处理万帧视频能力,编码2048帧视频仅需12秒 [26] - OmniGen视觉生成模型GitHub Star数超4,000,催生一系列创业产品 [27] 具身智能进展 - 银河通用Galbot机器人展示端到端VLA大模型在商业零售场景应用 [47] - 宇树G1机器人展示"组合拳"动作,天工2.0完成"水果摆盘"服务任务 [47] - 基于RoboOS 2.0/RoboBrain 2.0的机器人展示餐饮互动、抓娃娃等技能 [58] 行业观点与趋势 - Yoshua Bengio指出需研发非代理性AI系统并建立全球协同治理框架 [30][31] - Richard Sutton认为AI正进入"体验时代",强调去中心化合作路径 [35] - Jim Zemlin表示2025年是开源AI元年,开源可帮助节约70%开发成本 [39] - Karol Hausman展示π0机器人基础模型在陌生环境任务完成率达80%-90% [43] - 专家共识认为短期内人形机器人是重要载体,长期将多样化发展 [50]
智源发布“悟界”系列大模型,含全球首个原生多模态世界模型Emu3
凤凰网· 2025-06-06 22:32
大模型技术突破 - 智源研究院推出"悟界"系列大模型 包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2 0与具身大脑RoboBrain 2 0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 通过新型视觉tokenizer将图像/视频编码为与文本同构的离散符号序列 实现文本、图像、视频的任意组合理解与生成 [2] - Brainμ整合了神经科学领域多个大型公开数据集和多个合作实验室的高质量神经科学数据 完成了超过100万单位的神经信号预训练 在自动化睡眠分型、感官信号重建与多种脑疾病诊断等任务中性能显著超越现有专有模型 [2][3] 具身智能系统升级 - RoboOS 2 0是全球首个基于具身智能SaaS平台、支持无服务器一站式轻量化机器人本体部署的开源框架 整体性能提升达30% 全链路平均响应时延低至3ms以下 端云通信效率提升27倍 [3][4] - RoboBrain 2 0任务规划准确率相较1 0版本实现74%的效果提升 在空间智能方面实现17%的性能提升 新增空间推理能力和闭环反馈机制 [5][6] - 系统已全面开源 包括框架代码、模型权重、数据集与评测基准 与全球20多家具身智能企业建立战略合作关系 [6] 生物分子建模创新 - OpenComplex2实现生物分子研究从静态结构预测到动态构象分布建模的重大突破 能够表征生物分子系统的连续演化能量景观 在原子分辨率层面捕捉分子相互作用及平衡构象分布 [6][7] - 模型基于FloydNetwork图扩散框架以及多尺度原子精度表示两大关键技术创新 有效突破动态构象分布预测瓶颈 在生物分子动态特性预测、柔性系统及超大型复合物建模等任务中性能卓越 [7] 开源生态建设 - 智源已开源约200个模型和160个数据集 FlagOS系统新增统一编译器FlagTree、统一通信库FlagCX等板块 实现对11家厂商18款异构AI硬件的统一支持 [8] - 通用向量模型BGE系列发展为门类齐全的生态系统 近期发布BGE-code-v1、BGE-VL-v1 5和BGE-VL-screenshot三款模型 在代码检索和多模态检索任务中取得领先表现 [9] - 开源轻量长视频理解模型Video-XL-2实现单GPU处理万帧视频的能力 编码2048帧视频仅需12秒 推理效率大幅领先同类别竞品模型 [9][10] 应用场景展示 - 基于RoboOS 2 0和RoboBrain 2 0的机器人展示了餐饮互动、抓娃娃游戏和家居物品收纳等技能 融合视觉、听觉、思考、语音交互等能力实现"心有灵犀"互动游戏 [11] - Brainμ与脑机接口设备结合 在消费级便携式脑电设备上实现接近医用级设备数据采集的稳定解析能力 降低脑机接口应用门槛 [11] - 数字孪生心脏药物安全性评价平台将全尺度药物毒性仿真时间由近90天减少到一天之内 无感智能坐垫系统可对心率、心率变异性、呼吸频率等指标进行高精度实时监测 [12][13]