Workflow
DreamOmni2
icon
搜索文档
贾佳亚教授:模型不必一味求大!优化神经元连接方式同样是智能跃升的「关键密码」丨GAIR 2025
雷峰网· 2025-12-16 16:28
" 未来还会有比 Transformer 更优的架构,能把智能再提升上万 倍。 " 作者丨徐晓飞 编辑丨包永刚 12月12日, 第八届 GAIR 全球人工智能与机器人大会 于深圳正式拉开帷幕。 本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓蕊教 授任大会主席。 作为 AI 产学研投界标杆盛会,GAIR自2016年创办以来,始终坚守 "传承+创新" 内核,是 AI 学界思想 接力的阵地、技术交流的平台,更是中国 AI 四十年发展的精神家园。过去四年大模型驱动 AI 产业加速变 革,岁末年初 GAIR 如约而至,以高质量观点碰撞,为行业与大众呈现AI时代的前沿洞见。 本次峰会之上, 香港科技大学讲座教授、冯诺依曼研究院院长,IEEE Fellow贾佳亚教授 亲临现场,为与 会者们带来了一场精彩纷呈的开场报告。 贾佳亚教授在会上先是回顾了冯诺依曼研究院成立前后,其带领相关团队从事的一些AI研究以及取得的成 果。 其中今年的一些最新技术成果,此前均未在公开场合正式披露: 1、2023年,发布了LongLoRA技术,成为全球第一个32K长文本上下文理解大模型技术; 2、20 ...
GAIR 2025 大会首日:AI重构教育、科学与产业的十三重碰撞
雷峰网· 2025-12-13 12:02
" 立于AI技术浪潮的又一个高点,GAIR试图超越对技术本身的讨 论,转而探寻其重塑教育、产业乃至文明的内在力量。 " 作者丨周蕾 赵之齐 张嘉敏 编辑丨周蕾 2025年12月12日,深圳南山。 第八届GAIR全球人工智能与机器人大会主论坛,于上午9:30在深圳南山·博林天瑞喜来登酒店正式拉开帷 幕。本次大会为期两天,由GAIR研究院与雷峰网联合主办,高文院士任指导委员会主席,杨强院士与朱晓 蕊教授任大会主席。 作为粤港澳大湾区的AI标杆盛会,GAIR自2016年创办以来,始终坚守"传承"与"创新"的双重底色——从 学界泰斗的精神传承,到华人顶会主席们的思想接力,再到青年学者的锋芒展露,这里不仅是技术交流的 平台,更是承载中国AI四十年发展记忆的精神家园。 时隔四年,GAIR从海外重返深圳主场。这四年来,大模型掀起巨浪、人工智能迈上更高舞台的四年,知识 生产不再局限于传统路径,产业变革更是按下"加速键"。值此岁末年初的节点,GAIR如期赴约,用一场 高质量的观点碰撞,为行业与大众回顾科技高速的脚步,呈现AI时代的前沿洞见。 12月12日的主论坛,延续GAIR一贯的学术前沿特色,设有: "AI之道:教育的重新定 ...
人工智能周报(25年第43周):OpenAI 推出 AI 浏览器,DeepSeek 发布开源 DeepSeek-OCR 模型-20251028
国信证券· 2025-10-28 22:28
行业投资评级 - 行业投资评级为“优于大市” [1][4] 核心观点 - AI技术对互联网巨头的广告业务、云计算场景和企业效率提升作用显著,典型体现在Q2腾讯广告持续保持20%增长、阿里云增速环比提速至26% [2] - 随着百度、阿里推出自研芯片,完成芯片、模型、应用全链条布局的云厂商有望实现市场份额持续提升 [2] - 建议继续聚焦AI主线,推荐腾讯控股、阿里巴巴、快手、百度集团、美图公司,以及与宏观经济关联度较低的腾讯音乐和网易云音乐 [2][29] 公司动态 - OpenAI推出AI浏览器ChatGPT Atlas,支持内容总结、商品比较等实时交互功能,并引入“代理模式”实现自动化操作 [15];同时收购Mac端AI界面Sky开发商Software Applications,强化Mac生态适配与办公场景自动化能力 [15] - Meta重组AI团队,裁员约600人,聚焦前沿模型研发,年内资本支出上限已上调至720亿美元 [17] - Google升级AI Studio推出“vibe coding”功能,降低开发门槛,强化Gemini生态竞争力 [18] - 华为发布鸿蒙6,实现跨生态互传与AI智能体两大突破,支持与苹果设备高速互传,速率达160MB/s,并上线80多个应用智能体 [19] - 阿里巴巴旗下夸克上线对话助手,作为“C计划”首个落地成果,依托Qwen3-Max模型及“可信生成”技术,基于夸克1.5亿月活生态升级 [20] - 腾讯预计正式发布ima2.0版本,核心落地“任务模式”与“AI要点”功能,从“问答工具”升级为主动执行任务的“智能伙伴” [21] 底层技术 - DeepSeek发布开源新型文字识别模型DeepSeek-OCR,通过“上下文光学压缩(COC)”技术实现7-20倍文本Token效率提升,在10倍压缩比下保持97%以上准确率 [22] - 腾讯发布并开源混元世界模型1.1(WorldMirror),支持多模态先验注入,可一次性输出点云、3D高斯点等多类3D几何结果,单卡处理8-32视图仅需1秒,效率较传统方法提升千倍 [23] - 百川智能发布循证增强医疗大模型Baichuan-M2 Plus,首创六源循证推理(EAR)范式,医疗幻觉率较DeepSeek降低3倍 [24] - 港科大开源DreamOmni2模型,在205个测试用例中物体迁移准确率、抽象属性一致性均超越GPT-4o与谷歌Nano Banana,生成准确性较开源模型提升37% [25] - 字节跳动发布Seed3D 1.0模型,基于Diffusion Transformer架构,构建单张2D图到仿真级3D资产的端到端生成链路 [26] 行业政策 - 十四届全国人大常委会第十八次会议审议网络安全法修正草案,拟新增AI安全与发展的框架性规定,包括支持AI基础理论研究、关键技术研发、算力基础设施建设、完善伦理规范等 [27] - 科技部部长阴和俊在中共中央新闻发布会上明确“十五五”AI发展核心方向,包括强化基础研究与核心技术攻关、实施“人工智能+”行动、健全法律法规与伦理准则等 [27][28] AI相关网站流量数据 - ChatGPT周平均访问量达1391.00百万,访客量环比下降6.12% [9] - Bing周平均访问量达786.40百万,访客量环比下降4.34% [9] - Gemini周平均访问量达270.70百万,访客量环比增长70.02% [9] - DeepSeek周平均访问量达82.73百万,访客量环比下降0.46% [9] - 通义千问周平均访问量达6.30百万,访客量环比下降3.96% [9]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-10-25 12:34
算力与芯片 - 甲骨文建设最大AI超算 [3] - 英伟达推进美国本土晶圆生产 [3] 模型进展 - 清华与智谱联合发布Glyph框架 [3] - 谷歌推出Gemini 3 0模型 [3] - DeepSeek发布DeepSeek-OCR模型 [3] - 百度推出PaddleOCR-VL模型 [3] AI应用与产品 - 谷歌发布Google Skills和Vibe Coding [3] - Sora模型升级至2 0版本 [3] - 快手推出AI编程产品矩阵 [3] - 港科大发布DreamOmni2 [3] - 字节跳动推出Seed3D 1 0 [3] - OpenAI推出ChatGPT Atlas [3] - Claude发布桌面版 [3] - 腾讯发布混元世界模型1 1 [3] - 百川发布Baichuan-M2 Plus模型 [3] - 华为发布HarmonyOS 6 [3] - Anthropic发布网页版Claude Code [3] - X平台将Grok接入其服务 [4] - Adobe推出AI Foundry [4] - 混元推出AI分身功能 [4] - 元宝推出AI录音笔 [4] - Vidu发布Q2版本 [4] - 谷歌将Gemini接入Maps应用 [4] - Anthropic推出Agent Skills [4] - 李飞飞团队发布RTFM [4] - World Labs参与相关应用开发 [4] - Manus发布1 5版本 [4] - 微软推出Win11大更新 [4] - 科勒推出Dekoda智能马桶 [4] 前沿科技 - 谷歌研究量子回声算法 [4] - Dexmal开发Dexbotic技术 [4] - 原力灵机进行科技探索 [4] - 松延动力推出Bumi小布米 [4] - 三星推出Galaxy XR [4] - Anthropic开发生科专用Claude [4] - 宇树开发仿生人形机器人 [4] - DeepMind与CFS合作开发人造太阳 [4] 行业观点 - Vercel提出Kimi K2替代观点 [4] - a16z提出视频模型专业化观点 [4] - Manus探讨Agent认知流程 [4] - Jason Wei提出AI进展关键思路 [4] - 哈佛大学研究AI入侵职场现象 [4] - Reddit讨论死亡互联网理论 [4] - Karpathy提出AGI预期管理观点 [4] 行业事件 - Meta对AI部门进行裁员 [4] - 麦肯锡分析Tokens消耗情况 [4] - nof1 ai进行Alpha Arena实验 [4]
腾讯研究院AI速递 20251024
腾讯研究院· 2025-10-24 00:01
谷歌AI学习平台 - 谷歌推出AI学习平台Google Skills,整合内部资源提供超过3000门课程,覆盖大型语言模型技术及伦理内容[1] - 平台采用游戏化激励方式,过去一年已有2600万人在其分散平台学习技能,现集中至统一入口[1] - 平台与150多家雇主组成招聘联盟,用户完成证书可跳过初筛直接进入面试,构建学习至就业的闭环[1] Sora项目升级 - Sora2将推出“角色客串”功能,允许用户将现实物品或生成人物投射到虚拟世界并创建独特IP进行互动[2] - 社交体验将优化,支持特定社群组队分享并减少过度内容审核,应用优化包括流畅度提升和视频编辑功能[2] - 安卓版即将上线,可在谷歌应用商店预注册[2] 快手AI编程产品 - 快手发布AI编程产品矩阵,包括KAT-Coder模型、CodeFlicker开发工具和万擎MaaS平台三位一体解决方案[3] - KAT-Coder模型在SWE-bench Verified榜单解决率达73.4%,其开源版达74.6%,收入在8个月内增长4倍[3] - CodeFlicker工具已在公司内部80%工程师中使用,支持自动生成代码仓库说明书和企业级定制服务[3] 多模态图像编辑模型 - 港科大贾佳亚团队推出DreamOmni2多模态图像编辑模型,在GitHub两周内获得1.6k星标,可处理多个参考图像并理解抽象概念[4] - 基于FLUX Kontext模型,该模型在传统任务上优于现有开源模型,支持风格迁移、动作模仿和多图编辑[4] - 采用创新三阶段数据构建范式和索引编码技术,首次实现从单一物体到完整3D场景的生成并已开源[4] 3D生成大模型 - 字节跳动推出3D生成大模型Seed3D 1.0,基于Diffusion Transformer架构,可从单张图像生成高精度3D模型[5] - 该1.5B参数模型在纹理材质生成上对标SOTA水平,能准确还原精细特征[5] - 生成的3D模型可导入仿真引擎供机器人训练,并支持从单一物体扩展至完整3D场景生成[6] Meta AI部门调整 - Meta在AI部门进行大规模裁员约600个职位,华人AI科学家田渊栋及其团队受影响,FAIR实验室成为重灾区[7] - FAIR实验室遭重创,有消息称其首席科学家可能辞职,而新成立的TBD超级智能实验室仍在招聘[7] - 公司认为原有架构过于官僚化,正将重心从开放式基础研究转向超级智能竞赛,近期达成270亿美元数据中心融资[7] AI智能终端 - 科勒推出Dekoda智能马桶售价599美元起,通过AI摄像头视觉分析排泄物判断肠道健康等状况[8] - 使用需订阅年费26至70美元的应用,其AI模型基于超100万数据点训练并采用布里斯托大便分类法[8] - 产品面临隐私争议和高昂价格限制,分析结果相对简单仅分为正常、硬便、稀便等类别[8] 量子计算突破 - 谷歌发布量子回声算法在Willow芯片上运行,解决原子相互作用速度比Frontier超级计算机快13000倍,数小时完成需3.2年的计算[9] - 这是量子计算机首次在真实硬件上成功运行可验证算法,结果可在其他同等水平量子计算机上重复验证[9] - 算法可研究从分子到黑洞的各种系统结构,为药物研发和材料科学应用铺路[9] AI模型性能比较 - Vercel公司CEO表示内部测试中Kimi K2运行速度是GPT-5和Sonnet 4.5的5倍(2分钟对比8-10分钟)[10] - Kimi K2准确率超60%,比GPT-5(低于40%)高出50%,比Sonnet 4.5(低于50%)也有优势[10] - 硅谷多家公司如Cline、Cursor等已接入K2模型,因其性能强且价格更便宜[10] 视频模型发展趋势 - a16z合伙人指出视频模型进入产品时代,不同模型如Sora 2和Veo 3正走向专业化发展[12] - 模型能力与产品间存在巨大鸿沟,创作者需手动完成的工作应由产品层面解决[12] - 未来将出现针对特定场景的专用模型、帮助用户选模型的产品和整合创作套件[12]
让海外创作者喊出「King Bomb」的P图大杀器来了
36氪· 2025-10-23 14:57
行业技术变革趋势 - 图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成显著冲击 [1] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法 [1] - 技术路线转向多模态指令融合,将语言理解、视觉识别与生成控制结合以实现更自然的创作体验,但语言指令描述不清、处理抽象概念乏力等局限仍存 [1] DreamOmni2技术突破与性能表现 - 港科大贾佳亚团队开源DreamOmni2,基于FLUX-Kontext训练,保留指令编辑与文生图能力,并拓展多参考图生成编辑能力 [2] - 在具体物体和抽象概念的编辑与生成任务中,DreamOmni2表现显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana [2] - 实测显示DreamOmni2在换背景、风格迁移、物体替换等任务中效果精准,毛发细节保留完好,色彩氛围表现力强,生成时间短 [17][21][26][35][38] - 与主流模型对比中,GPT-4o生成结果AI痕迹明显且人物姿态失真,Nano Banana衣物颜色形态易变,DreamOmni2在细节保留与自然度上综合领先 [27][29][42] - 定量数据显示DreamOmni2在具体物体编辑任务中Human评分达0.6098,抽象属性任务中达0.6829,均高于GPT-4o和Nano Banana [44][45] 技术创新与架构优化 - 采用三阶段式数据构建范式:特征混合方案生成高质量数据对、多模态编辑数据构建、多模态生成数据整合,突破以往数据桎梏 [48][50][53] - 框架设计引入多参考图索引编码优化,通过索引编码与位置编码偏移解决像素混淆问题,提升多图像输入的区分精度 [55][56] - 训练策略上提出VLM与生成模型联合训练机制,结合LoRA模块分别优化编辑与生成功能,使模型能理解复杂用户指令并标准化输出 [56] 社区影响与行业意义 - DreamOmni2开源两周内GitHub获1.6k Star量,被海外创作者称为“King Bomb”,Youtube涌现大量使用分享视频 [6][10] - 该模型推动多模态生图能力进入深水区,为创作者提供语义理解更全面、创意延展性更强的智能引擎 [11] - 贾佳亚团队通过DreamOmni2及Mini-Gemini、ControlNeXt等系列开源工作,构建覆盖感知、理解与生成的全链路多模态技术栈,增强行业影响力 [59][60]
谷歌最强AI,被港科大开源超了?让海外创作者喊出「King Bomb」的P图大杀器来了
机器之心· 2025-10-23 13:09
行业趋势与竞争格局 - AI图像编辑与生成模型进入集中爆发期,对传统专业创意软件(如Photoshop)的市场地位构成冲击[2] - 谷歌Nano Banana、字节Seedream4.0、阿里Qwen-Image-Edit-2509等模型引领多模态生图技术升级,涌现出OOTD穿搭、文字渲染、生成电影分镜等新能力与玩法[2] - 行业技术路线正向多模态指令融合方向发展,旨在将语言理解、视觉识别与生成控制能力结合,实现更自然的创作体验[2] DreamOmni2模型核心优势 - 模型在开源两周内于GitHub上获得1.6k的Star量,显示开源社区的高度认可[12] - 在基于指令的多模态编辑任务中,DreamOmni2在具体物体和抽象属性处理上均显著优于当前SOTA开源模型,部分方面甚至超越谷歌Nano Banana[3][53] - 定量结果显示,DreamOmni2在具体物体任务上的人类评估得分达0.6098,在抽象属性任务上的人类评估得分达0.6829,全面领先于GPT-4o和Nano Banana等竞争对手[54][55] 技术突破与创新 - 公司独创三阶段式数据构建范式,通过特征混合方案创建包含具体物体与抽象属性的高质量数据对,解决了多模态训练中抽象概念稀缺及缺乏参考图像条件的结构性缺陷[58][60][65] - 框架设计实现了多参考图索引编码优化,通过将索引编码添加到位置通道并计算偏移,有效缓解了复制粘贴现象和参考图像之间的像素混淆[67][68] - 提出VLM与生成模型联合训练机制,使模型能更好地理解复杂且不规则的现实用户指令,并通过LoRA方法分别训练编辑与生成模块,在统一模型中无缝融合两项功能[68] 实际应用表现 - 在证件照背景替换任务中,模型能快速完成且保留毛发等细节,效果不输专业修图[16][20] - 在图像风格转换任务中,模型能精准还原参考图的色调与氛围,并将风格感无缝融入原图[22][25] - 在物体替换任务中,模型能准确识别主体与衣物的层级关系,自然保留人物脸部特征与姿态,其效果在对比测试中优于GPT-4o,与Nano Banana各有优势[28][31][37][52] 公司技术战略与影响 - DreamOmni2是公司过去两年深耕多模态领域的延续,团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈[72] - 公司通过将多项研究成果(如Mini-Gemini、ControlNeXt、DreamOmni、MGM-Omni)向社区开放,增强了其多模态技术的影响力并推动生态演进[72][73] - 该模型的系统性创新为下一代AI视觉创作工具的智能进化提供了参考,使模型的多模态理解、编辑与生成能力能做到自然衔接与切换[72]