Workflow
不靠死记布局也能按图生成,多实例生成的布局控制终于“可控且不串脸”了丨浙大团队
量子位· 2025-12-19 15:20
浙江大学ReLER团队 投稿 量子位 | 公众号 QbitAI 尽管扩散模型在单图像生成上已经日渐成熟,但 当任务升级为高度定制化的多实例图像生成 (Multi-Instance Image Generation, MIG) 时 ,挑战随之显现: 如何在实现空间布局控制的同时,保持多主体身份与参考图像高度一致? 现有方法在面对需要宏观的布局控制和微观的身份注入的复杂任务时 常常陷入两难 。 能显式控制布局的方法,往往无法利用参考图像来对实例进行定制。 而能以参考图像为指导的方法,则难以实现对布局的精确控制,且在实例数量增加时面临着严重的身份信息丢失问题。 为解决这一制约自定义图像生成的技术瓶颈, 浙江大学ReLER团队发布基于DiT的新框架ContextGen 。 该框架通过分层解耦上下文,解决布局控制与身份保真度的难题,并在多项关键指标上取得了SOTA突破。 机制创新:布局与身份的协同控制 ContextGen的核心在于提出了双重上下文注意力机制,将复杂的全局控制和局部注入任务,并在DiT的不同层级进行部署。 Contextual Layout Anchoring (CLA):宏观布局锚定 CLA机制将包含 ...
量子位编辑作者招聘
量子位· 2025-12-19 15:20
编辑部 发自 凹非寺 量子位 | 公众号 QbitAI AI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来 量子位 呢? 我们是一家以 追踪AI新进展 为核心的内容平台,经过8年积累,目前拥有顶流影响力,广泛且备受认可的产业资源,以及时代风口的最佳观 测和学习生态位。 目前,我们有 三大方向 岗位招聘,希望你是 (或者能成为) 这三个方向的内容专家: 岗位均为全职,工作地点:北京中关村。 岗位面向: 加入我们,你可以获得: 以下是岗位详情: 所有岗位不同能力层级职位均在开放,欢迎结合个人履历和经验申请。 AI产业方向 岗位职责: AI产业方向 :关注基建层创新,包含芯片、AI Infra、云计算; AI财经方向 :关注AI领域创投和财报,跟踪产业链资本动向; AI产品方向 :关注AI在应用和硬件终端方向的进展。 任职要求: AI财经商业方向 岗位职责: 任职要求: AI产品方向 岗位职责: 社招:覆盖编辑、主笔、主编各个层级,按能力匹配岗位; 校招:应届毕业生,接受实习且可转正。 站在AI浪潮之巅 :第一时间接触和了解AI领域最新技术和产品,构建完整的AI认知体系。 玩转AI新工具 :将各种AI新技术 ...
当年带你上网冲浪的头号老玩家,这回是真AI上头了
量子位· 2025-12-19 15:20
文章核心观点 - QQ浏览器已全面升级为AI浏览器,依托腾讯自研大模型底层能力,实现了从工具到智能助手的转型,其AI相关数据表现已进入行业前列[1][2][3] - 浏览器的演进逻辑是将复杂能力简化,将掌控权还给用户,当前AI转型的核心是结合AI的“聪明”与浏览器的“全面”,以更简单智能的方式满足用户需求[7][8][11] - 浏览器行业正经历从“阅读网页”到“完成任务”的方向性变化,QQ浏览器的转型恰好契合了用户希望结果更快、步骤更少的关键习惯转变[56][57] 产品战略与市场表现 - QQ浏览器按下转型键,将产品路线彻底切向AI,全面升级为AI浏览器[2] - 公司在“AI Agent”和“AI 搜索”赛道的数据表现已率先跑进行业前排,整体表现相当亮眼[3][6] - 转型背后是腾讯长期布局的主线,公司作为在C端深耕十几年、同时在模型和云底座上有完整体系的玩家,清楚用户真实场景中的痛点[57] - 外部数据机构XSignal的行业侧数据验证了用户对浏览器的核心需求是“好用”,即易上手、不打扰、聪明能干且能接住不同场景的需求[57] AI能力与产品功能升级 - **界面与入口设计**:传统首页信息流布局让位于集传统搜索与AI对话于一体的极简入口[12];腾讯元宝常驻搜索框,也可从侧边栏一键唤起,同时支持在AI搜索、搜狗、百度、谷歌、Bing多种引擎间切换[14][15] - **AI+小窗**:在右上角集成10多种AI能力和部分Agent能力的轻量入口,能根据当前浏览场景自动递送最可能用到的功能(如阅读场景自动弹出“网页总结”)[17][18][20][21] - **核心AI功能**: - 网页总结:通过悬浮窗快速总结网页内容,原文与重点分屏显示[23] - 思维导图:将全文拆解为层级清晰的知识树框架,能自动拆解到三级,提升阅读效率[25][27] - 网页翻译:可将网页英文一键全文翻译为中文[29] - AI翻译:支持对单词或句子进行逐词逐句翻译[31] - 其他功能:包括阅读模式、AI资源嗅探、标签智能分组等[33] QBot Agent中心与场景化应用 - QQ浏览器推出了QBot Agent中心,集成了八个擅长不同场景的Agent,以解决传统浏览器“只能看不能干”的痛点[34] - **AI视频助理**:支持16种语言的多语种字幕生成、内容总结、沉浸式播放、字幕视频合成导出;提供实时滚动字幕,支持中英文对照排版,并可细调语种、字号、复制字幕等;视频总结功能可将长视频拆解为带图示的章节重点[35][36][37][38];该功能也可在AI+小窗中直接调起[39] - **AI订阅助理**:专门解决信息筛选、聚合、追踪问题,能在极短时间内(如不到1分钟)扫描全网相关信息,过滤去重后打包成图文并茂的订阅报告(包含核心概览、信息汇总、表格、来源链接),并支持按设置的关键词、时间和有效期主动推送最新资讯[41][42][43] - **AI下载助理**:可全网搜索并下载免费靠谱的网络资源(如1分钟左右完成搜索并下载大学英语四级考试真题PDF),同时提供在线阅读版本[45][46] - **AI更新助理**:可监控指定网页的动态更新,框选关注位置并设置提醒频率后,AI会将最新动态及改动位置同步到消息通知[47][48] - **其他垂类Agent**:还包括AI财经助理、AI学术助理、AI高考通、较真AI查真假等[50];未来将继续融合更多腾讯内部原生Agent[50] 移动端AI能力拓展 - QQ浏览器的AI能力已拓展至移动端[51] - 文档能力覆盖更完整,支持八种格式互转,以及编辑、扫描、翻译等功能[52] - 针对学生场景,推出了行业首个高考Agent“高考通”,已为超过5000万用户提供高考服务;移动端上线的“学习阵地”以AI学习助手为核心,支持拍照解题、生成错题本、定制学习计划[53] - 移动端搜索联合元宝推出AI Overview,支持智能问答,并内置一套有趣的AI小工具(如星座运势、BMI计算器)[54] - 生态上,与腾讯自选股、腾讯新闻、腾讯地图、腾讯医典完成内容打通[55]
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-19 15:20
3DGenR1团队 投稿 量子位 | 公众号 QbitAI 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: Progressive Investigation:四个层次拆解Text-to-3D+RL 1. Reward设计层 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式3D生成? 3. 缺乏专门考察"3D推理能力 ...
DeepMind掌门人万字详解通往AGI之路
量子位· 2025-12-19 15:20
在最新一期播客中,DeepMind掌门人哈萨比斯清晰地勾勒了他心目中通往AGI的一条现实路径: 一半靠规模扩展,另一半靠真正的科学突破。 henry 发自 凹非寺 量子位 | 公众号 QbitAI 想要实现AGI,技术创新和规模扩展得五五开,缺一不可。 从世界模型、模拟和智能体,一路聊到材料、超导体,甚至可控核聚变。这期播客里,哈萨比斯几乎是站在谷歌的当下,眺望AGI的全局图 景。 以下是哈萨比斯的核心观点速览: AGI实现需要创新与规模化的双重努力 :约50%的努力集中在模型扩展,50%集中在技术创新,二者结合是通向AGI的关键路径。 根节点问题推动科学突破 :AlphaFold的成功验证了AI解决基础科学难题的潜力,当前研究正拓展至材料科学(如室温超导体、更优电 池)、核聚变及量子计算等领域。 AI在数学等领域的表现存在"锯齿状智能"现象 :尽管能在国际数学奥林匹克竞赛中获奖,但在简单逻辑题上仍可能出错,反映出系统在 一致性与可靠推理方面的不足,需提升其自我反思与验证能力。 当前模型依赖人类知识,未来需实现自主学习 :现有大模型基于互联网知识进行压缩与泛化,类似于AlphaGo;下一步目标是实现类似 Al ...
阿里相关人士辟谣
财联社· 2025-12-19 15:15
下载财联社APP获取更多资讯 准确 快速 权威 专业 7x24h电报 头条新闻 VIP资讯 实时盯盘 对此,阿里相关人士向财联社记者辟谣,表示此图是"假的"。 0 G 8 tel 1 - 7 0 日 s # ED 型千间 ■ 干间logo是错的 今日网络流传一张所谓"阿里千问全员会"图片,图中疑似阿里千问员工聚集在广场上手举豆包,广场一侧有"干死豆包"标语。 ...
在AI与效率之间,为思考留一座桥梁|纸刊优惠倒计时2天
第一财经· 2025-12-19 15:11
2025 年的最后一段时光正静静流过, AI 却从未停下它重塑世界的脚步。从年初的DeepSeek,到年末的Gemini3,当AI能写出比你更快的代码、 梳理出比你更周全的纪要,甚至开始参与策略与创意的生成,工作的逻辑已在无声中被重新定义。 效率的提升背后,我们开始面对另一种真实:当 AI 接手得越多,人反而越容易陷入一种"能力悬浮感"——我的独特价值究竟落在何处?更重要的 是,当信息愈发由算法即时推送、交互形态日益碎片化,尼尔·波兹曼曾警示的"心智结构"的变迁,正以更隐蔽的方式发生:我们获取信息越来越 快,形成判断却可能越来越浅;我们接触观点越来越多,独立思辨的空间却可能越来越窄。 因此,我们依然相信纸质书写和深度阅读的意义。 在这个一切追求即时适配、一切界面皆为交互的时代,《第一财经》杂志选择成为一座"桥梁"——我们不追逐热点,而梳理逻辑;不提供即时答 案,却交付思考框架。每期杂志,都是一次完整的叙述、一次系统性的信息编排,帮助读者进入专注、连贯而自主的思考状态。 在 2025 即将落幕、 AI 浪潮持续奔涌的时刻,我们希望邀请你,共同守护深度思考的习惯: 纸刊年度订阅 深度思考锚点 2025 SHOPP ...
独家丨吉利智驾合并进展:千里智驾首席科学家将离职
晚点Auto· 2025-12-19 15:05
文 丨 李安琪 涉及多方的整合初步完成,但这是个动态过程,不排除有新变化。 编辑 丨 龚方毅 我们从多个渠道独家了解,吉利系的智驾整合又有新的人事变动。千里智驾首席科学家袁平一 (化名)将离职,此前向千里智驾 CTO 杨沐汇报。同时,千里智驾数据开发部门负责人古道 (化名)也已离职。 千里智驾由吉利、旷视、千里科技共同注资成立的合资公司。接近千里智驾的人士表示,袁平 一目前仍在人事系统内。我们向千里智驾、吉利官方求证,截至发稿,尚未得到回复。 目前,千里智驾业务分为智能驾驶、智能座舱、Robotaxi(自动驾驶出租车)三大板块, 由 CEO 王 军统管,联席 CEO 陈奇统管智驾业务。后者 2021 年出任极氪副总裁、全面负责极氪智能驾驶技术研 发。 千里智驾的二级技术部门有 12 个,分别为:功能方案设计部、平台开发部、地图开发管理部、持续 集成开发部、质量运营部、整车测试部、硬件评测部、算法开发部、数据开发部、预研与技术开发 部、技术专项与运营部、系统方案设计部。以上部门向陈奇汇报。 这些部门之外还有项目管理办公室部门、CTO 办公室部门、预研产品线部门,分别由陈保成、CTO 杨沐、袁平一(将离职)。其中 ...
1.2亿元!客车租赁惊现超级大单
第一商用车网· 2025-12-19 15:04
(招标编号:ZZZBB2025116) 一、中标人信息: 8.5米 新能源公交车(新车) 租赁服务 (8辆 ) : 中标金额 1123.20 万元; 10.5米 新能源交车(新车) 租赁服务(50辆 ) : 中标金额 7632.33万元。 近日, 成都市青白江巴士公交有限公司发布89辆新能源公交车租赁服务项目中标公告,四 川川贸通物流有限公司独家中标,中标总金额为11916.552万元。 5.4米 新能源公交车(新车)租赁服务(6辆): 中标金额547.812万元; 6.9米 新能源公交车(新车) 租赁服务(25辆):中标金额2613.24万元; 成都市青白江巴士公交有限公司 89 辆新能源公交车租赁服务项目中标公告 标段(包)[001]成都市青白江巴士公交有限公司 89 辆新能源公交车租赁服务项目: 中标人:四川川贸通物流有限公司 | | 其他类型中标价:详见其他 二、其他: 本公告公示期限为3个工作日。5.4米斯能源公交车(新车)租赁服务(6辆):中标金 额547.812万元 6.9 米斯能源公交车(新车)租赁服务(25辆):中标金额2613.21万元; 8.5 米新能源公交车(新车)租赁服务(8 辆): ...
三一重卡深耕湘超赛事,以品牌担当赋能体育事业!
第一商用车网· 2025-12-19 15:04
12月14日,湘超"三一重卡之约"专场活动圆满落幕。这场由三一集团冠名、三一重卡倾情 呈现的体育盛宴,不仅为球迷们带来了高水平的竞技体验,更彰显了民族重卡品牌扎根本 土、赋能体育公益的深切担当。从赛事支持到场景融合,从精神共鸣到价值共创,三一重卡 以切实行动诠释了民族企业的责任,为品牌与体育事业的共生发展提供了鲜活范本。 本土情怀扎根:以赛事为桥,反哺家乡文体生态 作为从娄底涟源走向世界的民族企业,三一集团自创立以来便与湖南这片土地有着深厚的情 感。湘超联赛作为湖南省内水平最高、影响力最广的业余足球赛事,早已超越体育竞技本 身,成为激活区域文化活力、凝聚乡土情感、传递拼搏精神的重要平台。三一重卡此次冠名 湘超专场,并非一次简单的商业赞助,而是企业"回馈桑梓、助力本土体育事业发展"理念 的生动实践。 深耕本土,意味着真正理解并回应家乡的期待。湘超赛事承载着湖南人对足球的热爱,也肩 负着推广本地体育文化、带动消费升级的使命。据统计,湘超联赛累计吸引现场观众超116 万人次,全网传播量突破107亿,已成为带动文旅消费超113亿元的"现象级IP"。 三一重卡的加入,为赛事注入了坚实支持——从场外车型列阵护航,到现场互 ...