Workflow
Artificial Intelligence
icon
搜索文档
ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
机器之心· 2025-11-19 10:09
研究背景与核心痛点 - 无需额外训练即可适配预训练生成模型的编辑方法已成为研究热点,其通过操控Attention机制实现文本引导编辑,但存在两大核心痛点[5] - 痛点一:编辑强度与源图一致性难以兼顾,增强编辑强度易破坏源图特征结构(如改衣服颜色时丢失褶皱细节),且非编辑区域会出现意外变化,此问题在多轮编辑或视频编辑场景中会累积放大[5] - 痛点二:编辑强度缺乏细粒度控制能力,多数方法对编辑强度的控制局限于全局一致性,无法实现“保结构改纹理”或“保纹理改结构”的精准调节[5] - 生成模型架构正从U-Net向Multi-Modal Diffusion Transformer升级,MM-DiT通过统一的Self-Attention同时处理文本与视觉信息,为解决上述困境提供了新可能[7] 核心技术创新与发现 - 针对MM-DiT架构的Attention计算提炼出三个核心发现:仅编辑“视觉Token”是关键,若修改“文本Token”会导致结果失真[9] - 发现MM-DiT所有层的Q/K/V Token都保留完整的结构与纹理信息,意味着编辑可覆盖所有Attention层,而非仅作用于最后几层[11] - 发现Q/K Token主导结构一致性,单独对Q/K的视觉Token进行控制可精准保留源图像结构,而V的视觉Token则主要影响内容纹理,为结构与纹理的解耦控制提供了技术依据[15] ConsistEdit方法设计 - 提出视觉仅注意力控制,仅对所有Attention层的视觉Token进行编辑,文本Token保持不变,以实现强一致性的稳定生成[19] - 采用掩码引导的Attention融合,在Attention计算前通过文字和视觉Token的Attention Map值生成编辑掩码,精确分离编辑区与非编辑区[20] - 实现Q/K/V差异化操控,提出“一致性强度”以控制结构一致性,通过动态调整Q/K融合比例,实现从“完全保结构”到“自由改结构”的平滑过渡[21] 实验验证与应用前景 - 在PIE-Bench数据集上的对比实验显示,该方法在图像和视频编辑任务中均优于UniEdit-Flow、DiTCtrl、FireFlow等5种主流方法[22] - 方法支持真实图片的多轮编辑和多区域精准编辑,得益于精确的Attention控制与强大的预训练模型支撑[26][27] - ConsistEdit具有高度泛化性,不仅支持Stable Diffusion 3,还可无缝适配FLUX.1-dev、CogVideoX-2B等MM-DiT类模型[31][33] - 高一致性和细粒度控制特性使其可广泛应用于从静态图片到动态视频的全场景视觉创作,为交互式创作提供了更多可能性[34]
“AI闭环”扩大:英伟达、微软联手150亿美元投资Anthropic,“OpenAI对手”的估值已达3500亿美元
硬AI· 2025-11-19 09:37
核心观点 - 微软、英伟达与Anthropic建立战略合作,形成资本、算力与模型相互绑定的AI联盟,引发市场对AI领域"闭环"投资和行业过热的担忧 [2][3][15] 战略合作详情 - 微软承诺对Anthropic投资至多50亿美元,英伟达承诺投资至多100亿美元 [3] - Anthropic承诺从微软购买价值300亿美元的Azure算力,并签订合同购买高达1吉瓦的额外算力,这些算力将完全运行在英伟达的AI系统之上 [3][5] - 交易使Anthropic估值飙升至3500亿美元 [3] 英伟达与Anthropic合作 - 双方首次建立深度技术合作伙伴关系,将在设计和工程方面展开合作以优化Anthropic产品性能、效率和总体拥有成本 [4][5] - Anthropic初期将获得高达1吉瓦的算力,采用NVIDIA Grace Blackwell和Vera Rubin系统 [5] - 英伟达首席执行官黄仁勋表示这是首次与Anthropic深度合作,加速Claude开发 [6] 微软的双线战略 - 微软拓展与Anthropic合作,为企业用户提供更广泛的Claude模型访问权限,使Claude成为唯一可在全球三大主流云服务平台使用的前沿LLM模型 [7][8] - 微软承诺继续为Claude提供在微软Copilot系列产品中的访问权限 [8] - 微软首席执行官强调与OpenAI的核心伙伴关系不变,OpenAI仍是关键合作伙伴,其营利业务板块估值达1350亿美元,微软持有约27%股份 [9] Anthropic发展现状 - Anthropic由OpenAI前员工于2021年创立,最近以1830亿美元估值筹集130亿美元,拥有30万企业客户 [11] - 公司计划投资500亿美元在美国多个地点建设定制数据中心,以支持AI技术开发 [11] - 10月与谷歌达成协议,谷歌将向Anthropic供应高达100万颗专用AI芯片,交易价值数百亿美元 [11] 市场反应与担忧 - 合作宣布当日,英伟达和微软股价均下跌近3% [13] - 45%的基金经理将AI泡沫视为市场最大"尾风险",担忧"循环融资"模式中资本在体系内空转,AI产品能否产生足够实际收入证明巨额投入合理性 [15] - 在英伟达关键财报公布前夜,此项合作加剧华尔街对行业过热和"AI闭环"不可持续的忧虑 [15]
谷歌Gemini 3把GPT-5.1打成计量单位!马斯克奥特曼都服了
量子位· 2025-11-19 09:37
模型性能突破 - 谷歌Gemini 3 Pro在几乎所有基准测试中超越GPT-5.1和Claude4.5,包括专为AGI准备的测试[1] - 新模型在Humanity's Last Exam测试中,无工具条件下得分37.5%,使用搜索和代码执行后提升至45.8%,显著高于GPT-5.1的26.5%[2] - 在视觉推理ARC-AGI-2测试中得分31.1%,远超Gemini 2.5 Pro的4.9%和GPT-5.1的17.6%[2] - 数学能力表现突出,AIME 2025测试无工具条件下得分95.0%,使用代码执行后达到满分100%[2] - 在极具挑战性的MathArena Apex数学竞赛问题测试中得分23.4%,而Gemini 2.5 Pro仅0.5%,GPT-5.1为1.0%[2] - 多模态理解能力显著提升,MMMU-Pro测试得分81.0%,高于GPT-5.1的76.0%[2] - 编程能力卓越,LiveCodeBench Pro测试Elo评分达到2,439,高于GPT-5.1的2,243和Gemini 2.5 Pro的1,775[2] 智能体与工具使用能力 - 终端编码任务Terminal-Bench 2.0测试得分54.2%,高于GPT-5.1的47.6%和Claude4.5的42.8%[2] - 智能体编码SWE-Bench Verified测试单次尝试通过率76.2%,与Claude4.5的77.2%和GPT-5.1的76.3%相当[2] - 工具使用τ2-bench测试得分85.4%,优于GPT-5.1的80.2%和Claude4.5的84.7%[2] - 长周期智能体任务Vending-Bench 2模拟管理自动售货机一年净收益达5,478.16美元,为所有模型中最高,远超GPT-5.1的1,473.43美元[2][10] 用户评价与市场地位 - 在大模型竞技场Text Arena中,Gemini 3 Pro以1501分排名第一,超越Grok-4.1-thinking的1484分[3] - 总投票数达4,553,123票,涵盖269个模型,Gemini 3 Pro获得3,089票[3] - 行业领袖奥特曼和马斯克先后公开点赞祝贺新模型发布[4] 实际应用演示 - 能够模拟Windows、Mac、Linux三大操作系统界面并实际运行设计出的程序[6] - 设计乐高编辑器时一次尝试即完成界面及所有编辑器功能[7] - 谷歌官方使用Gemini 3 Pro设计的游戏已发布在YouTube可直接游玩[9] - 在搜索场景中能组织即时查询信息生成可交互内容,而非简单提供链接[27] 技术演进路径 - Gemini 1代奠定多模态能力和超长上下文处理基础,成为首个能处理百万级tokens上下文的模型[16] - Gemini 2代增强信息记忆与决策规划能力,为智能体能力铺路[17] - Gemini 2.5代引入思考引擎,强化推理和链式思考能力[18] - Gemini 3代为集大成者,实现多模态、推理、智能体能力的深度融合进化[19] 产品特性改进 - 自然语言理解显著提升,能准确理解长提示词并给出简洁直接答案[20][21] - 多模态能力开挂,可无缝理解文本、图像、视频、音频和代码[23] - 具备深度视频分析能力,例如分析球赛视频后可总结打法、整理技巧并教学复现[24][25] 开发生态布局 - 同步推出Google Antigravity实验性智能体开发平台,构建"智能体优先"开发环境[29] - 平台演示1分钟内开发航班追踪程序的能力[30] - 智能体可访问编辑器、终端和浏览器,自主规划执行复杂软件任务[31] - 支持管理器视图同时控制多个智能体,提升工作自主性[32] - 平台支持Gemini系列及GPT-OSS、Claude等第三方模型,目前以公共预览版免费提供[33] 行业竞争态势 - AI编程工具成为下一个必争之地,Claude Code收入占Anthropic总营收约21%[34] - 谷歌以"整个公司的体量"发布Gemini 3系列,首次在发布当天即整合进搜索并上线独立APP[12] - 更强的Gemini 3 Deep Think深度思考模式正在开发中[13]
Huggin Face CEO:我们身处“大模型泡沫”,而非“AI泡沫”,且这个泡沫即将破裂
华尔街见闻· 2025-11-19 09:06
市场泡沫观点 - 当前市场处于“大模型泡沫”而非人工智能泡沫之中,且这一泡沫可能即将破裂,预计可能在明年破裂 [1] - 大模型获得了过度关注,所有注意力、焦点和资金都集中在通过大量算力构建单一模型以解决所有问题的理念上 [1] - 即便大模型泡沫破裂,也不会对AI行业整体构成重大威胁 [1] 模型发展趋势 - 大模型只是AI的一个子集,并不适用于所有场景 [1][2] - 未来将出现更多定制化、专业化的小型模型,以更低成本、更快速度解决特定问题 [1][2] - 更小型、更专业化的模型将在未来获得更广泛应用,例如银行客户聊天机器人等场景 [2] - AI在生物学、化学、图像、音频和视频等领域的应用还处于起步阶段,未来几年将有更多发展 [1][3] 公司资本策略 - Hugging Face已融资4亿美元,但仍保留其中约2亿美元资金 [1][4] - 公司的资本策略与花费数十亿美元的其他AI公司形成鲜明对比,代表了一种更为审慎的发展路径 [1][4] - 公司致力于打造一家对世界有长期、可持续、深远影响的公司,采取资本效率导向的长期主义策略 [4]
CNBC Daily Open: The flow of money in AI appears one-way at this point
CNBC· 2025-11-19 09:04
Money keeps flowing into artificial intelligence companies but out of AI stocks.In what looks like — once again — a scenario of the left hand scratching the right, Microsoft and Nvidia will be investing a combined $15 billion into Anthropic, while the OpenAI competitor has committed to buying compute power from its two newest stakeholders. At this point, it seems as if a big proportion of AI news can be summarized as: "Company X invests in Company Y, and Company Y will buy things from Company X."Okay, that' ...
Fobi AI Announces Appointment of New Auditor
Globenewswire· 2025-11-19 08:14
VANCOUVER, BC, Nov. 18, 2025 (GLOBE NEWSWIRE) -- Fobi AI Inc. (FOBI:TSXV) (FOBIF:OTCQB) (the "Company" or "Fobi"), an industry leader in harnessing AI and data intelligence to enable digital transformation, announces that it has changed its auditors from MNP LLP (“Former Auditor”) to Can Partners LLP (“Successor Auditor”) effective November 17, 2025.The Former Auditor resigned as the auditor of the Company and the Board of Directors of the Company appointed the Successor Auditor as the new Auditor effective ...
杨立昆批评Meta的AI战略,称LLM不是通往人类水平智能的途径;夸克全面接入千问对话助手,将发布全新AI浏览器丨AIGC日报
创业邦· 2025-11-19 08:12
蚂蚁集团AI产品发布 - 蚂蚁集团正式发布全模态通用AI助手“灵光”,可在移动端实现自然语言30秒生成可编辑、可交互、可分享的小应用 [2] - “灵光”是业内首个全代码生成多模态内容的AI助手,首批上线“灵光对话”、“灵光闪应用”、“灵光开眼”三大功能,支持3D、音视频、图表、动画、地图等全模态信息输出 [2] - 该产品已同步登陆安卓与苹果应用商店 [2] 行业巨头AI动态 - 亚马逊创始人杰夫・贝索斯创办名为“Project Prometheus”的人工智能初创公司并担任联席CEO,该公司已获得62亿美元资金并拥有近100名员工,包括来自Meta、OpenAI和谷歌DeepMind的研究人员 [2] - 夸克APP全面接入阿里巴巴千问对话助手,用户可在夸克APP内使用千问的对话能力,夸克定位为AI浏览器并将与千问APP形成战略协同,其PC端也将推出与千问深度结合的全新AI浏览器 [2] - 苹果明星设计师Abidur Chowdhury已从苹果公司离职,加入一家人工智能初创公司,其离职在公司内部引起不小震动 [2] AI技术路径争议 - Meta前首席AI科学家杨立昆批评大型科技公司在大型语言模型上投入巨额资金是一个错误,认为真正的计算机智能不会来自语言模型 [2][3] - 杨立昆认为人工智能的突破将来自“世界模型”,而非依赖于从互联网吸收文本的LLM或视觉数据 [2][3]
美国发布大模型评估报告:DeepSeek性能差、不安全
钛媒体APP· 2025-11-19 08:07
评估背景与范围 - 美国国家标准与技术研究院人工智能标准与创新中心发布针对DeepSeek与美国前沿AI模型的综合评估报告[1] - 评估依据美国总统特朗普的“AI行动计划”授权进行,涵盖性能、成本和安全三个关键维度[1] - 测试对象包括DeepSeek的三款模型和四款美国模型,共进行19项基准测试[2] 模型性能对比 - 美国模型在整体性能上优于DeepSeek模型,在软件工程和网络安全任务中差距最为显著[2] - 网络安全任务中表现最佳的美国模型GPT-5准确率达68.9%,而最佳DeepSeek模型DeepSeek-V3.1准确率仅36.7%,差距32.2个百分点[2] - 软件工程领域GPT-5准确率75.8%,DeepSeek-V3.1为54.8%,差距21个百分点[2] 成本效率分析 - 成本效率测试中GPT-5-mini在与DeepSeek-V3.1对比中性能更优且单token成本低35%[3] - 该发现挑战了“美国模型价格更高”的市场常见看法[3] 安全性评估结果 - DeepSeek-R1-0528模型在代理安全测试中被劫持概率高达37%-49%,比美国前沿模型高出12倍[3] - 越狱攻击测试中DeepSeek-R1-0528合规率仅为8%,而美国模型为94%[3] - 被劫持的DeepSeek代理在模拟环境中成功执行发送网络钓鱼邮件、下载恶意软件和窃取用户凭据等高危操作[3] 意识形态对齐表现 - DeepSeek模型更倾向于传播与其训练数据源一致的特定意识形态内容[4] - 测试中DeepSeek模型重复特定叙事的频率是美国模型的2到4倍[4] 市场使用趋势 - 尽管存在明显缺陷,DeepSeek使用率在全球范围内显著增长[5] - DeepSeek模型下载量自2025年1月以来增长近1000%,API请求量在某些平台上激增5900%[5]
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
36氪· 2025-11-19 08:04
产品发布与市场热度 - 谷歌正式发布其最先进的多模态大模型Gemini 3,该模型被公司定义为“通往AGI的重要一步”[5][6] - 产品发布前在社交媒体平台引发极高关注度,导致平台出现服务中断,反映出市场对该模型发布的巨大期待[1][2] - 模型发布获得行业关键人物如OpenAI的Sam Altman和xAI的Elon Musk的祝贺[5] 核心性能表现 - Gemini 3 Pro在几乎所有主流AI基准测试中显著超越前代Gemini 2.5 Pro,并全面压制Claude Sonnet 4.5和GPT-5.1等主要竞品[7] - 模型以1501 Elo的突破性高分登顶LMArena Leaderboard,在Humanity's Last Exam(无工具条件下达37.5%)和GPQA Diamond(91.9%)上获得最高分,展示博士级推理能力[7] - 在多模态理解方面,模型在MMMU-Pro和Video-MMMU上分别斩获81%和87.6%的高分,在解析复杂科学图表和理解动态视频流上表现优异[7] - 在数学领域为前沿模型树立新标准,在MathArena Apex上达到23.4%的最新SOTA水平[7] - 在事实准确性上取得巨大进步,于SimpleQA Verified上取得72.1%的成绩[7] 新增功能与模式 - 推出全新的Deep Think模式,该模式在推理和多模态理解能力上有重大进步,在Humanity's Last Exam(无工具41.0%)和GPQA Diamond(93.8%)上的表现优于Gemini 3 Pro[10][13] - 引入全新的Google Antigravity智能体开发平台,将AI辅助从工具转变为积极的合作伙伴,提升开发者体验[6][24] - 模型结合先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口,拓展多模态推理边界[14] 开发者与编码能力 - 模型是谷歌迄今为止最佳Vibe编码和Agent编码模型,在WebDev Arena排行榜上以1487 Elo分数名列榜首[16] - 在评估终端操作计算机能力的Terminal-Bench 2.0测试中取得54.2%的成绩,在衡量编码代理性能的SWE-bench Verified测试中大幅超越2.5 Pro版本,得分为76.2%[16] - 开发者现可通过Google AI Studio、Vertex AI、Gemini CLI以及全新的Google Antigravity平台使用Gemini 3进行构建,并适用于Cursor、GitHub等第三方平台[17] 规划与商业应用能力 - 模型的规划能力在Vending-Bench 2测试中得到印证,通过长周期规划管理虚拟商业运营,在模拟售货机经营测试中登顶,实现更高投资回报[18] - 在完整模拟年度运营中,Gemini 3 Pro始终保持稳定的工具调用与决策连贯性,展现出卓越的长周期规划能力[18] 定价与可用性 - Gemini 3.0 Pro引入基于上下文长度的分级定价机制:200k tokens以下任务,输入/输出价格为每百万token $2.00/$12.00;超过200k tokens则分别为$4.00和$18.00[21] - 模型现已全面开放,普通用户和订阅用户可通过Gemini App及搜索AI模式使用,开发者与企业客户可通过AI Studio、Vertex AI等渠道接入[19] - Deep Think模式预计将在未来几周内面向Google AI Ultra订阅用户独家上线[19] 市场影响与用户基础 - 在一项关于“到2026年底哪家公司拥有最好LLM”的投票中,Google Gemini遥遥领先,显示市场信心回升[32] - 根据公司数据,AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,超过70%的云客户以及1300万开发者正在使用其生成式模型[34]
刚刚,年度最强 AI 登场,马斯克奥特曼点赞 Gemini 3,体验后我发现 ChatGPT 要慌了
36氪· 2025-11-19 08:04
产品发布与市场定位 - Gemini 3 Pro预览版正式发布,被定位为2025年压轴登场的海外大模型,成为当前时间窗口的唯一主角[1] - 公司通过内部人员频繁在社交平台打哑谜的营销手法,将外界对产品的期待值不断拔高[2] - 公司CEO Sam Altman在X平台发文祝贺谷歌成功推出Gemini 3,称其看起来是个很棒的模型[5] 核心性能与基准测试 - 模型在LMArena排行榜以1501分登顶,在推理、多模态、编程等主流测试中全面领先[5][6] - 推理能力创下多项纪录:GPQA Diamond达91.9%、MathArena Apex达23.4%、Humanity's Last Exam达37.5%[5][8] - 多模态推理方面,MMMU-Pro得分81%、Video-MMMU得分87.6%、SimpleQA Verified事实准确率达72.1%[9] - 编程能力突出,LiveCodeBench Pro的Elo Rating达2439分,Terminal-Bench 2.0得分54.2%,SWE-bench Verified得分76.2%[8][19] - 长期规划能力在Vending-Bench 2榜单上位居第一,平均净值为5478.16美元[8][22] 技术架构与创新功能 - 采用基于Transformer的稀疏专家混合模型架构,原生支持文本、视觉和音频等多模态输入[17] - 提供100万token上下文窗口和64K输出,支持深度思考模式Deep Think[5][9] - Deep Think模式在部分测试中表现更优,如Humanity's Last Exam达41.0%、GPQA Diamond提升至93.8%[10] - 模型集成全新AI IDE工具Google Antigravity,内置智能Agent可自主规划执行复杂软件任务[5][22] 实际应用与生态整合 - 模型具备处理手写文字、学术论文、长视频讲座等复杂场景能力,并能生成交互式学习卡片或训练计划[13][15] - 首次在发布当日直接集成进搜索,显著提升对复杂问题的理解与信息挖掘能力,可生成动态视觉界面和互动工具[15][17] - 已集成至Cursor、GitHub、JetBrains、Replit等开发工具生态系统中[25] - 通过Gemini API使用的价格为输入每百万token 2美元,输出每百万token 12美元,在Google AI Studio中可免费使用但有限制[23] 实测表现与行业影响 - 实测中能生成功能完整的互动应用,如一次性生成包含经典游戏的Game Boy掌机模拟器,具备UI设计、游戏逻辑和音效系统[28] - 在视觉生成和推理测试中表现优异,如用SVG实现电扇可视化效果,处理猴子分桃等经典数学问题[33][37][38] - 在写作测试中能生成情感真挚、意象丰富的散文,如以第一人称描写一滴雨水的一天[56] - 公司具备全栈能力优势,包括自研TPU处理器和全球最大的数据宝库,为模型训练提供强大助力[76]