量子位
搜索文档
6小时告破30年数学难题,亚里士多德一夜成名
量子位· 2025-12-01 13:45
AI数学证明突破 - Harmonic的数学AI模型独立证明了Erdős问题 124的简易版本,该问题已悬置近30年[1] - 解决方案100%由AI生成,总计耗时6小时[3] - 顶尖数学家陶哲轩对比发现Harmonic模型在该问题证明上表现优于Gemini和ChatGPT的深度研究工具[4] 数学问题细节 - 原版Erdős问题 124证明要求为∑(1/(dᵢ-1))≥1,且不允许使用数字1并需满足gcd条件,仅对特定集合{3,4,7}部分解决[8] - Harmonic证明的简易版本允许使用数字1且不需要gcd条件,只要满足∑(1/(dᵢ-1))≥1就能凑出所有大整数,证明已获Lean形式化验证[8] - 证明过程中修正了形式化猜想项目中的一个笔误,将条件从=1改为≥1,使表述更准确[10][11] Harmonic公司背景 - 公司目标为打造世界上最先进的数学推理引擎[16] - 两位联合创始人为CEO Tudor Achim(卡内基梅隆大学计算机科学学士、斯坦福大学计算机科学PhD在读)和执行主席Vlad Tenev(斯坦福大学数学学士、加州大学洛杉矶分校数学硕士)[17][18][21] - Vlad Tenev同时兼任金融公司Robinhood Markets的CEO[22] - 公司约一周前完成1.2亿美元(约合人民币8.5亿)C轮融资,由Ribbit Capital领投,估值达14.5亿美元(约合人民币103亿)[23][24] 技术能力 - 旗舰模型Aristotle(亚里士多德)是第一个在2025年国际数学奥林匹克竞赛中给出五道题形式化验证解决方案的模型,达到金牌级别表现[24][25] - 此次使用的Aristotle模型经过更新,具有更强大的推理能力和自然语言界面[26] - 公司联创称数学领域正处深刻变革边缘,"Vibe证明时代已经到来"[15] 行业影响 - AI解决复杂数学问题的能力不断突破,有望攻克更多被搁置的百年难题[27] - 此次证明展示了AI在数学推理领域的巨大潜力,引发行业广泛讨论[14]
免费国产Banana真香!我想把PS给卸载了
量子位· 2025-12-01 13:45
生数科技Vidu Q2产品功能升级 - 参考生图功能在空间想象力和一致性上大幅进化,可参考元素包括人物、物体、动作、位置、布局、纹理、光线、色调等,实现1:1还原 [12] - 全新上线文生图和图像编辑功能,通过自然语言指令即可实现复杂编辑,如改变图片比例、调整时间从白天到夜晚、修改人物衣服颜色等 [9][37][46][48] - 构建一站式多参工作流,用户可在同一界面完成生图、生视频、保存主体等操作,无需频繁切换平台,实现从图到视频的一站式生成 [52][54][56] Vidu Q2技术性能与市场表现 - 在最新的AA榜单中,Vidu图像编辑功能首次参与即位列第四,超越OpenAI,与Google、Bytedance等大厂比肩,其模型Vidu Q2的ELO评分为1,146 [9][11] - 参考生图功能在处理多主体融合时展现出业界领先的一致性,测试中能精准保持五个主体的原貌并符合物理规律地调整细节 [8][24][26] - 生成速度为4K高清画质,公司宣称其产品为国产Banana平替,具备性价比高、生成速度更快的特点 [10][11] 商业化策略与用户价值 - 提供限时免费优惠,Q2文生图、参考生图、图像编辑功能限时1个月会员免费,旗舰版会员生图无限量,标准版和专业版每月享300张免费生图 [11] - 大幅降低AI内容生成的试错成本和门槛,使AI生图、生视频能够应用于商用领域,例如可在5分钟内完成变装视频制作 [56][57] - API已同步上线,为创作者提供从参考生图到参考生视频的完整工作流,提升实用性和便捷性 [11][57]
联通破解扩散模型速度质量零和博弈,推理速度提升5倍丨CVPR 2025 Highlight
量子位· 2025-12-01 12:26
技术演进脉络 - 中国联通数据科学与人工智能研究院团队在CVPR 2025上发表了ShortDF论文,提出了基于在线训练模式的图论加速理论[1][4] - 半年后,该团队在NeurIPS 2025上发表了LeMiCa论文,创造了离线建图新范式,将图论思想适配到更高维度的文生图/视频生成任务中[2][4] - 技术路径清晰地从理论探索(ShortDF)走向复杂应用(LeMiCa),展现了技术进阶之路[4][42] 行业核心痛点 - 扩散模型(如Sora、Stable Diffusion)昂贵的推理开销是阻碍实时应用的最大路障[8] - 去噪轨迹是一条高度非线性的弯曲路径,导致现有方案面临速度与质量的“零和博弈”[9][10] - 现有加速方法在极低步数(<5步)下会出现画质崩塌和细节丢失问题[11] ShortDF核心机制 - 创新性地引入“最短路径优化”思路,在训练阶段直接拉直去噪轨迹[12] - 锁定“误差上界”进行源头优化,通过压低初始残差来限制后续累积误差[14][15][16] - 采用图论松弛策略压缩路径,让模型以伪递归方式自我修正,实现去噪路径全局最优[21][22][27] - 设计多状态优化机制,通过维护三个不同角色的模型副本确保训练稳定性[29][30] 性能表现 - 在CIFAR-10数据集上,仅需2步即可完成高质量生成,推理速度相比DDIM的10步基准提升5.0倍[36] - 2步设置的FID达到9.08,显著优于DDIM 10步的11.14,画质FID提升18.5%[36] - 在复杂场景下,ShortDF在8步生成的教堂图像质量能媲美DDIM 15步的效果[43] - 在10步推理下,人脸生成的FID降至5.0,远超DDIM的10.59[43] 行业意义 - 首次建立了残差传播与图论最短路的数学联系,提供了普适性的高效解决方案[40] - 证明精细化的数学建模比单纯的“算力堆砌”更能打破扩散模型速度枷锁[41] - 对推动AIGC技术在移动端设备、实时交互设计等资源受限场景落地具有里程碑意义[42]
ChatGPT广告代码泄露!奥特曼一年三变脸:从“广告令人不安”到“并非完全不可取”
量子位· 2025-12-01 12:26
广告变现战略转变 - 公司安卓应用测试版代码中发现多个与广告相关的引用,包括"ads feature"、"search ad"等具体形式[1][11] - 公司首席执行官对广告的态度从2024年5月认为"是最后的手段"转变为2025年10月"并非完全不可取"[3][4] - 技术细节显示广告系统已相当成熟,距离正式上线不远[5] 广告产品形态 - 代码显示公司准备了至少三种广告展示方式:单一搜索广告、搜索广告轮播、类似电商集市的展示单元[12][13][18] - 广告模式可能侧重于交易佣金模式,即在提供最佳答案后收取交易费,而非付费排名[22] - 公司内部已考虑允许根据用户记忆或了解来投放广告[24] 财务压力与变现潜力 - 汇丰银行分析指出,仅维持算力基础设施每年就可能需要数千亿美元[8] - 公司目前ChatGPT Plus订阅和API授权收入远无法覆盖成本,预计2029年前累计亏损可能超过1000亿美元[9][10] - ChatGPT用户规模达每周8亿活跃用户,每日处理25亿次对话,较2023年11月的1亿用户增长7倍[14] 组织与文化影响 - 公司从Meta吸收了约630名前员工,占员工总数20%,其中包括应用首席执行官等重要领导职务[23] - 广告收入占Meta营收97%以上,Meta前员工的加入可能影响公司对商业模式的考量[23] - 用户访谈显示部分用户认为ChatGPT中已有广告,一些员工以此为由力主添加广告功能[25]
量子位编辑作者招聘
量子位· 2025-12-01 12:26
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均在北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求包括对芯片、GPU、NPU、服务器、模型训练架构、云计算有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品与硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态及体验方法论,并有强逻辑与结构化表达能力[11] 加入公司的潜在收益 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 通过撰写独家原创内容,可建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的团队氛围[6] - 可获得行业TOP薪资待遇及五险一金、餐补、绩效、加班补助等福利[6] 通用岗位能力要求 - 主编职位需具备选题和带队能力及经验[6] - 主笔职位需具备原创深度稿件能力[6] - 编辑职位需热爱表达,喜欢挖掘信息,并能用通俗语言解读AI进展[6] 应聘方式 - 应聘者需将个人简历发送至指定邮箱,邮件主题需注明应聘方向及姓名[11] - 需随简历附上科技行业代表作品或能展现个人写作水平的作品[11]
6B文生图模型,上线即登顶抱抱脸
量子位· 2025-12-01 12:26
模型发布与市场表现 - 阿里通义发布全新6B参数图像生成模型Z-Image,首日下载量高达50万次 [1] - 模型上线不到两天即登顶HuggingFace两个榜单第一 [1] - 模型虽小但出图质量不输同期发布的FLUX.2,在画质、文本、推理等方面达到SOTA级别 [3] 模型版本与技术特点 - Z-Image-Turbo版本已开源,参数量约6B,在写实风格图像生成和中英文文本精准渲染方面表现较好 [8] - Z-Image-Edit版本针对图像编辑任务微调,可上传图片并通过自然语言指令进行精确修改 [8] - Z-Image-Base版本为未压缩的完整基础模型,面向开发者和研究者 [8] - 模型采用可扩展的单流DiT架构,将文本token、视觉语义token和图像VAE token统一处理,减少参数冗余和计算浪费 [35] - 通过Decoupled-DMD蒸馏技术,仅需8次函数评估即可生成高清图像,大幅提升速度 [39][40] 图像生成能力评估 - 在真实感和美学处理上表现出色,能生成具有电影级真实感的场景和接近专业影棚级的写实肖像照 [11][14] - 具备较强的文字处理能力,能较好处理一级标题的渲染,但小字号文字仍存在变形问题 [18][19] - 语义理解能力到位,能根据指令生成符合要求的科普漫画内容 [20][22] - 用户生成内容涵盖复古电影质感大片、微观迷你世界场景、显微镜级别昆虫特写等,展示模型多样化应用潜力 [24][27][30] 性能优势 - 模型架构优化和蒸馏技术结合,在不牺牲质量的前提下大幅减少计算量,实现高效运行 [34][43] - 网友反馈模型能流畅运行在个人电脑上且不烧显卡,凸显其易用性和低资源消耗优势 [7]
对商户投放ROI负责,这个视频营销Agent底气从何而来?丨对话布尔向量
量子位· 2025-11-30 19:30
文章核心观点 - 文章核心观点是介绍布尔向量公司推出的AI视频智能体Temvideo,该产品是全球首个面向营销场景的AI视频智能体,旨在解决跨境电商等领域视频制作效率低、成本高的痛点 [11] 其核心价值在于帮助电商用户完成最终转化,让视频投放的点击率和转化率保持高位 [12][16] - 产品已从视频生成工具进化为更灵活、能听懂人指令、更注重结果交付的Agent,其设计逻辑沉淀了各类行业经验,基于大卖的经验生成能出单的视频 [7][9] - 在AI营销领域,目前大部分需求由工具满足,但未来处理复杂任务时Agent化是必然趋势,而整个电商行业真正应用AI视频生成技术的商家估计不到10% [14][56][71] 产品核心价值与用户 - Temvideo的核心价值是真正帮电商用户完成最终转化相关操作,让视频投放的点击率和转化率保持高位,同时提升剪辑师及相关投放的效率 [12][16] - 产品核心用户是全球范围内年营收在1000万到1亿元之间、有广告投放需求的电商用户,他们最关注生成视频后是否能"一刀不切"直接使用,以及投放ROI能否达到预期 [12][22][27] - 用户使用流程简单,但后台操作复杂,需要理解视频片段、自动切分筛选、生成脚本、匹配画面拼装,并完成加BGM、口播等辅助工作 [19][20] 产品功能与技术架构 - 产品核心功能包括批量混剪、虚拟人&图转视频、电商多语言翻译,支持一键批量生成营销视频,AI自动识别解析素材并提炼卖点 [13] - 技术架构采用"大模型+行业模型"的整体框架,以通用大模型为基座,并引入大量行业AI算法和模型进行补充,以提升在细节处理上的精度 [12][30] - 产品调用约50-60个AI能力,能根据不同任务需求精准调用对应的AI能力,但生成一个视频可能需要2-5分钟,远长于前代产品Boolvideo的10-20秒 [52] 行业Know-how与核心竞争力 - 公司的底气在于拥有懂内容、懂投放、懂跨境电商的团队,并与用户深度磨合沉淀行业know-how,这是敢于对业务指标负责的核心 [12][38] - 模板化是沉淀行业know-how的视觉呈现,通过分析行业内高ROI的投放视频,用AI将其解构为优质模板或脚本沉淀到系统中 [12][35][40] - 在AI应用层最核心的竞争力是"Taste",即能精准把握用户需求并转化为视觉呈现和内容沉淀,而最大的护城河是对To B端行业的深耕和know-how的沉淀 [14][44][47] 市场空间与商业化 - 全球电商市场规模已突破1万亿美元,TikTok Shop的GMV已突破1000亿元,市场对高质量、能带来实际结果的内容需求巨大 [76] - 潜在商业模式包括按视频条数收费和按效果分成两种,核心在于保证内容的精准性和结果导向 [78][79] - 当前行业在商业化上需找寻"用户结果交付"与"成本控制"的平衡点,尽管Token成本不低,但长远看价格会降低,未来理想状态是实现从"按个数付费"到"按效果付费"的转型 [92][94][98] 产品迭代与用户反馈 - 产品迭代是从最终投放的ROI倒推,挖掘漏洞并优化的过程,持续收集用户反馈,分析效果不佳的原因,通过技术优化降低人工调整成本 [82][85] - 目前AI剪辑的视频在Meta投放上,效果已基本与人工剪辑的视频齐平,CTR转化方面不逊色于人工 [21] 生成5个视频中约有2-3个符合需求、可直接使用 [63] - 视频理解能力成熟后,服务客户所需的人工调整比例从最初的70%逐步降至10%、5%,甚至无需调整 [37]
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
量子位· 2025-11-30 19:30
AI发展现状与趋势 - AI发展并未放缓,而是呈现平稳的指数级增长,类似于摩尔定律,其进步由新技术、算力提升和工程优化共同驱动 [13][15][16][17] - 行业底层范式正经历从预训练模型向推理模型的静悄悄但本质性的转换,其意义不亚于Transformer的诞生 [1][2][18][19] - 外界感觉进展变慢的原因包括:预训练处于S曲线上升后期,投入产出比下降;行业重心转向更小、更便宜但质量相当的模型 [19][21] 推理模型的技术特点 - 推理模型的核心在于思维链,即在给出答案前先进行思考,并可使用工具(如浏览网页)以提升答案准确性 [23][27][28] - 训练方式从传统的梯度下降转向强化学习,通过奖励机制和细致的数据准备来优化模型,未来将应用更复杂的强化学习 [29][30] - 多模态推理是下一个突破点,目前仍处于起步阶段,强化学习将助力其进一步提升 [9][32] OpenAI模型迭代策略 - GPT-5.1并非简单的小版本迭代,而是一次巨大的稳定性迭代,改进集中于后训练阶段,如增强安全性、减少幻觉、增加风格选择 [34][36] - 版本命名规则转变为以用户体验为导向,例如GPT-5为基础模型,GPT-5.1为能力更优版本,Mini为更小更快的版本 [38] - 内部采用多项目并行(强化学习、预训练等)再通过蒸馏技术整合的灵活开发模式,大大缩短了模型迭代时间 [38] 模型能力与挑战 - 模型能力实现质的飞跃,例如ChatGPT从直接记忆答案转变为主动推理,Codex已改变程序员的工作流程 [23][24] - GPT-5.1在复杂任务(如奥林匹克竞赛题)上表现优异,但在需要多模态推理和上下文迁移的简单任务(如奇偶数判断)上仍存在明显短板 [41][42] AI未来应用展望 - AI不会让人类完全失去工作,高风险、高关注度场景仍将依赖人类专家,但基础工作的可替代性将提高,工作内容将发生变化 [10][62][65][66] - 家用机器人被视为继ChatGPT之后最直观的AI革命,其进展取决于多模态能力、通用强化学习和物理世界推理的突破 [11][67][69] Transformer与OpenAI背景 - Transformer的八位共同作者从未在同一物理房间共同工作,当时业界对单一模型处理多任务的想法普遍不理解 [50][51] - OpenAI内部组织架构灵活,根据项目自发组队,但存在GPU资源竞争,预训练消耗资源最多,其次是强化学习和视频模型 [55][56][57]
居然有21%的ICLR 2026评审纯用AI生成…
量子位· 2025-11-30 14:45
研究背景与发现 - CMU研究员Graham Neubig因收到同行评审内容“非常冗长,且包含大量符号”而怀疑其为AI生成[2] - Pangram实验室通过系统性检测发现ICLR 2026会议存在大规模AI代写现象[7] - 分析样本包括19490篇论文投稿和75800条审稿意见[8] AI生成内容检测方法与结果 - 检测论文正文时使用extended text classifier,按段落切分判断AI生成比例[12][13] - 检测评审内容时使用EditLens模型,区分五个AI参与级别[18] - 15899条评审高度疑似完全由AI生成,占评审总数21%[9][21] - 61%论文为人工撰写,199篇论文完全由AI生成,占总数量1%[24] - 超过一半的评审涉及不同程度AI参与行为[22] AI生成内容特征分析 - AI生成的评审偏好使用粗体章节标题,标题由2-3个摘要标签组成[47] - 评审内容关注表面问题,如要求增加消融实验、测试集大小或提供更多示例[48] - AI评审字数较多但信息密度低,建设性建议少,评论空洞[40] - 与传统“长审稿=高质量审稿”的认知完全相反[41] AI使用对评审质量的影响 - 论文中AI内容越多,平均收到的审稿评分越低[34] - 审稿中AI参与程度越高,给出的评分越高[38] - AI审稿倾向宽松友好态度,评分偏高[38] 学术会议规范与行业影响 - ICLR明确规定使用AI必须披露,作者和评审者最终对其贡献负责[29][31] - ICLR首次大规模遇到AI生成内容问题,开始用自动化工具评估违规行为[27][28] - 大规模AI代写现象消耗同行之间的信任,影响学术共同体[43][57]
告别GUI Agent工程基建噩梦:阶跃开源4B Agent模型,跑通所有安卓设备,手搓党一键部署
量子位· 2025-11-30 14:45
公司核心产品发布 - 阶跃星辰开源了名为GELab-Zero的GUI Agent模型及其完整配套基础设施,支持一键部署[1] - 该产品包含三个主要部分:一个能在本地运行的GUI Agent模型(GELab-Zero-4B-preview)、一套即插即用的完整推理工程基建、以及基于真实业务场景的自建评测标准AndroidDaily[14] 模型性能与优势 - 其4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录,取得SOTA成绩[2] - 该4B预览版模型在多项开源基准测试中超越其他主流模型,拿下同尺寸SOTA,其表现甚至超越了参数量更大的GUI-Owl-32B等模型,性能更优且更易部署[11][13] - GUI Agent基于视觉理解即可适配几乎所有App,无需厂商额外改造,接入成本极低[4] 产品能力与场景应用 - 模型能够很好地执行复杂任务和模糊指令,可以准确、流畅地执行涉及多步骤、多主体、重复操作的任务,也能对偏笼统和主观性的指令进行自主拆解并确定执行路径[24] - 示例场景显示,模型能在外卖平台完成同时采购跨品类、不同规格和数量商品的复杂任务,也能在企业福利APP中领取餐券,展示了其在国民级APP和小众平台上的任务泛化能力[17][18][19] - 对于模糊指令,如“找个周末能带孩子去玩的地方”,模型能自主搜索、判断衡量标准并为用户推荐地点及提炼亮点[22][23][24] 技术架构与基础设施 - 针对GUI智能体构建了一整套完整的技术架构体系,可以一键拉起获得类似开源GUI Agent MCP的体验[25] - 具体能力包括:支持4B模型在消费级硬件上运行的轻量级本地推理、提供统一部署流水线的一键任务启动、可分发到多台手机并记录交互轨迹的多设备任务分发、以及涵盖ReAct闭环、多智能体协作和定时任务等多种工作模式[26] - 这套基础设施旨在降低开发与使用门槛,让开发者专注于创造价值,而非重复搭建底层设施,以推动移动端Agent真正规模化[7][30] 评测基准创新 - 公司同步开源了基于真实业务场景的自建评测标准AndroidDaily,以期推动GUI领域模型评测向消费级、规模化应用发展[5] - AndroidDaily是一个面向真实世界、动态演进的多维基准体系,聚焦现代生活六大核心维度:饮食、出行、购物、居住、信息消费、娱乐,并优先选择高频使用、日活排名靠前的代表性主流应用进行测试,高度还原真实任务执行流程[33] - 该基准采用静态评测和端到端评测双轨评估体系,其中静态测试包含3146个actions评估数值准确率,端到端测试包含235个任务以整体任务成功率作为评价指标,能真实反映智能体在复杂环境中的综合能力[35][37][38]