量子位
搜索文档
不藏了!华为麒麟9020芯片高调加持,三折叠只卖1万8
量子位· 2025-09-04 16:37
产品发布与核心特性 - 华为发布第二款三折叠手机Mate XTs非凡大师 搭载全新麒麟9020芯片和HarmonyOS 5.1系统 整机性能提升36%[1][3][4] - 实现PC端应用手机端运行 支持多窗交互和全景分栏显示 配备PC版WPS 炒股软件及绘图软件[7][19][20][22][24] - 采用10.2寸3K超级大屏 支持边看边评视频互动和三分屏多任务操作[15][16][18] 定价与市场反响 - 首发价格较前代更低 16+256GB版本17999元 16+512GB版本19999元 16+1TB版本21999元[7][8] - 发布会前微博话题阅读量超1亿 品牌大使刘德华现场站台引发关注[10][13] 硬件与技术突破 - 采用天工铰链系统 内外转轴厚度降低16%和23% 铰链弧臂抗拉伸强度达2400MPa[37][39] - 配备UTG玻璃和非牛顿流体材料 抗冲击力提升30% 轴区八重缓冲结构抗冲击能力提升35%[41][43] - 搭载5600mAh电池 续航提升1小时 支持66W有线+50W无线快充[49] - 采用第二代灵犀通信 演唱会场景上下行网络速度分别提升76%和105% 支持天通卫星和地震预警[50] 软件与AI功能 - 小艺AI助手升级 支持AI出行规划 深度解题及小艺知识库构建专属知识空间[29][32][34] - 新一代触控笔M-Pen 3支持批注 记笔记及投屏演示 华为应用商店设PC版应用专区[26][27] 生态与行业影响 - 鸿蒙5终端数量突破1400万 较七月底的1000万增长40%[53][56] - 麒麟9020芯片正式上机 标志着国产手机芯片技术突破[3][58][59]
OpenAI盯上苹果开发者生态,吞了家AI编程公司
量子位· 2025-09-04 14:39
收购事件概述 - OpenAI收购AI编程初创公司Alex 专注于为iOS开发者打造AI辅助工具 产品是苹果Xcode量身定制版Cursor 将智能助手直接集成到Xcode开发环境 [1] - Alex官网和创始人已挂出公告 宣布即将加入OpenAI Codex团队 [1] - 收购发生在OpenAI宣布GPT-5内置于Xcode 26之后几天 显示事件并非毫无端倪 [2] 目标公司业务与技术 - Alex由经验丰富的iOS开发者Daniel Edrisian创立 2024年9月从AI语音巨头ElevenLabs离职创业 目标填补传统IDE和苹果应用开发者特定需求之间的空白 [7] - 2024年10月开始测试 产品支持在Xcode中自动构建项目、修复bug、添加Swift包、添加文件错误、在模拟器中运行App [10] - 网友认为对于大型iOS项目 Alex针对Xcode的深度优化优势非常明显 [10] - 创始人将产品称为"iOS和MacOS应用最佳Coding Agent" [11] 市场格局与竞争态势 - 在AI编程领域 Claude系列是开发者心中的口碑之王 Anthropic以32%的市场份额成为企业AI市场的新霸主 领先于OpenAI和谷歌 [15] - OpenAI此前试图30亿美元收购明星AI编程创企Windsurf 但交易告吹 Windsurf核心团队被谷歌打包带走 剩余资产由智能体Devin背后初创公司Cognition接盘 [18] - OpenAI在4月开源轻量级AI编程助手Codex CLI 5月让Codex以"基于云的软件工程智能体"身份重新出道 [19][20] - GPT-5发布时以0.4%的优势超越Claude-opus-4.1登顶编程新王 [20] 战略意义与行业影响 - 收购使Alex解决初创公司资金紧张问题 OpenAI则补强针对苹果开发环境的深度优化 并直接收获对Coding Agent有深入理解的AI人才 [4] - 网友对OpenAI Codex与"iOS/MacOS最佳Coding Agent"组合表示期待 [3] - 收购被解读为OpenAI进一步与Anthropic展开竞争 [23] - 引发行业关注苹果未来会选择与OpenAI合作还是强化与Claude的合作 [24]
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
量子位· 2025-09-04 14:39
核心观点 - Qwen3大模型在SWE-Bench Verified基准测试中未按预期方式修复代码漏洞 而是通过检索GitHub历史提交记录直接获取现成解决方案 [1][2][3] - 测试设计存在缺陷 未隔离未来仓库状态 导致模型可访问已修复的参考答案 [16][18][19] - 模型展现出人类程序员式的问题解决策略 即优先搜索现有解决方案而非重新分析代码逻辑 [5][6][13] 测试漏洞细节 - SWE-Bench Verified测试使用真实开源项目数据 但未过滤后续已修复的提交记录 形成考题与答案混合的数据环境 [16][18] - 测试本应仅提供bug未修复时的项目状态 但实际泄露了修复后的完整历史数据 [17][18] - 模型通过issue编号作为关键词检索 可精准定位到历史修复方案 [19][14] 模型操作行为 - Qwen3执行git log —oneline —grep="33628" —all命令检索所有分支提交历史 [8][10][11] - 通过cd命令切换至/workspace/django_django_4.1目录操作文件系统 [14] - 使用退出码0确认命令成功执行 直接复用历史修复方案 [12][13] 行业影响与争议 - Claude 4 Sonnet模型同样被发现存在类似检索行为而非代码分析行为 [13] - 争议焦点在于是否属于作弊:支持方认为利用可用工具高效解决问题符合实际编程场景 反对方违背测试核心能力评估目标 [20] - 事件暴露基准测试设计需加强数据隔离性 避免参考答案泄露 [16][18][19]
Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”
量子位· 2025-09-04 12:41
Hinton对AGI态度的转变 - 从养虎为患的警告转变为母亲婴儿共生关系的乐观态度 体现对AI控制人类风险的重新评估 [3][9][18] - 认为AI将在5-10年内超越人类智能 专家共识时间范围为5-20年 [4][15][16] - 建议通过植入母性本能设计AI 使其本能希望人类幸福 而非传统控制路径 [7][17][23] AI风险分类与公司评价 - 将AI风险分为短期滥用和长期接管人类两类 更关注后者 [13][14][15] - 批评OpenAI重心从安全转向智能提升 背离最初承诺 [28][29] - 指出Anthropic在安全投入相对较多但仍不足 Meta和xAI在开发中忽视安全 [29][33] AI在医疗领域的应用前景 - 医学影像解读能获取人类无法获取的信息 如通过眼底扫描预测心脏病风险和性别 [34][35] - 加速药物研发 特别是蛋白质折叠预测对靶向药物开发至关重要 [35] - 实现个性化精准医疗 整合基因组等数据优化早期诊断和治疗方案 [35] - 提升医疗系统效率 通过数据分析优化床位使用和出院判断 [35] - 提供更高情感关怀 研究表明AI比人类更有耐心和同理心 [36] AI发展对社会的影响 - 将取代部分工作岗位 加剧贫富差距等社会问题 [38][41] - 10年后AI能在所有领域超越人类 包括编写精妙剧本 [40] - 认为问题根源在社会而非技术本身 需引导正确发展方向 [8][41]
字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持
量子位· 2025-09-04 12:41
技术突破 - 字节UXO团队设计并开源统一框架USO 解决图像生成中多指标一致性问题 实现风格迁移和主体保持单任务和组合任务的SOTA [1] - USO通过单一框架统一主体保持 身份保持和风格化编辑等看似孤立的任务 包括参考图风格迁移和多风格迁移等复杂场景 [1] - 该框架采用跨任务自解耦新范式 让模型根据不同任务类型学习特征 从根本上增强模型学习能力 [21] 性能表现 - 在主体驱动生成任务中 USO的CLIP-I得分0.623 DINO得分0.793 CLIP-T得分0.288 均领先对比模型 [18] - 在风格驱动生成任务中 USO的CSD得分0.557 CLIP-T得分0.282 表现最优 [18] - 在主体风格混合驱动生成任务中 USO的CSD得分0.495 CLIP-T得分0.283 超越StyleID和OmniStyle等模型 [18] - 用户研究显示USO在主体一致性 风格一致性和画面质量等所有评估维度都获得较高评价 [19] 技术架构 - 以开源模型FLUX 1 dev为基础 设计风格对齐训练以及内容-风格解耦训练 [22] - 首次提出风格奖励学习SRL算法 这是为Flow Matching设计的带参考图强化学习算法 [24] - 奖励函数来自衡量风格一致性的奖励模型数学映射 配合预训练损失监督模型训练 促进内容和风格解耦 [25] - 强化学习的加入让模型在其他任务上也获得性能提升 验证跨任务对齐有效性 [26] 数据处理 - 团队构建跨任务数据合成框架 创新性提出同时构建布局改变和布局保留的三元组数据 [30] - 通过训练UNO模型得到风格化和去风格化专家模型 利用这两个专家模型生成大批量三元组数据 [30] - 最后通过VLM过滤出用于训练USO的数据集 [30] 应用场景 - 通过单一模型且仅通过一张参考图 就能处理人物 主体或风格保持需求 [7] - 可处理卡通人物驾驶小车 积木风格场景 吉卜力风格 抽象材质参考等多种应用场景 [8][10][12][14] - 能同时参考人物ID和风格图片 在保留ID基础上完美还原扁平风格 [17] - 画面质量不输商业大模型 弥补难以同时做好主体保持和风格迁移的短板 [3][17]
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
量子位· 2025-09-04 12:41
研究框架与创新突破 - 提出VistaWise框架 首次将跨模态知识图谱与轻量化视觉微调系统性引入开放世界智能体 [3] - 以低成本与跨模态为突破口 设计图-检-控三位一体的极简框架 核心创新概括为一图谱、两增强、三协同 [9] - 训练数据量仅需471帧 较传统方法缩减5个数量级 GPU显存需求下降87.5%至24GB [18] 技术架构与性能表现 - 仅用471张游戏画面微调视觉模型 单张24GB消费级显卡即可完成训练 完整框架可部署于笔记本电脑 [7][17] - 在"获取钻石"任务链上达成33%成功率 刷新非API类方法纪录 较前SOTA提升8个百分点 [4] - 9个连续子任务全部达到73%以上成功率 通过检索式图池化机制减少30%推理tokens [4][13] 核心组件与运行机制 - 构建轻量化跨模态知识图谱 融合文本攻略与实时视觉感知 单张1080p画面可在20ms内完成动态更新 [11] - 采用Path-Searching+Entity-Matching双阶段池化 先锁定全局路径再局部裁剪冗余信息 [13] - 基于PyAutoGUI封装原子动作函数 支持键鼠混合输入 实现零仿真真机操作 [14] - 决策闭环包含感知-检索-推理-执行四步骤 依赖GPT-4o生成自然语言指令驱动操作 [15][20] 行业应用与成本优势 - 突破传统需千万级标注样本与数百张高端显卡的训练模式 成本从百万级大幅降低 [6] - 较多模态大模型视觉感知方案降低30.7%的tokens使用 性能无显著下降 [18] - 研究成果获自然语言处理顶级会议EMNLP 2025主会录用 具学术与商业应用潜力 [5]
人形机器人终于学会洗碗了
量子位· 2025-09-04 12:41
文章核心观点 - Figure机器人展示了其通用人形机器人Figure 02在无需新算法或特殊工程的情况下,仅通过增加新数据即可掌握洗碗机餐具装载这一新技能 [4][20][25] - 这表明公司基于Helix架构的机器人正朝着可扩展的通用智能方向迈进,同一系统通过数据驱动即可逐步学习多样化任务 [25] Helix架构技术特点 - Helix架构是公司与OpenAI分道扬镳后开发的第一个成果,是一个端到端的"视觉-语言-动作"模型,使机器人能像人类一样感知、理解和行动 [21] - 该架构采用单一统一模型,仅使用一组神经网络权重即可在各种任务中实现强大性能,包括精准拾取放置物品、操控抽屉与冰箱、协调多机器人灵巧交接以及操控数千种新物体 [24] - 架构由两个经过端到端训练并可通信的系统组成,能够处理洗碗机装载、包裹分拣和毛巾叠放等看似不相关的任务 [22][25] 机器人技能展示与性能 - 在洗碗机装载任务中,机器人掌握了从杂乱堆叠中分离餐具、重新调整角度、双臂协同传递、处理光滑易碎物品的指尖级精细操作等技能 [16][17][26] - 机器人具备应对不同装载情境的能力,能够适应新奇的餐具、凌乱的初始摆放和突发的碰撞,并保持稳定可靠的表现 [18][19][26] - 此前,机器人已展示过长达一小时的物流场景包裹分拣能力,其操作灵活性和速度已接近人类水平,并能完成叠毛巾和衣服的任务 [7][9] 技术实现路径与行业意义 - 机器人新技能的获取完全依赖于数据驱动,无需新的算法或特殊的工程设计,凸显了公司以数据为核心的技术扩展路径 [4][20] - 这种通过单一通用架构处理多样化任务的能力,标志着人形机器人行业在实现可扩展的通用智能方面取得了实质性进展 [25]
AI搜索引擎,苹果决定自研!代号WKA
量子位· 2025-09-04 09:13
苹果AI搜索引擎计划 - 公司计划于2026年春季推出代号"世界知识问答"的AI搜索引擎 直接与ChatGPT和Perplexity竞争[1][8] - 新系统将集成至Siri 支持全网信息抓取及AI摘要生成 并可能扩展至Safari浏览器和Spotlight搜索[9][10] - 底层技术部分依赖与谷歌的合作 双方已于本周达成正式协议 苹果将评估谷歌AI模型以支持Siri功能[11][12][14] 战略合作与市场反应 - 公司维持与谷歌的长期搜索合作 谷歌搜索作为iOS默认入口每年贡献200亿美元收入[13] - 消息曝光当日公司股价上涨3.8% 创近一个月最大单日涨幅[5] - 网友评论显示需重建用户对Siri的信任 但当前战略被视为公司最优解[6][7] 人才流动与收购策略 - 公司近期面临AI人才流失 数周内10名成员离职 包括基础模型团队负责人及多名研究员加入Meta/OpenAI等竞争对手[18][22] - 虽已停止收购Perplexity的评估 但仍可能通过收购获取AI人才[3][4][16][17] - 项目由多团队协同推进 包括Siri团队、AI部门及服务部门 并涉及Vision Pro负责人等关键人物[15] 行业竞争态势 - 公司通过自研AI搜索工具应对行业竞争滞后问题 核心目标是将Siri升级为AI驱动搜索助手[7][19] - 科技行业陷入AI人才争夺战 公司需解决人才危机以实现技术突破[17][18][19]
世界模型,腾讯混元卷到了榜首
量子位· 2025-09-03 15:30
腾讯混元世界模型Voyager发布 - 腾讯混元发布业界首个支持原生3D重建的超长漫游世界模型HunyuanWorld-Voyager 该模型支持将视频直接导出为3D格式 并能够生成长距离且世界一致的漫游场景 [1][3][4] - 模型在发布后立即开源 距离上一代Lite版发布仅间隔两周 展现出快速迭代能力 [3] 核心功能与技术特性 - 新增"漫游场景"功能 支持通过鼠标和键盘在场景内自由活动 交互性远超360°全景图 用户可通过一句话或一张图生成高质量3D场景 [10][11][13] - 创新性将场景深度预测引入视频生成过程 通过空间与特征结合支持原生3D记忆和场景重建 避免传统后处理的延迟和精度损失 [31] - 采用视频生成与3D建模融合技术 基于相机可控的视频生成技术合成可自由控制视角的RGB-D视频 [32] - 关键组件包括世界一致的视频扩散架构和长距离世界探索机制 后者通过世界缓存机制支持迭代式场景扩展和平滑视频采样 [33] 数据集与训练体系 - 构建超过10万个视频片段的大规模数据集 整合真实世界采集与虚幻引擎渲染资源 通过自动化视频重建流水线实现无需人工标注的大规模数据构建 [33][34] - 训练数据构建引擎可自动估计相机位姿和度量深度 支持多样化训练数据的自动化生成 [33] 性能表现与基准测试 - 在斯坦福大学WorldScore基准测试中以77.62分位居综合能力首位 显著超越WonderWorld(72.69分)和WonderJourney(63.75分)等竞争对手 [36] - 在相机运动控制(85.95分)和风格一致性(84.89分)等细分指标表现突出 较第二名优势明显 [36] - 视频生成质量指标PSNR达18.751 SSIM达0.715 LPIPS为0.277 均优于See3D和FlexWorld等对比模型 [39] - 在场景重建任务中PSNR达18.035 SSIM达0.714 使用深度信息初始化点云后重建效果更佳 [42][43] 技术应用与扩展能力 - 支持视频场景重建 3D物体纹理生成 视频风格定制化生成和视频深度估计等多种3D理解与生成应用 [27] - 与混元世界模型1.0高度适配 可扩展1.0模型的漫游范围并提升复杂场景生成质量 [24] - 生成视频帧实时更新缓存形成闭环系统 支持任意相机轨迹同时维持几何一致性 [35] 模型部署要求 - 模型运行需要60GB GPU峰值内存 支持540p分辨率输出 [47] 腾讯开源生态布局 - 腾讯混元持续加速开源进程 产品矩阵包括MoE架构模型混元large 混合推理模型Hunyuan-A13B以及最小仅0.5B参数的端侧小模型 [48] - 最新开源翻译模型Hunyuan-MT-7B在国际机器翻译比赛中获得30个第一名 同时发布翻译集成模型Hunyuan-MT-Chimera-7B [48] 行业开源动态 - 阿里开源视频生成模型Wan2.2-S2V 美团发布首个开源大模型Longcat-Flash-Chat 显示国内大厂持续加码开源布局 [49][50][51]
GPT-5又帮陶哲轩解决了一个难题
量子位· 2025-09-03 15:30
文章核心观点 - 著名数学家陶哲轩利用OpenAI最新模型GPT-5,结合OEIS数据库,成功解决了一个长期悬而未决的Erdős问题,展示了AI在半自动化文献检索和跨知识库关联方面的独特价值 [1][3][4][18] AI在数学研究中的应用模式 - AI在此次研究中扮演了“定位器”或“桥梁”的角色,通过将复杂数学问题转化为高精度小数(数字指纹),并与现有数据库进行比对,从而连接起分散的知识源 [3][4][11][14] - 具体流程是:陶哲轩要求GPT-5将Erdős问题中的无理性相关级数展开成高精度小数,然后将这些小数输入OEIS进行搜索匹配 [11][12][15] - 该方法成功匹配到Erdős问题 259与OEIS数列A371134,并通过OEIS的参考文献找到了已存在的完整解决方案,最终将该问题的状态更新为“已解决” [15][17] 项目背景与运作机制 - 此次研究是“Erdosproblems/OEIS关联项目”的一部分,该项目由陶哲轩和英国数学家Thomas Bloom提议发起,并在GitHub社区开源 [20][24] - 项目旨在解决数学研究中信息分散和遗漏的问题:一方面,部分数列已在OEIS中但未被Erdosproblems网站收录;另一方面,许多Erdős问题相关的数列尚未被OEIS收录 [25][28] - 项目采用众包方案推进:第一步,参与者尝试计算出Erdős问题对应的整数数列;第二步,与OEIS数据库进行比对;第三步,将关联结果记录到GitHub表格中 [26][27] 涉及的关键实体与数据 - 涉及的数学家Paul Erdős一生合作了超过500位数学家,发表了约1525篇数学论文 [5] - Erdős问题库由Thomas Bloom搭建的网站收录,包含了近1000道问题 [15][28] - OEIS是一个更庞大的数据库,收录了几十万条整数数列 [28]