量子位
搜索文档
Claude用户退订潮!被指高峰期偷换缩水模型,工程师列9大罪状呼吁全网退订
量子位· 2025-09-10 09:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 点赞者就2000多,用实际行动退订的也不少。 退订者中有最高价 20倍Max套餐 的重度用户。 原本在开发者社区口碑甚好,甚至 Claude Code单产品年化收入估算达到5亿美元 的Anthropic,到底因何犯了众怒? 工程师Ahmad Osman细数几大罪状: 就这甚至还没列完,可想而知这位开发者有多愤怒了。 Claude出现大危机,不是因为最近的某些骚操作,而是 产品本身就出了问题 。 已经有AI工程师带头呼吁大家退订(这里PoS指Piece of Shit,也就是一坨 )。 评论区有人补充,最糟糕的是模型悄悄变差,而你白白浪费了一小时才能意识到,没有哪个专业的开发环境是不能固定版本的。 好,现在骂也骂了退也退了,活还是得干,总不能退回到古法手工写代码吧。 那么以后用啥? 有很多人集中转投去了隔壁 OpenAI Codex ,甚至惊动了奥特曼本曼。 OpenAI Codex强势崛起 如果你在前几天打开美国贴吧Reddit的Claude Code吧,就会发现怎么全是讨论OpenAI Codex的,都要怀疑是不是走错门了。 在白天高峰时段,用到的是缩水 ...
库克挤爆牙膏!5999元iPhone17上高刷,新款耳机能测心率+同传
量子位· 2025-09-10 04:23
iPhone 17系列产品升级 - 标准版iPhone 17首次配备120Hz ProMotion自适应高刷屏 此前仅限Pro机型 [13][17] - 全系搭载A19芯片 采用3nm工艺 6核CPU+5核GPU 性能较A18提升20% [20][21] - 影像系统升级为4800万像素融合式双摄 主摄融合2倍长焦 前置升级1800万像素Center Stage摄像头 传感器面积是前代2倍 [23][24][27][28] - 电池续航达30小时视频播放 支持快充 20分钟充至50%电量 [34] - 新增前后摄像头同步双拍功能 [35] - 价格区间为5999元至9999元 [12][22] iPhone 17 Air创新设计 - 机身厚度仅5.6毫米 重165克 采用钛金属材质 成为史上最薄iPhone [37][42] - 搭载A19 Pro芯片 CPU性能为当前手机最快 GPU峰值算力是A18 Pro的3倍 [42][44] - 首次配备自研无线连接芯片N1 支持WiFi-7和蓝牙6标准 [45] - 采用C1X基带 速度比C1快2倍 能耗低30% [47] - 全球仅支持eSIM 国行版本仅兼容联通网络 [55][56] - 电池续航增加4小时视频播放 配合MagSafe充电宝可达40小时 [57][63] iPhone 17 Pro/Pro Max专业特性 - 采用铝金属一体成型设计 散热效率达前代钛金属机型的20倍 [68][69] - 搭载6核CPU+6核GPU的A19 Pro芯片 [71] - 续航达33小时 Pro Max达39小时视频播放 [72] - 影像系统配备4800万像素三摄融合镜头 支持8倍光学变焦 [74][77][78] - 支持ProRes视频拍摄 最高4K60fps 支持ProRAW格式 [76][80] AirPods Pro 3功能升级 - 主动降噪效果达前代2倍 具备IP57防水性能 [86][87] - 新增机器学习加持的心率传感功能 可监测心率和卡路里 [87][88] - 支持实时同声传译 双设备互联时可实现直接翻译 [90][91][93] - 降噪模式续航6-8小时 通透模式达10小时 [95] - 定价1899元 [96] Apple Watch系列创新 - Series 11支持5G通信 国内三大运营商全兼容 续航提升至24小时 [102][103][117] - 新增高血压通知功能 通过光学传感器数据分析血管反应 [106][108][110] - 新增睡眠质量评分系统 跟踪睡眠时长 规律等指标 [113][115] - 屏幕抗刮能力提升2倍 [100] - SE 3起售价1999元 支持手腕温度传感和睡眠呼吸暂停检测 快充速度是前代2倍 [119][125][127] - Ultra 3配备卫星通信功能 续航达42小时 采用OLED+LTPO3技术 拥有最大屏幕 [128][130] 整体产品战略 - 新品设计以设计为核心 镜头模组告别"浴霸"造型 [3][4] - 全系产品强调AI能力 A19芯片神经网络引擎专门为Apple Intelligence优化 [20][23] - 苹果首次将发布会全程使用iPhone 17 Pro拍摄 [81]
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
量子位· 2025-09-10 04:23
核心观点 - Transformer发明者Ashish Vaswani认为闭源人工智能阻碍科学探索 商业化导向使OpenAI等厂商忽视基础研究[1][2][27] - Vaswani通过三次职业转型最终创立Essential AI 全面转向开源基础研究 目标成为"西方世界的DeepSeek"[5][6][26] - 开源模式通过交叉补贴实现可持续性 免费提供基座模型 通过销售训练数据和产品实现盈利反哺社区[55][56][57] 行业现状分析 - Scaling Law面临边际收益递减 AI独角兽产品化倾向明显[3][37] - Anthropic开发浏览器 OpenAI派出产品经理探索商业模式[38] - 产业界垄断生产要素但受投资人压力 难以持续投入创新[41][42][43] 公司战略转型 - Essential AI原从事财务分析自动化业务 2025年初全面转向基础研究[16][17] - 转型获得董事会和资方支持 AMD称需要更开放的替代方案[19][20] - 2025年4月发表《Rethinking Reflection in Pre-Training》论文 提出预训练阶段反思能力新观点[31][32] 技术发展方向 - 预训练技术突破可能大幅降低训练成本 利好开源社区[33][34] - 开源模式通过社区协作克服资源匮乏问题[49][51] - 参考互联网交叉补贴模式 构建开源生态实现商业闭环[53][54][58] 市场机遇 - 开源AI可应用于教育医疗等大众场景 偏远地区孩子能获得优质课程 小诊所可进行准确诊断[28][29] - 闭源模式面临巨大成本压力 开源生态可能产生更高投资回报率[59][60][61] 学术背景 - Vaswani论文总引用量达232,152次 其中2020年后引用222,306次[63] - 《Attention Is All You Need》单篇引用量达202,626次[63] - 两位博士生导师均为华人学者 南加州大学蒋伟教授与黄亮教授[64][65][68]
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
量子位· 2025-09-09 20:20
AI视觉识别能力局限 - 多机构研究团队发现主流AI模型在识别"看得见但读不懂"文字时表现极差 包括OpenAI GPT-5/GPT-4o 谷歌Gemini Anthropic Claude及国内Qwen LLaVA等模型均出现严重识别失败 [2] - 实验采用100条四字成语进行汉字横切/竖切/斜切后拼接 人类识别无压力但AI几乎全错 [4][6] - 英文测试选用100个八字母单词 用红绿双色渲染叠加后人类可自动分离颜色 AI模型同样无法正确识别 [9][10] 模型性能数据表现 - GPT-4o在基础提示/上下文提示/详细提示三种模式下的严格匹配率分别为0.0%/0.0%/0.7% 平均匹配率仅11.1%/5.2%/7.7% [7] - Claude-opus-4-1模型在详细提示模式下严格匹配率最高达5.2% 平均匹配率14.7% 但仍远低于人类100%的识别水平 [7] - 国内Qwen2-vl-7b模型平均匹配率相对较高 在基础提示模式下达24.4% 但严格匹配率仍为0% [7] - LLaVA系列模型表现最差 所有模式平均匹配率均低于0.6% 严格匹配率全部为0% [7] 技术缺陷根源分析 - AI识别依赖模式匹配而非结构理解 缺乏符号分割与组合机制 将文字视为"图片模式"处理 [23][25] - 人类依赖结构先验知识 理解汉字偏旁部首和英文字母组合规则 具备多重感知与推理能力 [24][29] - 文字稍作扰动即导致AI系统崩溃 尽管人类仍能正常识别 [26] 实际应用影响领域 - 教育领域AI无法正确识别非标准文本 影响教学辅助工具效果 [30] - 历史文献与科学笔记整理中 AI缺乏从残缺文字恢复含义的能力 [30] - 安全场景存在被攻击者利用识别盲点绕过AI审查的风险 [30] 技术发展路径 - 需重新思考视觉语言模型如何整合视觉与文本 可能需新的训练数据或分割结构先验 [28] - 需要全新的多模态融合方式提升AI识别韧性 使其接近人类综合推理能力 [28][29]
文心X1.1发布!这三大能力突出,一手实测在此
量子位· 2025-09-09 20:20
西风 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,百度深度思考模型升级上线了! 升级后的文心 大模型X1 .1 ,在 事实性、指令遵循、智能体 等能力上均有显著提升。 官方展示了其在智能客服场景复杂长程任务中的应用,在System Prompt中输入用户的问题后,文心X1.1借助模型本身智能体能力,即可自 动拆分复杂任务,调用不同工具逐步规划执行,且严格遵循服务流程和业务规则。 再用它编写python脚本,让25个彩色粒子在真空圆柱形容器里弹跳、留轨迹,还要带容器旋转和场景缩放。 效果丝滑,粒子全程守规矩没出界: 用HTML动 画整活归并排序,排序过程动态可视化,算法步骤一目了然: 最新开源思考模型ERNIE-4.5-21B-A3B-Thinking 发布,该模型在ERNIE-4.5-21B-A3B基础上训练而来,在内容创作、逻辑推理、数学计 算、代码生成与工具调用等多个任务中表现卓越。 此外,百度发布了 ERNIEKit文心大模型开发套件 ,提供更加便捷的模型后训练方案,仅 需 4张GPU即可对ERNIE-4.5-300B-A47B模型进 行高效调优 ,进一步降低开发者将模型 落地到实际应用的门槛 ...
一致性对标Nano Banana,国产Vidu Q1同时支持7张参考 | 实测
量子位· 2025-09-09 20:20
核心观点 - AI生图赛道竞争激烈 Vidu推出Q1参考生图模型 支持7张参考图生成 在主体一致性和功能多样性方面表现突出 直接对标谷歌Nano Banana等头部产品 [1][48][68] 技术能力 - 支持同时使用7张参考图生成图像 远超同类产品1-3张的限制 [1][65][66] - 在多人、多场景、多次生成情况下仍能保持人物/主体面貌特征不跑偏 [66] - 主体一致性能力评分达到全场最佳水平 [69] - 测试数据全面超越Flux Kontext 直接对标谷歌Nano Banana [68] 功能特性 - 支持通过简单自然语言描述进行操作 [6] - 最多可一次生成4张图片 支持选择不同宽高比 [77] - 目前提供1080p分辨率输出 [77] - 支持上传参考图片后拖动调整和更改提示词 [73] - 可通过输入@符号选择图片 [74] - 支持创建主体功能 可输入常用数据 三视图效果更佳 [76] 应用场景 - 能够将各种违和元素组合成和谐画面 [14] - 支持时尚大片制作和在线试衣功能 [23][28][34] - 可实现跨画风、跨次元的自然画面融合 [46] - 支持手办生成和设计稿转3D立体效果 [49][59] - 具备经典的主体替换功能 [63] - 支持多人合照生成 如少年漫主角齐聚场景 [42] 用户体验 - 操作简单 只需放置参考图即可查看生成结果是否符合预期 [22] - 提供高度可操作性 用户可通过创意实现万物合成 [14][15] - 现已全球同步上线 用户可通过实测地址体验产品 [79]
AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊
量子位· 2025-09-09 20:20
henry 发自 凹非寺 量子位 | 公众号 QbitAI 一群机械臂手忙脚乱地自己干活,彼此配合、互不碰撞。 科幻大片场景真的走入现实了。优雅,实在是优雅。 RoboBallet创新性地将 图神经网络(GNN)用于强化学习 ,作为其策略网络和状态-动作价值估计,以解决多机器人(机械臂)协作运动规 划中的复杂问题。 这一方法最多可以同时控制 8 个机械臂,协调多达 56 个自由度的配置空间,并处理多达 40 个共享任务, 每一步规划仅需 0.3 毫秒,且任 务分配和调度完全不受约束。 值得一提的是,这篇论文的通讯作者—— Matthew Lai ,可谓是谷歌DeepMind的资深研究员。自2016年加入谷歌DeepMind以来,他曾参 与过 AlphaGo 、 AlphaZero 等明星项目。 △视频中为4个机械臂,在仿真环境下4个安装在桌子上,另外4个安装在天花板上。 这就是发表在Science子刊 Science Robotics 上,由DeepMind、Intrinsic AI和UCL等研究机构共同提出的最新成果—— RoboBallet (机器芭蕾)。 利用图神经网络与强化学习 总的来说,RoboBa ...
动动念头就能操作手机!MIT意念控制设备,不动嘴不动手,“读心”准确率92%
量子位· 2025-09-09 19:03
不动嘴不动手,只靠意念就能对手机发号施令? 请看VCR: 两个人语言不通,现在也可通过意念说话,然后直接翻译成对方的语言,并通过骨传导耳机输出。 克雷西 发自 凹非寺 量子位 | 公众号 QbitAI MIT初创团队推出了一款非侵入式穿戴设备,能够让人类实现用意念"说话"。 这个穿戴可以让人类随时随地实现无动作书写、创作、交流,甚至帮助有特殊言语障碍的人恢复声音。 研发团队表示,打造这款穿戴设备是为了延伸人类思维,让每个人都能轻松探索自己的世界。 智能穿戴学会"读心术" 这款穿戴名字叫AlterEgo,来自于拉丁语,意思是"另一个自我"。 AlterEgo是一种可穿戴的静默语音交互平台,允许用户在没有声音或明显动作的情况下与计算设备进行双向交互。 这意味着用户可以像自言自语一样在心里"说话",而系统能够理解并处理这些"静默"输入,词汇准确率可达92%。 它还能通过骨传导耳机将反馈提供给用户,通过不干扰外部环境的方式直接传输到用户的耳朵里,提供完整的输入-输出交互体验。 AlterEgo支持用户通过静默语音控制各种应用程序。例如,用户可以通过内心默念数学计算式,设备会进行计算并反馈结果。此外,用户也可 以设置提 ...
求职者用AI写简历,HR用AI筛简历,陷入「无人录用」死循环
量子位· 2025-09-09 19:03
AI在招聘市场的应用现状 - 求职者普遍使用AI工具撰写简历 例如ChatGPT被用于简历创作[6][8] - 企业广泛采用AI系统进行简历筛选 包括评估候选人 安排面试及撰写职位描述[21][23] - 部分公司使用虚拟角色进行AI面试 通过算法分析关键词和语气进行筛选[24][25] AI招聘引发的效率悖论 - 形成AI简历生成与AI筛选的闭环循环 导致招聘效率不升反降[20][28][29] - 企业收到海量AI生成简历 其中99%被归类为垃圾申请[31] - 求职者投递200份职位却收获零offer 显示匹配机制失效[13][14] 招聘双方的主要痛点 - 企业端面临简历同质化问题 AI生成的简历内容高度雷同导致可辨识度下降[31][33] - 筛选算法存在机械性缺陷 因缺少关键词 经验错配(过多或过少) 学位缺失等理由误拒候选人[4][38] - 求职者遭遇反馈缺失 大量申请石沉大海进入人才库且无拒信反馈[5][18] 典型求职案例特征 - 加州大学毕业生案例: 具备高绩点 多领域实习经验及志愿者背景 但投递200次均失败[6][11][13] - 弗吉尼亚州律师助理案例: 拥有10年工作经验 通过初筛进入二面但未获录用[15][17] - 求职意愿呈现极端化倾向 包括接受异地迁移 临时工作及非全职岗位[8][9]
奥特曼:点名表扬两个波兰人,OpenAI还没遇到过他们解决不了的问题
量子位· 2025-09-09 16:06
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们在OpenAI的贡献从Dota项目大规模扩展了强化学习,到领导了GPT-4的预训练,还与 Ilya和Lukasz共同推动了导致推理突破的最初想 法。 当然,奥特曼对他们如此高评价或许还有另一个原因: 在2023年OpenAI内乱事件中, 他俩也是带头站出来宣布辞职 ,要追随奥特曼离开的。 从高中同窗到OpenAI重聚 故事还要从波兰的一所学校说起, 格丁尼亚第三高中。 他们是OpenAI首席科学家 Jakub Pachocki 以及头衔为"Technical Fellow"的 Szymon Sidor 。 △ 左:Jakub Pachocki,右:Szymon Sidor 两人不仅是 波兰老乡 ,而且是 高中同学 ,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背后那些付出心血的人,这两位波兰科学家,正是其中 的关键角色。 先说Pachocki(以下简称 帕哥 )这边。 15岁的时候, ...