程序员的那些事
搜索文档
GPT-5.2 降智遭全网差评!奥特曼慌了
程序员的那些事· 2025-12-16 09:28
文章核心观点 - 在2025年末的AI模型竞争中,谷歌的Gemini 3 Pro在多项第三方基准测试和用户实测中表现优于OpenAI最新发布的GPT-5.2,标志着竞争格局的潜在转变 [1][8][25] - OpenAI的GPT-5.2发布后反响未达预期,面临开发者吐槽和多项评测数据落后的局面,公司内部已采取紧急措施调整研发优先级 [13][14][17] - 行业分析指出,OpenAI在预训练(Scaling)方面可能遇到瓶颈,而谷歌在预训练上的优势被认为是Gemini 3 Pro表现更深入智能的关键 [30][38][42] 模型性能基准测试对比 - **综合与推理能力**:在Epoch AI的能力指数(ECI)评估中,GPT-5.2得分为152,落后于Gemini 3 Pro [3] 在另一份综合基准(Global Average)中,GPT-5.2 High得分为73.61,低于GPT-5.1 Codex Max High的76.09和Claude 4.5 Opus的75.58,也低于Gemini 3 Pro Preview High的74.14 [12] - **数学与专业推理**:在FrontierMath数学基准测试中,GPT-5.2仅在T1-3级别领先,T4级别仍由Gemini 3占据优势 [4] - **编码能力**:在SWE-Bench编码基准测试中,GPT-5.2(高推理模式)的解决率为71.80%,低于Claude 4.5 Opus medium的74.40%和Gemini 3 Pro Preview的74.20% [80] 在前端代码生成的实际任务中,Gemini 3被社区认为大幅领先于GPT-5.2 [64][66][69] - **视觉与空间能力**:在CAIS的视觉能力指数测试中,Gemini 3 Pro平均得分为57.1,比GPT-5.2的52.6高出4.5分 [77] 在长程任务性能评估中,Gemini 3 Pro可持续4.9小时,优于GPT-5.2的3.5小时和Opus 4.5的2.6小时 [40] - **文本能力**:在CAIS的文本能力指数测试中,Gemini 3 Pro平均得分为47.6,高于GPT-5.2的45.9 [76] - **风险控制**:在CAIS的风险指数(分数越低越好)测试中,GPT-5.2平均得分为43.0,优于Gemini 3 Pro的60.0,但落后于Claude Opus 4.5的33.6和Claude Sonnet 4.5的38.1 [78] 用户反馈与市场反应 - **开发者评价**:GPT-5.2发布后收到大量开发者负面反馈,被批评语气冰冷、用户体验差,甚至被重度用户形容为“距离成为一块石头也不远了” [13][18][56] - **具体用例表现**:在视觉推理、3D模型生成、越界小说生成等具体任务中,GPT-5.2的表现均被指不及Gemini 3 Pro [57][59][61] - **小型手动基准**:在网友的小型手动性能基准Dubesors上,Gemini 3 Pro排名第一,而GPT-5.2排在第16名 [72] - **市场份额与竞争**:尽管ChatGPT每周用户超过8亿,市场份额约为76%,但过去12个月多家AI初创公司的技术已在某些方面匹敌甚至超越OpenAI的领先模型 [51] Gemini 3 Pro的出现对OpenAI业务构成打击 [52] 公司战略与研发动态 - **OpenAI紧急调整**:为应对竞争,OpenAI拉响“红色警报”,将改进ChatGPT提到最高优先级,甚至内部暂停了AGI研发和Sora项目八周 [14][15] - **预训练瓶颈**:行业风声及分析认为,OpenAI在预训练扩展(Scaling)上遇到瓶颈,GPT-5.2可能基于GPT-4o后训练而来,提升有限 [29][30] 尽管有报道称其在预训练阶段取得关键突破,但第三方评测显示其底层技术未实现突破式进展 [32][34][38] - **后续产品计划**:OpenAI预告将在下一周发布“圣诞礼物”,可能是下一代GPT Image v2模型 [84][85] 公司正在筹备明年初的更大规模发布,并并行推进企业软件、广告、电商等2B和2C方向的尝试 [44][45][47][48][49] - **谷歌的转变**:谷歌创始人公开承认过去因过于谨慎而错失AI先机,但凭借Gemini 3 Pro等产品已重回AI浪潮之巅 [22][23][25] 图像模型竞争 - **图像生成能力**:正在测试的OpenAI下一代图像模型(代号“栗子”、“榛子”)被开发者实测认为在图像生成/编辑方面远落后于谷歌Gemini 3加持的Nano Banana Pro,且存在色调、逻辑、一致性、图像质量等多方面问题 [86][88][89][90] - **技术基底**:据称该图像模型的基底可能仍是GPT-4o [91]
趣图:写垃圾代码的你 vs 读垃圾代码的你
程序员的那些事· 2025-12-16 09:28
文章内容分析 - 所提供的文档内容不包含任何与公司或行业相关的实质性信息 文档仅包含一个指向过往趣味图片的导航链接 主题为程序员编写与阅读低质量代码的幽默对比 [4]
字节真有钱!一校招生自曝:每天洗数据,年包 180万,每月几万期权,最近又补了一笔豆包期权…
程序员的那些事· 2025-12-15 12:06
字节跳动薪酬与激励 * 公司向新入职的应届毕业生提供了极具竞争力的薪酬包 年总薪酬达到180万元人民币[1] * 公司的薪酬结构包含高额期权激励 初期已发放每月价值数万元人民币的期权 近期又追加了与“豆包”项目相关的期权[1] 互联网行业职场文化观察 * 部分公司存在空降高管带来特定企业文化后 导致团队动荡甚至业务濒临失败的情况 相关高管团队最终也被裁撤[0] * 技术管理者(如CTO)专注于编写代码和修复缺陷等具体技术工作 在某些情况下被视为有助于维护客户关系和保障业务订单[2] * 行业内存在显著的薪酬外包链条差价现象 例如甲方支付费用为3.3万元人民币 但实际执行工作的外包人员到手收入仅为2万元人民币 中间环节成本占比高[3] 互联网从业者工作与生活 * 双职工家庭 特别是在高强度工作环境下 在子女养育方面面临挑战 常需依赖外部合作资源[4] * 部分程序员的工作沟通模式呈现特定规律 例如在非工作时间段进行社交联系[5] * 存在从业者从高薪技术岗位(月薪1.7万元人民币)转向外卖员等职业的择业案例 反映出职业选择的多样性[6] 职场社交与消费 * 职场中的庆祝活动(如外包人员转正请客)可能因消费预期与结算方式不一致引发同事间的不满[7]
懵了!JetBrains 刚停掉 Fleet IDE,又推新工具 Air。网友:把开发者当小白鼠?
程序员的那些事· 2025-12-15 10:06
JetBrains停用Fleet并推出AI开发工具Air - 开发工具巨头JetBrains宣布自2025年12月22日起停用旗下Fleet IDE,该产品自2021年推出后始终处于公开预览阶段,未能脱离该阶段[1] - 公司将重心转向一款名为Air的全新智能开发环境,该产品目前处于公开预览阶段[1][5] Fleet的开发背景与市场定位 - Fleet是JetBrains为应对微软Visual Studio Code(VS Code)竞争压力而开发的产品,旨在打造一款从底层重构、轻量、支持协作且原生适配远程项目的新IDE[3] - 公司最初的规划是在继续迭代成熟的IntelliJ系IDE的同时,推出Fleet作为补充,该产品被描述为“从0开始搭建新架构、新界面”[3] - 停用Fleet的主要原因是同时维护两套IDE体系造成用户困惑并分散公司精力,公司承认既无法用Fleet取代IntelliJ IDEA,也没能为它找到清晰、有差异化的定位[4] Fleet的市场接受度与停用影响 - 尽管有部分开发者被Fleet吸引,但多数开发者不愿放弃插件生态完善的IntelliJ工具,且Fleet长期处于预览状态让开发者缺乏信心[4] - 有开发者对停用Fleet表示失望,认为Fleet本有机会成为VS Code(以及Zed)的竞争对手,并因此决定不再使用JetBrains产品[7] - 公司强调Fleet的尝试并非毫无价值,其诸多组件已被整合到其他JetBrains IDE中[4] 新产品Air的核心特点与发展规划 - Air是基于Fleet平台打造的全新智能开发工具,主打一种全新工作流,即开发者引导智能助手生成内容,再对结果进行审核[5] - 目前Air已开启公开预览,但需订阅Anthropic服务才能使用[7] - 未来Air的发展规划包括:支持Windows和Linux系统(当前仅完全兼容macOS)、提供浏览器运行模式、新增Codex、Gemini、Junie等多款智能助手可选,以及提供“云端持续运行”模式[7] 行业竞争与公司战略转向 - Fleet最初的开发是为了对标VS Code,而Air的推出则是为了跟上AI开发工具的新潮流[8] - 目前市场上已有AWS Kiro、谷歌Antigravity、Cursor等多款同类AI开发工具产品,微软VS Code也早已转向AI方向[8] - 有开发者质疑公司战略,认为与其开发新工具,不如将智能功能整合到成熟的IDE(如IntelliJ)中[9] - 行业观察认为,JetBrains此次用Air追赶软件行业AI趋势的举措,与当初用Fleet追赶VS Code的思路一脉相承[8]
小扎忍痛!亲口宣告了元宇宙的死亡
程序员的那些事· 2025-12-15 10:06
公司战略转向 - Meta计划对Reality Labs旗下的元宇宙相关部门进行裁员 预计将波及该部门10%到30%的员工 裁员最早可能在下个月进行[4][6][8] - 公司并非彻底放弃元宇宙 而是进行战略资源转移 将节省下来的资金从VR领域转向AR眼镜和可穿戴设备[9] - 公司发言人证实正在调整Reality Labs的投资组合 将部分资源从元宇宙转向AI眼镜和可穿戴设备[17] 业务表现与调整背景 - Reality Labs部门在过去四年累计亏损超过700亿美元[23] - 公司早期与雷朋联手推出的智能眼镜在加入AI助手后市场反响超出预期 销量远超内部预期[12][13][14] - 相比之下 厚重的VR头显在消费者普及度上依然面临挑战[15] - 公司考虑削减元宇宙投入的部分原因在于外部竞争压力的减弱[25] 新产品与人才布局 - Meta在近期开发者大会上展示了三款新型智能眼镜 其中一款在镜片内嵌入了微型屏幕[30] - 公司聘请前苹果资深设计师Alan Dye领导Reality Labs内部一个新的创意工作室 专注于设计、时尚与科技的融合[30][31] - 扎克伯格表示公司正在进入一个新时代 AI眼镜和其他设备将改变人们与技术及彼此连接的方式[32]
特朗普刚放行 H200,英伟达就亮出“定位神器”!网友:这就是“后门”吧?
程序员的那些事· 2025-12-14 13:54
文章核心观点 - 英伟达证实已研发出一款芯片定位验证技术,该技术能识别芯片实际运行国家,旨在阻止其AI芯片被走私至出口受限地区 [3] - 该技术目前处于内部演示阶段,计划以软件选装包形式推出,依托GPU机密计算能力,并计划采用开源模式 [5][7] - 公司强调该软件不具备远程控制或“关停开关”功能,数据为只读模式,旨在帮助客户监控芯片性能与库存 [8][9] - 该技术是对美国反走私诉求的响应,美国司法部已对涉嫌走私价值超1.6亿美元英伟达芯片的团伙提起诉讼 [10] - 技术引发了关于“后门”的质疑,但公司坚决否认,专家认为可在不牺牲安全性的前提下实现该功能 [11][12] 技术细节与功能定位 - 技术底层依托英伟达图形处理器(GPU)本身具备的机密计算能力 [5] - 软件通过芯片与英伟达服务器通信的时延数据判断芯片位置,定位精度与其他互联网定位服务基本持平 [5] - 软件代理通过GPU遥测技术完成对AI GPU集群健康状态、完整性及库存的监测 [9] - 上传至服务器的遥测数据均为“只读模式”,服务器无法向芯片反向写入任何数据 [9] - 该定位功能将率先搭载于最新的Blackwell系列芯片,公司正在研究适配前代Hopper和Ampere系列芯片的可行性 [9] 行业背景与监管动态 - 美国白宫及国会两党议员呼吁出台有效措施,防止AI芯片被走私到某些受限国家 [10] - 美国司法部已对多个与某国相关的走私团伙提起刑事诉讼,涉案芯片价值超1.6亿美元 [10] - 他国监管部门曾就产品是否存在“后门”约谈英伟达,担心美方可能借此实现远程操控 [11] - 近期美国总统特朗普表态将允许英伟达对华出口H200芯片,但外交政策专家质疑中国是否允许本土企业采购 [11] - 外媒报道字节、阿里已向英伟达咨询H200芯片,但最终采购需获得批准 [12]
软件外包巨头一高管,突发疾病离世
程序员的那些事· 2025-12-13 14:01
核心事件 - 东软集团高级副总裁陈宏印于2025年12月10日因突发疾病辞世,享年55岁 [1] - 公司公告称其生产经营活动不会因此事件受到影响 [1] 人物背景与贡献 - 陈宏印出生于1970年,拥有大连理工大学应用数学专业本科及计算机工程专业硕士学历 [2] - 他于1996年7月加入东软集团,在公司任职近三十年 [2] - 公司评价其始终恪尽职守,勤勉尽责,开拓创新,为公司发展倾注了全部心血并做出了重要贡献 [2] 任职经历 - 1997年起担任大连分公司副总经理 [5] - 1999年起历任公司电力事业部总经理、能源事业部总经理、能源与民航事业部总经理等职 [5] - 2002年始任公司副总裁 [5] - 2023年2月始任公司副CTO [5] - 2023年7月始任高级副总裁兼首席解决方案官 [5] 公司背景与近期动态 - 东软集团成立于1991年,是中国第一家上市的软件公司 [4] - 公司是行业领先的全球化信息技术、产品和解决方案公司 [4] - 2025年6月,公司完成权力交接,70岁的创始人刘积仁卸任法定代表人、董事长,由荣新节接任 [4] - 刘积仁仍以荣誉董事长等身份参与公司战略决策 [4]
GPT-5.2 来了!“成人模式”明年 Q1 推出
程序员的那些事· 2025-12-13 14:01
行业竞争与产品发布 - OpenAI在成立十周年之际紧急推出新一代大模型GPT-5.2 以应对谷歌Gemini 3模型带来的竞争压力 公司CEO启动了"红色警报"要求团队全力提速迭代[3] - GPT-5.2在涵盖44个职业的任务测试中 70.9%的表现超过或持平人类专家 完成速度比专家快11倍 成本却不到1%[5] - 相比上一代模型 GPT-5.2在写代码、做表格、分析长文档、解读图表等方面更可靠 幻觉率降低了30%[5] 产品版本与定价策略 - GPT-5.2推出三个版本:Instant版适合日常查资料和写文案 Thinking版专攻编程和数学运算等复杂任务 Pro版则面向高难度科研和金融建模[5][6] - 付费用户可在发布当天使用 免费用户于12月13日可体验 旧版GPT-5.1将保留三个月供过渡[6] - 模型使用价格有所上涨 输入每百万token收费1.75美元 输出每百万token收费14美元 Pro版价格更高[7] 生态整合与未来计划 - 微软第一时间宣布将GPT-5.2接入Office、GitHub等工具 编程助手Cursor也同步支持[7] - OpenAI透露可能在明年一季度推出ChatGPT"成人模式" 目前正在测试年龄识别系统[8] - 公司CEO预计明年1月解除"红色警报" 并暗示下周将有"圣诞小礼物"[8]
全面收费+发弹幕也要充会员?B站紧急辟谣
程序员的那些事· 2025-12-12 22:38
网络传闻与官方回应 - 网络流传截图称B站将于2026年3月1日起全面推行付费制,所有视频及基础弹幕功能将设为会员专享,无任何免费完整视频资源开放[1][3][4] - 该传闻引发用户强烈不满与恐慌,担忧免费时代终结,部分用户认为此举将严重破坏社区生态[4][9] - B站官方已明确辟谣,称截图内容纯属伪造,是虚假信息,并已就此事向警方报案,将追究造谣者法律责任[10] 平台会员体系与当前模式 - B站会员分为两个层级:正式会员(注册即有,社区入场券)和大会员(付费VIP,决定体验与独家内容)[5][6] - 传闻中所指的“会员”为付费的大会员[7] - 平台目前仍保留免费观看模式,非会员用户可正常浏览大量免费视频资源,包括UP主原创内容,部分资源仅对大会员提供高清画质或提前观看权益[15] 用户反应与历史政策影响 - 对于传闻,用户看法不一,部分认为“很假”,部分担忧平台未来走向,甚至有用户犀利评价称若全面收费平台可能倒闭[9] - 回顾历史,B站曾推行限制账号共享政策,当时引发大量用户吐槽和部分大会员用户要求退款,因政策影响了家庭共用体验并单方面降低了会员价值[16] 公司近期经营与财务表现 - 2025年第三季度,B站总营收达76.9亿元人民币,同比增长5%[17] - 三季度日均活跃用户数达1.17亿,同比增长9%;月均活跃用户数达3.76亿,同比增长8%[17] - 用户粘性创新高,人均单日使用时长达112分钟,同比提升6分钟[19] - 月均付费用户超过3500万,同比增长17%[19] - 大会员人数达2540万,其中约80%为年度订阅或自动续费用户,显示出高粘性和留存率[21] 商业模式与收入结构分析 - B站正处于“用户规模与利润双增长”的良性期,其基础是庞大的免费用户群[21] - 免费用户通过看广告、产生流量、制造互动氛围,构成了B站繁荣的社区生态;付费会员则是从中筛选出的高粘性、高购买力人群[21] - 公司收入结构正在变化:第三季度广告收入25.7亿元,同比增长23%,是增长最快的业务;增值服务(含会员)收入30.2亿元,增长7%[21] - 广告主愿意投钱是因为海量的年轻免费用户,若全面收费将降低对广告主的吸引力[21] - 限制账号共享等政策,旨在防止账号盗用或滥用以保护版权,同时挽回会员收入流失,保护付费内容生态的可持续性[20]
腾讯回应“微信群崩了”
程序员的那些事· 2025-12-12 22:38
微信服务故障事件概述 - 12月12日16:20左右,微信发生服务故障,表现为微信群消息无法发送、转账功能异常 [1] - 故障初期用户普遍误以为是网络问题、账号异常或被移出群聊,并尝试切换网络、重启设备 [1] - 微信团队于17:00左右发布声明,将故障原因归为“服务器轻微抖动”,并确认功能已恢复 [1] 故障影响与用户反馈 - 多数用户在17:00前通过重启微信恢复正常 [2] - 部分区域用户反馈故障持续时间超过1小时或反复出现 [2] - 少量用户遇到历史消息错位、未同步的问题 [2]