Workflow
量子位
icon
搜索文档
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了
量子位· 2026-01-06 15:06
实验概述与核心结果 - 香港科技大学教授团队主导实验,让搭载ChatGPT-5.2模型的AI眼镜参加《计算机网络原理》本科期末考试,在复刻真实考试条件下完成整套试卷[1][7] - AI眼镜通过“眼镜—手机—云端”链路工作:摄像头拍摄题目,传输至远程大模型推理,答案返回并显示在眼镜屏幕上供学生抄录,过程丝滑[12] - 该AI眼镜在30分钟内交卷,取得92.5分(满分100分),在百余人排名中跻身前五,轻松碾压超过95%的人类考生[4] - 具体得分情况:多项选择题(29/29满分),单页短答题(18/18满分),跨页短答题(45.5/53分)[14] 硬件与模型选择 - 项目团队系统评估了12款主流商业智能眼镜,最终候选为同时具备内置摄像头和集成显示屏的Meta Ray-Ban、Frame以及乐奇Rokid[8] - 因Meta未开放对显示内容的直接控制接口,而Frame相机画质有限,团队最终选择乐奇Rokid AI眼镜,因其SDK更丰富、生态更完善、开发自由度更高[9][10][11] - 在大模型选择上,团队对比多款主流模型后,锁定OpenAI最新的ChatGPT-5.2,因其响应速度和通用知识能力较强[11] 技术性能与当前局限 - AI眼镜在跨页短答题中展现出极强的推理连贯性,即便计算复杂部分偶有偏差,中间步骤也非常完整[14] - 主要暴露的短板是功耗问题:在开启Wi-Fi、持续进行高分辨率图像传输的高压连续场景下,30分钟内眼镜电量从100%迅速降至58%[18] - 摄像头清晰度直接决定AI的“视力”,题目若出现模糊、反光或拍摄角度偏差,会导致AI基于不完整信息推理,答题稳定性明显下滑[19] 对传统教学评估体系的冲击 - 实验表明,当教学评估主要关注能否交出“标准答案”时,这恰好落在AI最擅长且最稳定的能力区间内[21] - 以知识点掌握和标准解题路径为核心的传统评估方式,在AI时代开始显得吃力[21] - 英国雷丁大学的一项研究发现,AI生成的答卷混入考试后,有高达94%成功蒙混过关,且AI平均成绩明显高于真实学生[30] - 这引发核心问题:当AI比人更擅长按标准作答时,以笔试为核心、衡量知识点掌握程度的评估体系到底在测量什么[32] 未来教育评估的可能方向 - 传统评估长期只集中捕捉了人类多维智能中非常狭窄的一段(如语言、逻辑数学),难以评估创造力、协作能力等[40][42] - 评估重心需要从“交答案”转向“交思路”,关注学习过程、思考路径和决策质量,这些是AI最难替代且最能区分学生真实素养的地方[37][38] - 一些新的评估尝试已经出现,例如纽约大学商学院教授推出的由AI支撑的口试评估,学生需当场解释决策依据和思路,AI充当考官并进行评分[43][44] - 更现实的挑战是如何让学生把AI用在信息整理、方案推演上,而将人的精力集中到判断、理解和选择等无法被“外包”的环节[48]
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能
量子位· 2026-01-06 13:48
产品发布与核心定位 - 陈天桥与代季峰团队于新年伊始发布自研旗舰版搜索智能体模型MiroThinker 1.5,定位为智能体模型领域的“最强小钢炮” [1] - 该模型由MiroMind团队开发,该团队此前曾凭借成功预测Polymarket筛选题目而连续登顶Future X全球榜首 [9] - MiroThinker 1.5的推出标志着团队在已有技术积累上更进一步,整体预测能力达到新水平 [10] 性能基准测试表现 - 在HLE-Text测试中得分为39.2%,在BrowseComp测试中得分为69.8%,在BrowseComp-ZH测试中得分为71.5%,在GAIA-Val-165测试中得分为80.8% [3] - 与国内外顶尖模型对比,其235B参数版本在BrowseComp测试中以69.8%的得分超越了ChatGPT Agent的68.9%,刷新了该榜单纪录 [4][5] - 在GAIA-Val-165测试中,235B版本以80.8%的得分超越了GPT-5-High的76.7%和Gemini-3-Pro的74.8% [4] - 其30B参数版本在BrowseComp-ZH测试中以66.8%的得分,超越了1T参数的Kimi-K2-Thinking的62.3%,实现了4.5%的性能超越 [4][8] 核心优势:高智效比与低成本 - 模型参数规模显著小于主流模型,仅30B和235B,约为其他顶尖模型参数规模的1/30 [7] - 在实现相近甚至更好性能的同时,拥有极低的推理成本,例如MiroThinker 1.5的单条调用成本低至0.07美元,仅为Kimi模型的1/20 [8] - 模型的推理速度也显著优于Kimi-K2-Thinking等大参数模型 [8] - 公司对开发者友好,模型上线即开源 [8] 技术范式创新:交互式智能 - 行业普遍存在过度依赖堆叠参数和资源的问题,本质是让模型记忆更多知识并进行长链推理,一旦中间步骤出错会导致错误累积放大 [46][47] - 当模型参数规模达到一定程度后,继续堆资源的边际收益会迅速下降,行业需寻找新的智能增长路径 [48] - MiroThinker 1.5的解法在于将推理过程与外部环境深度绑定,为每一轮推理引入反馈校验环节,构建“推理-验证-修正”的循环路径 [48] - 核心是将Interactive Scaling从推理阶段前移并内化为训练阶段的核心机制,把模型训练成注重求证、校验和自我修正的探索型Agent [48] - 模型对于不确定性问题先交互再判断,对于高风险结论先查证再收敛,能够按需向外部世界精准取证,从而以更小的参数规模实现更高的智能密度 [49] - 这是其推理成本显著降低但性能保持一线水准的根本原因 [50] 关键技术:时序敏感训练与主动求证 - 通过“时序敏感训练沙盒”严格约束模型只能使用当前可见的信息做出真实预测,杜绝复述结果或使用未来数据“剧透” [52] - 该沙盒包含可控数据合成引擎和时序敏感训练机制,从机制上彻底杜绝未来信息泄露,迫使模型学会在信息不完备、有噪声和信号延迟的真实条件下完成推演并不断修正 [53][54] - 模型具备Evidence-Seeking能力,会将关键判断拆解为可验证子假设并主动发起对外查询、检索与比对,缺乏信源支撑的输出会受到惩罚 [56] - 模型具备Iterative Verification能力,推理过程允许反复回溯修正,当发现证据矛盾时会立即调整,而非将错误延续 [56] - 模型具备Anti-Hallucination能力,会对看似合理但缺乏证据的推理结果给予否定并标记为低质量,更关注“怎样得出答案”而非简单对错 [56] 行业逻辑转变:从“做题家”到“科学家” - 传统的Scaling Law是“做题家模式”,依赖记忆和统计,而非真正的理解和验证 [60] - MiroMind团队提出了除模型规模、上下文长度之外的第三大核心可扩展维度Interactive Scaling,将智能增长空间瞄准外部世界 [58] - 内化Interactive Scaling的模型像“科学家”一样建立研究闭环:提出假设→向外部世界查数据/取证→发现对不上→修正假设→再查证,直到证据收敛 [60] - 这有效降低了Scaling Law导致的幻觉,提升了可靠性 [61] - 此举是底层逻辑的转变,将有限的算力效益最大化,导向对外的信息获取与交互,把智能扩展维度从“更大脑袋”变成“更勤快的手” [62] - 这与MiroMind强调的“发现式智能”相契合,即在未知条件下重建对世界的理解,抽丝剥茧发现真相 [63] - 公司认为智能“奇点”的关键在于交互,并已率先转换赛道 [64]
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex
量子位· 2026-01-06 12:20
核心事件 - OpenAI研究副总裁Jerry Tworek于2026年1月6日宣布离职,他在公司任职近七年,是构建o1、GPT-4、ChatGPT及首个AI编程模型Codex的关键人物 [1][21][24] - 离职原因是为了探索一些在OpenAI难以开展的研究领域,并未公布具体去向 [1][24][28] 人物背景与职业经历 - Jerry Tworek拥有华沙大学数学专业硕士学位,具备强理论与数理功底 [9] - 职业生涯早期在阿姆斯特丹从事了五年量化研究,专注于期货市场的量化交易策略,并由此开始研究强化学习 [11][12] - 于2019年加入OpenAI担任研究科学家,当时公司规模尚小,以非营利研究实验室为主 [12] - 早期参与了机器人项目“用机器人手解决魔方”,并在NeurIPS 2019深度强化学习研讨会展示 [13] - 是最早一批参与“大规模预训练+算力扩展”路线的研究者之一,并在GPT-3发布后开始研究评估和训练GPT-3以解决推理和逻辑问题 [14] 在OpenAI的主要贡献与角色演变 - 2019至2022年间,专注于神经程序综合与大模型推理研究,涉及Codex、Copilot等代码大模型,并利用强化学习提升复杂任务的推理与决策能力 [16] - 在DeepMind发布Chinchilla模型之前,就已发现了后来被称为“Chinchilla Scaling Law”的现象 [26] - 是GPT-4的首席研究员,并领导了第一个推理模型o1的研究开发 [18] - 对外被介绍为GPT-5推理机制和长思考能力的核心负责人,并在多个访谈中系统讲解相关技术 [18][19] - 2022年起担任Research Lead,负责团队研究如何让大语言模型使用工具、解决STEM领域困难问题,包括插件和Code Interpreter等 [16] - 2025年升任OpenAI研究副总裁 [20] - 自称组建并壮大了“世界上最强的机器学习团队” [28] 技术理念与影响 - 长期强调对“推理”而不仅仅是“模式匹配式生成”的重视,倾向于将大模型视为可以通过训练“学会思考过程”的系统 [14] - 其工作推动了大语言模型编程革命,并建立了一个新的缩放训练和推理计算范式,即现在通常所称的“推理模型” [25][26] 离职反响与公司文化观察 - 其离职推文获得了大量OpenAI在职人员的积极回应与祝福 [4][6] - 有观察指出,OpenAI员工离职时发表“小作文”可能是一种企业文化或不成文规定 [33][34]
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货
量子位· 2026-01-06 12:20
第三代酷睿Ultra处理器发布与产品定位 - 公司正式发布第三代英特尔酷睿Ultra处理器,这是首款基于Intel 18A制程节点打造的产品,被视为公司重回制程霸主地位的关键一役 [1][3][5] - 该处理器有望成为公司有史以来覆盖范围最广的AI PC平台 [4] - 此次发布意味着公司不仅兑现了制程节点计划,更将半导体制造带入全新维度 [5] Intel 18A制程技术突破 - 18A制程实现了两大核心突破:RibbonFET(全环绕栅极晶体管)和PowerVia(背面供电技术) [12][13] - RibbonFET通过全环绕栅极控制,提升了开关精准度并减少漏电 [12] - PowerVia将供电电路移至晶体管背面,实现了供电与信号传输分离,降低干扰和电压损耗 [13][14] - 官方数据显示,18A制程可在相同功耗下性能提升超过15%,或在相同性能下功耗降低25%以上,晶体管密度提升30% [16] 处理器性能与规格 - 第三代酷睿Ultra(代号Panther Lake)是18A制程的首秀,移动端推出酷睿Ultra X9和酷睿Ultra X7两款产品 [17][18] - 旗舰型号最高配备16个CPU核心,包括性能核、能效核以及12个X核心 [19] - 集成英特尔Arc GPU,图形处理能力大幅提升 [6] - 相比于上一代Lunar Lake平台(酷睿Ultra 9 288V),新酷睿Ultra X9在1080p高画质下,45款游戏平均帧率提升77% [21] - 多线程性能(基于Cinebench 2024测试)提升60% [25] - 得益于18A制程的高能效比,续航时间达到惊人的27小时 [29] AI能力与边缘计算拓展 - 第三代酷睿Ultra在AI方面全面重构,旗舰型号NPU算力达到50 TOPS [35] - 配合强大的GPU和CPU,平台在大语言模型、端到端视频分析及视觉语言动作模型中具竞争优势 [36] - 公司首次实现边缘处理器与PC版本同步发布,该系列处理器首次针对嵌入式和工业边缘场景获得测试与认证 [39][40] - 处理器将应用于具身智能机器人、智慧城市摄像头、自动化生产线和医疗设备等边缘场景,支持宽温范围及7x24小时可靠性 [41] 市场发布与合作 - 搭载第三代酷睿Ultra的消费级笔记本于1月6日开启预售,1月27日全球正式发售 [43] - 目前已有超过200款PC产品设计在路上,覆盖从消费级PC到边缘计算的广泛领域 [44] - 在CES发布会上,中国企业身影占比加重,字节跳动(火山引擎)与公司有深度合作 [45] - 公司唯一邀请的独立软件开发商是新智慧游戏,其主攻AI游戏陪练,已覆盖CS2、英雄联盟等四款主流游戏 [47][48]
「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库
量子位· 2026-01-06 09:01
2025年中国AI产品市场概览 - 2025年国内AI产品领域涌现多个关键趋势,包括深度思考、Agentic AI、多智能体协作、多模态生成和端侧AI [4] - 多个颠覆性产品引领各技术方向:DeepSeek凭借强推理和透明化思考引领智能助手迭代;Manus实现从“思考→规划→执行→交付”的全链路自主任务处理,成为通用AI Agent;Lovart等产品通过多智能体协作实现高效任务处理;即梦AI等在多模态生成上取得进步;豆包AI手机将系统级AI智能体深度集成于操作系统,重构人机交互范式 [4] 量子位智库「AI 100」榜单介绍 - 榜单旨在对过去一年中国AI产品发展进行全景式检阅,并深度洞察未来AI产业格局,目标是找到代表中国AI实力的巅峰力量 [4] - 榜单共分为三大板块:代表最强综合实力的「旗舰AI 100」、最具未来潜力的「创新AI 100」和十大热门赛道的代表产品 [6] - 「旗舰AI 100」聚焦2025全年表现,评选综合能力最强的100款AI产品,这些产品在技术上实现突破并在实际应用场景中展现巨大价值 [7] - 「创新AI 100」旨在挖掘在2025年崭露头角、具备2026年爆发潜力的创新产品,它们代表了AI技术的前沿方向 [8] - 榜单另设10大细分赛道TOP3评选,赛道包括:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI医疗、AI娱乐、Vibe Coding和AI消费级硬件 [9] 榜单评估体系与方法论 - 榜单采用定量与定性相结合的双重评估体系以确保客观性和准确性 [13] - 定量评估以真实用户数据为基础,涵盖用户规模、用户增长、用户活跃、用户粘性四大核心维度,包含下载总量、新增下载、活跃用户数、留存率等超过20个具体指标;硬件产品则考察出货量 [13] - 定性评估聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力、团队背景、增长速度等多重因素;硬件产品考察具体功能设计和实际使用体验 [13] 榜单相关安排与资源 - 申报时间为即日起至2026年1月15日,榜单计划于2026年1月中下旬发布 [10] - 除榜单外,周边内容还包括数据解读文章、分赛道产品解析、1v1 AI产品深度访谈等 [14] - 量子位智库已对外公开自研梳理的国内AI产品知识库,提供对国内AI应用生态全景式、结构化、实时更新的梳理 [15]
量子位编辑作者招聘
量子位· 2026-01-06 09:01
公司业务与定位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累 [1] - 公司在AI及前沿科技新媒体领域具有顶流影响力和广泛产业资源,是行业TOP1新媒体 [1][12] - 截至2025年,公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量超200万 [12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向 [2][6] - 岗位覆盖社招(编辑、主笔、主编)和校招(应届毕业生,接受实习转正) [4][6] - 所有不同能力层级的职位均在开放,工作地点位于北京中关村 [2][4] AI产业方向岗位详情 - 岗位职责是关注AI基建层创新,包括芯片、AI基础设施和云计算领域的新进展与核心玩家动态 [5][6] - 需要做前沿论文、开源社区及技术大会报告的大众化解读,并参与产业专家访谈及案例撰写 [6][7] - 任职要求包括对芯片、GPU、服务器、云计算等有基本理解,熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,技术背景优先 [11] AI财经商业方向岗位详情 - 岗位职责是聚焦AI领域创投、财报、上市公司及产业链资本动向,产出融资分析、财报解析及战略分析稿件 [6][11] - 需要访谈投资人、创业者及产业分析人士 [11] - 任职要求包括对数据和财报敏感,逻辑与商业叙事能力强,并热爱对话采访 [11] AI产品方向岗位详情 - 岗位职责是关注AI在软件应用和硬件终端的落地,撰写产品深度评测,跟踪多终端新品发布,并对话相关创业者与专家 [6][11] - 关注方向包括手机、PC、XR、车机等终端 [11] - 任职要求包括对智能硬件和AI终端趋势敏锐,是重度产品体验者,熟悉终端厂商生态,并具备强逻辑和结构化表达能力 [11] 加入公司的优势 - 员工可第一时间接触AI领域最新技术和产品,构建完整认知体系,并应用AI新工具提升工作效率 [6] - 员工可通过撰写原创内容打造个人影响力,成为AI领域意见领袖,并能与行业大咖零距离接触,拓展人脉与视野 [6] - 公司提供专业指导(应届生有主编级导师一对一指导)、活力团队氛围以及行业TOP薪资待遇和全套福利 [6]
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛
量子位· 2026-01-06 09:01
公司战略与核心主题 - 公司在CES 2026上明确展示全力投入AI领域的战略,五年来首次未发布游戏显卡[2] - 核心主题直指物理AI,旨在将技术护城河从芯片层拓展至全栈平台层(模型+数据+工具),以拉动更多GPU与基础设施投入并增强用户与生态锁定[7][10] 下一代数据中心架构:Vera Rubin - 正式推出下一代AI数据中心机柜架构Vera Rubin NVL72,预计2026年下半年启动规模化量产[14][38] - 架构由六大核心组件构成:Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6 Ethernet switch[15] - 在NVFP4数据类型下,Rubin GPU推理性能达50 PFLOPS,是Blackwell GB200的5倍;训练性能达35 PFLOPS,是Blackwell的3.5倍[4][17] - 每颗Rubin GPU封装8组HBM4内存,提供288GB容量和22 TB/s带宽[18] - 引入NVLink 6,将单GPU互连带宽提升至3.6 TB/s(双向),每个机架配备9颗交换芯片,总规模内带宽达260 TB/s[20][21] - Vera CPU集成88个定制Olympus Arm核心,最多可同时运行176个线程,与GPU连接的NVLink C2C互连带宽达1.8 TB/s,可寻址最多1.5 TB的LPDDR5X内存[22] - 推出采用共封装光学(CPO)的Spectrum-X以太网交换机用于扩展,其中SN688提供409.6 Tb/s总带宽,SN6810提供102.4 Tb/s总带宽[24][25][26][27] - 推出BlueField-4 DPU构建新的“推理上下文内存存储平台”,旨在高效共享与复用键值缓存数据,提升系统响应和吞吐能力[32][34] - 每个Vera Rubin NVL72机架整体可提供3.6 exaFLOPS的NVFP4推理性能、2.5 exaFLOPS的NVFP4训练性能、54 TB的LPDDR5X内存以及20.7 TB带宽达1.6 PB/s的HBM4内存[36][37] - 与Blackwell相比,训练MoE模型所需GPU数量仅为四分之一,在MoE推理场景下每token成本最高可降低10倍[36] 自动驾驶领域发布 - 推出面向安全推理自动驾驶的全新开源模型系列Alpamayo[39] - 发布全球首款开源、大规模的自动驾驶视觉-语言-行动推理模型Alpamayo 1,参数100亿,能理解环境并解释决策行为[41][42] - 配套推出开源仿真框架AlpacaSim,并发布包含1700小时驾驶数据的开源数据集,涵盖广泛地理区域与复杂边缘场景[44][45] - Alpamayo将率先搭载于2025年第二季度欧洲上市的梅赛德斯-奔驰CLA车型,后续通过OTA升级推送高级自动驾驶功能[45] - 展示了基于自身技术构建的全球L4级自动驾驶与Robotaxi生态系统全景,覆盖全产业链[47] AI模型与平台更新 - 推出面向Agentic AI的NVIDIA Nemotron模型家族,并持续向社区开源训练框架及多模态数据集[6] - 开源数据集包括10万亿语言训练token、50万条机器人轨迹数据、45.5万个蛋白质结构、100TB车辆传感器数据[6] - Nemotron进一步推出针对语音、RAG以及安全三大场景的专项模型[49] - Nemotron Speech包含新的自动语音识别模型,在实时低延迟场景中速度比同类模型快10倍,已被博世采用[51][52] - Nemotron RAG搭载新的视觉语言模型以提升文档搜索效率,Nemotron Safety系列模型专注于增强AI应用安全性与可信度[53] - 公司在演讲中提及国产开源模型DeepSeek、Kimi K2、Qwen[11][12] 物理AI与机器人 - 为机器人推出的“大脑”Cosmos平台升级,全新发布Cosmos Reason 2视觉-语言推理模型、Cosmos Transfer 2.5与Cosmos Predict 2.5合成视频生成模型[56][59] - 发布专为类人机器人打造的开源视觉-语言-行动推理模型Isaac GR00T N1.6,支持全身控制并集成Cosmos Reason模型[60] - 推出NVIDIA AI Blueprint for Video Search and Summarization参考工作流,用于构建分析视频的视觉AI智能体[60] - Cosmos平台已被Figure、Agility Robotics、通用汽车等公司采用,其模型正被Salesforce、Uber等企业用于开发AI智能体[54][58] 生物医学领域 - 推出专门针对医疗健康与生命科学领域的AI技术工具NVIDIA Clara,旨在降低行业成本、加速治疗方案落地[61][62] - 该系列包含多款专项模型:La-Proteina能设计原子级精度的大型蛋白质;ReaSyn v2在药物发现阶段考虑生产问题;KERMT预测潜在药物人体反应;RNAPro预测RNA分子3D结构[68] - 将为研究者提供包含45.5万个合成蛋白质结构的数据集[65]
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少
量子位· 2026-01-05 17:39
Stack Overflow的衰落现状 - 当前提问数量甚至低于18年前(2008年)上线首月的水平,表明平台活跃度急剧下降 [1] - 全球开发者数量和编程工具在增长,但“提问”行为本身却在消失 [4] 平台的历史地位与成功模式 - 平台于2008年上线,定位为提供高质量、可复用答案的程序员问答社区,迅速走红 [7][9] - 通过投票、声誉系统和严格规范,将零散工程经验构建成结构化、可长期复用的知识库 [10][11] - 巅峰时期拥有超过180个子站,覆盖编程、数学、物理等STEM领域,成为全球最大的开发者知识基础设施 [15][16] - 曾是Google技术搜索的默认落点,程序员解决问题流程常为:Google → Stack Overflow链接 → 复制代码 → 修改 → 解决问题 [12][13] AI冲击与用户习惯改变 - GitHub Copilot、ChatGPT、Claude等AI工具的出现改变了开发者习惯,许多问题无需再公开提问 [17][19] - 问题解决流程从“卡壳→发帖→等人回答”转变为“卡壳→问AI→本地修改→继续工作” [20][22] - AI训练大量依赖Stack Overflow的优质内容,但更便利的AI工具分流了平台流量 [23] - 平台某种程度上变成了“被自己创造的知识反向替代的平台” [24] 平台自身存在的问题 - 在ChatGPT出现前,平台已因对新手提问过于吹毛求疵(如因格式、问题基础而下架)而走下坡路,浇灭了用户参与热情 [26][27] - 为应对AI冲击而接入AI功能,反而导致垃圾回答泛滥,平台引以为傲的内容质量直线下降 [28] - 平台2025年度报告显示,虽然AI工具使用率达84%,但开发者对其评价走低,信任度下降 [29] 未来发展的不确定性 - 平台面临战略选择:是聚焦垂直技术领域找回特色,还是彻底拥抱AI并重构商业模式 [32]
1人1假期,肝完10年编程量!马斯克锐评:奇点来了
量子位· 2026-01-05 15:04
行业趋势:编程Agent引发生产力革命 - 硅谷科技领袖普遍认为编程Agent正引发软件开发效率的质变,Midjourney创始人David称其个人在假期完成的编程项目比过去10年都多[1][2][3] - 行业认为这标志着技术奇点的到来,特斯拉与SpaceX CEO埃隆·马斯克评论称“我们已经进入奇点”[4][5] - 多位资深工程师的亲身经历证实了效率的飞跃,Anthropic工程师Rohan Anil表示,借助Claude Opus,其过去6年的工作可被压缩至几个月内完成[9][15] 技术应用与效能验证 - 编程Agent在实际工程任务中展现出强大能力,谷歌首席工程师Jaana Dogan透露,其团队去年构建的分布式agent协调器,Claude Code在一天内就生成了类似成果[16][17] - 最新基准测试显示Claude在编程领域领先,在LiveBench测试中,Claude 4.5 Opus以76.20的全球平均分位列榜首,其编程(Coding)和代理编程(Agentic Coding)得分分别为79.65和63.33[23][24] - 领先模型的编程能力得到市场验证,Claude 4.5 Opus在多项测试中超越GPT-5.1 Codex Max和Gemini 3 Pro等竞争对手[24] 主要参与者与产品动态 - Anthropic的Claude系列被业界视为当前编程Agent的领导者,其产品被多位技术专家提及并推荐使用[21][24] - 开发者积极分享最佳实践以提升使用效率,Claude Code开发者Boris Cherny每周能完成50-100个PR,并公开分享了其简化验证循环、并行管理多Agent的设置方法[28][29] - 中国科技公司迅速跟进市场趋势,字节跳动旗下AI编程助手TRAE的中国版SOLO已宣布全量免费开放[31][32]
量子位编辑作者招聘
量子位· 2026-01-05 13:00
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号拥有超240万订阅用户,全网用户超700万,日均阅读量200万以上[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招接受应届毕业生及实习生[4][6] - 所有岗位工作地点均为北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区、技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家、技术大牛,并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者、产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品和硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家、终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态和体验方法论,并有强逻辑、体验表达和结构化能力[11] 员工福利与发展机会 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 团队氛围扁平、简单、开放,奉行多劳多得、能者上位的原则[6] - 提供行业TOP薪资待遇,以及五险一金、餐补、项目绩效、商务绩效、加班补助等福利[6]