程序员的那些事
搜索文档
趣图:男生“我喜欢编程”,女生“我也喜欢”
程序员的那些事· 2026-01-13 11:48
文章核心观点 - 文章通过回顾历史趣图,以轻松的方式引导读者关注往期内容,旨在提升用户粘性和内容曝光度 [2] 内容结构与互动设计 - 文章采用图片作为交互入口,点击图片可直接跳转至往期相关文章进行阅读 [2] - 这种设计通过视觉元素吸引用户点击,有效促进了历史内容的二次传播和用户深度参与 [2]
刚刚,梁文锋署名开源“记忆”模块,DeepSeek V4更细节了
程序员的那些事· 2026-01-13 08:56
核心观点 - DeepSeek与北京大学合作发布新论文,提出了一种名为“条件记忆”的新稀疏化维度,并通过引入Engram模块来实现,旨在解决当前大语言模型缺乏原生知识查找机制的问题 [1][3][4] - Engram模块与现有的混合专家模型的条件计算形成互补,在等参数量和等FLOPs条件下,其性能显著优于纯MoE基线模型,并展现出在知识检索、通用推理及代码数学任务上的全面性能提升 [8][9][11] - 研究揭示了MoE与Engram之间的最优资源分配遵循U型扩展规律,并将Engram扩展至270亿参数规模进行验证,表明条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [10][11][13] 技术方案:Engram架构 - **设计目标与流程**:Engram模块旨在将静态模式存储与动态计算从Transformer主干网络中分离,其运行包含检索与融合两个阶段 [13][15] - **基于哈希的稀疏检索**:通过提取和压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量,为最大化语义密度,引入了词表投影将有效词表规模缩减约23% [15][16] - **上下文感知门控**:在检索后引入了上下文感知的门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以应对哈希冲突或词项多义性带来的噪声 [17][18] - **系统效率优化**:Engram的确定性检索机制支持参数存储与计算资源的解耦,在训练阶段采用模型并行将嵌入表分片,在推理阶段支持从主机内存异步预取嵌入向量以隐藏通信延迟 [19][21] - **多级缓存设计**:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持扩展到极大规模记忆容量 [22] 扩展规律与资源分配 - **核心研究问题**:研究旨在探究MoE与Engram之间的最优分配比例,以及在无限记忆范式下Engram自身的扩展行为 [24][25] - **U型扩展规律**:实验发现验证损失与分配比例ρ之间呈现一致的U形关系,纯MoE基准被证明是次优的,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能 [27][28] - **定量结果**:在总参数量约100亿的规模下,验证损失从纯MoE的1.7248改善到最优分配时的1.7109,最优分配点在不同规模间稳定在ρ ≈ 75%-80% [28] - **无限内存扩展**:在固定MoE主干上附加Engram表并增加槽数量,验证损失持续改善且遵循严格的幂律,表明更大的内存在不需要额外计算的情况下继续带来收益 [27][28] - **扩展效率**:Engram在相同的内存预算下比OverEncoding释放了更大的扩展潜力,验证了条件记忆作为稀疏容量独立、可扩展轴的作用 [29][30] 实验结果:模型性能 - **实验设置**:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,所有模型在包含2620亿token的语料库上预训练,激活参数量严格匹配 [34][35][36] - **整体性能对比**:在等训练计算预算下,所有稀疏变体均显著超越密集模型Dense-4B;在等参数量和等FLOPs条件下,Engram-27B持续改进MoE-27B基准 [37][38] - **知识任务提升**:Engram-27B在知识密集型任务上表现优异,例如MMLU准确率提升+3.0,CMMLU提升+4.0 [38] - **推理与代码数学任务提升**:在通用推理和代码数学任务上改进更为显著,例如BBH提升+5.0,ARC-Challenge提升+3.7,HumanEval提升+3.0,MATH提升+2.4 [11][38] - **更大规模扩展**:扩展到Engram-40B进一步减少了预训练损失,并提高了大多数基准测试的性能,表明扩展的记忆容量在当前token预算内尚未完全饱和 [39] 实验结果:长上下文能力 - **架构优势**:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了注意力容量,从而提升长文本性能 [41] - **超越注意力机制**:长文本性能与基础模型的通用建模能力内在耦合,并非仅由架构先验决定 [42] - **受控对比结果**:在控制基础模型能力的前提下,Engram模块表现出显著效率增益 [43][44] - **等损耗设置**:当预训练损失完全对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B,例如多查询NIAH准确率从84.2提升至97.0,变量跟踪从77.0提升至87.2 [45][46] - **等计算量设置**:在等计算预算下,Engram-27B在所有长文本评估指标上均实现顶尖性能 [46] 机制分析 - **有效深度增加**:分析表明,Engram能够将静态知识的重建负担从模型浅层剥离,从而有效加深网络用于复杂推理的有效深度 [11] - **注意力容量释放**:通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制的容量,使其更专注于全局上下文建模 [11] - **收敛速度分析**:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [45] - **表示对齐分析**:基于CKA的相似度热力图显示,Engram的浅层在功能上等效于MoE模型的深层,有效地增加了模型的深度 [45]
尴尬!死了么 APP 盼大厂抄袭,反手就被打脸:2 年前就有人做了
程序员的那些事· 2026-01-12 20:32
关于最近爆火的「死了么APP 」 ,昨天已经总结了一篇:《 热搜都爆了!"死了么"拟 100 万出售 10% 股份 》 我后来还看到一些相关消息,继续汇总: 1、早期成本不到 1500 元,现在的下载量比之前多了大概 300 倍 2、主要依靠用户购买 App 实现盈利,预计之后会涨到 14 元或者 15 元 3、开发者加了很多互联网大佬和头部机构,他还加了好多媒体,表示现在"承受着巨大的精神压力" 有网友吐槽表示"这有啥好抄的,别逗了"。更有博主在 16:48 发视频来打脸了,"自己团队早在 2023 年 10 月 就上架了同名的 APP,功能比目前这个还更完整,当时还上过微博和 B 站的热榜。" 面对质疑,@死了么APP 转发回应称, "假 大家谨防上当受骗,避免财产损失。真说灵感,也是广泛网友 在各大社区热议共同讨论出的,并非视频所言" 。 4、他目前考虑融资,金额大约是 50 万美元 "死了么"蹲大厂抄袭,随后被指抄袭 1 月 12 日 15:17,@死了么APP 官微还发帖,"也共同期待一下,哪个大厂会第一时间抄袭"。 不过后来它又把回应删掉了。 PS:有一说一,左边这个的"一键上门收尸"也是很搞的 ...
马斯克 3 小时高能量访谈,全是暴论
程序员的那些事· 2026-01-12 20:32
人工智能发展预测 - 公司预测通用人工智能将于2026年实现,到2030年人工智能将超越全人类智能的总和 [7][8] - 公司认为人工智能在智能密度上还有两个数量级(100倍)的提升空间,并预测AI性能每年将有10倍的提升 [8][9] - 公司预计明年会让人感觉像是活在未来,比以往任何一年都更像未来 [10] 算力基础设施进展 - 公司正在孟菲斯建设Colossus 2数据中心,预计1月中旬将建成全球首个功率达1吉瓦的AI训练集群,到4月左右将扩展到1.5吉瓦 [11] - 公司旗下Grok 4在人类最后考试测试中已获得52%的分数,即将推出的Grok 5可能接近满分 [11] 人工智能安全与教育 - 公司提出确保AI安全的三个核心特质是:真相、好奇心和对美的感知 [12][15] - 公司认为真相可以防止AI因矛盾指令而“发疯”,好奇心可保护人类的存在价值,对美的感知能让AI创造美好未来 [12][13][14][15] - 公司正与萨尔瓦多合作推出全球首个全国性AI教育项目,认为AI可以成为无限耐心的个人教师 [16][17] 人形机器人发展 - 公司预测其Optimus机器人将在三年后达到超越最佳外科医生的手术水平,并能大规模部署 [18][19] - 公司认为五年后,机器人外科医生与人类外科医生的差距将大到没有可比性 [19] - 公司解释人形机器人进步迅速源于AI软件、AI芯片和机电灵活性的三重指数增长叠加,以及制造递归和网络效应 [20] - 公司曾预测2040年人形机器人数量达100亿台,但认为这是保守数字,真正的瓶颈是金属和供应链,预计两年内机器人会大量出现,五年内从稀缺变为充裕 [20] 能源与未来基础设施 - 公司强调太阳是能源问题的终极答案,指出人类目前仅利用了地球接收太阳能的约1%,而合理文明目标应是获取其百万分之一到千分之一 [23][24] - 公司赞赏中国在太阳能领域的领先地位,指出中国年产能约1500吉瓦,去年新增500太瓦时装机量中70%来自太阳能,并预测到2026年中国电力产出将达到美国的三倍 [26] - 公司认为在地球上搞核聚变是荒谬的,并预测未来的货币本质将是瓦特(能量) [25][27] - 公司对太空数据中心感到兴奋,认为一旦星舰完全可重复使用,每次发射边际成本可能仅约100万美元,并展望未来在月球制造卫星并用质量投射器发射的可能性 [27][28][29] 人工智能对社会经济的影响 - 公司预测未来将同时出现全民高收入和社会动荡,白领工作会最先被AI取代,目前AI水平已可替代一半以上白领工作 [32][33] - 公司认为变革将缓慢发生,但最终完全AI化的公司将摧毁非AI化的公司 [34][36] - 公司提出可能的解决方案是“全民高物品和服务”,由于商品和服务产出增速超过货币供应,将导致价格暴跌和通缩 [37][38]
离谱!印度强要手机厂商核心源代码,全球巨头就差直接骂人了。网友:这是要明抢啊
程序员的那些事· 2026-01-12 10:58
印度政府拟推行新安全法规引发科技行业反对 - 印度政府拟出台包含83项内容的新安全标准方案 要求科技企业提交源代码供政府测试审查 并需将重大更新告知政府 保存12个月安全审计日志 定期提示用户审查权限 [3] - 新规旨在应对网络诈骗和数据泄露 保护印度近7.5亿手机用户的安全 [4] - 苹果 三星 谷歌 小米等科技巨头集体反对该提案 认为要求提交源代码会泄露企业核心商业机密并危及技术安全 并指出全球无其他国家有类似要求 [4] 行业组织与企业的具体反对理由 - 代表科技厂商的印度行业组织MAIT直接反对新规 称其完全不具备可行性 并已致函政府要求撤回提案 [4] - 企业反对理由包括 源代码是核心商业机密 提交会引发安全风险 以及新规要求的12个月日志存储和强制恶意软件扫描会占满手机存储或严重耗电 [4] 事件最新进展 - 印度政府再次向苹果公司施压要求获取iOS源代码 但从多方情况看 此诉求恐难实现 [1]
天才少年姚顺雨入职腾讯后首发声:人与人差距在 AI 工具
程序员的那些事· 2026-01-12 08:48
AI行业市场分化现状 - To C端市场对AI智能要求不高 应用类似增强版搜索引擎 关键在于摸清用户喜好和使用场景 [3] - To B端市场则完全不同 智能越高越赚钱 企业愿意为顶级模型支付大价钱 强模型与弱模型的差距将越来越大 [3] 自主学习技术的发展与瓶颈 - 2025年已有团队尝试使用实时数据进行训练 但效果一般 [3] - 当前核心瓶颈并非技术不行 而在于想象力缺失 即不清楚自主学习技术落地后的具体应用目标 [3] - 需要先明确具体应用目标 例如盈利交易系统或科学难题工具 才能有效推进 [3] AI产业落地建议与预测 - 建议大公司依靠自身场景获取真实数据 减少对外部标注数据的依赖 [3] - 强调人与人之间的差距关键在于是否会使用AI工具 中国需要普及相关教育 [3] - 预测To B领域的Agent技术将快速增长 若能实现全球企业部署 可能推动全球GDP多增长5%-10% [3] 中国AI团队的发展前景与挑战 - 中国AI团队有望实现全球领先 [3] - 实现领先需要突破三个关键点:算力、To B市场成熟度以及创新文化 [3]
从业 43 年的程序员直言:AI 不会取代程序员,软件开发的核心从未改变
程序员的那些事· 2026-01-12 08:48
文章核心观点 - 基于43年编程经验的行业观察,认为AI(特别是LLM)不会取代程序员,软件开发的未来仍掌握在开发者手中 [1][3][19] - 编程的本质是将模糊的人类思维转化为精准的计算思维,这一核心能力是AI难以替代的 [12][17] - 历史上多次“程序员将被取代”的预言均未成真,反而导致了程序与程序员数量的增加,体现了“杰文斯悖论” [6][9] 历史循环:“程序员将被取代”的预言从未成真 - 在过去43年中,多次技术革新(如Visual Basic、Delphi、无代码平台、4GL/5GL)都被预言为程序员的终结,但均未实现 [4][5][6] - 最终结果并非程序员减少,而是程序与程序员越来越多,形成了每年规模达1.5万亿美元的“杰文斯悖论”典型例证 [9] LLM与过往技术的本质差异 - 当前LLM浪潮的规模和关注度远超以往(如Visual Basic、可执行UML),并受到整个经济体的押注 [11] - 与过去能稳定可靠提升效率的技术不同,LLM对大多数团队而言拖慢了开发速度,并降低了软件的可靠性与可维护性,形成双输局面 [11] 编程的本质:从模糊思维到精准计算的转化 - 编程的真正难点在于将人类模糊、矛盾、充满歧义的想法,转化为逻辑严谨、精准明确的计算思维 [12] - 这一核心挑战从打孔卡片时代至今从未改变,未来很多年可能依然如此 [13][14][15][16][17] - 自然语言因语义模糊和不确定性,无法用于精准编程,市场上对既热爱又擅长计算思维的人才需求将长期供不应求 [17] AI在编程中的局限性 - 目前没有可靠证据表明AI正在大规模取代软件开发者,就业市场变化主因是疫情过度招聘、借贷成本上升及数据中心建设分流资金 [17] - AI短期内无法进化到胜任人类程序员的核心工作(理解、推理和学习),通用人工智能(AGI)仍遥不可及 [18] - AI生成的代码几乎必然存在问题,需要真正的程序员去识别和修复,且企业宣扬AI生成代码比例后常伴随重大系统故障 [18] - 构建大型模型的成本极高且承受亏损,其长期前景存疑,可能被证明得不偿失 [19] 软件开发的未来展望 - 软件开发可预见的未来是AI以更朴素的形式辅助工作,例如生成原型代码或自动补全 [19] - 在关键核心环节,方向盘前永远会坐着一名软件开发者 [19] - 建议雇主应提前招聘程序员,以应对未来可能出现的抢人大战 [20] 网友讨论精选 - 有观点指出,当前对大模型的使用依赖外部投资补贴,其真实的高昂隐性成本被忽视或淡化 [23] - 有经验认为,智能体大模型在解决底层库复杂问题、寻找非明显bug或理解嵌套抽象逻辑方面完全无用,但能高效处理简单、重复的样板代码任务 [24][26] - 有从业者感到担忧,认为AI工具在设计、代码评审、找bug、项目规划及决策方面可能已超越人类,程序员角色可能转变为流程协调者 [27][28]
笑死!“死了么”团队回应 + “活了么”跟风上架
程序员的那些事· 2026-01-11 22:05
“死了么”APP命名事件与市场反应 - 一篇公众号文章总结了“死了么”APP的相关信息 随后公司公开回应 表示会研究考虑新名称[1] - 在相关回应的留言区 高赞留言的舆论风向是反对改名 认为其出圈的关键优势就在于当前这个名称[2] 市场快速模仿与产品开发效率 - 在“死了么”APP引发讨论后 一个名为“活了么”的APP迅速跟进上线 成为另一个热门话题[2] - “活了么”APP的开发周期极短 开发者声称总耗时仅6小时 其中使用AI辅助开发4小时 手动编码2小时[3] - 该事件引发了市场对下一个跟风应用名称的猜测[3]
马斯克突然宣布:7 天内开源 X 推荐算法
程序员的那些事· 2026-01-11 22:05
公司动态 - 公司首席执行官埃隆·马斯克于北京时间1月11日凌晨3点宣布,计划将社交媒体平台X的推荐算法开源 [3] - 该声明在社交媒体原贴留言区引发了广泛讨论和互动 [3] 市场与用户反馈 - 部分用户对开源决定表示支持 [3] - 有用户提出开源算法可能使竞争对手更容易模仿公司技术 [3] - 另有用户通过具体案例评论平台算法,称涉及讨论加沙或批评以色列的内容会导致账号被隐藏,并认为该模式易于理解 [4]
热搜都爆了!“死了么”开发成本 1000 多元,拟 100 万出售 10% 股份
程序员的那些事· 2026-01-11 13:40
公司基本信息与起源 - 公司名称“死了么”源于网友的抽象创意,并发现该名称未被注册[3] - 公司由三名95后开发者于2025年年中开始远程协作开发[3] - 公司iOS版本应用在一个月内完成开发并上线,开发成本约为1000多元人民币[3] 产品定价与商业模式演变 - 产品最初采用免费模式,后调整为1元人民币,并于1月8日进一步将价格上调至8元人民币[3] - 涨价主要原因为用户量激增导致服务器需要扩容,以及第三方邮件和短信服务成本增加[3] - 公司计划出售10%的股份,作价100万元人民币,此举意味着公司估值将达到1000万元人民币[3] 市场热度与传播 - 公司在微博科技热搜TOP 50榜单中占据了9个话题位置,显示出极高的网络热度与关注度[1]