机器之心
搜索文档
计算机科学专业第三次大衰退?原因:AI
机器之心· 2026-05-05 09:49
文章核心观点 - 文章核心观点:计算机科学专业正经历第三次重大衰退,其标志是入学人数显著下降和毕业生失业率上升,此次衰退主要由AI技术冲击、行业大规模裁员以及专业竞争过度激烈等因素引发,但行业内部正发生分化,部分学生转向AI等新兴细分领域 [1][6][8][19][20][22][24][26][27][30] 历史衰退回顾 - **第一次衰退 (1984-1994)**:个人电脑普及推动专业热度在1984年左右达到顶峰,随后因高校师资不足被迫限制招生,导致至1994年计算机科学学位年产出量较巅峰时期下降约42% [11][13][14] - **第二次衰退 (2001-2007)**:互联网泡沫破裂后,学生入学热情消退,尽管行业在2004年左右已恢复招聘,但学生兴趣直到2007年后才回升,期间存在与当今类似的“工作外包”焦虑 [15][16][17][18] 当前衰退现状与数据 - **入学人数大幅下滑**:2025年秋季,美国四年制大学计算机科学专业在校生人数下降8.1%,为至少自2020年以来最大单年降幅,专业排名从第四跌至第六 [6] - **调查数据印证趋势**:对133所大学的调查显示,62%的受访院校报告计算机科学招生下滑,加州大学系统计算机科学在校生出现自互联网泡沫破裂以来首次下降 [20] - **毕业生就业市场恶化**:2025年纽约联储数据显示,计算机科学本科毕业生失业率升至6.1%,背景是2024年科技行业裁员超过15万人,2025年再度超过10万人,市场呈现供过于求 [22] - **薪资与就业对比**:计算机科学专业早期职业薪资中位数为80,000美元,中期为115,000美元,失业率6.1%,未充分就业率16.5%,拥有研究生学位的比例为32.8% [23] 衰退的驱动因素 - **AI的直接冲击**:AI被用作削减入门级岗位招聘的理由,诺贝尔经济学奖得主Simon H. Johnson认为AI已“在相当程度上消灭了”编程作为可靠职业出路的前景 [8][24] - **行业裁员与经济不确定性**:科技公司大规模裁员加剧了就业市场的竞争,使有经验的开发者与应届毕业生直接竞争 [22][24] - **高校扩招惯性**:2022年至2023年高校扩招计算机科学的惯性,恰好在市场需求收缩时将大批毕业生推向市场 [24] - **过度的竞争压力**:计算机科学专业因过去十几年过于成功而变得人满为患、竞争惨烈,AI将这种压力推至临界点,有学生因竞争压力大而选择其他专业 [26][28][30] 行业的演变与分化 - **学生流向细分领域**:部分“消失的计算机科学学生”转向了数据科学、AI、机器人、网络安全等细分专业,加州大学圣地亚哥分校因开设AI本科专业而实现逆势增长 [24] - **新兴学位项目增长**:全美已有193个AI本科学位项目和310个AI硕士项目,且数量持续增长 [24] - **需求层次可能改变**:行业观点存在分歧,问题在于AI是会彻底消灭对软件工程师的需求,还是仅改变其工作内容和层次,真正理解并能与AI协作的工程师依然炙手可热 [27][28][31]
ACL 2026|AI for聋哑群体,港理工开源思考型手语翻译模型
机器之心· 2026-05-04 12:10
研究背景与意义 - 听障群体在信息获取、公共服务和社会交流中长期处于边缘位置,主流信息传播方式基于语音和文字,使其面临更高门槛,未能充分享受人工智能技术发展的红利[2] - 手语翻译研究至关重要,其目标不仅是将视频翻译成文字,更是搭建连接不同表达体系与社会环境的桥梁,帮助听障群体更顺畅地接入主流社会,降低沟通壁垒[2] - 让AI服务更多人,而不仅仅是服务于主流交互方式下的多数群体,已成为一个越来越重要的问题[2] 技术挑战与现有瓶颈 - 手语翻译技术远比想象中复杂,其表达依赖动作轨迹、空间位置、身体朝向及上下文关系共同构成语义,同一手型或动作在不同语境下可能表达完全不同的含义[3][7] - 传统方法默认手语视频片段可直接对应自然语言词语的假设在真实场景中并不成立,手语翻译本质上是跨模态推理问题,而非简单的视频到文本映射[3][9] - 现有gloss-free方法面临关键瓶颈:模型需同时完成“决定表达什么语义”和“在长视频中定位时序证据”两件事,导致语义规划不稳定、注意力分散或生成句子与核心语义关系不对应[9] 核心方法:SignThought框架 - 研究团队提出名为SignThought的全新gloss-free手语翻译框架,其核心思想是在视频理解与文本生成之间引入一条有序的latent thoughts链条,作为中间语义表示[3][11] - 框架采用“plan-then-ground”解码方式:模型先决定“要说什么”(语义规划),再回到视频中寻找“证据在哪里”(细粒度grounding),从而显式拆解语义决策与证据检索[3][13] - 框架主要由三部分组成:负责编码视频的Sign Encoder、生成有序潜在思维链的Latent Chain-of-Thought Thinking Module,以及执行先规划后接地的Dual-Stream Decoder[11] - 在Thinking Module中,通过因果约束的thought更新机制,使前面的thoughts表示较粗粒度语义,后面的补充细节,并通过结构化路由机制将不同时间段的视觉证据分配给不同thoughts[17] - 该设计将latent thoughts视为视觉证据与自然语言生成之间的中间语义接口,并使其成为可追踪的中间锚点,能将生成文本与输入视频中的特定时间区域对应起来,提升翻译的忠实接地能力[13] 数据集构建:LC-HKSLT - 研究同步构建了新的大规模香港手语数据集LC-HKSLT,其数据来自公开视频场景中的播报式内容,只保留句子级监督信号,不引入gloss标注或SLR词汇,更贴近真实部署环境[19] - LC-HKSLT总计包含1311小时手语视频、432K个视频片段,覆盖14位手语者,SLT词汇量达到125,833个[20] - 该数据集提供了更真实的弱监督训练条件,模型获得的是接近真实世界的数据形态,而非干净精细的人为对齐标注,这使得显式的跨模态推理与证据组织能力变得尤为重要[20] - 实验主要使用其中一个精心整理的30小时子集,以便与现有中文手语翻译基准保持可比性[20] 实验结果与性能表现 - SignThought在五个手语翻译基准上进行了实验,包括PHOENIX14T、CSL-Daily、How2Sign、OpenASL以及新提出的LC-HKSLT[21] - 在PHOENIX14T数据集上,SignThought达到27.22 BLEU-4和54.50 ROUGE;在CSL-Daily上达到23.92 BLEU-4和50.99 ROUGE[22] - 在更大规模数据集上提升明显:How2Sign的BLEU-4从此前最佳方法的9.37提升到13.39;OpenASL的BLEU-4从13.21提升到19.55[22] - 在自建数据集LC-HKSLT上,公开设置下模型达到21.15 BLEU-4和47.87 ROUGE;在其余LC-HKSLT数据上进行预训练后再微调,性能提升至30.22 BLEU-4和60.01 ROUGE,表明大规模、领域内一致的sign-text数据具有高价值[23] - 消融实验表明,去掉latent thinking module性能下降最明显,而去掉causal thought更新、结构化路由、dual-stream decoder等组件也会带来不同程度退化,证明性能提升来自“中间推理链+路由+grounding”整套机制的协同作用[24] 研究价值与未来展望 - 该研究价值在于重新定义手语翻译任务:不应只被看作视频到文本的映射问题,而应被视为跨模态推理问题[26] - SignThought通过latent thoughts建立中间语义层,通过plan-then-ground解耦语义规划与证据检索,并借助大规模真实场景数据验证了这一方向的可行性[26] - 当前模型中的“thinking”仍是潜在的,而非完全显式、可读、可控的人类语言推理链,但该研究让手语翻译第一次更明确地拥有了“先组织语义、再接地生成”的中间过程[26] - 未来若将潜在规划与更显式的语义结构、文本原理或可控推理机制结合,手语翻译模型不仅能给出更准确的输出,还能更好地解释翻译原因,这可能成为下一阶段多模态理解与生成系统的重要突破口[26] - 该工作已被ACL 2026 Main Conference接收,并拟推荐为口头报告[4]
黄仁勋点名Anthropic达里奥,别一当CEO,就开「上帝视角」
机器之心· 2026-05-04 12:10
黄仁勋对AI极端叙事的批评 - 英伟达CEO黄仁勋批评行业领袖在讨论AI时应避免耸动判断,需立足于事实[5][6][11] - 黄仁勋点名批评Anthropic CEO Dario Amodei关于AI将导致大规模失业的预测[7] - Amodei曾预测AI未来几年可能取代50%的初级白领岗位,未来五年失业率可能飙升至10%到20%之间[8] AI“灭世论”与行业领袖的不同观点 - 黄仁勋认为AI是对人类生存威胁、有20%概率导致人类灭绝的说法“太荒唐”[12][13] - 该批评很可能指向埃隆・马斯克,其曾在播客中表示人类面临AI带来20%灭绝概率的风险[13] - 马斯克预测人工智能将在2029年或2030年达到“比所有人类加起来都聪明”的水平[16] - 其他专家如Geoffrey Hinton认为AI在未来30年内导致人类灭绝的概率为10%,而Roman Yampolskiy给出的“末日概率”高达99.999999%[20] AI对SaaS行业影响的再评估 - “SaaS末日论”认为AI会冲垮传统软件服务公司的商业模式,但面临质疑[21][22] - Workday CEO Aneel Bhusri以自身产品为例反驳,指出企业级软件涉及合规性、可靠性与系统集成,难以被轻松替代[22] - 近期Atlassian、Twilio和Five9等SaaS公司交出强劲财报,在AI浪潮中展现出增长韧性[23][24] - AI对SaaS的影响可能更像一场行业重组,旧功能被替代的同时会创造新需求,能深度集成AI的产品可能获得新机会[26] 文章核心观点总结 - 技术高速推进时,行业领袖应避免将AI的复杂影响简化为“岗位消失”或“人类灭绝”等极端叙事[20] - AI对劳动力市场、行业结构的影响尚无定论,其改变未必会按照最戏剧化的剧本发生[20][27][28] - 产业具备自我调整、产品重新定位和市场需求演化的复杂性,低估了这一点是极端叙事的通病[27]
ACL 2026|世界模型能让智能体「预知未来」?这篇新范式研究给了一个反直觉的答案
机器之心· 2026-05-04 09:39
文章核心观点 - 当前世界模型赋能智能体的主流范式存在瓶颈,即使提供100%准确的前瞻信号,大多数智能体也无法稳定、有效地利用它来提升决策表现,问题的根源在于缺乏“前瞻治理”能力[3][4][37] 世界模型与智能体的关系及研究范式 - 世界模型与智能体在理论上构成互补闭环:世界模型接收动作并预测环境状态,智能体根据环境状态输出动作,世界模型对智能体的赋能称为“前瞻”[2][3] - 研究提出将世界模型“工具化”的范式,智能体在每一步行动前可自行选择是否调用世界模型进行前瞻模拟[6][7][9] 实验任务与评测模式 - 研究探索两类任务:1) **智能体任务**(如推箱子、寻物),使用环境模拟器提供100%准确的前瞻信号;2) **视觉推理任务**(VQA),使用开源模型WAN2.1进行Rollout来模拟前瞻预测[11] - 采用三种评测模式:1) **原始模式**:不调用世界模型;2) **正常模式**:可自由选择调用;3) **强制模式**:每一步必须调用世界模型[12][18] 主要研究发现 - **发现一:世界模型的赋能不可靠,甚至可能降低表现**。在智能体任务中,即使前瞻信号100%准确,引入后平均表现反而更差(例如,GPT-4o平均分从0.40降至0.36,GPT-5-mini从0.41升至0.43但增幅有限)[15][16][17] - **发现二:智能体调用世界模型的意愿普遍偏低**。在视觉推理任务中,许多模型的世界模型调用率不足0.1,GPT-5的调用率甚至为0.00000[19][20][21] - **发现三:调用行为存在模型差异,但与效果提升无必然联系**。Llama系列调用积极(如Llama-4-Maverick在智能体任务调用率达0.9956)但收益不明显;小模型(如GPT-4o-mini)更爱调用,大模型(如GPT-5)更自信;调用率高低与表现好坏无稳定关联[19][23][24] 前瞻治理的框架与瓶颈 - 有效的前瞻治理包含三个阶段:1) **前瞻制定**:智能体决定何时及请求何种模拟;2) **模拟生成**:世界模型保证模拟的真实性与质量;3) **解释与整合**:智能体有效利用前瞻信号指导行动[29][32][34] - 成功的前瞻治理需要三方面能力:1) **技巧性的前瞻请求策略**;2) **对模拟结果的语义把握**;3) **对后续动作的有效指导**[31][35] - 前瞻治理失败的常见模式包括:过度重复请求、无效调用、对结果的模糊与误解、以及推理失焦导致行动循环[36][42] - 当前智能体与世界模型交互的**主导瓶颈是前瞻治理的稳定性**,而非单纯的模型能力不足[37] 对行业发展的启示 - 智能体需要先学会判断调用世界模型的时机与价值,而非单纯将其接入工具箱[39] - 世界模型应提供能被智能体当作有效证据使用的前瞻信号,而非仅是更长的状态描述[40] - 未来研究的重点应是让智能体建立起稳定的前瞻治理能力,包括如何提出更好的请求、理解结果并转化为行动[41]
这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?
机器之心· 2026-05-02 13:34
文章核心观点 - 在ARC-AGI-3基准测试中,当前顶尖大模型GPT-5.5和Claude Opus 4.7表现极差,得分均低于1%,揭示了它们在处理全新逻辑任务时存在根本性缺陷,其能力甚至不如6岁儿童[1][2][30] - 该测试被认为是衡量“人类智能本质”的试金石,要求模型在没有先验知识的情况下,通过抽象推理解决全新问题,而人类在此测试中能达到100%的正确率[5][8] - 模型失败的主要模式包括:无法构建完整的世界模型、被训练数据中的错误类比“绑架”、以及“通关”不等于真正理解规则[10][11][19] - 尽管总体表现相近,但两款模型的失败方式存在显著差异:Claude Opus 4.7倾向于过度自信地压缩出一个错误理论,而GPT-5.5则难以将广泛假设压缩为可执行的行动[26][27][29][30] ARC-AGI-3基准测试详解 - ARC-AGI-3是由Keras之父François Chollet创立的基准测试系列的最新版本,于今年3月发布[4] - 该测试包含135个由人类手工设计的新环境,旨在专门测试模型面对“未知”任务的能力,测试者不会获得任何玩法说明[7] - 测试环境剔除了模型通常依赖的文化知识,只保留对“抽象推理能力本身”的考察,聚焦于新颖性、模糊性、规划和适应性[8] - 该测试被认为是目前最接近“人类智能本质”的基准,其攻克标准是AI系统在首次接触所有环境时,行动效率达到或超过人类水平[5][8] 顶尖模型的失败表现与原因 - **极低的测试得分**:GPT-5.5在ARC-AGI-3上的得分为0.43%,Claude Opus 4.7的得分为0.18%[1] - **失败模式一:无法构建完整的世界模型** - 模型能理解局部动作的反馈,但无法将因果效应归纳为通用的全局规则[11] - 例如,Claude Opus 4.7在任务“cd82”中,能识别出旋转和蘸取油漆的独立操作,但无法整合出“先调整方向再蘸取”的完整策略[11] - **失败模式二:被训练数据“绑架”抽象思维** - 模型会将全新的ARC任务误判为已知游戏(如“俄罗斯方块”、“打砖块”),导致行动方向被带偏[17] - 例如,GPT-5.5在任务“cd82”中思维被锚定在“填充颜色”游戏,在任务“ls20”中误判为“打砖块”逻辑[17] - **失败模式三:通关不等于理解规则** - 模型可能侥幸通过特定关卡,但并未理解底层机制,并将错误认知带入后续关卡,导致彻底崩溃[19][20][24] - 例如,Claude Opus 4.7在任务“ka59”的Level 1中因错误理解“点击”机制而通关,但在Level 2需要真正机制时完全失败[20] GPT-5.5与Claude Opus 4.7的失败差异 - **Claude Opus 4.7:压缩错误的理论家** - 优势在于短周期机制发现能力强,能快速识别结构并形成一套“可运行的解释”[27] - 问题在于更容易抓住一个错误的“恒定特征”并坚定执行,形成自信但错误的理论[28][30] - 例如,在任务“cn04”中,它构建了一套关于“进度/计时/转换”的错误理论并持续尝试[28] - **GPT-5.5:无法压缩的思维发散者** - 优势在于“假设生成”更广泛,更有可能说出正确的思路[29] - 问题在于难以将广泛的可能性压缩并转化为坚定的具体行动,始终在不同游戏类型假设间跳跃[29][30] - 例如,在任务“ar25”中,它识别出镜像效应,但不断在“俄罗斯方块”、“青蛙过河”等假设间反复,无法坚定执行[29] - **核心差异**:根本区别在于“压缩”能力,Opus 4.7压缩成错误理论,GPT-5.5则几乎无法完成压缩[30] 对行业与AGI发展的启示 - 此次测试结果表明,即便拥有千亿级参数和巨大算力,当前最先进的模型在应对全新、需要抽象推理的逻辑环境时,能力仍然非常有限[1][2] - 模型在ARC-AGI-3上的集体低分(均低于1%)与人类100%的表现形成鲜明对比,凸显出现有AI与人类通用智能之间的巨大差距[5] - 该结果揭示了AGI(通用人工智能)发展道路依然漫长,道阻且长[30]
ACL 2026 | RouteMoA:无需预推理的动态路由,实现高效多智能体混合
机器之心· 2026-05-02 13:34
研究背景与行业趋势 - 大语言模型的发展正从“单模型能力提升”走向“多模型协作” [2] - 不同模型各有所长,协同工作可解决更复杂问题 [2] - 当前多模型协作方法(如Mixture-of-Agents, MoA)面临成本与延迟迅速上升的挑战 [2] 现有技术瓶颈 - 标准MoA方法中,每一轮都需要调用多个模型进行推理、筛选和融合,缺乏明确的模型选择机制 [2] - 模型越多、层数越深,整体开销越高,系统效率和可扩展性面临挑战 [2] - 现有稀疏化方法(如Sparse MoA)仍需所有模型先进行推理,再筛选,无法降低初始计算成本 [3][9] - 多模型系统的效率瓶颈在于“全量推理”,而非后续的融合过程 [8][12] RouteMoA技术方案 - 核心思想是通过推理前的能力预测,避免对所有模型进行无效推理 [5] - 将模型选择从“后验判断”转变为“先验预测+轻量修正” [15] - 流程分为三步:1) 先验筛选:使用轻量级scorer根据query预测模型表现,无需大模型推理 [16];2) 后验修正:基于已有输出进行低成本评审(Mixture-of-judges),不引入额外推理 [17];3) 综合排序:同时优化性能、成本和延迟 [18] 实验结果与性能表现 - 在包含15个模型的大规模模型池实验中,RouteMoA显著降低了成本和延迟 [20] - 总体成本降低89.8%,延迟降低63.6%,同时整体准确率相对MoA和SMoA有所提升 [21] - 在多项任务(语言理解、阅读&问答、逻辑推理、数学推理、语言生成)上,平均准确率达到78.6%,较MoA提升10.2% [22] - 在另一组基准测试(MATH, ARC-c等)中,RouteMoA平均准确率为83.1%,优于MoA的80.9%和SMoA的82.6%,同时成本大幅降低81.4% [22] 关键洞察与失败模式分析 - 多模型系统的本质是稀疏的,绝大多数query上真正关键的模型只占少数 [23] - 实验中,scorer在Top-3内命中正确模型的概率接近98% [24] - 多模型系统的主要瓶颈正从“选谁来回答”转向“如何整合多个答案” [27] - 失败模式分析显示,超过50%的错误(50.46%)来自最终答案融合阶段(Aggregation Error) [26] - 因选错模型(Scorer Mis-routing)导致的错误仅占24.15% [26] 行业意义与范式转变 - RouteMoA提供了一种新范式:不再默认所有模型都参与,而是先判断谁值得参与,再用协作机制校正和放大正确答案 [29][31] - 随着多模型协作兴起,系统层的调度与协同正变得与模型能力本身同等重要 [29]
刚刚,小扎买了一家机器人公司,要做人形机器人的「安卓平台」
机器之心· 2026-05-02 11:14
收购事件概述 - Meta Platforms Inc. 已完成对机器人人工智能初创企业 Assured Robot Intelligence 的收购 [2] - 此次收购是Meta在具身智能领域的重要布局,旨在为未来的AGI发展补充实体能力 [5] 收购战略与意图 - Meta延续了通过收购顶尖团队来补齐未来赛道拼图的扩张打法,此前在Instagram、WhatsApp和Oculus的收购上均有成功经验 [5] - 公司选择避开重资产的硬件制造,专注于开发机器人的传感器、底层AI模型与软件栈,计划将技术提供给行业内的硬件制造商 [6] - Meta的战略目标是成为人形机器人通用的“智能大脑”,试图收割类似谷歌Android系统或高通芯片那样的底层生态红利 [6] 被收购方ARI详情 - Assured Robot Intelligence 是一家专注于为人形机器人开发AI模型的初创公司 [8] - 公司团队规模约20人,员工主要分布在圣地亚哥和纽约 [8] - ARI的核心技术优势在于构建能让机器人理解并预测人类行为的智能模型,重点解决高精度敏捷操作、触觉传感及机器人在复杂物理世界中的全身协调与平衡问题 [8] - 公司由Xiaolong Wang和Lerrel Pinto联合创立 [9][11] - 联合创始人Xiaolong Wang曾是英伟达的基础模型研究员,并担任加州大学圣地亚哥分校的副教授,拥有卡内基梅隆大学的机器人学博士学位 [9] - 另一位联合创始人Lerrel Pinto曾是纽约大学的计算机科学研究员及教授,致力于大规模机器人学习等领域,并曾是机器人初创公司Fauna Robotics的联合创始人 [11] 团队整合与行业背景 - ARI团队将整体并入Meta旗下的“超级智能实验室”,并与Meta去年成立的机器人工作室紧密协同,共同开发驱动人形机器人的底层技术 [5] - 行业背景是特斯拉、谷歌和亚马逊早就在人形机器人赛道展开竞争,Meta不愿错过具身智能这趟通往AGI的实体班车 [5] - ARI团队被评价为“处于机器人智能技术的前沿”,其设计旨在让机器人能够在复杂和动态的环境中理解、预测并适应人类行为 [6]
CUDA 之外,英伟达还有什么护城河?
机器之心· 2026-05-02 10:30
文章核心观点 - 英伟达的竞争壁垒远不止CUDA软件生态,其核心在于构建了一个从电子到AI生成内容(token)的完整、高效转化体系,并通过覆盖AI产业全栈的生态布局、与上游供应链的深度协同以及其硬件平台的技术灵活性,确立了难以被商品化的市场主导地位 [1][4][6][7] 01. 不止是 CUDA,英伟达的护城河是什么? - 公司将自己定位为AI产业的核心转化载体,其核心价值在于将输入电子转化为高价值token,这一过程需要深厚的技术、工程和设计能力,使其难以被商品化 [4] - 公司的经营原则是“为实现转化做必要的事,同时做尽可能少的事”,在核心环节构建了严苛的技术与工程门槛 [5] - 公司的生态布局覆盖了AI产业的全部五个层级,而其自主承担的核心环节具备难以被复制和商品化的属性,非核心环节则通过广泛的生态合作完成 [6][7] - 公司认为,随着AI智能体能力的提升,软件工具的使用实例将大幅增加,软件企业不会商品化衰落,反而需求增长,这将持续带动对英伟达算力的需求 [4] - 公司的核心护城河之一是前瞻性的供应链协同,与芯片代工厂、内存及封装厂商签订了近1000亿美元的采购承诺,据SemiAnalysis报道,此类承诺总额将达到2500亿美元 [8][9] - 这种供应链合作基于对AI产业未来规模的预判,旨在推动供应链企业提前投入巨资扩产,而公司庞大的下游需求能确保消化新增产能 [10][11] - 公司的诸多行业活动(如GTC演讲)目的之一是向全产业链传递趋势,实现上下游认知对齐,为长期供应链布局打下基础 [12] 02 . TPU 对英伟达的竞争力带来了哪些威胁? - TPU正成为英伟达GPU之外的重要算力选择,全球排名前三的大模型中,Claude和Gemini已采用TPU完成训练 [13] - TPU通过极致的架构定制化实现更高效率,例如TPU 8系列的性价比提升了2.7倍,这促使Anthropic和OpenAI等巨头分配数千兆瓦的容量给非英伟达平台 [13] - 公司回应称,其打造的是与TPU不同的产品:TPU是面向张量计算的固化ASIC,而英伟达构建的是能够适配各类框架和算法的“加速计算”平台,CUDA生态的高度可编程性能支持AI架构变化,而缺乏灵活性的ASIC存在应用局限性 [13] 03 . 坐拥算力优势,英伟达为何不拓宽商业版图? - 根据文章提供的目录,该部分讨论了公司坚持不涉足超大规模云服务和其他芯片的原因,但正文内容未提供具体解读 [3]
我在OpenAI修中文
机器之心· 2026-05-01 18:00
模型发布与演示 - 公司发布了名为GPT Image 2的生成式AI图像模型,该模型由团队的研究科学家陈博远主力训练 [1] - 公司联合创始人山姆·奥特曼与研究科学家陈博远共同主持了发布会,并在会上演示了模型的文字渲染能力 [3] - 模型发布前以“duct-tape”(布基胶带)为代号在LMArena平台上进行了双盲测试,测试结果“断崖领先”代号为“小香蕉”的第二名模型 [3][8] 模型核心能力与测试表现 - 模型具备强大的中文渲染能力,此次发布修复了相关功能 [1] - 模型展示了卓越的多语言文字渲染能力,包括生成特别微小的中文细节 [12] - 模型在双盲测试中表现优异,大幅领先竞争对手 [8] 技术演示与创意应用 - 整个发布会官网博客的内容完全由模型生成的图片构成,没有使用文本 [1][10] - 模型能够一次性生成包含“画中画”和“画中画中画”的复杂图像,模拟出对真实漫画书拍摄的效果 [12] - 为展示文字渲染的极致细节,团队制作了一张包含众多米粒的4K图像,其中一粒米上刻有文字 [14] - 模型能够执行视觉推理任务,例如根据提示词“在黑板上用视觉(而不是代数)证明从1开始的奇数之和是一个平方”,生成相应的图形化解法 [21] - 模型展示了结合真实物体与艺术布局的设计能力,以体现其对真实世界的还原度和设计感 [19] - 模型具备搜索与整合能力,例如根据指令搜索官网商店内容并生成海报,并能在“Thinking mode”下自动生成包含可扫描二维码的图片 [22] 团队协作与发布准备 - 发布会的成功举办和精美网站的呈现得益于研究团队、市场部门及艺术团队的通力协作 [25] - 在发布前最后阶段,团队专注于修复细节并与相关部门共同筹备发布会及网站 [25]
不可思议!400B大模型在iPhone上跑起来了
机器之心· 2026-05-01 18:00
文章核心观点 - 一项名为Flash-MoE的开源项目成功在消费级硬件(包括iPhone 17 Pro)上运行了参数规模高达3970亿(400B)的MoE大模型,这标志着端侧大模型推理技术取得了突破性进展,尽管其运行速度较慢[1][2][3][21] 技术实现与项目概述 - 项目名为“Flash-MoE:在 Apple Silicon 上运行的 Qwen3.5-397B-A17B”,是一个开源项目,其引擎由Daniel Woods与Claude Code 4.6共同开发[5] - 该技术摒弃了PyTorch等现代AI框架,完全使用Objective-C和C编写,实现了零Python依赖,并手写了定制的Metal Shader来构建GPU流水线[16] - 核心创新在于通过将模型权重存储在闪存(SSD)中并按需流式加载到DRAM,解决了在DRAM容量不足的情况下运行超大模型的问题,其灵感来源于苹果公司的研究论文《LLM in a flash》[12][13][15][17] 性能表现与关键数据 - 在iPhone 17 Pro的A19 Pro芯片上,该3970亿参数模型运行速度约为每秒0.6个token(0.6 tok/s)[3] - 在Apple M3 Max芯片上,该模型实现了每秒5.74个token(5.74 tok/s)的持续速度和超过7 tok/s的峰值速度[9] - 模型总体积为209 GB,经过2-bit专家量化后为120 GB,在任何时刻仅有5.5 GB的权重驻留在内存中[7] - 通过移除应用层缓存、完全交由系统页面缓存管理的“反直觉缓存策略”,实现了38%的速度提升[9] - 该项目利用Grand Central Dispatch并发读取,在M3 Max上压榨出的SSD顺序读取速度约为每秒17.5 GB(17.5 GB/s)[16] 技术创新点 - 采用了融合三指令缓存(Three-command-buffer)的GPU流水线设计,消除了CPU与GPU之间的同步开销[8] - 应用了BLAS加速的线性注意力机制,用于Gated-DeltaNet层[9] - 利用了MoE(混合专家)模型中只有部分“活跃专家”被激活的特性,这是让参数量远超设备DRAM容量的模型得以运行的关键[18] - 该研究首次证明,在消费级硬件上,模型规模超过DRAM容量4倍以上仍能以交互级速度运行[9] 行业意义与影响 - 该工作标志着“端侧大模型”进入了一个极具突破性的新阶段,为在内存有限的移动设备(如iPhone)上部署超大规模模型提供了可行的技术路径[5][21] - 其核心方法“将SSD当作内存用”的思路,与当年英特尔傲腾(Optane)技术的逻辑类似,为解决大模型推理的内存瓶颈问题提供了新方向[12] - 尽管在iPhone上运行速度慢且不完整,但这一实践向“人手一个本地大模型”的愿景迈出了重要一步[21]