Workflow
量子位
icon
搜索文档
AI金矿上打盹的小红书,刚刚醒了一「点点」
量子位· 2025-12-26 16:52
小红书AI助手“点点”功能更新 - 小红书官方AI助手“点点”已全量上线,取代了部分用户首页的侧边栏位置,用户可通过点击新位置的小气泡进入对话框 [4][5][14] - 用户可将笔记直接分享给“点点”,无需手动跳转应用,即可开启边刷边聊的交互模式 [9] - 该功能支持通过长按评论区评论来唤醒AI助手,实现了更便捷的随叫随到式交互 [18][19] 功能定位与实测效果 - “点点”背靠小红书海量种草内容,在推荐文娱作品、餐饮美食等方面表现不错,能帮助用户节省浏览笔记的时间 [16] - 作为信息总结工具,AI能处理文字和视频笔记,例如在一篇包含1200+条评论的播客推荐笔记中,帮助整理出网友认为高质量的播客列表 [33][35] - 在决策支持方面,AI不直接给出结论,而是总结平台上的用户讨论,梳理争议点与好评,辅助用户自行判断,例如对演出《出马》的评价总结 [24] 行业竞争与战略意义 - 在社交媒体行业,集成AI功能已成为趋势,例如微博在热门话题中插入“智搜”功能,微信在公众号文章页面内置总结功能 [10] - 小红书此前在AI应用上被视为相对保守,此次“点点”的全量上线表明公司正加大AI领域的投入与推广力度 [11][38] - 小红书因其独特的“活人感”内容生态,被视为AI大模型预训练的优质数据金矿,此次动作被视为公司开始重视并挖掘此潜力的积极信号 [47][48] 用户反馈与产品迭代 - 功能更新引发部分用户不满,首要反馈是原有侧边栏被替换,认为此类重大改动通常只能由管理层自上而下推动 [40][42] - 有用户认为,经过AI过滤和总结的信息,在丰富性和友好度上不如直接阅读原始笔记 [43] - 官方目前处于征求意见改进阶段,用户在2023年12月31日前可到指定笔记下反馈意见 [44]
英伟达成美国大模型开源标杆:Nemotron 3连训练配方都公开,10万亿token数据全放出
量子位· 2025-12-26 14:35
英伟达发布开源模型Nemotron 3 - 公司发布名为Nemotron 3的“最高效的开放模型家族”,其特点包括混合Mamba-Transformer MoE架构以及采用NVFP4低精度训练 [1] 开源策略 - 公司不仅开放模型权重,还将公开超过10万亿token的训练数据、预训练与后训练软件以及训练配方 [3] 架构创新:混合Mamba-Transformer - 模型架构旨在最大化推理效率,使用大量Mamba-2层替代传统Transformer的自注意力层,以解决KV Cache随序列长度线性增长带来的计算开销问题 [7][8][9] - 以Nano型号为例,模型主要由交替堆叠的Mamba-2层和MoE层构成,仅保留少数自注意力层 [10] - 在8k输入、16k输出的典型推理场景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍,且序列越长优势越明显 [12] - 在长上下文任务上,Nemotron 3 Nano基座模型在100万token输入长度的RULER基准测试中得分为68.2分,远高于同样条件下训练的Nemotron 2 Nano 12B的23.43分,显示其长度外推鲁棒性更好 [14] 架构创新:LatentMoE - 针对Super和Ultra大模型,公司提出LatentMoE架构,在潜在空间中进行专家计算以解决MoE部署瓶颈 [15] - LatentMoE将token从原始隐藏维度d投影到更小的潜在维度ℓ(通常为d的四分之一),在此低维空间完成专家路由和计算,再投影回原始维度,从而降低权重加载和通信开销 [16][17] - 标准MoE使用128个专家、激活6个,而LatentMoE使用512个专家、激活22个,两者总参数量和激活参数量相近(约8B激活、73B总参),但LatentMoE在所有下游任务上表现更优:MMLU-Pro从48.30%提升至52.87%,代码任务从51.95%提升至55.14%,数学任务从78.32%提升至80.19% [18][20][21] 低精度训练技术 - Super和Ultra模型采用NVFP4(4位浮点)格式进行训练,在GB300上其峰值吞吐量是FP8的3倍 [22] - 团队已用NVFP4格式稳定训练高达25万亿token,与BF16训练相比,Nano模型的损失差距控制在1%以内,8B激活参数的更大模型差距缩小到0.6%以内 [22] - 并非所有层都量化至NVFP4,Mamba输出投影层保留在MXFP8精度,QKV投影和注意力投影保留在BF16,网络最后15%的层也保持高精度以确保稳定性 [23] 后训练方法 - 模型后训练采用多环境强化学习,同步训练数学推理、竞赛编程、指令遵循等多种任务,该方法更稳定且能避免能力退化问题 [24][25][26] - 在此方法下,AIME25数学分数从80提升到90,LiveCodeBench从65提升到72,τ²-Bench工具使用从40提升到50左右 [27] - 在MMLU、GSM8K、HumanEval等下游任务上,NVFP4训练的模型与BF16版本的准确率曲线几乎重合 [28] - 高效的推理吞吐量对生成海量RL rollout样本至关重要,团队采用异步RL架构和多token预测来加速,并使用GRPO配合masked importance sampling算法 [30][31] - 整个后训练软件栈以Apache 2.0协议开源,包括NeMo-RL和NeMo-Gym [32] 推理功能 - 模型支持推理时的思维预算控制,用户可指定思维链的最大token数,当达到预算时,模型可基于部分思维链生成最终回答 [33][34] - 论文提供了准确率与平均生成token数之间的权衡曲线,为部署中的效率-精度平衡提供细粒度控制 [35]
第一批拿12.8万月薪的实习生已经出现!AI人才抢夺战真的好激烈
量子位· 2025-12-26 14:35
AI人才争夺战蔓延至实习生与短期研究项目,薪酬与资源投入对标全职岗位 - 核心观点:全球科技巨头为争夺顶尖AI人才,已将竞争前移至实习生、学生研究员及短期研究项目(如Fellowship、Residency),为其提供接近甚至等同于全职研究员的薪酬和资源,旨在提前筛选和绑定高潜力人才[3][4][21][44][45] 海外巨头AI实习/短期项目薪酬与特点 - OpenAI:提供为期6个月的驻留计划,参与者以全职员工身份参与前沿研究,月薪约18,300美元(约合12.8万人民币),工作强度与薪酬均媲美正式岗位[6][7][8][10] - Anthropic:AI Safety Fellow项目为期4个月,参与者每周可获得3,850美元(约合2.7万人民币)津贴,并享有每月约15,000美元(约合10.5万人民币)的算力支持,超过80%的往届成员产出了论文[11][12][13][14] - 谷歌:Student Researcher项目针对博士生,采用年薪制,薪酬范围在11.3万至15万美元(约合79万至105万人民币),旨在为Google Research和DeepMind补充新鲜血液[16][17][18] - Meta:Research Scientist Intern项目为期12至24周,月薪范围在7,650美元至12,000美元(约合5.4万至8.4万人民币),覆盖NLP、生成模型等核心领域[19] - 行业普遍水平:AI相关实习和研究型短期项目的月薪普遍在7,000至18,000美元区间(折合人民币约4.9万至12.6万元),年薪换算后远超传统实习生认知[1][2] 国内大厂在AI实习生与学术人才上的投入趋势 - 字节跳动:2025年字节跳动奖学金名额增加,奖金翻倍至10万现金加10万专项学术资金,并为每位获奖者导师提供10万元奖励,覆盖大模型、机器学习等多个前沿领域[24] - 腾讯:宣布启动史上最大规模就业计划,三年内新增28,000个实习岗位,2025年计划接收10,000名实习生,其中60%为技术岗,背景是大模型加速落地[28][29][30] - 阿里云:启动近年来规模最大的AI人才校园招聘(2026届实习),AI相关岗位占比超过80%,覆盖大语言模型、多模态、AI Infra等方向[32] - 百度:2025年3月向在校生开放3,000多个暑期实习岗位,其中87%与AI相关[34] - 总体趋势:国内大厂虽未广泛披露具体薪资,但在实习岗位的AI技术集中度、资源投入及长期转化预期上,已显现出与海外市场靠拢的趋势[23][26][33][34] 企业对AI实习生的核心要求与战略目的 - 核心能力:要求候选人具备可验证的研究产出能力,如发表论文、方法论创新或在复杂问题上的系统性推进经验[36][37] - 项目期望:许多项目明确期望候选人在项目周期内完成具有公开价值的研究成果[38] - 人才筛选与培养:项目设计为全职工作强度,旨在观察候选人在高压下的表现,并评估其问题理解深度、研究品味及长期投入意愿,本质是提前培养和绑定未来的核心研究员或技术负责人[41][42][44] - 战略逻辑:将短期研究项目作为提前下注、低风险筛选精英人才的方式,比高价挖角成熟人才风险更低,比单纯依赖简历面试更可靠,实习生被当作“顶尖期货”对待[45][46][47] 行业影响与潜在挑战 - 人才竞争前移:AI人才的培养和筛选路径明显前移,巨头通过高薪和资源投入在人才早期阶段进行锁定[3][48] - 初创公司压力:这种趋势对资源和资金有限的初创公司不友好,使其获取顶尖人才的难度上升[48][49] - 岗位性质变化:这类高薪实习岗位已与传统意义上补充人力或承担基础任务的实习不同,工作内容与薪酬水平均等同于AI领域的正式工作[18][21][43]
超越GPT-5、Gemini Deep Research!人大高瓴AI金融分析师,查数据、画图表、写研报样样精通
量子位· 2025-12-26 14:35
玉兰·融观 (FinSight) 系统概述 - 中国人民大学高瓴人工智能学院推出了面向真实金融投研场景的多模态研报生成系统“玉兰·融观 (Yulan-FinSight)” [1] - 该系统能够自动拆解研究任务,从互联网和金融数据库搜集多源异构数据,并生成包含“发展历程”、“核心业务架构”、“竞争格局”等章节的万字图文报告 [3] - 该系统在AFAC 2025金融智能创新大赛挑战组的1289支队伍中夺冠,并在多项评测中超越了GPT-5 w/Search、OpenAI Deep Research与Gemini-2.5-Pro Deep Research [3] 通用AI在金融研报领域的挑战 - 金融研究报告是一项高度结构化、强逻辑、强可视化的专家级工作,对数据整合能力、分析深度及表达形式要求极高 [5][6] - 挑战一:领域知识与数据割裂。通用系统难以有效整合股价、财报等结构化数据与新闻、公告等非结构化信息,缺乏统一数据表示与多智能体协作分析机制 [7] - 挑战二:专业级可视化能力缺失。现有模型难以支持多维对比、事件标注等专业金融图表需求,且图文之间常缺乏严格的数据一致性约束 [8] - 挑战三:缺乏“迭代式研究”能力。现有系统多采用固定的“先检索—后生成”流程,难以像人类分析师一样根据中间发现动态调整研究重点 [9] FinSight的核心技术创新 - 核心思路是模拟人类金融专家的工作方式,而非简单堆叠模型 [10] - 创新一:采用代码驱动的可变内存智能体架构。该系统将数据、工具与中间推理结果统一映射为可读写的程序变量,由多个代码智能体通过共享变量空间协同推理,以支持长时程、多流程的专家级任务 [11][14][16] - 创新二:提出迭代式视觉增强机制。采用Actor–Critic协作范式,文本大模型生成绘图代码,视觉语言模型提供视觉反馈,通过多轮“生成—评估—修正”闭环优化,提升图表专业性 [18][20][21] - 创新三:采用两阶段写作框架。第一阶段生成针对子任务的分析链,第二阶段以分析链为骨架,组织编排生成长篇报告,有效避免逻辑松散问题 [24][25][26][27] - 在写作阶段引入生成式检索机制,模型根据上下文动态生成数据和图片索引标识符,以保障引用准确性和图文一致性 [29][30] 系统性能与实验结果 - 在高质量基准测试中,FinSight在事实准确性、分析深度与呈现质量三项核心指标上均显著优于对比系统,综合评分达到8.09 [34] - 在可视化维度上,得益于迭代式视觉增强机制,FinSight获得9.00的评分,明显领先 [35] - 系统生成的研报平均长度超过20000字,包含50余张图表与结构化数据引用,且报告质量随篇幅增长保持稳定 [38] - 在AFAC 2025金融智能创新大赛中,FinSight在1289支参赛队伍中排名第一,验证了其在真实场景中的实用性与鲁棒性 [39] 系统意义与行业影响 - FinSight展示了智能体架构在高复杂度垂直领域的潜力,首次在金融投研这一“专家密集型”场景中,展现出接近人类分析师的工作能力 [40] - 这一范式表明,在高度依赖专业知识、长时程推理与多模态表达的领域,AI系统开始承担起类似人类专家的工作方式 [41] - 随着智能体架构成熟,未来的科研分析、法律研判、医疗决策等复杂领域,或将逐步迎来以专家级AI智能体为核心的新一代生产力形态 [42][43]
量子位编辑作者招聘
量子位· 2025-12-26 12:24
公司概况与市场地位 - 公司是一家以追踪AI新进展为核心的内容平台,拥有8年行业积累[1] - 公司在微信公众号平台拥有超240万订阅用户,全网用户超700万,日均阅读量超200万[12] - 公司在第三方数据平台被认定为AI及前沿科技行业TOP1新媒体[12] 招聘岗位与方向 - 公司开放三大方向的岗位招聘:AI产业方向、AI财经商业方向、AI产品方向[2][6] - 岗位面向社招和校招,社招覆盖编辑、主笔、主编各个层级,校招面向应届毕业生并可实习转正[4][6] - 所有岗位工作地点均位于北京中关村[2] AI产业方向岗位详情 - 岗位职责包括跟进AI基建层新进展,涵盖芯片、AI Infra、云计算领域及核心玩家动态[6] - 职责还包括对前沿论文、开源社区及技术大会报告进行大众化解读[6] - 需要参与核心采访,对话产业专家并撰写AI云落地案例[7] - 任职要求对芯片、GPU、NPU、服务器、模型训练架构、云计算等有基本理解[11] - 要求熟悉AI行业供应链与生态,并能将复杂技术内容结构化表达,有技术背景者优先[11] AI财经商业方向岗位详情 - 岗位职责聚焦创投、AI创业公司、上市公司、商业模式及产业链资本动向[11] - 需要产出创投融资、招股书财报解析、公司战略分析等稿件[11] - 需要访谈对话投资人、创业者及产业分析人士[11] - 任职要求对数据敏感,对财报、股权结构、战略规划感兴趣[11] - 要求逻辑结构强,对商业叙事敏感,并热爱对话采访[11] AI产品方向岗位详情 - 岗位职责关注AI在终端的落地,包括软件应用产品与硬件方向[11] - 需要撰写AI应用产品深度评测,并跟踪多终端新品发布[11] - 需要对话访谈AI应用创业者、产品专家及终端技术专家[11] - 任职要求对智能硬件、AI终端趋势敏锐,是重度AI产品体验人士[11] - 要求熟悉各大终端厂商业态及体验方法论,并有强逻辑与结构化表达能力[11] 岗位通用职责与任职要求 - 主编岗位需具备选题和带队能力及经验[6] - 主笔岗位需具备原创深度稿件能力[6] - 编辑岗位需热爱表达,喜欢挖掘信息,并能用通俗语言解读AI进展[6] 加入公司的价值主张 - 员工可第一时间接触AI领域最新技术和产品,构建完整的AI认知体系[6] - 可将各种AI新工具应用于工作,提升效率和创造力[6] - 可通过撰写独家原创内容建立个人知名度,成为AI领域意见领袖[6] - 可与AI领域大咖零距离接触,参与重要科技活动,拓展行业人脉[6] - 应届新人可获得主编级编辑的一对一指导[6] - 可加入扁平、简单、开放、多劳多得的活力团队[6] - 可获得行业TOP薪资待遇及包含五险一金、餐补、绩效等在内的全面福利[6]
推理成本打到1元/每百万token,浪潮信息撬动Agent规模化的“最后一公里”
量子位· 2025-12-26 12:24
行业核心趋势 - 全球AI产业已从模型性能竞赛进入智能体规模化落地的“生死竞速”阶段,“降本”成为决定AI企业能否盈利、行业能否突破的核心命脉 [1] - 当前AI时代处于临界点,token成本下降是推动应用生态爆发的关键,类似互联网“提速降费”的历史进程 [7] - 技术进步促使token单价下滑,但单任务对token的需求呈指数级增长,若成本下降速度跟不上消耗增长,将面临更高费用投入,经济学中的“杰文斯悖论”正在token经济中重演 [8] - 要让AI真正成为“水电煤”般的基础资源并进入规模化普惠阶段,token成本必须在现有基础上实现数量级的跨越,成本能力将从“核心竞争力”升级为“生存入场券” [4][5][11] 成本挑战与瓶颈 - 现阶段token成本80%以上来自算力支出,阻碍成本下降的核心矛盾在于推理负载与训练负载不同,沿用旧架构导致“高配低效” [12] - 核心瓶颈之一是算力利用率(MFU)严重倒挂:训练阶段MFU可达50%以上,而推理阶段由于自回归解码特性,实际MFU往往仅为5%-10%,造成巨大算力闲置 [14] - 核心瓶颈之二是“存储墙”问题:随着上下文长度增加,KV Cache呈指数级增长,占用大量显存并导致高功耗,存算分离成为阻碍成本下降的重要瓶颈 [15][16] - 核心瓶颈之三是网络通信代价高昂:当模型规模突破单机承载能力时,跨节点通信可能占据总推理时间的30%以上,推高了总拥有成本(TCO) [17] 市场需求与规模 - 字节跳动旗下豆包大模型截至今年12月日均token使用量突破50万亿,较去年同期增长超过10倍,相比2024年5月刚推出时增长达417倍 [13] - 谷歌在10月披露其各平台每月处理的token用量已达1300万亿(相当于日均43.3万亿),而一年前月均仅为9.7万亿 [13] - 当使用量达到“百万亿token/月”量级时,每百万token成本仅下降1美元,就可能带来每月1亿美元的成本差异 [10] - 当前主流大模型的token成本依然高昂,以输出百万token为例,Claude、Grok等模型价格普遍在10-15美元,国内大模型也多在10元以上,高昂成本让大规模商业化应用面临严峻ROI挑战 [19][20] 解决方案与技术创新 - 降低token成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统,将推理流程拆细,支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,提升每张卡的负载和产出 [18] - 浪潮信息推出元脑HC1000超扩展AI服务器,基于全新设计的全对称DirectCom极速架构,采用无损超扩展设计,可高效聚合海量本土AI芯片,支持极大推理吞吐量,将推理成本首次击穿至1元/每百万token [2][23] - 元脑HC1000的DirectCom极速架构每计算模组配置16颗AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟,计算通信1:1均衡配比,实现全局无阻塞通信 [25] - 该架构支持超大规模无损扩展,通过算网深度协同、全域无损技术实现推理性能1.75倍提升,通过对大模型计算流程细分和模型结构解耦,实现计算负载灵活按需配比,单卡MFU最高可提升5.7倍 [27] - 通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍 [29] 未来发展方向 - 当前1元/每百万token的成本突破仅是阶段性胜利,面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的趋势,现有成本水平仍难支撑AI的普惠落地 [4] - 若要实现单token成本的持续、数量级下降,需要推动计算架构的根本性革新,要求整个AI产业的产品技术创新从当前的规模导向转为效率导向 [29] - 未来需从根本上重新思考和设计AI计算系统,发展AI专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化 [29]
P图新手福音!智能修图Agent一句话精准调用200+专业工具,腾讯混元&厦大出品
量子位· 2025-12-26 12:24
产品核心概念与定位 - 腾讯混元与厦门大学联合推出名为JarvisEvo的统一图像编辑智能体,旨在通过模拟人类专家设计师的迭代编辑、视觉感知、自我评估和自我反思过程来编辑图片,提供比专业软件更简单、比AI修图更可控的体验[1] - 该智能体的核心理念是“像专家一样思考,像工匠一样打磨”,其不仅能使用Adobe Lightroom等工具修图,更能“看见”修图后的变化并进行自我评判,从而实现无需外部奖励的自我进化[3] 研究背景与待解决问题 - 当前基于指令的图像编辑模型在追求“专业级”体验时面临两大核心挑战:一是“指令幻觉”,即纯文本思维链推理因“看不见”中间修图结果,仅凭文本“脑补”导致事实性错误[4];二是“奖励黑客”,即在强化学习偏好对齐过程中,动态更新的策略模型容易欺骗静态的奖励模型以获取高分,而非真正提升能力[5] - JarvisEvo的推出正是为了解决上述问题[6] 核心技术机制:iMCoT - JarvisEvo引入了交互式多模态思维链机制,打破了传统“盲修”的局限[7] - 与纯文本推理不同,该机制在每一步编辑后都会生成新图像,并基于视觉反馈进行下一步推理,工作循环为“生成文本假设 -> 执行工具 -> 观察视觉结果 -> 反思决策”,确保每一步操作精准落地[8][9] - 该机制模拟了人类设计师“观察-操作-检查”的闭环工作流,整个推理过程包含视觉感知与规划、多步工具执行、自我评估和自我反思四个核心步骤[15][16][18] 核心技术机制:SEPO框架 - SEPO是JarvisEvo实现“自进化”的引擎,包含两个协同进化的优化环[11] - 编辑者优化环:模型利用自我评估分数作为内在奖励,不再依赖容易被欺骗的外部奖励模型[17][23] - 评估者优化环:利用人类标注数据持续校准模型的评估能力,防止模型在自我打分时“自欺欺人”[17][25] - 两个循环交替进行,形成“左右互搏”的进化效应,实现闭环的、可持续的自我能力提升[26] - 在编辑者优化环中,采用了选择性损失掩码技术,防止模型通过直接生成高分文本来“作弊”,迫使模型通过提升推理质量和工具使用准确性来间接获得高分[24] - 在评估者优化环中,使用包含人类专家标注的数据集来训练模型的评估能力,奖励取决于模型打分与人类专家打分的接近程度,以此校准模型的审美标准[28] 训练框架与数据 - 训练分为三阶段:第一阶段为冷启动监督微调,使用150K标注样本,目标是教会模型多模态推理语法、工具使用和初步审美评估等基本功[20] - 第二阶段为SEPO强化学习,使用20K标准指令数据,核心是引入协同编辑-评估策略优化,让模型从“会用工具”进化为“精通修图”[20] - 第三阶段为反思微调,使用5K在线生成的反思样本,目标是让模型具备“自我纠错”能力,提升处理复杂指令时的鲁棒性[20] - 团队构建了名为ArtEdit的双语专业修图数据集,包含170K样本,涵盖10大类、37个子类的专业摄影场景,并通过A2L协议集成了Adobe Lightroom中的200+个修图工具[31] - ArtEdit数据集分为专注于修图任务的ArtEdit-Lr和专注于审美评估的ArtEdit-Eval[32][35] 在线反思与自我修正能力 - JarvisEvo具备从错误中学习的能力,在训练过程中,系统会自动将低分轨迹与高分轨迹对比,生成反思数据[12] - 具体的在线反思数据生成机制是:当模型生成了一个得分显著更高的修图轨迹时,会触发反思生成,调用商业大模型作为“导师”进行归因分析,生成解释错误原因并指出正确做法的反思文本,最终构建成用于微调的反思样本[33] 实验性能与结果 - 在ArtEdit-Bench评测的L1和L2指标上,JarvisEvo相比商业级模型Nano-Banana提升了44.96%,能最大限度保留原图细节[36] - 在语义一致性和感知质量指标上全面领先,平均提升18.95%[37] - 其自我评估打分与人类主观偏好的相关性达到0.7243,超越了GPT-4o和专门的图像质量评估模型[36][38] - 在包含200个样本的人类主观评测中,JarvisEvo在与Nano-Banana的对决中取得了49%的胜率,远超对手的28%,证明其修图结果更符合人类审美[43] - 视觉效果上,JarvisEvo处理后的图像更贴合用户指令,在风格营造、细节呈现等方面表现突出[40] 未来展望与应用潜力 - “生成器-内部批评家”的协同进化范式具有强大的通用性,未来有望从修图拓展至数学推理、代码生成及长程规划等领域[44] - 团队将致力于突破当前步数限制,探索超过10步的复杂长程推理任务[45]
特斯拉通过「物理图灵测试」!英伟达机器人主管爆吹,圣诞节刷屏了
量子位· 2025-12-26 12:24
文章核心观点 - 特斯拉FSD v14.2.2版本在用户体验和技术能力上取得显著突破,被英伟达机器人主管评价为首次通过“物理图灵测试”的AI,引发了车主和行业的高度关注[1][3][7] - 特斯拉在Robotaxi赛道上正凭借FSD的快速迭代加速追赶行业领先者Waymo,双方在技术路线、运营规模和商业化进度上展开竞争[41][63] FSD v14.2.2 的用户体验与市场反响 - **行业专家高度评价**:英伟达机器人主管Jim Fan体验后称其为首个通过“物理图灵测试”的AI,驾驶体验已难以区分是神经网络还是真人司机,并对其产生依赖感[2][3][4][5] - **车主反馈积极**:收到更新的特斯拉车主反馈“玩疯了”,对FSD的表现异常兴奋,甚至感到震惊[6][8][10] - **具体场景表现优异**:FSD能读懂停车场“车位已满”显示屏并主动跳过楼层[11];变道决策果断迅速,进入“老司机”模式[12];能妥善处理旧版本的难题如死胡同场景[20];在拥堵的曼哈斯顿街头能识别并主动避让警车[22];在狭窄盲区能及时识别行人[24] - **高层亲自背书**:公司CEO马斯克亲自体验了无安全员的Robotaxi测试,称其在奥斯汀的全程驾驶表现“完美”[15][16][17];公司AI总监也发布了令人惊叹的体验视频[19] FSD v14.2.2 的技术升级细节 - **核心升级**:神经网络视觉编码器升级,利用更高分辨率视觉输入,整体感知与理解能力增强[32][33] - **感知能力提升**:强化了对紧急车辆、道路障碍物、人体手势以及小动物等异常交通参与者的识别与避让能力[33][34][35] - **规划与导航优化**:引入了更动态的路径规划能力,可实时应对拥堵、临时绕行等路况变化[37];泊车能力增强,新增“到达选项”,可根据偏好选择停车场、路边或车库,并记忆车主常用停车位置[37][39] - **驾驶风格控制**:全量推送两种新的速度模式:更保守的“SLOTH模式”和更积极的“MADMAX模式”[40][44];系统会根据用户历史驾驶风格进行自适应调整[40] - **交互简化**:“启动自动驾驶”按钮的刹车确认机制已默认关闭,简化了操作流程[40] 特斯拉与Waymo在Robotaxi领域的竞争格局 - **运营规模对比**:Waymo在北美市场占据绝对领先地位,车队总规模超过2500辆,已在菲尼克斯、旧金山、洛杉矶、亚特兰大和奥斯汀提供服务,并计划在2026年扩展至另外20座城市[41][42][43];特斯拉Robotaxi服务目前仅覆盖德州奥斯汀及旧金山湾区部分区域,在奥斯汀部署约30辆车,远低于Waymo在当地近200辆的规模[41][42][48] - **商业化进度**:Waymo每周付费行程超过45万单,2025年全年完成约1400万次出行,累计出行次数已超过2000万次[47];特斯拉原计划在2024年底前向多州扩张Robotaxi服务的目标尚未完全兑现,且在加州尚未获得商业化运营许可[52] - **用户增长趋势**:截至12月12日,Tesla Robotaxi应用累计安装量达52.9万次,过去30天日均下载量为2790次;Waymo应用同期日均下载量为24831次,差距明显但特斯拉呈现增长趋势[53][54] - **技术路线分歧**:Waymo采用依赖高精地图、激光雷达等模块化方案,在关键模块失效时可能退回到安全策略[63];特斯拉采用端到端神经网络路线,通过超大模型将摄像头像素直接映射到控制指令,依赖海量真实数据,被认为在极端情况下更具适应性[63] - **公开论战与营销**:马斯克公开反驳前AI负责人认为特斯拉软件略逊于Waymo的观点,称公司AI软件自其离开后取得巨大进步,“智能密度”比其他系统高出一个数量级[61][62];马斯克曾借旧金山停电事件嘲讽Waymo,为公司吸引了大量关注[65][66][68] 行业影响与未来展望 - **产品定位演变**:随着技术成熟,自动驾驶能力将从附加功能转变为真正影响消费者购车决策的核心要素[69] - **市场竞争态势**:北美Robotaxi赛道竞争加剧,除特斯拉与Waymo外,还有亚马逊Zoox等玩家入场,市场远未定局,将是一场长期且烧钱的竞争[63][64] - **公司市场宣传**:公司在社交媒体上暗示,未来无法实现自动驾驶的车辆将像“大哥大”一样过时,继续强化其技术领先的市场形象[70]
用AI代码替换Windows里每一行C/C++!微软回应了
量子位· 2025-12-25 21:32
事件概述 - 微软杰出工程师Galen Hunt在领英发布招聘帖,提出“一名工程师,一个月,一百万行代码”的激进目标,计划结合AI与Rust语言在2030年前淘汰微软代码库中的C/C++,并重写Windows等大型代码库[3][4][9] - 该言论引发巨大舆论争议后,微软官方及该工程师本人迅速“辟谣”,称该帖子被过度解读,Windows并未计划用Rust重写并加入AI,这只是寻找理念一致工程师的研究项目[1][2][16][17] 技术背景与动机 - **内存安全漏洞是核心痛点**:2019年,微软公开承认Windows系统中约70%的安全漏洞根源在于C/C++语言[25] - **Rust被视为解决方案**:Rust语言从设计之初就致力于解决内存安全问题,通过严格的编译时检查来防止内存错误,且与C/C++有良好互操作性,允许渐进式替换而非重写全部超过4000万行系统代码[27][33][34] - **AI被视为加速器**:公司高层曾公开表示,目前已有约20%到30%的代码由AI编写,并预计到2030年这一比例将高达95%[50][51][52] AI被认为可能承接编程语言转换的高昂成本,从而降低迁移阻力[45] 面临的挑战与争议 - **代码质量与可靠性担忧**:有观点指出,当前AI生成的代码错误率较高,若每十行代码有一个bug,重写一百万行将意味着十万个bug,其质量远低于人工编写[7][13] - **历史包袱沉重**:Windows内核代码历经数十年积累,规模庞大复杂,内含无数未知的边缘案例和“碰巧可运行”的bug,重写后若出现问题将难以调试[10][39][40][41] - **生态与成本障碍**:C/C++拥有高度成熟的工具链和数百万第三方驱动与软件生态,构成了其护城河[43] 转向Rust意味着整个开发者社区需承担高昂的学习成本,且Rust在某些细分领域缺乏成熟解决方案[42][44] - **技术成熟度存疑**:尽管AI编程能力进步,但当前技术仍不足以让AI深度参与并可靠完成Windows内核级代码的重写工程[48] 公司战略与文化 - **高层强力推动AI转型**:公司CEO将AI视为决定公司未来生死存亡的关键,并在内部下达了“要么拥抱AI,要么滚蛋”的强硬指令[53][55] - **战略执行趋于谨慎**:此次舆论风波可能促使公司在向“AI原生企业”转型的过程中,重新评估并调整其推进速度,采取更稳妥的步骤[56][58]
6999起!小米史上最贵Ultra来了:告别256G,影像硬刚iPhone 17 Pro Max
量子位· 2025-12-25 21:32
产品发布与定价 - 小米发布新一代影像旗舰手机小米17 Ultra,作为其年度收官之作 [1][2] - 产品起步配置为12GB运行内存与512GB存储空间,起售价为6999元人民币 [7] - 提供更高配置版本:16GB+512GB版本售价7499元,16GB+1TB版本售价8499元 [7] - 与徕卡联合推出“小米17 Ultra by Leica”特别版,配备大师变焦环等专享配置,16GB+512GB版售价7999元,1TB版售价8999元,均比同容量普通版贵500元 [9] - 产品未设256GB版本,起步即为512GB [60] 核心影像技术理念 - 公司强调以光学手段为主导提升拍摄效果,其思路是“用光学的方法,解决光学的问题”,区别于友商采用的数字化方案 [13][14][15] - 公司坚持光学本位,旨在解决行业普遍通过猛堆算法导致照片修饰痕迹重的问题 [38][39] 主摄传感器与动态范围技术 - 主摄采用1英寸传感器“光影猎人1050L”,配备3.2微米超大像素和f/1.67大光圈,综合进光量是iPhone 17 Pro Max的两倍 [17] - 传感器集成了LOFIC超高动态技术,采用全新像素结构,单像素电子容量是前一代的6.3倍 [19][20] - 该技术能在逆光、夜景等高反差场景中保持高光不过曝、色彩不溢出 [21] - 公司高管称,若明年手机未搭载LOFIC技术,则配不上“Ultra”之名 [28] - 产品专门配备了针对高亮度、大动态范围、复杂色彩的“烟花抓拍”模式 [29][30] 长焦镜头与连续光学变焦 - 长焦镜头沿用2亿像素,并引入28nm先进制程,使功耗降低了40% [35] - 通过光学手段实现了中焦与长焦全大底直出,解决了传统上大底长焦与大底中焦无法兼得的难题 [37][40] - 核心技术在于采用了“连续光学变焦”,长焦镜头相当于相机的变焦镜头,无需算法裁切即可实现画质无损 [43][46][47] - 长焦镜头采用8片3组的精密光学架构,包含3片透光率达99.9%的特种玻璃镜片以消除色差 [49][50] - 结构上包含两组浮动镜片,分别负责改变焦距和焦点 [52] - 在75mm至100mm的任意焦距下,均可实现2亿像素光学直出,并实现了75mm至400mm的超长焦无断档接力,支持最高17.2倍无损变焦 [54][55] 其他功能与行业背景 - 产品支持4K动态照片和4K实况运镜功能 [59] - 行业背景方面,由于AI需求暴增,内存需求正从传统消费者市场迅速转向AI基础设施和行业客户,导致整个内存供应链价格上涨,手机行业也受到影响 [64][65]