Workflow
量子位
icon
搜索文档
“英伟达显卡就是一坨*”!博主6000字檄文怒批:烧接口、缺单元、驱动变砖还威胁媒体
量子位· 2025-07-07 12:02
英伟达产品质量问题 - 5090显卡出现烧接口故障,与4090同款12VHPWR接口存在设计缺陷[10][11][13][14] - 50系显卡存在ROP单元缺失问题,5090/5070 Ti等型号实际ROP数量比标称少8个(4.54%),导致《艾尔登法环》4K性能下降5.6%-8.4%[16][18][22][23] - 驱动程序问题导致50系显卡更新后"变砖",涉及5090/5080等多型号,初期无降级解决方案[26][27][28] 销售策略争议 - 50系显卡库存严重不足,零售商5090首发库存仅个位数,5080仅数百张[29] - 二级市场价格暴涨,华硕5090建议零售价1999美元,实际售价达5100美元(溢价155%)[32] - 40系显卡定价过高,4070起售价800美元较建议零售价599美元溢价33%[33] - 存在捆绑销售现象,强制搭配电源/外设等滞销商品[34] 技术垄断与舆论控制 - 通过CUDA、DLSS等专有技术构建护城河,消费级GPU市占率超90%[36][48] - 施压评测机构,2020年禁止Hardware Unboxed获取评测样品,2025年要求Gamers Nexus修改评测标准[38][39][40] - 5060显卡发布时仅向选定媒体提供预览信息,未开放独立评测,疑似掩盖8GB显存不足缺陷[44][45][46] 市场地位与行业影响 - 数据中心业务收入占比从2019年25%升至2024年78%,消费级GPU占比从53%降至17%[34][35] - 行业观点分化:部分认为高端GPU已成奢侈品,部分认可其技术领先地位将持续[5][6] - 博主指控公司破坏向下兼容性,通过技术锁定巩固垄断[8][36]
Karpathy最新脑洞「细菌编程」:优秀的代码应该具备细菌的三大特质
量子位· 2025-07-07 12:02
细菌编程概念 - 大神Karpathy提出"细菌编程"新概念 其核心特点是代码块小而精 模块化 自包含且易于复制粘贴[1] - 细菌编程灵感来源于生物演化策略 通过"水平基因转移"机制促进开源社区发展[2][6] - 该理念被网友评价为"近十年来最有趣的帖子" 引发广泛讨论[3][4] 细菌编程三大法则 - **小**:每行代码需消耗能量 类似细菌DNA的自我精简机制[8] - **模块化**:代码应组织成类似细菌"操纵子"的功能簇 实现高内聚低耦合的即插即用[11] - **自包含**:代码需支持"水平基因转移" 不依赖复杂配置即可被直接复用[12][13] 软件3.0时代 - Karpathy提出软件发展三阶段:1 0传统编程 2 0神经网络权重参数 3 0自然语言编程大模型[23][24][25] - 软件3 0标志性特征是用提示词(prompt)作为程序 实现英语等自然语言编程[24] - 未来十年需重构海量代码 形成"人类+大模型"协同模式 逐步实现企业级工作流智能化[27][28][29] 其他创新概念 - **氛围编程(Vibe coding)**:基于大模型理解自然语言的能力 使任何人都有可能编程[32] - **上下文工程**:需精准控制LLM上下文窗口信息 整合任务说明 示例演示 RAG等多要素[36][37][39] - 基础设施需适配AI agent 现有软件交互界面应增加机器可读的LLM txt指引[34][35]
蒙娜丽莎让大模型们几乎全军覆没!网友:懂了,AI不会眯眼睛
量子位· 2025-07-06 13:12
大模型视觉识别能力测试 核心观点 - 当前主流大模型在识别视觉错位图像(如条纹干扰下的蒙娜丽莎)时普遍表现不佳,仅个别模型能通过特定提示完成识别[1][3][26] 国际大模型表现 - **ChatGPT**:能识别视觉错位图和人脸轮廓,但最终判断错误[13];深度思考后仍无法给出答案[14] - **Gemini**:仅识别出颜色条纹和侧脸轮廓,未判断具体人物[6][15] - **Grok**:直接表示无法辨认,要求提供更清晰图像[16] 国产大模型表现 - **豆包**:能分析图像风格和人脸轮廓,但误判为爱因斯坦[18][19];深度思考后仍基于错误特征推理[20] - **Qwen3-235B-A22B**:发现侧脸剪影但未识别具体人物[21][22] - **元宝、讯飞**:未提供有效识别结果[23] 成功案例与机制分析 - **o3-Pro**:唯一成功识别蒙娜丽莎的模型,推测其通过工具增强推理能力(如模糊处理)[27][29] - 成功依赖外部提示(如告知"著名画作")或人工预处理(如模糊图像)[34][36] - 普通版本o3需依赖Python图像处理工具但效果有限[29] 技术局限性 - 大模型普遍缺乏人类"眯眼"的视觉信息整合能力[10] - 故障艺术图像的通道分离特性对模型构成显著干扰[20] 测试方法 - 通过提示词引导模型模拟"眯眼"行为以降低条纹干扰[9] - 部分模型需结合深度思考模式进行多轮推理[19][21]
谁是余家辉?“年薪1亿美元”AI研究员,中科大少年班天才,吴永辉的嫡系弟子
量子位· 2025-07-06 13:12
余家辉的学术与职业背景 - 余家辉出生于1995年,30岁,2012年考入中科大少年班,本科期间获得全国并行应用挑战赛冠军、智能化技术训练营一等奖等多项荣誉[6] - 2016年赴UIUC攻读博士学位,师从计算机视觉领域权威专家黄煦涛教授,打下扎实学术基础[8] - 拥有4年7段跨平台实习经历,包括微软亚洲研究院、旷视研究院、Adobe、Jump Trading等知名机构,积累了丰富的实战经验[10] - 2019年加入谷歌,成为DeepMind团队核心力量,担任Gemini多模态项目联合负责人和PaLM-2模型核心贡献者[16] - 2023年10月加盟OpenAI,担任感知团队负责人,领导了4o、4.1、o3、o4-mini等明星模型的多模态研发[17] 技术成就与影响力 - 谷歌学术论文总引用数达34780次,h-index为49,i10-index为62,在AI领域具有显著影响力[23][25] - 开发的DeepFill技术成为图像修复领域重要突破,GitHub获3409次星标,解决了AI理解图像内容的核心难题[27][28] - 与吴永辉共同开发Conformer模型,改进Transformer架构,成为语音识别技术的重要进展[32] - 开发的CoCa图文基础模型(引用1752次)推动了多模态AI技术发展,在图像识别和文本理解方面有广泛应用[36] - 横跨计算机视觉、多模态理解、语音识别等多个AI细分领域,被称为"全栈AI科学家"[39] 行业洞察与战略价值 - 2022年准确预判ChatGPT将重新定义人机交互方式,提出"降维打击"观点[47] - 总结OpenAI成功的四大要素:时间积累、人才积累、组织积累、自信积累,现已成为行业共识[49][50] - 前瞻性指出AI商业化长远机会在基建层面,真正价值在应用层面,与当前科技巨头战略布局高度吻合[52][53] - 同时掌握谷歌和OpenAI技术路线,深谙两家公司工程文化和技术优势,成为Meta争夺的战略资源[20][21] - Meta以1亿美元年薪挖角,旨在通过余家辉获取AGI研发入场券,扭转在AI竞赛中的落后局面[57][58] 行业现象与人才竞争 - AI顶级研究员薪酬创纪录(1亿美元年薪),但公众知名度远低于商业价值[1][3] - 硅谷AI巨头间人才争夺激烈,OpenAI公开指责Meta挖角行为"令人反感"[2] - 中国背景的AI人才正在成为全球AI竞争中的关键角色[60] - Meta组建50人超级智能实验室,由Scale AI前CEO领导,试图在AGI研发中实现弯道超车[57]
老黄再收95后华人才俊!4亿美元收购AI初创公司
量子位· 2025-07-06 13:12
收购交易核心信息 - 英伟达以4亿美元总价收购AI初创公司CentML 其中基础收购金额超3亿美元 另含业绩挂钩的Earn-out条款 [1][7][8] - 交易完成后 CentML四位联合创始人及15名工程师全部加入英伟达 核心团队将担任AI软件部门高级职位 [4][18][20][21] - CentML将于2025年7月17日正式结束运营 公司已在加拿大完成注销登记 [11][12] 被收购方技术优势 - CentML专注开发运行于AI模型与底层芯片间的优化软件 可提升现有芯片30%性能与成本效益 [14][15][16] - 公司核心技术包括水平融合训练数组(HFTA)和BPPSA算法 能在不修改硬件前提下显著提升GPU/TPU资源利用率 [27][29][30][32] - 解决方案直击英伟达GPU短缺痛点 技术可集成至CUDA工具链强化端到端AI生态系统 [14][17] 创始人背景亮点 - CTO王尚为95后华人 多伦多大学博士 曾任职英伟达深度学习工程师两年半 发表多篇MLSys顶会论文 [2][24][25][27] - 团队学术背景深厚 首席执行官Gennady Pekhimenko为多伦多大学教授 其他联创均具顶尖企业研发经历 [20][21][25] 行业人才竞争态势 - 英伟达过去18个月连续收购Deci/OctoAI/Run:ai等AI效率优化公司 采取"收购即招人"策略 [33][34] - 对比Meta直接高薪挖角 OpenAI团队 英伟达更倾向整体收购华人主导的技术团队 [35][36][37] - 近期类似案例包括收购OmniML(韩松团队)和贾扬清创业公司 多位清华校友加入英伟达研究院 [38][39][40][41] 交易历史脉络 - 英伟达早在2023年10月联合谷歌Gradient Ventures向CentML投资2700万美元种子轮 含SAFE融资条款 [8][9] - 该轮融资支持CentML在2024年底前实现团队规模翻倍 并确立英伟达战略合作伙伴关系 [10]
Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤
量子位· 2025-07-06 13:12
核心观点 - 提出HarmoniCa框架解决扩散模型推理速度慢、成本高的问题,实现高性能无损加速 [1] - 通过训练-推理协同优化,突破DiT架构部署端速度瓶颈 [1] - 在PIXART、DiT等多个模型上实现更快推理、更高质量、更低训练门槛 [30] 技术方案 现有问题 - Diffusion Transformer(DiT)推理阶段存在重复计算多、耗时严重问题,如PIXART-α生成2048×2048图像需14秒 [7] - 现有特征缓存方法存在训练-推理脱节问题:前序时间步无感知、训练目标错位 [8] HarmoniCa创新机制 - **Step-Wise Denoising Training (SDT)**:模拟完整推理流程,采用教师-学生结构显式对齐缓存路径误差,抑制误差积累 [10][11][12][13] - **Image Error Proxy Objective (IEPO)**:通过动态代理项λ(t)优化最终图像质量而非中间噪声误差,实现质量与加速率可控权衡 [15][16] 实验结果 性能对比 - **分类条件生成(DiT-XL/2 256×256)**: - 10步推理时HarmoniCa FID 13.35优于LTC 14.59,缓存利用率22.86%高于LTC 19.11% [19] - 20步推理时加速比1.44×,FID 4.88显著优于LTC 5.34 [19] - **文本生成图像(PIXART-α)**: - 256×256分辨率下加速比1.60×,CLIP 31.13优于FORA 31.10 [20] - 1024×1024分辨率下加速比1.63×,FID 23.02优于DPM-Solver++ 25.01 [20] 技术兼容性 - 与4bit量化模型结合时,PIXART-α 256×256推理速度从1.18×提升至1.85×,FID仅增0.12 [24][25] - 相比量化/剪枝方法,HarmoniCa不依赖硬件优化,在20步采样下FID 4.88显著优于PTQ4DiT 71.82 [21][23] 部署优势 - **训练开销**:训练时间比LTC缩短25%,显存占用相近,支持单卡运行 [27] - **推理开销**:新增Router参数仅占0.03%,计算开销低于总FLOPs 0.001%,PIXART-α实测加速1.69× [28] - **通用性**:适配多模型(DiT/PIXART/LFM)和高分辨率(2K),无需专用硬件 [21][30]
对话AI记账TOP1 「咔皮记账」:小众赛道半年实现百万级用户,AI初创产品如何挖掘增量市场
量子位· 2025-07-05 17:59
产品定位与市场策略 - 咔皮记账定位为「年轻人的个人CFO」和「AI native的个人生活助手」,目标用户为22-30岁的一二线城市年轻人,收入中等且有记账理财需求[7] - 通过AI技术解决传统记账产品操作繁琐的痛点,使记账更轻更快,挖掘出「想记账但未能坚持」的潜在用户群体,半年内新增用户超百万[5][8][9] - 选择小红书作为冷启动平台,利用其种草文化进行传播,初期用户仅数千人,通过解决核心痛点实现自然增长至百万级[37][38][39] 核心功能与技术创新 - 主打AI记账功能支持文字/语音/多模态敲一敲记账,自动识别分类和关联资产,记账成功率是关键指标[5][19][32] - 创新性提供AI财务分析和消费建议,建立「更专业更便宜的专家系统」,这是与传统记账产品的核心差异[12][18][47] - 引入「生活时间轴」概念,记录消费行为的同时还原生活场景,未来计划向全方位个人助手发展[19][22][48] 产品开发方法论 - 需求挖掘通过内部体验+用户社群反馈双渠道,早期建立大量用户群收集需求,定量定性结合[24][25][26] - 采用「用脚投票」机制验证功能,先上线再通过用户实际使用数据迭代优化[5][26][34] - 区别于传统互联网产品,AI产品设计需更开放以承接大模型的个性化输出结果[27][28] 增长策略与商业化 - 增长核心在于解决用户最痛需求点并打透,如自动记账功能,带动高留存和口碑传播[39][40] - 当前阶段专注产品打磨而非变现,未来可能对高频使用或影响大的功能收费[41][42] - 北极星指标是成为真正的财务Agent,对用户生活产生可量化的积极改变[35][46] 行业竞争与挑战 - 面对大模型能力内化的威胁,通过结合用户个性化数据构建差异化优势[30][31] - 不担心功能交叉竞争,用户对产品有固有定位认知,迁移难度大[29] - 最大挑战是快速变化的AI行业,需紧跟基座大模型和技术革新[49]
Karpathy提的“软件3.0”已过时,交互即智能才是未来 | 上交大&创智刘鹏飞
量子位· 2025-07-05 12:14
软件演进范式 - 软件3.0的核心困境源于2022年ChatGPT发布时的技术背景,主要能力集中在文本生成和简单推理,而2024年9月后AI能力实现代际跃迁,从GPT-4生成能力到深度推理,具备元认知意识[6] - 软件3.5提出认知协作范式,AI成为透明思维伙伴,支持细粒度交互和自适应学习,实现"交互即智能"理念[7][8][24] - 软件发展沿开发方式(代码程序→网络参数→自然语言)和交互方式(操作型→对话型→认知型)两个正交维度立体化演进[11][12][13] 各代软件特征对比 - **软件1.0**:操作型×编程,手工编写代码(如C++/Java),逻辑透明但开发效率低,代表传统软件开发黄金时代[16][17] - **软件2.0**:操作型×参数,数据驱动神经网络训练(如LSTM),突破人工规则限制但需ML专业知识和大量标注数据[18][19] - **软件3.0**:对话型×自然语言,通过Prompt工程实现意图理解,降低开发门槛但交互仍为线性且缺乏透明度[20][21] - **软件3.5**:认知型×自然语言,支持实时思维干预和异步协作,界面需支持多模态认知输入和上下文感知[23][26][27] 技术突破与行业影响 - 大模型通过Inference-time scaling训练获得深度思考能力,实现人机思维层面交流,标志大模型进入"第二幕"(从生成能力到认知对齐)[25] - 开发者需掌握认知建模、意图工程、上下文工程等新技能,设计支持认知状态可视化和实时干预的动态界面[28][29][30] - 行业将进入人机智能融合时代,软件开发从代码编写→模型训练→Prompt工程→认知协作演进,人人可成为认知架构师[31][32][34] 历史背景与未来规划 - 上海交通大学刘鹏飞团队三年前已预见软件3.0趋势,与Karpathy观点高度一致(如情感分类示例),反映技术演进必然性[35] - 即将发布完整技术框架白皮书和产品实例,构建认知协作生态系统,包含工具链和基础设施(如GitHub项目Promptware)[42][43]
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
量子位· 2025-07-05 12:03
大模型数学能力下降研究 核心发现 - 大模型数学题答错概率因特定干扰语句翻3倍 其中DeepSeek-R1错误率从1.5%升至4.5% [2][23] - 干扰语句导致模型消耗Token量激增 最高达原消耗量的7倍 [17][19] - 攻击对推理模型效果显著 DeepSeek-R1和OpenAI o1受影响最严重 错误率提升3倍 [3][22][29] 攻击方法 - **攻击模式分类**:焦点重定向型(如储蓄建议)、无关琐事型(猫睡眠事实)、误导性问题型(预设答案提示) [14] - **实施流程**: 1) 筛选2000道数学题并确认模型初始正确率 2) 用GPT-4o进行对抗性修改(最多20次/题) 3) 最终574题攻击成功 语义一致性达60% [8][9][11][13] 模型表现差异 - **模型对比**: - DeepSeek-R1错误率升幅最大(3倍) - 蒸馏模型R1-Distill-Qwen-32B更脆弱 错误率从2.83%升至8% [24][27] - OpenAI o3-mini受影响较小 [29] - **数据集差异**:k12和Synthetic Math数据集最敏感 AMC AIME相对稳定 [31][32] 实验数据 - **攻击成功率**:DeepSeek-V3达35% DeepSeek-R1迁移成功率20% [26] - **效率影响**: - DeepSeek-R1在误导性问题攻击下Token消耗达16420 [25] - R1-Distill-Qwen-32B响应速度下降最严重 42.17%情况延迟1.5倍 [30] 研究背景 - 由Collinear AI团队开展 核心成员包括Hugging Face前研究负责人Nazneen Rajani [34][35] - 研究目标为提升开源LLM部署可靠性 团队规模50人以内 [35] 注:所有数据引用自实验原文 未包含任何推测性结论
Data Agent如何帮助企业打造懂你的“电子牛马”?|数势xSelectDB
量子位· 2025-07-05 12:03
核心观点 - Agent产品正在从通用型转向垂直企业级,强调"懂业务"的能力,需理解业务概念、逻辑并提出实际操作建议[7][8][11] - 数据Agent通过语义层连接自然语言与业务数据,解决传统BI灵活性不足问题,实现个性化、主动式和强大执行力的数据分析[14][20][21] - 企业智能化发展需结合强模型与优质私域数据,通过Data Agent激活沉睡数据,提升决策效率[24][41][42] 行业趋势 - 数据分析从"User-facing"转向"Agent-facing",未来Agent数量可能是人员10-100倍,要求数据库具备高并发、实时性和多数据类型支持[16][17] - 垂直场景中Data Agent价值更显著,如零售督导巡店、营销反欺诈等需灵活及时决策的领域[27][30][31] - AI Agent将重构企业组织结构,催生"超级个体"和新型角色如"电子牛马饲养员",增强而非完全替代人力[38][39] 技术路径 - 有效路径为NLP-to-Semantic而非Text-to-SQL,需构建企业私域知识体系实现语义映射[15] - 数据库需支持细粒度权限控制(RBAC),应对AI时代数据安全挑战,精确到行列级访问权限[35][36] - 分析型数据库需优化索引、实时查询和多源数据整合能力,如与COS对象存储打通处理非结构化数据[17][26] 应用场景 - 零售行业典型案例:通过Agent实时分析门店销售/员工离职率等数据,支持督导精益化运营决策[27][28] - 封闭场景可实现规则化自动决策,开放场景则提供结构化分析报告辅助人工判断[32][33] - 传统BI模式下被压抑的业务需求得以释放,数据消费频率提升10-100倍[25][26] 实施关键 - 企业需重点治理私域数据和语义系统,建立分析范式并沉淀为Agent模板[39][43] - 业务与平台联合共建至关重要,需持续探索适合落地的use case[44] - 评估标准分两类:封闭场景看规则执行准确率,开放场景看信息呈现完备度[32][34]