量子位

搜索文档
猫猫睡觉睡上顶刊:三分之二的家猫都倾向于向左睡
量子位· 2025-06-29 13:34
家猫侧睡姿势研究 核心观点 - 三分之二的家猫倾向于向左睡,这一现象与大脑半球处理威胁刺激的不对称性相关[1][4][14] - 研究通过分析408个YouTube猫睡眠视频得出统计学显著结论(χ²=37.7,p<0.001),65.1%猫向左睡,34.8%向右[8][11][13] - 左侧睡姿可能进化自应对捕食风险的生存策略,右侧大脑半球主导威胁处理使左视野更警觉[3][16][19] 研究方法 - 数据来源为408个高清未修改的YouTube视频,筛选标准包括全身可见、单侧躺卧≥10秒[8][9] - 排除模糊/镜像视频,研究者提供原始视频链接供验证[10] - 统计显示群体层面左偏显著性强(p<0.001),个体"爪偏"因素被排除因猫左右爪偏好比例均衡[11][25] 科学机制 - 家猫每日睡眠12-16小时(占生命60-65%时间),左侧睡可优化右脑对下方接近威胁的快速反应[16][19] - 与怀孕母牛56%左躺的生理性偏侧不同,猫数据未受性别/怀孕状态干扰[22][24] - 右脑杏仁核主导恐惧处理,左睡姿势增强左侧视野监测效率,符合进化本能[3][19][20] 研究局限与延伸 - 未控制品种、半球地域差异等变量,网友建议扩大样本量[30][33] - 作者承认结论非绝对,需探索其他潜在影响因素如环境压力等[27][28] - 该研究开辟宠物行为学新方向,激发公众参与观察家猫睡姿的科研兴趣[26][33]
华为CloudMatrix重磅论文披露AI数据中心新范式,推理效率超NV H100
量子位· 2025-06-29 13:34
AI算力投资趋势 - 马斯克旗下xAI计划将10万GPU集群规模扩大10倍,Meta拟投资100亿美元建设130万GPU数据中心,GPU数量成为衡量AI实力的核心指标[1] - 行业呈现简单粗暴的"堆卡"模式,但实际AI集群效能并非与GPU数量线性相关[2] 传统AI集群痛点 - 传统架构存在通信瓶颈、内存碎片化、资源利用率波动三大问题,GPU实际算力利用率受限[3][4] - 节点间采用RoCE网络通信,带宽仅200Gbps(25GB/s),存在南北向带宽瓶颈[23] - 超大规模模型运行时暴露算力不足、内存带宽受限、节点通信延迟高等问题,通信开销可占任务时长的40%[10][11][19] 华为CloudMatrix架构创新 硬件设计突破 - 采用384个NPU+192个CPU的超级节点设计,通过UB网络实现392GB/s单向带宽(相当于每秒传输48部1080P电影)[14][24] - 全对等互联架构消除CPU中转,AIV直连机制使传输延迟从10微秒降至1微秒,MoE场景通信耗时缩短70%[20][25][26] - 对比测试显示:预填充吞吐6688 token/s/NPU,解码吞吐1943 token/s/NPU,计算效率4.45 token/s/TFLOPS,均超越NVIDIA H100/H800[7] 软件栈协同 - 五大核心模块构成云原生软件栈:MatrixResource(拓扑感知资源分配)、MatrixLink(QoS保障网络)、MatrixCompute(自动扩缩容)、MatrixContainer(K8s容器化)、ModelArts(全流程MLOps)[33][34][36][37][40][41] - 内存池化技术实现全局内存视图,KV缓存访问延迟从毫秒级降至微秒级,缓存命中率提升至56%[27] - 支持15ms严苛延迟约束下的稳定推理,维持538 token/s解码吞吐量[28][44] 性能与成本优势 - DeepSeek-R1模型迁移仅72小时(传统方案需2周),INT8量化精度与官方API一致[7][54] - 首Token延迟降低80%,NPU采购量减少50%,万卡集群故障恢复时间<5分钟[44][52] - 在50ms TPOT约束下实现1943 token/s/NPU解码吞吐,严苛15ms场景仍保持538 token/s[28] 行业范式变革 - 打破算力-延迟-成本"不可能三角",EP320专家并行模式下token分发延迟<100微秒[47][48] - 未来演进方向:节点规模扩展+资源解耦(CPU/NPU物理分离、注意力计算与解码路径解耦)[60][62][63] - 已部署乌兰察布等四大节点,10ms时延圈覆盖全国19个城市群,支持动态扩缩容[45][51]
OpenAI华人AI大牛集体跳槽Meta!清华北大浙大中科大校友各一位,多模态后训练、感知团队负责人全走了
量子位· 2025-06-29 09:43
人才流动 - Meta近期从OpenAI挖走4名顶尖AI研究员,均为华人背景,使Meta从OpenAI累计挖走人数增至8名[1][3] - 四位研究员分别来自清华、北大、浙大、中科大,均在OpenAI担任核心团队负责人或关键项目贡献者[6][13] - 四位研究员内部Slack账户已被OpenAI停用,显示人才流动已成既定事实[22] 研究员背景 - 清华校友赵盛佳全程参与从初代ChatGPT到o3的预训练开发,2022年斯坦福博士毕业后即加入OpenAI[7][13] - 北大校友任泓宇领导OpenAI后训练团队,是o3-mini核心贡献者,原计划负责今年夏季开源模型发布[9][10][13] - 中科大校友于佳慧为OpenAI感知团队负责人,曾担任谷歌Gemini多模态视觉联合负责人[13][16] - 浙大校友毕树超为OpenAI多模态后训练主管,曾任谷歌工程总监及Youtube Shorts联合创始人[13][20] 行业竞争态势 - Meta本月已向至少45名OpenAI研究员发出邀请,显示人才争夺战持续升级[25] - OpenAI被迫提高薪酬以挽留人才,反映行业人才竞争成本显著上升[4] - 人才争夺战实质是开源阵营(Meta)与闭源阵营(OpenAI)的正面交锋[26] 技术影响 - 被挖人才集中在多模态训练、强化学习后训练领域,均为带团队经验的专家级人才[27] - Meta可能加速开发具备多模态深度思考能力的开源Llama模型[28] - 北大校友任泓宇离职可能影响OpenAI原定夏季发布的开源模型计划[10]
Labubu后,一款AI“毛球”潮玩火了:朱啸虎押注,定价399元开售就卖爆
量子位· 2025-06-28 13:09
产品概述 - 国产AI潮玩Fuzozo(芙崽)在618预售中表现亮眼,10分钟内破千单,京东潮玩品类销量仅次于泡泡马特和名创优品旗下单品[2] - 背后公司珞博智能完成数千万元天使轮融资,投资方包括上影新视野基金和金沙江创投[3] - 产品设计经历重大调整,从复杂桌面机器人简化为仅保留头部的毛绒形态,突出"萌系"特征[6][7][9] 目标用户与产品定位 - 核心客群为18-35岁女性,满足其对情感联结与陪伴的需求[10] - 通过"毛茸茸、轻巧、能表达情绪"的设计增强用户共情,体积小至可作挂件[11][12] - 定位"性格成长+长期记忆+社交裂变"三合一优势,强调养成系陪伴[14] 商业模式 - 硬件售价399元,采用"硬件+订阅"模式,每日提供免费对话额度,超额需付费[16] - 订阅模式基于语音交互链路成本测算,但免费用户仍可体验核心功能[16][18][20] - 对标宠物经济逻辑,通过长期情感连接提升付费意愿[23][27] 技术架构 - 自研长期记忆系统EchoChain,结合向量数据库和关系型数据库,支持永久存储与动态调用[56][57] - 采用多模态交互设计,硬件表现力与语音互补,平衡成本与体验[70][71] - 声音风格偏向二次元而非拟人化,符合萌宠定位[73][74] 产品迭代 - MWC展出的Demo经全面升级:硬件重构、APP玩法拓展、后端架构强化[40][42][43][44][46] - 内测数据显示用户24小时陪伴率高,反馈集中于对话效果优化和静默状态表现力[34][37][38] - 重点解决智能硬件"新鲜期短"痛点,通过记忆功能和成长系统增强粘性[52][53] 差异化壁垒 - 长期记忆系统实现事件关联与情绪感知,超越短期上下文交互[57][63] - 性格养成支持动态MBTI演化,同一五行属性可发展出独特个性[28][30][32] - 技术体系深度定制情感陪伴场景,形成"记忆-成长-反馈"闭环[64][67]
航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦
量子位· 2025-06-28 12:42
核心观点 - ITFormer是一种高效、可迁移的时序-语言桥接架构,将专家诊断过程抽象为"理解、感知、推理、决策"四个认知层次,并首次系统性地定义为"时序问答"任务范式[3] - ITFormer以模块化设计实现了时序数据与大语言模型的高效融合,仅需训练不足1%的额外参数,便可在通用时序问答数据集上表现出优越的性能和良好的迁移能力[3] - ITFormer在EngineMT-QA数据集上预训练后性能大幅提升,在全部五项任务上均达到SOTA水平,其中"因果分析"准确率高达0.83[4] - ITFormer展现了卓越的"即插即用"特性,可无缝适配多种时序编码器和大语言模型[3][28] 技术难点 - 高维数据的语义提取:单个时序样本可包含数万个数值(如32通道×600时间步),如何从中提取出有效的语义特征是首要难题[6] - 抽象语义的对齐建模:时序信号的模式变化与物理系统的状态转换之间的对应关系高度抽象,难以直接建模[6] - 多尺度时间依赖的处理:时序数据中的关键信息可能分布在不同的时间尺度上,模型必须具备处理多尺度依赖的能力[7] ITFormer架构与关键模块 - 时间令牌位置编码(TPE):在时间步、通道和时序片段三个层次上进行位置编码,确保模型能区分不同时间点、不同传感器以及不同数据段的语义信息[12] - 可学习指令令牌(LIT):在文本查询前添加一组可学习的令牌,通过自注意力机制从自然语言查询中自动捕获并浓缩任务相关的语义信息[13] - 指令时间注意力(ITA):通过通道指令融合和时间指令注意力两阶段过程实现跨模态对齐,显著提升计算效率[14][16] - 时间令牌即语言(TAL):将ITA融合后的时序特征向量直接视为语言令牌,无缝嵌入到LLM的输入序列中[15] EngineMT-QA数据集设计 - 基于真实的工业应用场景设计,任务层次反映了专家处理时序数据的认知过程,包含理解、感知、推理、决策四个层次[19][20] - 数据规模:包含超过11万对高质量问答数据,源于NASA N-CMAPSS标准数据集[20] - 数据维度:覆盖32个传感器通道,每个样本包含600个时间步[20] 性能表现 - 在EngineMT-QA数据集上,ITFormer-7B在"推理"任务上的准确率达到88.69,在"决策"任务上的BLEU得分为38.68,全面超越ChatGPT-4o、Gemini等基线[22][23] - 消融实验表明,TPE对模型性能的提升最为关键,ITA与TPE的结合能够产生显著的协同效应[24][25] - 在TimeSeriesExam基准测试中,ITFormer在"因果分析"任务上的准确率达到0.83,优于GPT-4o和Gemini-Pro[29][30][31] 应用前景 - ITFormer及EngineMT-QA为时序AI社区提供了新的研究范式和宝贵资源,在工程和科学领域均具有广阔的应用前景[33] - ITFormer的架构设计兼顾了高性能与高效率,为大规模实时应用提供了可能[32]
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
量子位· 2025-06-28 12:42
阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级,具备三大核心能力:增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出,突破传统固定格式限制[2] - 新增对现有信息的注释功能(如检测、分割等),示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力:像"连续剧"一样精准生成系列图片,示例展示购物篮装货场景[4][6][7] - 单指令编辑能力:成功将北极熊喝可乐替换为喝牛奶,保持背景和主体高度一致[20][22][23] - 多步骤任务处理:完成草图→上色→加字→编辑汉字的全流程,人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制:从上到下逐步构建图像,过程中持续优化预测内容[52][56] - 生成效率提升:特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异:官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理:成功将照片中的鸟替换为鸽子,但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力:在保持背景稳定的前提下,准确修改图像中的中英文内容[44][45] - 创意应用场景:网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]
小扎千亿挖人名单下一位:硅谷华人AI高管第一人
量子位· 2025-06-28 12:42
Meta的AI人才争夺战略 - 扎克伯格亲自带队重金招募AI人才,包括从OpenAI、Google、Scale AI等竞争对手挖角以及召回Meta旧部[1][2][3] - 重点目标包括Meta前工程高级副总裁Bill Jia,其曾主导PyTorch开发,现为Google Core ML/AI负责人[6][7][8] - 公司为AI人才提供数千万美元薪酬方案,坊间传闻部分"转会费"高达1亿美元[33][37] Google的AI部门整合与Bill Jia的贡献 - Google在2023年重组AI部门为Core ML/AI,由Bill Jia领导并整合多个团队[11][12][14] - Bill Jia上任半年内裁撤10名表现不佳的总监级员工,并推动Gemini 2.5 Flash等核心项目[13][16] - Google DeepMind与Core ML/AI深度合作,主导Gemini系列模型研发[16] Meta的AI业务现状与调整 - Llama 4发布遭遇滑铁卢,性能问题与AI研究主管离职引发舆论危机[18][19][22] - 公司紧急重组AI团队,设立AI产品团队和AGI Foundations团队,分别负责应用与基础技术[25][26][28] - 新成立超级智能实验室,目标开发超越人类认知的AI系统[29] 行业竞争与开源策略 - Meta坚持开源路线,计划年内推出多个Llama版本,但面临Google开源模型Gamma的竞争[44] - Google宣布全面拥抱开源为未来核心战略,提供业界最高免费限额的终端服务[44] - 行业AI人才争夺白热化,OpenAI等公司对Meta挖角行为提出反报价[36]
Anthropic最新研究:Claude正悄悄进化为“情绪价值大师”
量子位· 2025-06-27 18:57
核心观点 - Anthropic研究发现越来越多成年人将AI作为情感陪伴工具,Claude成为主要的情感倾诉对象[1][2] - 用户在面临存在恐惧、长期孤独等深层情感挑战时更倾向于向Claude寻求陪伴,其拒绝率低于10%且多为保护用户考虑[3] - 研究基于450万次对话中提取的131484条情感相关对话,采用Clio工具进行隐私保护分析[5] 研究方法 - Clio工具采用自下而上方法自动聚类对话主题,无需预设关注点[6][7] - 分析过程严格保护隐私,数据经匿名化与聚合处理,仅提供高层级汇总信息[8] - 具体分析步骤包括:提取对话分面、语义聚类、集群描述和构建层次结构[10][11][12] 用户行为分析 - 情感类对话仅占Claude平台互动的2.9%,其中陪伴和角色扮演类不足0.5%[14][15][16] - 用户主要分为两类:专业派(处理专业事务)和自救派(应对情绪困扰)[21][22] - AI在心理健康场景中具有双重角色,既能提供专业支持也能给予情感安慰[23] 使用效果与挑战 - 用户与Claude交流后情绪状态普遍更加积极[24] - AI无条件同理心可能改变人们对现实人际关系的期待,深度情感连接存在风险[25] - 公司将持续关注情感依赖问题,加强安全防护并与专业机构合作[26] 数据引用 - 研究样本量:450万次对话中提取131484条情感对话[5] - 情感对话占比2.9%,陪伴类不足0.5%[15][16] - 拒绝率低于10%[3]
你的扫描全能王,作价217亿冲刺港股IPO
量子位· 2025-06-27 18:57
公司概况 - 名片全能王、扫描全能王母公司上海合合信息科技计划以217亿市值赴港上市,实现"A+H"双重上市[2][3] - 公司2024年营收14.38亿元,净利润4亿元,毛利率高达84.3%[4] - 公司C端产品月活跃用户达1.71亿,在全球C端效率类AI"超级APP"公司中排名第五[5][6] 产品与技术 - 公司定位为人工智能及大数据科技企业,专注多模态大模型文本智能技术[7] - C端核心产品包括扫描全能王、名片全能王和启信宝,B端产品包括TextIn和启信慧眼[8][9][10][12] - 扫描全能王覆盖超200个国家和地区的10亿多用户,是全球最大图像文本处理AI产品[11] - 技术底座以文本智能感知与认知技术为核心,构建天枢、天璇、天玑三大技术平台[14][16] 商业模式 - C端产品主要通过付费订阅实现商业化,2024年付费用户占比4.3%[18][21] - B端产品将场景knowhow转化为标准化AI模块,覆盖近30个行业约160家世界500强公司[19][20] - 2024年C端业务占总收入83.8%,其中扫描全能王贡献77.3%[27][28] 财务表现 - 2022-2024年营收复合年增长率21%,分别为9.89亿、11.87亿和14.38亿元[25] - 同期净利润分别为2.84亿、3.23亿和4亿元[36] - 研发投入持续增加,2024年达3.9亿元占营收27.2%,研发人员占比60.6%[33][35] 市场地位 - 按2024年收入计,在中国MAU超1亿的C端效率类AI产品公司中排名第一[21] - 全球市场份额2.5%,排名第五,前四位为OpenAI、谷歌、Adobe和微软[22][23] 行业前景 - 全球AI产品市场规模预计从2024年465亿美元增长至2029年2280亿美元,复合增长率37.4%[66] - 中国B端AI市场2024年规模52亿美元,预计2029年达257亿美元,复合增长率37.6%[69][70]
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 18:57
核心观点 - 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的高效解决方案VHR,通过"视觉神经增强"机制直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象 [1][2] - 此前主流方法如对齐训练或输出层分布修正仅作用于模型最终输出阶段,未能深入干预其内部表征和生成机制,难以实现高效精准的幻觉抑制 [3] - 大型视觉语言模型(LVLMs)常因过度依赖语言先验知识而非图像真实内容导致事实性错误,这种幻觉是受内部语言建模偏好的系统性影响 [4][5] - 研究发现注意力机制内部的不平衡性是幻觉根本原因,少数注意力头对视觉信息敏感,大多数头更依赖语言规律 [7][8] - 提出视觉感知头散度(VHD)指标量化注意力头对视觉输入的响应强度,并开发视觉感知头增强(VHR)技术强化视觉敏感注意力头输出 [8][9] - VHR在多个基准测试中优于现有方法,几乎不增加额外时间开销 [8][16] 技术方法 VHD指标 - 提出VHD指标量化每个注意力头对视觉信息的敏感度,通过对比有无图像输入时注意力头输出的差异计算 [9] - 仅有少数注意力头表现出高VHD值,表明模型内部存在视觉感知与语言偏好头的显著分化 [9] - 进一步提出Token-VHD(T-VHD)指标评估生成每个词时模型对视觉信息的依赖程度,统计表明幻觉词通常对应较低的T-VHD值 [10][11] VHR技术 - VHR通过三个步骤动态强化视觉敏感的注意力头:异常VHD过滤、注意力头选择与强化、分层渐进式增强 [14][15] - 每层选择VHD得分前50%的注意力头,将其输出缩放α倍以增强视觉上下文的贡献 [15] - 采用逐层强化策略避免层间干扰,并在首步生成时确定每层的关键注意力头 [16] SSL方法 - SSL方法从语义引导角度出发,通过分析模型内部表征空间缓解LVLMs幻觉问题 [19] - 利用稀疏自编码器(SAE)识别"幻觉"和"真实"两种语义方向,在特定层进行针对性干预 [19] - 在视觉信息融合阶段注入真实语义方向增强视觉表示忠实性,在语言生成阶段抑制幻觉语义方向投影 [19] - SAE识别的语义方向在不同架构LVLMs中展现出良好跨模型迁移能力 [22] 实验结果 - 在MSCOCO数据集CHAIR评估中,VHR在InstructBLIP、LLaVA-1.5和LLaVA-NeXT模型上分别达到85.52、85.47和88.87分,优于其他基线方法 [17] - SSL方法在POPE数据集上取得显著F1分数提升,同时保持推理效率 [20] - VHR和SSL方法均保持高效性,几乎不增加额外时间开销 [16][20]