Workflow
量子位
icon
搜索文档
科学家Ilya不想当CEO,都是扎克伯格逼的
量子位· 2025-07-04 09:42
公司动态 - Ilya Sutskever被迫出任SSI公司CEO,接替离职的联创Daniel Gross [1][2][11] - 另一名联创Daniel Levy担任总裁,技术团队继续向Ilya汇报 [11] - Daniel Gross于6月29日离开SSI,此前已减少在公司的出现时间 [5][12] 人事变动与分歧 - Meta通过高薪挖角(传闻年薪1亿美元)和收购策略(如143亿美元收购Scale AI 49%股份)吸引人才 [17][19] - Ilya拒绝Meta的收购提议,而Daniel Gross对收购持开放态度,导致两人分歧 [21][22] - Meta同时计划收购Daniel Gross与Nat Friedman创立的AI风投基金NFDG部分股份 [24][26] 公司估值与融资 - SSI成立于2024年6月,专注"安全的超智能AI",未推出任何产品 [38][41] - 成立3个月后完成1亿美元首轮融资,估值达50亿美元 [39] - 2025年3月估值飙升至300亿美元,6月进一步涨至320亿美元(约2294亿人民币) [40] 创始人背景与行业影响 - Ilya Sutskever因AlexNet、AlphaGo和GPT两次改变AI行业,其个人影响力支撑SSI高估值 [43] - Daniel Gross为哈佛计算机系毕业,曾任苹果机器学习总监、YC AI负责人,2023年被《时代》列为AI领域最具影响力人物之一 [31][32][34] - 苹果曾试图招揽Daniel Gross并收购其投资的Perplexity [35] 战略定位 - SSI明确拒绝收购,强调"不卖,不缺钱",坚持超级智能研发目标 [28][29] - 公司核心研发力量仍由Ilya掌控,团队精简且保密性高 [14][41]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025
量子位· 2025-07-03 17:00
多模态大模型在移动端的部署挑战与解决方案 - 当前端侧多模态大模型(MLLM)面临纯语言任务性能下降超10%的问题,尤其在MATH、AlignBench和MT-Bench测试中表现明显 [4] - 手机NPU平台尚不支持MoE架构部署,包括联发科天玑9400和高通骁龙8 Elite在内的旗舰SoC均存在此限制 [7] - vivo AI研究院联合学术团队提出GenieBlue方案,通过冻结原始LLM参数并引入复制Transformer层+LoRA模块解决上述问题 [2] GenieBlue核心技术突破 - 采用不共享基座的推理策略,在骁龙8 Elite芯片上实现流畅运行,完全保留原始纯语言性能 [3] - 通过1/4层复制Transformer+LoRA模块设计,多模态性能达到全量微调的96%以上 [18] - 相比CogVLM-Skip方法,GenieBlue-Skip在多模态任务平均表现提升1-2个百分点 [23] 训练数据与模型结构优化 - 实验显示增加200万纯文本数据对多模态能力无显著影响,但能部分恢复客观NLP任务性能 [11][12] - 全量微调导致纯文本任务性能下降22-36%,而LoRA和CogVLM方法可保持90%以上原始能力 [17] - 在BlueLM-3B模型上,GenieBlue-Skip结构实现98.99%多模态性能保留率 [23] 部署效果验证 - 在MMBench等9项多模态测试中,GenieBlue(3.2B)表现优于InternVL2-8B(8B) [32] - 采用不共基座部署策略实现100%原始语言能力保留,显著优于Qwen2.5VL-3B的92.98% [34] - 在骁龙8 Elite平台实现30token/s推理速度,模型加载时间仅增加15% [35]
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025
量子位· 2025-07-03 17:00
大模型推理框架创新 - 华为诺亚方舟实验室提出全新高阶推理框架"思维森林"(FoT),借鉴人类多角度思考认知方式,构建多棵并行推理树,引入动态自我修正与多视角共识决策策略[2] - FoT打破传统LLM线性推理范式,通过稀疏激活减少计算开销,仅保留置信度最高节点提升效率[9][10] - 框架包含三大核心机制:动态自校正(实时检测路径偏差)、共识引导决策(融合多树答案集体投票)、稀疏激活(优化计算资源)[11][12][13] 技术性能突破 - 在GSM8K数据集上,FoT结合的QwQ-32B模型准确率达97.33%,超越GPT-4o和rStar-Math等先进模型[4] - AIME 2024测试中准确率提升至53.33%,较rStar-Math高出6.66个百分点[4] - 实验显示FoT在24点游戏任务中树数增加可提升14%准确率,优于传统ToT的叶子节点扩展方式[15] 多场景应用优势 - FoT与LLaMA3、Mistral、GLM等主流开源模型兼容,树数增加性能呈新型scaling law曲线提升[16] - 在MATH数据集全等级测试中保持稳定优势,复杂问题处理能力突出[17] - 框架特别适用于数学推导、科学多跳问答等需要多步严谨推理的场景[6][11] 行业影响展望 - 该方法缓解了大模型在金融风控、法律分析、科研辅助、医疗诊断等高阶推理场景的局限性[20] - 通过结构化可解释的推理机制,提升模型输出的可信度与决策稳定性[18][13] - 论文将于ICML 2025大会发表并开源,推动行业技术迭代[3][21]
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位· 2025-07-03 14:58
Gemini多模态技术核心观点 - Gemini从设计之初就是原生多模态模型,旨在构建像人类一样感知世界的通用人工智能(AGI),视觉能力是其核心组成部分[8][9] - 最新Gemini 2.5 Pro(0605)在代码、推理和视觉能力(尤其是视频理解)上达到SOTA水平,巩固了谷歌在多模态领域的领先地位[4][16] - 多模态能力存在正向迁移效应,视觉能力的提升带动了代码处理、OCR等多项能力的整合,催生"视频转代码"等创新用例[21][24] - 采用"万物皆视觉"产品理念,将视觉应用分为基础OCR、人类专家级任务和超越人类能力的三类场景[36][38][41] 技术架构设计 - 原生多模态架构:所有模态(文本/图像/视频/音频)统一转化为token表示进行协同训练,而非拼接单一模态模型[12][13] - 视频处理技术:以1FPS采样率配合64token/帧的压缩方案,实现6小时长视频处理(200万上下文token),音频与视频帧交错对齐提升理解能力[33][31][34] - 信息损失控制:承认图像/视频token化存在固有信息损失,但通过大规模训练使模型在低采样率下仍保持优异泛化能力[14] 产品应用方向 - 视频理解突破:解决长视频注意力衰减问题,支持食谱生成、讲座笔记转换等实用功能,未来将拓展高尔夫挥杆分析等高帧率场景[18][20][34] - 交互体验革新:计划突破"回合制"交互模式,通过视觉化信息呈现(如IDE流式编程辅助)和隐含意图理解提升自然度[25][55][57] - 未来场景规划:开发物理世界交互能力(实时环境问答)、烹饪辅助等超越人类反应速度的实时应用[42][43][45] 团队与研发策略 - 人才密集型研发:需整合OCR、检测、分割等多领域专家构建统一模型,形成产品-模型反馈循环[49][50][52] - 长期技术布局:当前视觉能力作为未来自然交互的基石,重点开发个性化和同理心等拟人化特性[53][54][56]
AI 100产品榜单报名开启了
量子位· 2025-07-03 14:58
行业现状 - 2025年国内AI产品已进入真用户价值持久战阶段,从"好奇尝鲜"转向"爱用常用"的产品极少 [1][2] - 截至2025年4月,国内DAU超百万的AI APP仅14款,MAU超百万的AI Web端产品仅23款,大部分产品面临用户留存率低和同质化问题 [2] - 穿越周期的关键在于扎根场景、直击痛点的产品设计,技术光环效应已减弱 [2] AI 100评选体系 - 包含三大核心板块:季度「综合AI 100」榜单(侧重国民级产品)、季度「新锐AI 100」榜单(挖掘高增长潜力产品)、月度「产品专项提名」(分引领力/创新力/高增长三类) [3][4] - 定量评测基于四大一级指标(用户规模/增长/活跃/粘性)和20+二级指标,涵盖下载量、留存率等真实数据 [5] - 定性评测通过专家打分和用户调研评估技术/市场/设计/变现等长期潜力因素 [5] 数据产品矩阵 - 除榜单外还提供数据月报、深度访谈栏目《AI产品Time》、全景图谱报告等持续性行业追踪工具 [9] - 已发布《2025中国AIGC应用全景图谱报告》等深度研究成果,揭示首轮产品格局和变革趋势 [11] 行业动态 - AI教育APP在文娱生活场景增长显著,Web端智能助手领域阶跃AI与DeepSeek形成竞争 [11] - 2025年首期AI 100榜单启动招募,覆盖创业者/投资人等群体,采用实名制数据提报机制 [7] 行业社群 - 提供实名制从业者社群,聚焦产品落地问题,附带内测码和专属内容分发功能 [12]
谢赛宁团队新作:不用提示词精准实现3D画面控制
量子位· 2025-07-03 12:26
技术框架与核心创新 - Blender Fusion框架结合图形工具Blender与扩散模型实现精准画面控制与灵活操作[6] - 技术核心在于高效组合现有技术(分割、深度估计、Blender渲染、扩散模型)形成新Pipeline[9] - Pipeline包含三步:物体场景分离→Blender 3D编辑→扩散模型生成高质量合成图像[10] 分层与3D处理流程 - 第一步利用Segment Anything Model分割物体并用Depth Pro模型推断深度将2D输入投影到3D空间[13][14] - 第二步将分离物体导入Blender进行精细化编辑包括物体操作和相机控制[16][18] - 第三步通过扩散模型SD v2 1对粗糙渲染结果进行视觉增强采用双流扩散合成器保持全局一致性[21][22][23] 训练技巧与效果优化 - 源遮挡训练技巧随机遮蔽源图迫使模型基于条件信息恢复完整图像[24] - 模拟物体抖动提升对相机和物体的解耦能力增强生成结果真实感[24] - 系统在物体操控和相机视角变化中保持画面一致性与连贯性[25][26] 应用场景与功能扩展 - 支持单幅图像处理可重新排列复制变换物体及改变相机视角[27] - 实现多图像场景重组组合任意图像物体创建全新场景[29] - 编辑功能泛化至训练期间未见过的物体和场景[31] 行业影响与用户价值 - 突破传统文本提示限制提供更直观的交互式视觉合成体验[34] - 从分层到生成的全流程使AI图像合成更可控且玩法更自由[35] - 技术为创作者提供类似"搭积木"的细节操控能力降低试错成本[36]
GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”
量子位· 2025-07-03 12:26
核心观点 - 智源研究院发布国产开源统一图像生成模型OmniGen2 0版本 支持文生图、图像编辑、主题驱动图像生成等多模态功能 [1] - 模型在保持简洁架构的同时显著提升上下文理解能力、指令遵循能力和图像生成质量 并继承基座多模态大模型的生成能力 [2] - 发布一周内GitHub星标突破2000 X平台相关话题浏览量达数十万次 [3] - 科研体验版已开放 支持图像编辑和上下文参照生成等特色功能 [4] - 承诺全面开源模型权重、训练代码及训练数据 为开发者提供优化基础 [5][29] 技术升级 架构创新 - 采用分离式架构解耦文本和图像 结合ViT和VAE双编码器策略 独立作用于MLLM和Diffusion Transformer [14][15] - 通过重构数据生成流程解决开源数据集质量缺陷问题 开发从视频/图像数据生成编辑和上下文参考数据的构造流程 [17][18] 生成机制 - 引入图像生成反思机制 构建文本与图像交错的反思数据序列 包含缺陷分析和解决方案 [20][21][22][23] - 目标是通过强化学习进一步训练模型的反思能力 [24] 功能特性 图像编辑 - 支持基于自然语言指令的局部修改 包括物体增删、颜色调整、表情修改、背景替换等 [7] - 可从输入图像提取指定元素生成新图像 更擅长保持物体相似度而非人脸相似度 [8] 多模态生成 - 支持文生图功能 可生成任意比例图片 [11] - 实现多模态上下文参考的图像生成 打通多模态技术生态 [2][9] 性能表现 - 在文生图和图像编辑基准测试中取得竞争力结果 [25] - 针对缺乏评估标准的上下文参考生成任务 推出OmniContext基准 包含8个任务类别 专注评估个人/物体/场景一致性 [26][27] - 在OmniContext基准总体得分7.18 超越BAGEL等开源模型 平衡提示词遵循与主体一致性 [28] 部署优化 - 基于FlagScale框架优化推理链路 结合TeaCache缓存策略实现32%推理效率提升 [28] - 支持跨机多实例弹性部署 提升集群资源利用率 [29]
DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
量子位· 2025-07-03 12:26
大模型竞技场神秘模型steve的猜测与讨论 - 大模型竞技场秘密上线名为steve的神秘模型 在对话中透露来自DeepSeek [1] - 网友对steve身份展开热烈讨论 猜测可能是R2、V4或旧版本升级 [2][3] - 前端代码中发现steve存在痕迹 但公开页面无法直接找到该模型 [5] steve的性能表现与技术特征 - 通过对话测试确认steve自称来自DeepSeek 与mistral的厂商声明方式类似 [8] - 在智力测试中部分题目回答正确 但仍存在错误 [11] - 代码生成测试显示steve输出约300行 V3输出约800行 [13] - 部分网友认为steve表现不及V3和R1 思考时间较短 [19][22] DeepSeek-R2研发进展与行业动态 - 上周爆料称R2再度延期 因CEO对表现不满意且缺少英伟达H20芯片 [25][26] - 4月底流传R2参数:1.2T万亿参数 5.2PB训练数据 使用华为昇腾芯片 [32] - 公司最近更新是端午节前的DeepSeek-R1-0528 尚未发布R2 [34] - 行业同时关注奥特曼GPT5和马斯克Grok4进展 七月可能迎来多款大模型发布 [5] 历史版本与市场预期 - 去年12月发布V3模型 今年3月24日进行升级 [29] - 市场曾预期R2在4月上线 参照R1在初代V3后一个月发布的节奏 [31] - 行业认为"好事多磨"可能是更好选择 参考Llama4赶工翻车案例 [36]
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
量子位· 2025-07-03 12:26
长链推理中的幻觉现象研究 - 核心观点:随着推理链从3步延伸到50+步,幻觉率暴增10倍,反思节点不仅无法纠错,反而会强化错误[1][2] - 核心机制:模型为保持语义一致性,宁可篡改协议定义也不否定前提,导致错误沿推理链滚雪球式放大[2][3][13] 实验设计与发现 - 实验方法:基于RFC协议文档构建受控知识域,包含1515道限定问题,其中30%预埋三重错误事实[7][9][11] - 关键发现: - 55.9%的预埋错误会触发内部知识编造流程[20] - 反思操作中模型使用更多模糊词汇(如"perhaps"出现37.14次/样本)和犹豫表达(如"but wait"出现27.85次/样本)[17] - 错误知识在Type II场景的采纳率达25.93%,且重复强化次数达2.06次/关键主张[17][18] 干预实验与检测瓶颈 - 正向干预实验显示: - Edit1(错误发生前干预)对下游影响最大,修正传播率达40%[26][27] - Edit2(直接替换错误节点)接受度65%,但幻觉残留率仍达70%[26][28] - 检测技术局限: - 最优检测方法耗时2小时/样本,准确率仅79%[27] - 分钟级检测方法准确率≤61.6%,78.9%高精度方案需高算力支持[30] - 现有技术无法识别元认知漂移现象(如反思中错误强化)[30] 数据表现对比 - 控制组与幻觉组差异: - 控制组幻觉主张仅0.68%(0.25条/样本),Type II组达18.14%(7.01条/样本)[17] - 错误主张深度:控制组11.53步,Type I组达38.10步[17] - 知识采纳行为: - 内部错误采纳率在Type I组达45.55%,且伴随41.65%的虚假修正[17] - 外部错误在Type II组的拒绝率仅45.13%,显著低于理想水平[17]