Workflow
量子位
icon
搜索文档
提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题
量子位· 2025-07-20 10:49
研究背景 - 光线与环境交互是具身智能体感知数字和现实世界的基础方式 [4] - 现实环境数据采集成本高昂 仿真环境数据受算力限制导致视觉真实性损失 [4] - 生成式模型可对视频数据重渲染 增加真实数据多样性并弥合Sim2Real Gap [4] 技术挑战 - 训练视频伴随复杂运动、物体频繁进出、长序列高分辨率 导致算法面临三大问题:数据分布受限、计算开销巨大、时序一致性差 [5] TC-Light算法创新 - 零样本时序模型扩展:基于IC-Light和VidToMe架构 引入Decayed Multi-Axis Denoising模块增强一致性 [8][9] - 两阶段优化策略:第一阶段通过Appearance Embedding和光流对齐全局光照(A100上300帧540p视频耗时数十秒) 第二阶段基于时空码本压缩优化细节(同规格视频耗时约2分钟) [13][14] - 计算效率优势:相比NeRF/3DGS方案训练时间从10-30分钟缩短至分钟级 显存占用优化 [14] 性能表现 - 定量指标:WarpSSIM达91.75%(优于Slicedit的85.37%) 用户偏好度23.96%(超COSMOS-Transfer1的16.06%) [16] - 定性对比:避免Slicedit的不自然渲染、IC-Light的时序不一致等问题 [19] - 硬件效率:A100处理300帧540p视频总耗时约1255秒 显存占用14.37GB [16] 应用价值 - 有效减少Sim2Real Gap 实现Real2Real数据增强 降低具身模型迁移的微调成本 [2][4] - 开源属性:论文、Demo代码均已公开 提供新的视频编辑范式 [3][20]
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
量子位· 2025-07-20 10:49
移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励(SFT或RL),难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败,显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架,整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程:格式微调(SFT)、动作级训练(GRPO)、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集,覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证(边界框匹配)和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性,格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动,增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%,较最佳基线(AgentCPM-8B的30%)提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版,动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果,最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性,泛化能力优于基准模型[29][32]
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 10:49
OpenAI新模型在IMO竞赛中的表现 - OpenAI最新模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,成功解决6道题中的5道,获得35分(满分42分),超过金牌线[1][2][11] - 模型在完全模拟人类考试条件下完成测试,包括两场各4.5小时的考试,不借助任何工具或联网,仅通过自然语言写出证明过程[9][11] - 评分过程由三位前IMO奖牌获得者独立完成,需达成一致意见才确定最终分数[13] 技术突破与模型特点 - 该模型并非依赖特定任务方法,而是在通用强化学习和测试时计算扩展方面取得突破[4] - 突破了传统强化学习依赖明确可验证奖励的范式,能够像人类数学家一样构建多页证明[14] - 唯一未解决的第六题属于组合数学领域,与去年谷歌未完成的两道题类型相同[18][19] GPT-5相关动态 - OpenAI员工透露GPT-5即将发布,但IMO金牌模型为实验性研究,暂无发布计划[3] - 第三方开源代码中出现"GPT-5-reasoning-alpha-2025-07-13"字样,随后被删除,结合OpenAI发布前安全测试的惯例,推测GPT-5临近发布[6][8] 行业反应与专家评论 - 数学界顶尖学者陶哲轩指出缺乏统一测试标准,难以公平比较AI能力,强调需预先公布方法论[25][26] - 陶哲轩列举多项可能影响测试结果的因素,如资源分配、辅助工具使用及团队协作等[28][29][30][31][32] - 数学竞赛评测平台MathArena独立测试显示,其他模型如Gemini 2.5 Pro仅获13分(31%),远低于铜牌线19分[34][35][36] 历史对比与行业意义 - 从GSM8K(0.1分钟)到IMO(约100分钟),AI在需要长时间深度思考的数学问题上进步显著[14] - 研究员Alexander Wei表示,2021年预测2025年MATH基准测试仅达30%,实际进展远超预期[39] - DeepMind研究员Archit Sharma的删除推文引发猜测,可能暗示Google模型也达到类似水平[20][21] 公开资料与后续关注 - OpenAI公开了AI解题过程供查阅[42] - MathArena团队期待OpenAI模型发布后进行独立评估[37]
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 10:49
AI生成图像检测技术 - 核心观点:厦门大学与腾讯优图实验室联合提出AIGI-Holmes方法,通过"大模型+视觉专家"协同架构解决AI生成图像检测的可解释性与泛化能力问题 [2][5] - 技术亮点:采用双视觉编码器架构(LLaVA+NPR视觉专家)同时处理高级语义和低级视觉特征 [6] - 训练流程:包含视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段 [7] - 推理优化:协同解码策略融合视觉专家与大语言模型预测结果,权重分配为1:1:0.2 [8][25] 性能表现 - 基准测试:在POGAN、StyleGAN2等17种生成模型检测中平均准确率达93.16%,显著优于CNNSpot(70.78%)等传统方法 [11] - 跨数据集验证:在COCO、Flickr等数据集上检测准确率保持100%,对SDXL、DALL·E-3等新模型检测准确率超99% [29][30] - 鲁棒性测试:JPEG压缩(98.7%)、高斯模糊(97.9%)等干扰下性能下降幅度小于5%,显著优于AIDE(90.7%)等竞品 [35] 关键技术实现 - 数据构建:Holmes-Set数据集含45K图像+20K标注,覆盖13类生成缺陷(人脸异常/物理法则错误等) [15][19] - 自动标注:采用Qwen2VL-72B等4种大模型进行多专家评审,设计通用正向/负向/特定缺陷三类prompt [18][19] - 偏好修正:通过人工标注修正SFT输出,使用Deepseek生成修改前后解释对用于DPO训练 [21] 解释能力评估 - 客观指标:BLEU-1(0.622)、ROUGE-L(0.375)等自然语言指标超越GPT-40(0.433) [32] - 主观评分:人类ELO评分达11.42,优于Pixtral-124B(10.472)等基线模型 [32] - 抗干扰性:JPEG压缩下解释指标(BLEU-1等)波动小于5%,保持语义一致性 [34] 行业应用前景 - 技术局限:存在幻觉问题(错误解释正常特征)及细粒度缺陷检测挑战 [36][37] - 迭代方向:将针对多模态大模型幻觉问题、解释客观评估指标开展优化 [39] - 开源资源:代码与论文已在GitHub和arXiv平台公开 [39]
英伟达GPU被曝严重漏洞,致模型准确率暴跌99.9%
量子位· 2025-07-20 10:49
漏洞发现与影响 - 英伟达GPU存在名为GPUHammer的严重漏洞,可通过物理攻击导致模型准确率从80%暴跌至0.02% [1][2][3] - 攻击已在RTX A6000上验证,其他型号可能受影响 [4] - 攻击属于Rowhammer类,通过反复"敲击"显存引发比特翻转篡改数据,首次实现在GPU上的攻击 [6][7][8] 攻击机制与实验数据 - 攻击通过翻转FP16浮点数关键位使指数飙升16倍,导致模型崩溃 [9][10] - 实验显示AlexNet/VGG16/ResNet50等模型平均准确率从71.26%降至0.08%,Top-5准确率从89.59%降至0.58% [12] - 单个比特翻转即可造成性能彻底崩溃,如ResNet50准确率从80.26%跌至0.02% [12] 潜在应用场景风险 - 自动驾驶可能误识别交通标志,医疗AI或出现误诊 [13] - 云平台共享GPU环境中,恶意租户可攻击相邻工作负载破坏模型参数 [13] - 对AI基础设施构成毁灭性威胁 [14] 防御措施与性能权衡 - 英伟达建议启用系统级纠错码(ECC),但仅能修复单比特错误 [16][17][18] - ECC导致A6000GPU内存带宽损失12%,机器学习应用速度降低3%-10% [19] - 默认禁用ECC因其带来6.5%内存开销和减速 [19] 受影响范围与未来防护 - RTX3080/A100等采用不同DRAM架构的芯片可避开攻击 [22] - 未来集成片上ECC的GPU可纠正单位翻转并检测双位翻转 [22] - NVIDIA的MIG和机密计算技术通过内存隔离防止多租户攻击 [22]
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025
量子位· 2025-07-19 13:15
技术突破 - KAUST研究团队提出V2M4方法,可从单目视频直接生成高质量4D网格动画资源,无需NeRF/高斯点后处理,可直接导入游戏/图形引擎[1][6] - 该方法构建了多阶段流程,涵盖相机轨迹恢复、外观优化、拓扑统一、纹理合成等关键步骤,大幅提升动画与游戏内容生成效率[2] - 论文已被ICCV 2025正式接收[3] 技术优势 - 生成的外观和结构高度还原,平均每帧仅需约60秒处理,比现有方法显著提速[4] - 支持长视频处理,在300帧时长的视频上表现优异[4] - 解决了传统动画制作依赖多摄像头、动捕设备、人工建模等高成本手段的问题[4] - 克服了隐式方法如NeRF难以直接输出拓扑一致的显式网格的缺点[4] 技术细节 - 设计了三阶段相机估计策略,通过重建每帧视频的相机视角,将"相机运动"转化为"网格运动"[10][11] - 引入条件嵌入微调策略,优化生成网格外观与输入视频的一致性[13] - 采用候选相机采样+DreamSim评分、DUSt3R点云辅助估计、粒子群优化+梯度下降精调等方法优化相机参数[15] - 引入逐帧配准与拓扑统一机制,确保所有帧网格在拓扑层面实现完全一致[16] - 构建共享的全局纹理贴图,确保动画过程中外观的一致性[17] 应用前景 - 生成的4D动画文件可直接用于图形/游戏引擎[6] - 结果被导出为符合GLTF标准的动画文件,可直接导入Blender等主流图形与游戏引擎进行编辑与复用[18] - 在视觉效果方面,V2M4生成的网格在渲染细节、法线结构与跨帧一致性上表现更出色[21]
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab
量子位· 2025-07-19 13:15
大模型压力测试框架REST - 研究团队开发了REST框架,通过在一个prompt中同时抛出多个问题来模拟真实世界的多任务并行推理场景 [1][2] - 测试结果显示,即使是顶级模型如DeepSeek-R1,在压力测试下性能也大幅下降,在AIME24测试集上的准确率骤降29.1% [3][11] - 当前大模型评测存在三大痛点:区分度低、成本高昂、脱离现实 [5] 压力测试下的模型表现 - 在GSM8K、MATH500等7个主流推理基准上测试了超过30个参数从1.5B到671B的模型 [6] - 压力测试考察了模型的三项关键能力:上下文预算分配、跨问题干扰抵抗、动态认知负载管理 [7][8][9] - 不同参数模型性能差距明显,7B小模型在高压下崩得更快,32B大模型性能虽有下降但仍保持优势 [13] 模型性能分析 - 模型性能下降的主要原因是陷入"过度思考"陷阱,用long2short技术训练的模型表现更好 [15] - 一些"聪明"的模型如Nemotron-nano-7B和DeepSeek-R1会动态调整推理token分配 [17] - 表现优异的模型在压力下倾向于对早期问题进行更简洁的推理,为后续问题留出足够空间 [18][19] 测试结果数据 - DeepSeek-R1在AIME24基准上单题模式准确率81.66%,压力测试下降至52.49% [12] - 7B模型DS-R1-Distill-Qwen-7B在MATH500上单题准确率93.0%,压力测试下降至66.75% [12] - 32B模型Qwen-QwQ-32B在MATH500上单题准确率96.2%,压力测试下降至92.49% [12]
宇树王兴兴,A股上市辅导公告了
量子位· 2025-07-19 13:15
公司概况 - 宇树科技正式启动A股IPO进程,已在浙江证监局办理辅导备案,计划最快2025年10月提交上市申请文件[3][4][12] - 公司成立于2016年8月,注册资本3.64亿元,横跨计算机通信设备制造(C39)和通用设备制造(C34)双领域[12] - 创始人王兴兴直接持股23.82%,通过有限合伙平台合计控制34.76%股权,为公司控股股东[5][7] - 最新估值超120亿元,已完成10轮融资,投资方包括腾讯、阿里、美团、红杉中国等头部机构[7][42] 财务与经营表现 - 年度营收已突破10亿元人民币,且自2020年起持续保持盈利状态[8] - 2023年全球四足机器人市场份额占比近70%,产品技术领先性显著[27] - 2024年推出轻量级人形机器人G1,基础版售价低至9.9万元,具备消费级通用机器人水平[36] 产品与技术优势 - 核心产品包括四足机器人(Laikago、Go1)和人形机器人(H1、G1),其中H1售价仅9万美元(约65万人民币),成本显著低于波士顿动力同类产品[28][30] - H1为国内首款可跑动的全尺寸通用人形机器人,具备后空翻、避障等高难度功能[31] - 自主研发所有核心零部件(电机、控制系统等),构建完整交付制造体系[43] 市场与品牌影响力 - 2024年春晚表演使宇树科技家喻户晓,H1和G1线上首发即售罄[37][40] - Go1四足机器人登上美国超级碗赛前表演舞台,全球知名度提升[36] - 蔚来汽车在合肥工厂部署10台H1用于工业场景,验证商业化潜力[36] 资本运作与上市规划 - 2025年6月完成C轮融资,腾讯、阿里、吉利等领投,老股东跟投比例超90%[19] - 股份制改造已完成,同步调整章程和投资人结构,为上市铺路[16][17] - 计划先登陆科创板,后续择机进入港股以最大化流动性[13] 行业竞争格局 - 与智元机器人争夺"具身智能第一股"称号,后者已通过收购上纬新材曲线上市[11][42] - 2025年具身智能领域融资激增,上半年投融资事件达141起(2024年全年仅77起)[49][50] - 行业融资集中在早期阶段(B轮后不足10%),宇树科技是为数不多进入IPO阶段的头部企业[51] 创始人背景 - 王兴兴为浙江理工大学本科、上海大学硕士,研究生期间自主研发XDog机器狗获天使投资[22][59][60] - 创业前曾短期任职大疆,因XDog技术突破选择离职创业[23][74] - 以低成本电机方案实现媲美波士顿动力液压系统的动态性能,引领行业技术路线[66][67]
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
量子位· 2025-07-19 13:15
核心技术突破 - 推出全球首个零延迟无限实时视频生成模型MirageLSD,采用自定义实时流扩散模型Live-Stream Diffusion(LSD),攻克传统自回归视频模型中误差累积的核心难题[4][9][11] - 通过因果自回归结构和Diffusion Forcing技术实现逐帧生成时保持时间连贯性,支持无限时长视频生成[14][15] - 历史增强策略主动添加模拟伪影训练模型预判纠正能力,推理阶段明确告知历史帧可能不准确以持续纠错[16][17] - 改进Transformer架构搭配视觉编码器和位置编码优化,处理速度比前代模型快16倍,达每秒24帧[6][18] - 应用KV缓存技术和蒸馏策略减少延迟,动态输入系统支持超低延迟响应玩家指令[20][21][22] 产品性能优势 - 实现40毫秒以下延迟,支持直播/游戏/视频通话等多形式输入,无时长限制实时生成[5][6] - 前代产品Oasis已实现每秒20帧零延迟生成,MirageLSD性能提升至24帧/秒[26][28] - 集成帧级提示词处理机制,可即时解析键盘指令和自然语言,实现"抖衣换装"等实时交互效果[21][23] 公司发展动态 - Decart为2023年成立的加州AI初创公司,获AI专家Karpathy天使投资[7][25] - 2024年推出首款实时生成式AI开放世界模型Oasis,MirageLSD为最新迭代产品[26][28] - 计划定期升级模型功能,包括面部一致性/语音控制等模块[28] 应用场景展示 - 支持用扫帚/盒子等日常物品替代专业设备进行沉浸式直播[1] - 实时修改游戏画面风格满足个性化需求[2] - 全双工通信通道实现输入输出并行处理,消除数据传输延迟[22]
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
量子位· 2025-07-18 16:36
模型排名与性能 - Kimi K2在全球开源模型中排名第一,总榜第五,紧追Grok 4等顶尖闭源模型 [1] - Kimi K2得分为1420,与Grok 4(1437)和GPT 4.5(1437)差距较小 [2][23] - 唯二进入总榜TOP 10的开源模型均来自中国(Kimi K2和DeepSeek R1) [2][28] 技术能力表现 - 连续多轮对话能力并列第一,与Grok 4和o3持平 [3] - 编程能力排名第二,与GPT 4.5和Grok 4相当 [3] - 应对复杂提示词能力排名第二,与o3和4o同梯队 [3] 社区热度与影响力 - GitHub标星达5.6K,Hugging Face下载量近10万 [5] - Perplexity CEO公开站台,计划基于K2进行后训练 [5] - 用户访问量过大导致API响应变慢 [6] 架构设计与优化 - 继承DeepSeek V3架构,但进行了参数调整 [9][12] - 增加专家数量,MoE总参数增加但激活参数量不变 [13] - 注意力头数减半以平衡成本,效果影响微小 [13] - 仅保留第一层Dense,其余使用MoE,推理效率无影响 [13] - 专家无分组设计,通过自由路由提升灵活性 [13] - 总参数增至1.5倍,但推理耗时更小且成本可控 [15] 行业趋势与观点 - 开源模型性能已接近闭源,TOP 10分数均超1400 [21][23] - 开源与闭源差距缩小,Kimi K2接近Grok 4和GPT 4.5 [22] - 行业人士认为开源击败闭源将更普遍 [25][27] - 开源模型在AI能力全球扩散中扮演关键角色 [27]