Workflow
量子位
icon
搜索文档
聊聊AI Coding的现状与未来|沙龙招募
量子位· 2025-07-21 10:17
核心观点 - AI Coding正在以不同方式与形态嵌入工作流 从插件到AI原生IDE 从补全代码到自主编程 [1] - AI Coding对生产力提升程度成为关注焦点 同时引发对效率与可靠性、安全性平衡的探讨 [2] - 行业探讨AI Coding如何改变普通人思维模式 以及其终极形态与协作方式 [6] 活动信息 - 时间拟为2025年8月上旬 地点为北京市海淀区中关村创业大街 形式为线下沙龙与线上同步直播 [5] - 活动以行业代表主题分享和圆桌对谈为主 邀请AI Coding产品及相关从业者参与 [2][7] - 主办方为量子位AI沙龙 定位为AI探索者深度交流平台 聚焦前沿AI应用实践 [8][9] 行业探讨方向 - AI效率工具对普通人思维模式的影响 [6] - 通用AI Coding产品的核心能力构建 [6] - AI Coding未来角色定位与协作形态演化 [6] 目标参与者 - AI Coding产品开发者与创业团队 [7][9] - 使用AI Coding的个人开发者及模型厂商 [9] - 关注AI领域的投资机构代表 [9]
95后北大校友挑起ChatGPT Agent大梁!今年刚博士毕业,曾获陶哲轩支持的AIMO第二名
量子位· 2025-07-20 13:08
OpenAI发布会华人核心成员 - OpenAI发布会C位由两位华人担任,其中一位是95后北大校友孙之清,另一位是领导GPT-4视觉输入原型开发的Casey Chu [2][3][8] - 孙之清作为DeepResearch负责人,重点介绍了ChatGPT Agent的强化学习训练技术 [9] - Casey Chu阐述了人类与Agent合作中保持控制权的重要性 [11] 孙之清背景与成就 - 95后研究员,2023年加入OpenAI时尚未完成CMU博士学位,目前已参与多个核心项目包括o3/o4-mini和Computer-Use Agent [14][16] - 学生时期获得OpenAI"超级对齐快速补助"10万美元资助,相关论文入选NeruIPS 2024 [17] - 谷歌学术被引数超1万次,2019年一作论文RotatE被ICLR接收并获3231次引用 [21][22][23] - 获得2023年数据科学新星称号及微软/谷歌多项研究资助 [26] - 参与陶哲轩支持的AIMO竞赛,使用微调模型解决22道IMO测试题 [27][28] Casey Chu职业经历 - OpenAI五年资深员工,专注多模态AI系统研发 [29][30] - 领导GPT-4视觉输入原型开发,参与DALL·E 2和GPT-4项目 [31] - 斯坦福计算数学硕士,本科就读哈维姆德学院数学系 [33] OpenAI华人人才储备 - 除发布会亮相者外,项目团队还包括Aiden Low、Martin Li、Xikun Zhang等多位华人研究员 [37] - 数据负责人Szi-chieh Yu和安全研究员Karen Gu均为华人成员 [38][39] - 公司未更新贡献者名单,可能为防止Meta挖角 [42][44][46] Meta与OpenAI人才竞争 - Meta曾试图以数亿美元挖角OpenAI首席研究官Mark Chen未果 [48] - Meta转而控股Scale AI并任命28岁Alexandr Wang负责AI组织,导致OpenAI终止与Scale AI合作 [49][50]
大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案
量子位· 2025-07-20 13:08
大语言模型的自信与动摇行为研究 核心观点 - 大语言模型如GPT-4o和Gemma 3存在"固执己见"和"被质疑就动摇"的冲突行为,表现为初始自信但易受反对意见影响而改变答案 [2][3] - 模型行为与人类认知存在偏差:在记忆机制下表现出类似人类的观点维护倾向,但无记忆机制时对反向建议过度敏感,易放弃正确初始答案 [4][5][16][17] 实验设计 - 采用两轮回答实验:第一轮为初始回答,第二轮引入虚构建议LLM的反馈(同意/反对/中立)后观察最终决策 [7][8] - 关键变量为初始答案是否可见:可见时模型倾向于坚持原答案(类似人类行为),隐藏时改变答案概率显著提高 [10][11][12][13] - 反馈建议设置三大属性:态度类型(同意/反对/中立)、准确率标签(50%-100%梯度)、规范化信息呈现方式 [18] 行为机制分析 - 训练层面:强化学习从人类反馈(RLHF)导致过度迎合外部输入,缺乏对信息可靠性的独立判断 [19] - 决策逻辑:依赖文本统计模式而非逻辑推理,反对信号与修正答案的高频关联易使模型被表面反对带偏 [19] - 记忆机制:初始答案可见时路径依赖强化固执性,隐藏时因失去锚点而让反对建议主导决策 [21] 潜在影响 - 多轮对话场景中,模型可能被后期错误反对信息干扰而偏离正确结论 [22] - 当前模型无法自我验证答案正确性,决策质量受外部反馈质量显著影响 [19][21]
提速63%!中科院生成式渲染器突破效率瓶颈,一致性提升20%,破解具身数据荒难题
量子位· 2025-07-20 10:49
研究背景 - 光线与环境交互是具身智能体感知数字和现实世界的基础方式 [4] - 现实环境数据采集成本高昂 仿真环境数据受算力限制导致视觉真实性损失 [4] - 生成式模型可对视频数据重渲染 增加真实数据多样性并弥合Sim2Real Gap [4] 技术挑战 - 训练视频伴随复杂运动、物体频繁进出、长序列高分辨率 导致算法面临三大问题:数据分布受限、计算开销巨大、时序一致性差 [5] TC-Light算法创新 - 零样本时序模型扩展:基于IC-Light和VidToMe架构 引入Decayed Multi-Axis Denoising模块增强一致性 [8][9] - 两阶段优化策略:第一阶段通过Appearance Embedding和光流对齐全局光照(A100上300帧540p视频耗时数十秒) 第二阶段基于时空码本压缩优化细节(同规格视频耗时约2分钟) [13][14] - 计算效率优势:相比NeRF/3DGS方案训练时间从10-30分钟缩短至分钟级 显存占用优化 [14] 性能表现 - 定量指标:WarpSSIM达91.75%(优于Slicedit的85.37%) 用户偏好度23.96%(超COSMOS-Transfer1的16.06%) [16] - 定性对比:避免Slicedit的不自然渲染、IC-Light的时序不一致等问题 [19] - 硬件效率:A100处理300帧540p视频总耗时约1255秒 显存占用14.37GB [16] 应用价值 - 有效减少Sim2Real Gap 实现Real2Real数据增强 降低具身模型迁移的微调成本 [2][4] - 开源属性:论文、Demo代码均已公开 提供新的视频编辑范式 [3][20]
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
量子位· 2025-07-20 10:49
OpenAI新模型在IMO竞赛中的表现 - OpenAI最新模型在2025年国际数学奥林匹克竞赛(IMO)中达到金牌水平,成功解决6道题中的5道,获得35分(满分42分),超过金牌线[1][2][11] - 模型在完全模拟人类考试条件下完成测试,包括两场各4.5小时的考试,不借助任何工具或联网,仅通过自然语言写出证明过程[9][11] - 评分过程由三位前IMO奖牌获得者独立完成,需达成一致意见才确定最终分数[13] 技术突破与模型特点 - 该模型并非依赖特定任务方法,而是在通用强化学习和测试时计算扩展方面取得突破[4] - 突破了传统强化学习依赖明确可验证奖励的范式,能够像人类数学家一样构建多页证明[14] - 唯一未解决的第六题属于组合数学领域,与去年谷歌未完成的两道题类型相同[18][19] GPT-5相关动态 - OpenAI员工透露GPT-5即将发布,但IMO金牌模型为实验性研究,暂无发布计划[3] - 第三方开源代码中出现"GPT-5-reasoning-alpha-2025-07-13"字样,随后被删除,结合OpenAI发布前安全测试的惯例,推测GPT-5临近发布[6][8] 行业反应与专家评论 - 数学界顶尖学者陶哲轩指出缺乏统一测试标准,难以公平比较AI能力,强调需预先公布方法论[25][26] - 陶哲轩列举多项可能影响测试结果的因素,如资源分配、辅助工具使用及团队协作等[28][29][30][31][32] - 数学竞赛评测平台MathArena独立测试显示,其他模型如Gemini 2.5 Pro仅获13分(31%),远低于铜牌线19分[34][35][36] 历史对比与行业意义 - 从GSM8K(0.1分钟)到IMO(约100分钟),AI在需要长时间深度思考的数学问题上进步显著[14] - 研究员Alexander Wei表示,2021年预测2025年MATH基准测试仅达30%,实际进展远超预期[39] - DeepMind研究员Archit Sharma的删除推文引发猜测,可能暗示Google模型也达到类似水平[20][21] 公开资料与后续关注 - OpenAI公开了AI解题过程供查阅[42] - MathArena团队期待OpenAI模型发布后进行独立评估[37]
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
量子位· 2025-07-20 10:49
移动代理技术研究 - 现有Mobile/APP Agent主要依赖动作级奖励(SFT或RL),难以适应动态移动环境[1][2] - 示例任务中Qwen2 5-VL-3B-Instruct在第二步失败,显示传统方法的局限性[3] - 淘天集团团队提出Mobile-R1框架,整合任务级奖励和交互式强化学习[4][5] 训练方法与数据集 - 采用三阶段训练流程:格式微调(SFT)、动作级训练(GRPO)、任务级训练[6][13] - 构建包含4 635条人工标注轨迹的数据集,覆盖28个中国移动应用[9][10][12] - 轨迹数据标注包含逻辑思考修正、清晰动作描述、准确调用修正三个维度[14] 奖励机制设计 - 动作级奖励包含坐标动作验证(边界框匹配)和非坐标动作完全匹配[23] - 任务级奖励引入GPT-4o评估轨迹一致性,格式奖励强化输出结构[-1 1]范围惩罚[24] - 阶段3通过马尔可夫决策过程实现多回合互动,增强探索能力[19][20] 实验结果 - Mobile-R1任务成功率49 4%,较最佳基线(AgentCPM-8B的30%)提升19 4个百分点[25][26] - 三阶段训练使Qwen2 5-VL-3B性能超越原版,动作级训练后准确率达82 84%[25][27] - 阶段3训练曲线显示策略优化效果,最终实现53 6%的尾部任务成功率[25][29] 技术突破与影响 - 首次在移动代理领域实现任务级奖励与在线纠错结合[30][31] - 开源训练框架ROLL和高质量中文轨迹数据集促进行业研究[21][33] - 方法显著提升VLM模型在动态环境中的鲁棒性,泛化能力优于基准模型[29][32]
AI打假AI,拿下SOTA丨厦大&腾讯优图
量子位· 2025-07-20 10:49
AI生成图像检测技术 - 核心观点:厦门大学与腾讯优图实验室联合提出AIGI-Holmes方法,通过"大模型+视觉专家"协同架构解决AI生成图像检测的可解释性与泛化能力问题 [2][5] - 技术亮点:采用双视觉编码器架构(LLaVA+NPR视觉专家)同时处理高级语义和低级视觉特征 [6] - 训练流程:包含视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三阶段 [7] - 推理优化:协同解码策略融合视觉专家与大语言模型预测结果,权重分配为1:1:0.2 [8][25] 性能表现 - 基准测试:在POGAN、StyleGAN2等17种生成模型检测中平均准确率达93.16%,显著优于CNNSpot(70.78%)等传统方法 [11] - 跨数据集验证:在COCO、Flickr等数据集上检测准确率保持100%,对SDXL、DALL·E-3等新模型检测准确率超99% [29][30] - 鲁棒性测试:JPEG压缩(98.7%)、高斯模糊(97.9%)等干扰下性能下降幅度小于5%,显著优于AIDE(90.7%)等竞品 [35] 关键技术实现 - 数据构建:Holmes-Set数据集含45K图像+20K标注,覆盖13类生成缺陷(人脸异常/物理法则错误等) [15][19] - 自动标注:采用Qwen2VL-72B等4种大模型进行多专家评审,设计通用正向/负向/特定缺陷三类prompt [18][19] - 偏好修正:通过人工标注修正SFT输出,使用Deepseek生成修改前后解释对用于DPO训练 [21] 解释能力评估 - 客观指标:BLEU-1(0.622)、ROUGE-L(0.375)等自然语言指标超越GPT-40(0.433) [32] - 主观评分:人类ELO评分达11.42,优于Pixtral-124B(10.472)等基线模型 [32] - 抗干扰性:JPEG压缩下解释指标(BLEU-1等)波动小于5%,保持语义一致性 [34] 行业应用前景 - 技术局限:存在幻觉问题(错误解释正常特征)及细粒度缺陷检测挑战 [36][37] - 迭代方向:将针对多模态大模型幻觉问题、解释客观评估指标开展优化 [39] - 开源资源:代码与论文已在GitHub和arXiv平台公开 [39]
英伟达GPU被曝严重漏洞,致模型准确率暴跌99.9%
量子位· 2025-07-20 10:49
漏洞发现与影响 - 英伟达GPU存在名为GPUHammer的严重漏洞,可通过物理攻击导致模型准确率从80%暴跌至0.02% [1][2][3] - 攻击已在RTX A6000上验证,其他型号可能受影响 [4] - 攻击属于Rowhammer类,通过反复"敲击"显存引发比特翻转篡改数据,首次实现在GPU上的攻击 [6][7][8] 攻击机制与实验数据 - 攻击通过翻转FP16浮点数关键位使指数飙升16倍,导致模型崩溃 [9][10] - 实验显示AlexNet/VGG16/ResNet50等模型平均准确率从71.26%降至0.08%,Top-5准确率从89.59%降至0.58% [12] - 单个比特翻转即可造成性能彻底崩溃,如ResNet50准确率从80.26%跌至0.02% [12] 潜在应用场景风险 - 自动驾驶可能误识别交通标志,医疗AI或出现误诊 [13] - 云平台共享GPU环境中,恶意租户可攻击相邻工作负载破坏模型参数 [13] - 对AI基础设施构成毁灭性威胁 [14] 防御措施与性能权衡 - 英伟达建议启用系统级纠错码(ECC),但仅能修复单比特错误 [16][17][18] - ECC导致A6000GPU内存带宽损失12%,机器学习应用速度降低3%-10% [19] - 默认禁用ECC因其带来6.5%内存开销和减速 [19] 受影响范围与未来防护 - RTX3080/A100等采用不同DRAM架构的芯片可避开攻击 [22] - 未来集成片上ECC的GPU可纠正单位翻转并检测双位翻转 [22] - NVIDIA的MIG和机密计算技术通过内存隔离防止多租户攻击 [22]
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025
量子位· 2025-07-19 13:15
技术突破 - KAUST研究团队提出V2M4方法,可从单目视频直接生成高质量4D网格动画资源,无需NeRF/高斯点后处理,可直接导入游戏/图形引擎[1][6] - 该方法构建了多阶段流程,涵盖相机轨迹恢复、外观优化、拓扑统一、纹理合成等关键步骤,大幅提升动画与游戏内容生成效率[2] - 论文已被ICCV 2025正式接收[3] 技术优势 - 生成的外观和结构高度还原,平均每帧仅需约60秒处理,比现有方法显著提速[4] - 支持长视频处理,在300帧时长的视频上表现优异[4] - 解决了传统动画制作依赖多摄像头、动捕设备、人工建模等高成本手段的问题[4] - 克服了隐式方法如NeRF难以直接输出拓扑一致的显式网格的缺点[4] 技术细节 - 设计了三阶段相机估计策略,通过重建每帧视频的相机视角,将"相机运动"转化为"网格运动"[10][11] - 引入条件嵌入微调策略,优化生成网格外观与输入视频的一致性[13] - 采用候选相机采样+DreamSim评分、DUSt3R点云辅助估计、粒子群优化+梯度下降精调等方法优化相机参数[15] - 引入逐帧配准与拓扑统一机制,确保所有帧网格在拓扑层面实现完全一致[16] - 构建共享的全局纹理贴图,确保动画过程中外观的一致性[17] 应用前景 - 生成的4D动画文件可直接用于图形/游戏引擎[6] - 结果被导出为符合GLTF标准的动画文件,可直接导入Blender等主流图形与游戏引擎进行编辑与复用[18] - 在视觉效果方面,V2M4生成的网格在渲染细节、法线结构与跨帧一致性上表现更出色[21]
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab
量子位· 2025-07-19 13:15
大模型压力测试框架REST - 研究团队开发了REST框架,通过在一个prompt中同时抛出多个问题来模拟真实世界的多任务并行推理场景 [1][2] - 测试结果显示,即使是顶级模型如DeepSeek-R1,在压力测试下性能也大幅下降,在AIME24测试集上的准确率骤降29.1% [3][11] - 当前大模型评测存在三大痛点:区分度低、成本高昂、脱离现实 [5] 压力测试下的模型表现 - 在GSM8K、MATH500等7个主流推理基准上测试了超过30个参数从1.5B到671B的模型 [6] - 压力测试考察了模型的三项关键能力:上下文预算分配、跨问题干扰抵抗、动态认知负载管理 [7][8][9] - 不同参数模型性能差距明显,7B小模型在高压下崩得更快,32B大模型性能虽有下降但仍保持优势 [13] 模型性能分析 - 模型性能下降的主要原因是陷入"过度思考"陷阱,用long2short技术训练的模型表现更好 [15] - 一些"聪明"的模型如Nemotron-nano-7B和DeepSeek-R1会动态调整推理token分配 [17] - 表现优异的模型在压力下倾向于对早期问题进行更简洁的推理,为后续问题留出足够空间 [18][19] 测试结果数据 - DeepSeek-R1在AIME24基准上单题模式准确率81.66%,压力测试下降至52.49% [12] - 7B模型DS-R1-Distill-Qwen-7B在MATH500上单题准确率93.0%,压力测试下降至66.75% [12] - 32B模型Qwen-QwQ-32B在MATH500上单题准确率96.2%,压力测试下降至92.49% [12]