Workflow
量子位
icon
搜索文档
ChatGPT架构师,刚发布了最新研究成果
量子位· 2025-09-30 20:22
研究核心观点 - Thinking Machines发布第三篇研究博客,核心作者为OpenAI联创John Schulman,OpenAI前CTO Mira Murati为其转发站台[1] - 研究证实LoRA参数高效微调方法在抓准关键细节后,不仅能与全量微调拥有相同的样本效率,还能达到一样的最终性能[7] - 研究给出了大幅降低LoRA调参难度的简化方案[3][22] 研究背景与问题 - 当前主流大模型参数达万亿级别,预训练数据达数十万亿token,但下游任务通常只需小数据集且聚焦特定领域[6] - 全量微调更新所有参数会导致资源浪费严重,而LoRA作为参数高效微调方法,通过低秩矩阵捕捉微调信息,但始终面临能否追上全量微调性能的争议[7] 核心研究发现 - 在中小数据集微调场景下,高秩LoRA(如秩512)的学习曲线与全量微调几乎完全重合,损失值均随训练步数呈对数线性下降[9][11] - 仅在数据集规模远超LoRA自身容量的极端情况下,其训练效率才会出现下滑,但这种情况在多数后训练场景中极少出现[11] - 在数学推理类强化学习任务中,即便将LoRA的秩降低至1,其性能依旧能与全量微调持平,因为强化学习每轮训练仅需依靠scalar优势函数吸收O(1)比特信息,秩1 LoRA的参数容量已满足需求[13][14] LoRA应用优化策略 - LoRA应用需实现全层覆盖而非仅聚焦注意力层,因为模型梯度的主导权掌握在参数数量更多的层手中[15][21] - 仅作用于注意力层的LoRA表现明显落后,即便提升秩来匹配参数量,性能差距依然显著[16][17] - 当LoRA应用于模型所有层(尤其是参数占比最高的MLP层与MoE层)时,性能得到极大提升,仅在MLP层单独应用LoRA效果就与组合应用相差无几[19] 调参简化方案 - LoRA的最优学习率存在明确规律,始终约为全量微调的10倍,这一比例在14个不同模型的测试中几乎保持恒定[12][22] - 得益于1/r缩放因子的作用,不同秩LoRA的最优学习率差异极小,在秩4至秩512范围内变化幅度不足2倍,短期训练任务中甚至可忽略秩对最优学习率的影响[22] - LoRA的4个潜在超参数中有2个属于冗余参数,实际调试只需重点关注"初始更新规模"与"A矩阵偏离初始状态的步数"两个维度,这将调参难度降低了一半[25][26] 作者背景 - 研究核心作者John Schulman为OpenAI联创,在OpenAI工作9年期间领导了从GPT-3.5到GPT-4o的一系列对齐/后训练工作,被誉为ChatGPT架构师[27][28] - John Schulman学术引用近14万,其代表作PPO算法是ChatGPT核心技术RLHF中选用的强化学习算法[29] - John Schulman现以首席科学家身份加入Thinking Machines,旨在回归核心技术领域[30]
打车像点单?实测滴滴AI助手,打车也能“私人订制”了
量子位· 2025-09-30 20:22
小滴AI叫车功能核心特点 - 滴滴上线名为“小滴”的AI智能体,重塑打车逻辑,从被动匹配车辆转变为用户主动提出需求并挑选车辆[1] - 用户可通过输入特定口令“AI出行助手来啦”或搜索“AI叫车”并输入“预约”来体验该功能[3][4][6] - 功能界面类似聊天机器人,能主动推荐丰富标签化需求,包括车辆动力形式、空气清新度、后备箱大小、车型以及省时省钱需求[10][12] - 处理需求时进行智能分析,生成路程距离、车费区间,并为车辆打上相应标签(如“无异味”),最终提供多款符合要求的车辆备选,并标注车型、距离、接驾时间、价格及匹配度[13][14][16] - 支持通过语音或文字输入复杂、多条件需求(如油车、空气好、宽敞),AI会进行深度思考并分析每条需求,提前监测天气和附近空车情况以保障行程[20][21][23][25][26] 小滴的附加服务功能 - 提供出行路线规划服务,例如在不打车时,建议通过骑车结合地铁的方式以节省费用[29] - 具备订单查询和记账功能,用户可指定地区、地点、时间段查询相关订单和车费,方便对账报销[31][32] 滴滴出行MCP开放服务 - 滴滴同步开放出行MCP服务,提供Beta、Pro和Pro+三个版本,支持Trae、Cursor、Cherry Studio等多平台接入[34] - Pro版本功能全面,支持创建订单、查询订单和取消订单,开发者可快速接入并定制AI出行助手,集成到不同场景中[36][38][39][44][46][47][48] - Pro+版本面向企业用户,提供打车全流程MCP服务并支持出行场景的定制化开发,Beta版则适合普通用户简单体验,功能相对有限[46][47] - 该服务正在快速迭代,上线不到一个月已更新三个版本[48] 行业影响与公司战略 - AI智能体技术使打车服务更智能和可控,实现了从“输入目的地、被动等待派单”到“主动提需求、挑车辆”的转变,提升出行个性化和自由度[49] - 该技术有望使能提供更优服务的司机价值被精准发掘,获得更多订单和更丰厚收入,实现多方受益[50] - 滴滴作为行业头部玩家,凭借其丰富的打车品类、司机服务生态及在用户需求洞察、订单创建下发、车辆调度、路网预测等方面的多年技术积累,为AI Agent的落地提供了坚实基础[50][51][52] - 公司对交易主流程进行了深度迭代,推出了“一句话叫车”的全新服务,旨在通过AI技术解锁“人、车、服务”间更自由的连接方式[52]
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
量子位· 2025-09-30 20:22
技术突破 - 首次实现第一视角视频与人体动作的联合生成,攻克了视角-动作对齐与因果耦合两大核心瓶颈[1][2][4] - 提出基于扩散模型的框架,通过三模态联合生成框架实现文本、视频、动作的同步生成[4][12] - 采用异步扩散训练策略,为视频与动作分支设置独立采样时间步,适配不同模态演化节奏[23] 核心创新 - 创新性地提出以头部为中心的动作表征,直接将动作锚定在头部关节,使头部姿态回归误差显著降低[19][20][26] - 引入控制论启发的交互机制,在注意力机制中加入结构化掩码,实现视频与动作间的双向因果交互[20][21] - 采用三阶段训练范式,包括动作VAE预训练、文本-动作预训练和三模态联合训练,兼顾效率与性能[27] 性能表现 - 在9项评估指标上全面超越基线模型VidMLD,其中视角对齐误差从1.28米降低至0.67米,降幅达48%[32][33] - 手部可见一致性指标HandScore从0.36提升至0.81,增幅达125%[32][33] - 消融实验证实三大核心设计缺一不可,移除任一创新点均导致模型性能明显下降[34] 应用前景 - 技术为可穿戴计算、AR内容创作及具身智能打开了新的落地入口[2][34] - 生成的视频可通过3D高斯点渲染技术提升到三维场景中,支持多种生成模式[5][24][29][30]
真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位· 2025-09-30 16:26
模型性能提升 - 代码能力在74个真实场景编程任务测试中超过Claude Sonnet 4,成为国内最强[5] - 在AIME 25、GPQA等八大通用能力评测榜单中大部分对齐Claude Sonnet 4,位列国内第一[6] - 平均token消耗比GLM-4.5节省30%以上,为同类模型最低[8] - 上下文窗口由128K扩展至200K,适应更长的代码和智能体任务[28] 实测能力展示 - 代码生成速度快,不到一分钟即可生成一个射击类小游戏[14] - 能够创建多彩的可交互动画,并实现鼠标点击交互效果[16][18][19] - 能处理涉及重力、摩擦力和逼真反弹的经典物理编程题目[20][22] - 数学能力方面,能正确解答AIME 2025试题,并展示了识图的多模态能力[24][25] 国产芯片适配与部署 - 在寒武纪国产芯片上实现FP8+Int4混合量化部署,是国产芯片首次真正落地的FP8+Int4模型芯片一体化方案[27] - 在摩尔线程新一代GPU上,借助vLLM推理框架,能用原生FP8精度稳定运行GLM-4.6[30] - 模型与国产芯片的组合通过智谱MaaS平台正式对企业和大众开放服务[32] 成本与市场策略 - 推出GLM Coding Plan,最低20元包月套餐,以Claude 1/7的价格提供其9/10的智商水平[34]
ChatGPT可以下单买买买了
量子位· 2025-09-30 12:36
核心观点 - OpenAI推出ChatGPT购物功能,用户可在与AI对话中直接下单购买Etsy和Shopify平台的商品,实现从聊天到支付的闭环 [1][4][5] - 该功能被视为对谷歌和亚马逊商业模式的潜在颠覆,因其庞大的用户基础(每周8亿用户,据称是亚马逊的两倍)和基于成交抽成的新商业模式可能更具吸引力 [7][31][33] - 该功能的实现依赖于与支付公司Stripe合作构建的全新开放协议Agentic Commerce Protocol (ACP),旨在简化商家接入流程 [26][27] 购物功能细节 - **目标用户与平台**:功能目前仅面向在美国的ChatGPT Pro、Plus及免费登录用户开放,首批合作商家为Etsy和Shopify [10] - **商品推荐机制**:初期推荐基于商品相关性自然排名,所有商家均有露出机会;后续商家排名会综合考量可用性、价格、质量、是否为制造商/主要卖家及是否启用即时结账等因素 [12][14] - **交易与支付**:ChatGPT仅作为购物入口,交易主体仍为用户与商家;平台仅在成交后收取少量费用,展示不收费;支持信用卡、Apple Pay、Google Pay及Link by Stripe等多种支付方式 [19][20] - **技术实现**:通过ACP协议实现,该协议旨在方便商家适配不同支付平台,例如Stripe用户仅需一行代码即可启用支付,Shopify/Etsy商家因已完成平台级集成则无需额外操作 [26][27] 行业影响分析 - **对谷歌的挑战**:OpenAI的商业模式不依赖竞价排名广告,而是成交抽成,这可能对谷歌的核心广告收入模式构成威胁 [33] - **对亚马逊的挑战**:新功能可能改变用户购物起点,用户无需前往亚马逊搜索,直接在ChatGPT内完成需求确认与下单,从而绕过了亚马逊作为流量入口和交易撮合平台的角色 [34][35] - **历史参照**:分析引用Netflix颠覆百视达、微软挑战IBM等案例,指出颠覆性威胁往往来自行业外的“非同类竞争者”,他们采用全新玩法而非遵循现有规则 [37][38] - **趋势扩展**:除OpenAI外,Perplexity和微软等公司也已推出类似AI购物功能,表明利用AI重塑电商格局正成为行业趋势 [36]
宇树机器人被曝漏洞,机器人之间可相互感染,官方火速回应
量子位· 2025-09-30 12:36
文章核心观点 - 宇树旗下多款机器人被曝存在严重的无线安全漏洞,攻击者可绕过认证获取最高权限控制,并可能形成蠕虫式连锁攻击 [1][2][3] - 该事件被IEEE Spectrum称为商用人形平台首次被公开利用的重大漏洞,引发行业广泛关注 [4] - 公司在舆论压力下发布声明,表示已着手解决问题并完成大部分修复工作,但第三方验证显示问题仍存 [24][25][28] 漏洞技术细节 - 漏洞存在于多款机器人的BLE Wi-Fi配置界面,使用硬编码在固件中的加密密钥,且该密钥此前已被公开 [10][11] - 攻击者可将字符串"unitree"加密后发送以绕过认证,并将恶意命令伪装成Wi-Fi字段,在机器人联网时以root权限执行shell指令 [11][12] - 攻击者可执行的操作包括重启设备、植入后门、阻断升级、数据窃取和远程操控等 [13] 漏洞的传播特性与影响范围 - 漏洞具备"wormable"蠕虫特性,一台设备被攻破后可自动扫描感染附近其他宇树设备,形成机器人僵尸网络 [15][16] - 受影响的机型包括Go2、B2四足机器人以及G1、H1等人形或类人形机型 [18][25] 事件披露与公司回应时间线 - 安全研究人员于今年5月发现漏洞并告知公司,但多次沟通后进展甚微,公司于7月停止沟通 [20][21] - 研究人员在20天前将漏洞利用工具链UniPwn公开在GitHub,包含截至2025年9月20日仍存在的多个安全漏洞 [22][23] - 公司在舆论压力下于昨日晚间在领英等平台发布声明,称已成立产品安全团队并完成大部分修复工作,更新将在不久后推送 [6][24][25][27] 行业专家与市场反应 - AI创业者评论指出,在早期开发阶段安全性应作为首要任务,否则将严重影响消费者信心和产品前景 [5] - 技术网友验证发现,截至9月30日0:00左右,BLE中硬编码的AES密钥问题仍然存在 [28] - Alias Robotics高管表示愿意与公司合作,确保更高的透明度、更强的保护和更安全的机器人系统 [30][31]
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
量子位· 2025-09-30 08:57
模型性能提升 - Claude Sonnet 4.5在SWE-bench上的成绩为77.2%,比Sonnet 4的72.7%提升了1.8个百分点 [2][10] - 在OSWorld测试中取得60.2分的SOTA成绩,比Sonnet 4提升了近一半 [7][10] - 在终端编程(Terminal-Bench)测试中成绩为50.0%,显著高于Sonnet 4的36.4% [9][10] - 在高中水平数学AIME 2025试题中,借助Python可实现100%准确率,不借助工具准确率为87% [9][10] - 在金融分析(Finance Agent)测试中成绩为55.3%,高于Sonnet 4的44.5% [10] 智能体能力突破 - 能够连续工作30个小时完全自主编写代码,工作时长远超Opus 4的7小时 [3][5] - 在30小时内编写了11000多行代码,构建出类似Slack的聊天应用 [4] - 在工具使用(τ2-bench)测试中,电信领域成绩达98.0%,远高于Sonnet 4的49.6% [10] - 在专业领域(金融、医疗、法律、STEM)对战baseline模型的胜率均大幅提升,在16K上下文下超过60% [11] 安全性与实用性改进 - 通过安全训练减少了谄媚、欺骗等不良行为 [12] - 在防御即时注入攻击方面取得显著进展 [12] - 正常请求拒绝率从Sonnet 4的0.15%下降至0.02% [13] - 获得GitHub首席产品官认可,能更好地处理复杂跨代码库任务 [16] - 获得Cognition联创认可,显著提升Devin的规划能力和端到端评估成绩 [20] 产品定价与生态建设 - 保持提质不加价策略,输入token价格为3美元每百万,输出token价格为15美元每百万 [24] - 发布Claude Agent SDK,支持构建通用自主智能体,解决内存管理、权限系统等关键难题 [26][27][29] - 推出Imagine with Claude新功能,可实时生成软件原型,Max订阅用户可优先体验 [30][32][33]
DeepSeek突然拥抱国产GPU语言!TileLang对标CUDA替代Triton,华为昇腾Day0官宣支持适配
量子位· 2025-09-30 08:57
TileLang技术特性 - 专门用于开发GPU内核的领域专用语言,性能对标英伟达CUDA[6] - 采用Python式语法,在TVM之上构建底层编译器基础架构[18] - 核心设计理念是将调度空间与数据流解耦,封装为可自定义的注解和原语[19] - 提供三个层次编程接口:硬件无关高层接口、优化过的预定义操作库、线程原语级别控制[20][21][22][23] - 以"Tile"为编程模型核心概念,通过显式Tile抽象控制数据在内存间的流动[19] TileLang性能表现 - 只需不到100行代码就能写出比Flash Attention 2原版快30%的注意力实现[5] - 在华为昇腾上实现FlashAttention算子开发,代码量从500+行减少至80行,性能与官方版本持平[8] - 在H100上的MLA解码速度与FlashMLA相当[31] - 通过缓存中间数据,比全局内存快得多[28] DeepSeek与TileLang合作 - DeepSeek v3.2开源TileLang版本算子,关注度超过新稀疏注意力机制DSA[2] - DeepSeek团队使用TileLang快速开发原型,后用更底层方法进一步优化性能[26] - TileLang团队成员曾向DeepSeek团队推荐该语言,并以DeepSeek发布的FlashMLA内核作为评测基准[29][31] - DeepSeek v3.2验证了TileLang可用于训练模型[34] 产业生态支持 - 华为昇腾在第一时间公告对TileLang的支持[7] - 沐曦集成电路与TileLang团队讨论GPU适配问题[9] - TileLang由北大团队主导开发,核心人物包括王磊、董宇骐和杨智[15] - GitHub项目获得1.9k星标,172次fork[18]
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
量子位· 2025-09-29 18:44
模型发布与技术升级 - DeepSeek最新模型DeepSeek-V3.2-Exp官宣上线,引入新的注意力机制DeepSeek Sparse Attention [1][6] - 新模型基于上周更新的DeepSeek-V3.1-Terminus打造,V3.1-Terminus是V3.1基础上的强化版本,在稳定性、工具调用能力等方面有改进 [6][9] - 开源了更高效的TileLang版本GPU算子,主要算子包括TileLang和CUDA两种版本 [2][13][15] 性能表现与效率提升 - 在各领域公开测评集上,DeepSeek-V3.2-Exp与V3.1-Terminus表现基本持平,部分指标有提升:MMLU-Pro均为85.0,Codeforces-Div1从2046提升至2121,AIME 2025从88.4提升至89.3 [10][11] - 新注意力机制DSA首次实现细粒度注意力机制,能在几乎不影响模型输出效果的前提下,大幅提升长文本和推理效率 [7] - 使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段 [11] 产品部署与市场策略 - 官方App、网页端、小程序均已同步更新DeepSeek-V3.2-Exp模型 [3] - API价格实施5折起的大减价,新价格即刻生效 [3][17] - 公司建议社区在进行研究性实验时使用基于TileLang的版本以方便调试和快速迭代 [16] 行业竞争动态 - 除了DeepSeek-V3.2之外,智谱的GLM-4.6也在准备中,GLM-4.5已被标记为"上一代旗舰模型" [19][20]
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家
量子位· 2025-09-29 18:44
产品发布与性能表现 - 上海人工智能实验室发布新一代文档解析大模型MinerU2.5,该模型仅以12亿参数规模,在OmniDocBench、DocOCR-bench、Ocean-OCR等权威评测上全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具[2] - MinerU2.5在OmniDocBench评测中整体解析能力得分90.67,显著高于第二名dots.ocr的88.41,在文本编辑距离、公式解析、表格解析和阅读顺序等核心指标上均取得最优成绩,其中文本编辑距离低至0.047,阅读顺序错误率仅0.044[5][6] - 模型在布局检测、表格识别、公式识别、文本识别等关键任务上取得全面突破,在复杂排版、复杂公式及复杂表格上性能显著提升,在普通样本上的解析精度达到媲美人工标注员的水平[7][10] 技术架构与效率优势 - MinerU2.5采用QwenVL2系列的原生分辨率视觉编码器(6.75亿参数)及5亿参数的语言解码器,模型总参数量接近12亿,通过将高分辨率文档图像下采样到1036×1036实现高效解析[11] - 配合vLLM参数优化及工程优化,MinerU2.5在消费级显卡RTX 4090(48G)上达到每秒1.7页的解析速度,远超其他大模型解析方案[11] - 科研团队设计了文档解析数据引擎,在预训练阶段保证文档多样性、元素多样性及中英文数量均衡,在微调阶段采用基于推理一致性的迭代挖掘策略提升复杂样本解析能力[8] 应用场景与功能升级 - MinerU2.5凭借高精度、多模态的文档理解与结构化输出能力,特别适合构建RAG知识库与大规模文档提取等实际应用场景[3] - 在线产品新增表格旋转识别、无线或少线表格解析、跨格式文档无损复制以及参考文献识别等功能,并对中文公式、复杂数学公式及嵌套表格的解析精度进行优化[17] - 导出的JSON文件保留页眉、页脚、页码、脚注及侧边文本等全部信息,为开发者提供更便捷的二次处理条件[18] 生态建设与产业适配 - OpenDataLab团队通过"自主可控+开放协同"双轨策略推动国产化适配,MinerU2.5已在国产千卡级平台上稳定高效运行,并与昇腾、沐曦、摩尔线程、寒武纪、海光等国产平台完成深度适配[20] - MinerU已开发出面向N8n、扣子、FastGP、BISHENG等主流Agent平台的插件,并为钉钉、Cherry Studio、Sider等知名AI工具提供接入与技术保障[20] - 技术成果将以开源方式共享,模型已在HuggingFace、ModelScope和GitHub等多平台上线,提供模型下载、源码及在线Demo[16][21]