Workflow
量子位
icon
搜索文档
推翻「预测下一个token」范式!微信AI新研究:把token压缩成连续向量更具性价比
量子位· 2025-11-06 12:04
研究背景与核心创新 - 微信AI与清华大学联合提出名为CALM的新范式,旨在解决大模型逐token生成效率低下的问题[1][3] - 核心创新点在于将模型从预测下一个token转变为预测下一个连续向量,通过提升每个预测单元的语义带宽来缩短序列长度[1][10][11] - 该方法本质是持续提升每个预测单元的语义带宽,将K个词元压缩成一个连续向量,使生成步骤减少至原来的1/K[4][10][11] 技术原理与框架设计 - 研究团队设计高保真自编码器,能将K个token压缩为连续向量,并以超过99.9%的准确率重构原始token[14][15] - CALM采用无似然语言建模框架,使用能量损失训练模型,通过距离和多样性约束判断向量质量,避免依赖概率计算[19][22][25] - 引入Energy Transformer专为连续向量高效单步生成设计,无需迭代,仅需1步计算即可输出连续向量[24][25] 评估方法与实验效果 - 提出BrierLM新型评估指标替代困惑度,实验证明BrierLM值与困惑度高度相关,能保证模型能力公平比较[27][28][30] - CALM-M模型在参数量371M时,性能与281M参数的Transformer-S相当,但训练FLOPs减少44%,推理FLOPs减少34%[33] - 模型规模越大CALM优势越明显,CALM-XL在1.82B参数时保持高效,且随着语义带宽K增加,性能-效率比更优[34] 性能优势与应用潜力 - 该方法在平衡性能和计算成本时实现更高性价比,被网友认为接近大脑处理上下文的方式[7][33] - 通过将序列长度从T缩短至T/K显著提升模型效率,但压缩token数K过多可能导致性能下降,需搭配更大模型[14][36]
第一批买机器人做家务的人崩溃了
量子位· 2025-11-05 17:30
当前家用机器人技术局限性 - 自主机器人技术不成熟,存在严重行动缺陷,例如无法避开障碍物并撞碎镜子[1][2]以及进入厨房后撒菜并撞坏自身[9] - 机器人实用性差,无法满足家庭多样化需求,连避开障碍物和简单烹饪等基本任务都完成不好[16] - 高价低能问题突出,有消费者花费8万元购买后体验极差,产品实际性能与价格严重脱节[13][27] 远程操控机器人与自主机器人的发展路径争议 - 传奇程序员卡马克主张发展远程家政服务模式,认为其比销售自主家用人形机器人更实用[3][7] - 1X Technologies推出的机器人NEO采用远程操控模式,由佩戴VR头盔的操作员控制完成叠衣服、取水等动作[4][5] - 远程操控模式可根据自主程度灵活调配操作员工作量,并能在真实场景收集训练数据以逐步提升机器人自主性[7] 家用机器人商业模式与市场问题 - 部分企业将家用机器人作为“圈钱工具”进行预售,例如NEO目前收款但需到2026年才交付产品[20][21] - 消费者缺乏清晰评判标准,易被商家“解放双手”、“智能便捷”等宣传误导,导致购买后体验“货不对版”[24][25] - 远程操控机器人提供新的成本结构,NEO售价2万美元,月租500美元,折算每小时家政服务成本约2美元[17] 消费者与市场对家用机器人的反应 - 尽管存在诸多问题,部分消费者仍表达对家用机器人的需求意愿[15] - 有观点认为远程操控模式不如直接使用真人服务,强调机器人的核心价值在于完全自主性[18]
具身机器人征服1万伏高压线!-10℃严寒、13米高空全天候作业零事故
量子位· 2025-11-05 17:30
文章核心观点 - 亿嘉和集团的新一代配网带电作业机器人是国内首批进入实际高危作业场景的具身智能机器人,能够在1万伏高压不断电状态下自主完成复杂精细的架空线路运维检修作业 [9][10][16] - 该机器人通过AI算法与人机协同控制,显著提升了带电作业的效率、稳定性和安全性,改变了传统依赖人力的高压作业模式,并已在国内多省成功部署和应用 [8][11][23] - 具身智能机器人已具备真正的工业作业能力,标志着机器人接管高压、非结构化作业场景主流程的时代开启,并正朝着更智能化、轻量化的方向持续迭代 [13][43][34] 机器人性能与技术特点 - 机器人拥有两只可独立运作的机械臂,单臂负载能力达20公斤,作业高度3.6米,感知精度提升至4毫米,能完成垂直双回路搭接等大持重高强度作业 [19][20] - 与传统工业机器人不同,该机器人融合AI算法与人机协同控制逻辑,能根据环境变化自主规划路径、调整姿态、动态避障,具备泛化能力和鲁棒性 [22] - 在标准场景下可实现完全自主作业,典型场景效率接近人工的90%,并保持100%的零事故安全记录;非标准场景则通过主从遥操系统实现“AI决策+人类判断”的双保险机制 [23] - 机器人利用多传感器融合感知环境,实时上传作业数据至云端以优化算法,实现身体与大脑的持续协同优化 [24] 应用部署与实际成效 - 机器人已在江浙沪、福建、四川、陕西、甘肃、青海等多个省份部署约50台设备,成功完成万余次任务,每台机器人年平均作业次数超过60次 [11][27] - 今年5月在上海宝山区完成了国内首次夜间带电接火作业,突破了传统人工作业的时间局限,展示了其在复杂环境下的作业能力 [12][28][29] - 应用后,传统需要4名技术工人耗时数小时的高空作业,现仅需2名地面人员配合机器人即可完成,大幅降低了劳动强度和安全隐患 [6][7][17] 行业背景与发展驱动力 - 全国配电线路总长超过427万公里,但电力行业面临劳动力危机:经验丰富的技术工人年龄老化,年轻一代因危险性高、强度大而不愿从事该岗位 [26] - 城市化、高可靠供电需求及新基建加速,推动了对“不停电作业”效率和安全性的空前需求,国家电网正积极推进“无人化、智能化运维” [26][27] - 机器人能在-10℃低温等恶劣环境下作业,其调度方式、工单流程和风险管理已与一线班组无缝集成,证明了其在真实工业场景中的稳定运行能力 [41][44] 未来发展与迭代规划 - 第三代产品已在筹备中,将引入“AI+遥操”混合模式,目标实现一人独立完成整套作业;计划通过轻量化设计将机器人自重降低40%至50% [34][35] - 未来迭代将强化数据学习与协同决策能力,建立深度学习平台,汇聚全国机器人作业数据形成电力行业具身智能知识库,实现越用越聪明的正反馈 [36][37] - 长期目标是将机器人在电力场景积累的高风险环境控制策略、安全容错机制及多模态感知能力,迁移复制到其他复杂作业场景中 [40]
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
量子位· 2025-11-05 15:56
技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降,仅需2-4张消费级显卡(如4090)即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动,将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发,GitHub已获15.3K星,通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台,GitHub星标超6万,提供无需编码的图形化界面,支持上百种预训练模型微调 [7] - 性能对比显示,KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量,显存占用仅6.08GB,远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型,KTransformers是唯一可行方案,提供40.35 token/s的吞吐量,显存占用仅70GB,而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中,使用NekoQA-10K数据集微调DeepSeek 671B模型后,模型回答从专业建议转变为"喵娘"风格,显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中,使用非洲医疗数据集AfriMed-QA微调后,DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42,ROUGE-1从20.33提升至41.97,各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具,显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试,用私有数据训练专属AI专家,在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽,支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略:将MoE模型最耗显存的专家层任务分配给CPU内存处理,GPU专注于计算;实现LoRA与高性能算子的无缝集成;利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高,用户只需安装KTransformers和LLaMA-Factory环境,通过简单配置即可启动训练,框架自动处理数据处理、训练调度等复杂流程 [30][31]
具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆
量子位· 2025-11-05 15:56
每次跟AI开聊都像重新认识一个陌生人,还得从头开始了解。 现在不用重新教了,新记忆系统让具身智能体秒变熟人。 智源研究院(BAAI)、Spin Matrix、乐聚机器人与新加坡南洋理工大学等联合提出了一个全新的终身记忆系统—— RoboBrain-Memory RoboBrain-Memory团队 投稿 量子位 | 公众号 QbitAI △ RoboBrain-Memory 让机器人成为一个真正"有记性、更懂你"的实时智能伙伴。 RoboBrain-Memory是全球范围内首个专为全双工、全模态模型设计的终身记忆系统 ,旨在解决具身智能体在真实世界的复杂交互问题,不 仅支持实时音视频中多用户身份识别与关系理解,还能动态维护个体档案与社会关系图谱,从而实现类人的长期个性化交互。 下面具体来看。 模型架构:异步进程、两级系统,让"记忆"可存、可联、可用 RoboBrain-Memory的核心架构以三大异步进程与两级记忆体系为基础,实现"记忆"的可存、可联、可用。 三大异步进程:支撑用户建档、识别、个性化对话全流程 RoboBrain-Memory的记忆单元(Memory Unit)以文本形式存储每个用户的档案信息 ...
量子位2025年度榜单冲刺申报中!企业/产品/人物榜正在征集
量子位· 2025-11-05 15:56
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 企业榜 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术创新、产品落地、市场拓展或商业模式上取得显著突破。 1、 业务能力 |市场占有率与营收规模,商业模式与盈利能力,客户数量及行业覆盖面,增长潜力与持续 ...
北大字节开源首个时空推理视频模型!思考过程全透明,性能超越GPT-4o
量子位· 2025-11-05 15:56
文章核心观点 - 由北京大学和字节跳动联合团队推出的开源模型Open-o3 Video,是首个将显式时空证据嵌入视频推理全过程的多模态大模型,实现了“有迹可循”的视频推理[1][2] - 该模型采用non-agent架构,在一次回复中直接完成“看—想—证—答”的闭环,避免了复杂的工具调用和多轮推理[4] - 在多个视频推理测试中,其关键指标可提升至24.2%,性能表现超越了GPT-4o和Gemini-2-Flash等闭源模型[5] 研究背景与行业痛点 - 视频理解是多模态大模型中最复杂的任务之一,模型不仅需要识别物体与动作,还必须判断其出现的时间和位置[8][9] - 现有模型如Video-R1、VideoRFT虽提升了逻辑一致性,但其思维链是纯文本的,属于“黑箱式推理”,无法指出支撑答案的具体画面,导致判断难以解释和验证[10][11] - 将“图像思考”理念扩展到视频领域面临两大困难:1)在推理中保持文本、时间戳和物体目标框的一致性难度大;2)缺乏统一的时空耦合监督数据[12][15] 模型训练方法与技术创新 - **数据构建**:团队构建了首个面向显式时空推理的统一语料体系STGR,包括用于监督微调的STGR-CoT-30k和用于强化学习的STGR-RL-36k两部分[18] - **数据标注流程**:针对5.9k高质量时空数据,利用Gemini 2.5 Pro进行初始标注,并通过过滤无效框和Qwen2.5-VL-7B验证等方式确保数据质量[21][24] - **双阶段训练机制**:采用“冷启动预训练”与“基于GSPO的强化学习”相结合的方法[26] - 冷启动阶段通过监督微调让模型掌握带时空标注的推理格式与输出规范[27][28] - 强化学习阶段引入GSPO框架,通过由答案正确性、推理链合理性、格式规范性三部分组成的奖励函数进行自我校正[32][33] - **自适应奖励机制**:为解决时空联合定位的挑战,团队提出了自适应时间临近性机制和时间门控机制,以稳定训练并实现从“粗定位”到“精定位”的收敛[36][37] 性能表现与实验结果 - **基准测试领先**:在时空推理基准V-STAR上,Open-o3 Video的整体mAM提升14.4%、mLGM提升24.2%,超越GPT-4o与Gemini-2-Flash等模型[45][46] - **泛化能力强**:在VideoMME、WorldSense、VideoMMMU与TVGBench等多个基准测试上稳定超越基线模型,例如在VideoMME-Long子任务上达到54.9%,提升4.1%[46] - **消融实验验证**:实验证实双阶段训练、自适应奖励机制和高质量的时空标注数据对性能提升至关重要[54][58][62] - 移除时空标注数据,模型性能显著下降至mAM 28.3/mLGM 36.2[62] - 结合15k条通用VideoQA样本能实现语言生成与证据定位的最佳平衡[64][66] 推理增强与应用价值 - **测试时扩展**:模型生成的时空证据可作为可验证信号,通过裁剪关键帧区域并进行相关性评分,实现基于置信度的加权投票,提高推理准确性和鲁棒性[40][42][43] - **可解释性优势**:得益于显式的证据链设计,模型生成的答案具有可验证性,在同等准确率下提供了更高的可解释性与可靠性[48][76] - **可视化实例**:模型能够在推理中提供时间戳和目标框等时空证据,支持其在物体外观识别、动作意图分析及天气推理等任务上的判断[70][75] 行业影响与未来展望 - Open-o3 Video将推动视频多模态模型从“能答对”走向“能定位,能解释”,让机器真正具备在时空维度上进行有迹可循推理的能力[80] - 未来工作将集中于完善时空推理数据与后训练机制,以支持更长视频和更复杂场景下的问答[81] - 该模型的论文、代码和模型已全部开源,有助于促进开源社区的交流与发展[82]
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
量子位· 2025-11-05 13:39
模型性能与竞争优势 - 新一代图像编辑模型UniWorld-V2在GEdit-Bench基准测试中获得7.83分,显著优于GPT-Image-1的7.53分和Gemini 2.0的6.32分 [24] - 在ImgEdit基准测试中以4.49分领先,超越了所有已知的开源和闭源模型 [24] - 相比Nano Banana等模型,能更精准理解中文指令意图并完美执行复杂图像编辑任务 [1][4][6] 核心技术框架 - 创新性提出UniWorld-R1框架,是业内首个将强化学习策略优化应用于统一架构图像编辑模型的视觉强化学习框架 [8][19] - 采用Diffusion Negative-aware Finetuning技术,实现无需似然估计的高效策略优化 [19] - 开创性使用多模态大语言模型作为免训练的通用奖励模型,利用其输出logits提供精细化隐式反馈 [19] 功能应用特点 - 具备强大的中文字体掌握能力,能精准渲染如“月满中秋”等笔画复杂的艺术字体 [11] - 支持精细化空间可控编辑,用户可通过画红框指定区域,模型能严格执行如“将鸟移出红框”等指令 [14] - 拥有全局光影融合能力,可深刻理解“给场景重新打光”等指令,使物体自然融入场景且光影融合度极高 [15] 行业影响与模型泛化能力 - 该方法显著提升了基础模型性能,使FLUX.1-Kontext在ImgEdit基准分数从3.71上升到4.02,超越其Pro版本的4.00分 [25] - 在域外GEdit-Bench测试中展现出强大泛化能力,使FLUX.1-Kontext总分从6.00提升至6.74,超越Pro版本的6.56分 [26] - 人工偏好研究显示,用户在所有标准中更倾向于选择经过该方法微调的模型,证实其能有效引导模型生成更符合人类偏好的输出 [27]
量子位「MEET2026智能未来大会」已启动!年度AI榜单 & 趋势报告正在征集中
量子位· 2025-11-05 10:08
大会核心主题与背景 - 行业正迈入由人工智能重塑一切的新时代,智能技术已从工具发展为能深度理解人类需求的智能伙伴[1][2] - 智能技术跨越产业、学科和场景边界,催生出全新生态和机遇,数字世界与物理世界的界限正逐步模糊融合[3][4] - 大会以“共生无界,智启未来”为主题,探讨人工智能作为基础设施如何重塑工作、生活和社会运作模式,其本质是连接、共生、重塑与跃迁[5][7][14] 大会影响力与参与方 - MEET智能未来大会是年度影响力科技商业峰会,今年是第七届,每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[9][12] - 过往嘉宾包括李开复博士、张亚勤教授等产业领袖,倪光南院士等多位学术领路人,以及百度、阿里、腾讯、华为、京东、美团、小米、商汤等科技行业领军企业代表[9] 大会核心议题 - 大会将聚焦人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题[13] - 重点探讨人机共生、虚实结合、产业共生等趋势,关注AI如何理解人类意图并进行协同合作,以及多模态、AR/VR、空间计算等技术融合[14] 2025人工智能年度榜单 - 量子位发起的「人工智能年度榜单」是AI行业最具影响力榜单之一,旨在发现引领变革的探索者[16] - 评选从公司、产品、人物三大维度设置五类奖项,包括年度领航企业、潜力创业公司、杰出产品、杰出解决方案和焦点人物[17][18][19] - 评选报名从即日起至2025年11月17日截止[20] 2025年度AI十大趋势报告 - 量子位智库将在MEET2026大会上发布《2025年度AI十大趋势报告》,提名释放巨大潜力的十大AI趋势[23][24] - 报告将结合技术成熟度、落地现状和潜在价值进行深入分析,并提名代表机构与最佳案例[24] 大会基本信息 - MEET2026智能未来大会地点设在中国北京,参会报名通道即将开启[26] - 大会正积极筹备,并寻求与优秀企业、媒体、研究机构、投资机构、技术社区等潜在合作伙伴共商盛事[27]
OpenAI合纵亚马逊,微软连横Anthropic,硅谷只有利益没有盟友
量子位· 2025-11-05 10:08
OpenAI与亚马逊战略合作 - OpenAI与亚马逊AWS达成价值380亿美元的战略合作协议,规模远超此前任何SaaS客户采购额,被称为史上最大云服务合同之一[10] - OpenAI将全面接入AWS算力资源,包括数十万张最新一代英伟达GPU和数千万颗正在部署的CPU[17] - AWS为OpenAI定制超高规格算力基础设施,基于Amazon EC2 UltraServer平台,通过NVIDIA GB200和GB300 GPU高速互联实现低延迟,可覆盖ChatGPT日常推理到新模型训练的全场景需求[20] - 合作计划立即启动,2026年底前完成全部部署,并预留2027年及之后的算力扩展空间[22][23][24] 市场反应与行业影响 - 消息公布后亚马逊股价早盘飙升超5%,市值单日增长近1400亿美元,刷新历史纪录[11] - 微软股价同期出现微幅下挫[12] - 此次合作打破OpenAI与微软近六年的云服务绑定关系,标志着OpenAI首次获得在多家云平台自主调配算力的权利[35][43][46] - AWS此前已向Anthropic注资40亿美元,而微软也在Copilot中集成Claude,形成云厂商与AI公司交叉合作的行业格局[51][55] OpenAI算力战略布局 - Sam Altman宣布计划投资1.4万亿美元建设约30吉瓦算力基础设施,相当于30座核电站发电量,可满足2500万美国家庭用电需求[28][29] - 每1吉瓦算力建设成本约500亿美元,而OpenAI当前年经常性收入不足200亿美元[31][32] - 公司转型为公共利益公司后获得合法募资渠道,并已签署包括微软2500亿美元、甲骨文3000亿美元在内的多笔长期算力采购合同[34][60][61] - 与甲骨文、软银合作的"星际之门"超级数据中心项目因建设周期长,短期内仍需依赖第三方云服务[44][45] 亚马逊AI生态补强 - 亚马逊创始人贝佐斯曾因AI公司未使用AWS而焦虑,亲自参与引荐AI创业公司以弥补生态短板[71][72] - AWS虽为云计算鼻祖,但在AI模型开发工具链上落后于微软的Azure AI原生云和谷歌的TPU芯片+Gemini模型全栈方案[65][66][67] - 通过此次合作,OpenAI开源模型权重已登陆亚马逊Bedrock平台,成为该平台最受欢迎的模型之一,被数千家企业用于Agent、代码生成等场景[27]