量子位
搜索文档
2张4090竟能本地微调万亿参数Kimi K2!趋境联合清华北航把算力门槛击穿了
量子位· 2025-11-05 15:56
技术突破核心观点 - 微调超大参数模型的硬件门槛和成本出现革命性下降,仅需2-4张消费级显卡(如4090)即可在本地对DeepSeek 671B乃至Kimi K2 1TB级别的模型进行微调 [1] - 成本降低的关键在于两个国产开源项目KTransformers与LLaMA-Factory的联动,将微调千亿/万亿参数模型的显存需求从理论上的1400GB-2000GB大幅降低至70GB-90GB [5][7] 技术方案与性能对比 - KTransformers项目由趋境科技与清华KVCache.AI共同开发,GitHub已获15.3K星,通过GPU+CPU异构计算创新路径实现高性能推理和微调 [6][7] - LLaMA-Factory作为训练与微调平台,GitHub星标超6万,提供无需编码的图形化界面,支持上百种预训练模型微调 [7] - 性能对比显示,KTransformers在14B-DeepSeekV2-Lite模型上实现530.38 token/s的吞吐量,显存占用仅6.08GB,远低于HuggingFace的32.12GB和Unsloth的9.64GB [13] - 对于671B-DeepSeekV3模型,KTransformers是唯一可行方案,提供40.35 token/s的吞吐量,显存占用仅70GB,而其他方案均不支持或无法运行 [13] 微调效果验证 - 在风格化对话任务中,使用NekoQA-10K数据集微调DeepSeek 671B模型后,模型回答从专业建议转变为"喵娘"风格,显示出明显的个性化效果提升 [17][18][19][20] - 在专业领域测试中,使用非洲医疗数据集AfriMed-QA微调后,DeepSeek-V3模型的BLEU-1指标从12.75提升至42.42,ROUGE-1从20.33提升至41.97,各项评测指标均获得大幅提升 [23] 行业应用前景 - 技术突破使大模型从少数机构专属技术转变为高校、团队乃至个人都能驾驭的创意工具,显著降低了算力门槛 [26] - 企业可快速在多个业务方向测试,用私有数据训练专属AI专家,在客服、营销、内部知识管理等场景提升迭代效率和投资回报率 [27] - 创新边界被拓宽,支持打造个性化写作助手、私有知识库助手、角色扮演聊天机器人及垂直领域专业模型等多样化应用 [35] 技术实现原理 - 采用三拳组合策略:将MoE模型最耗显存的专家层任务分配给CPU内存处理,GPU专注于计算;实现LoRA与高性能算子的无缝集成;利用Intel AMX指令集充分挖掘CPU处理AI运算的潜力 [36] - 操作简便性高,用户只需安装KTransformers和LLaMA-Factory环境,通过简单配置即可启动训练,框架自动处理数据处理、训练调度等复杂流程 [30][31]
具身智能体不再失忆!智源新记忆系统让机器人秒变熟人,支持终身记忆
量子位· 2025-11-05 15:56
每次跟AI开聊都像重新认识一个陌生人,还得从头开始了解。 现在不用重新教了,新记忆系统让具身智能体秒变熟人。 智源研究院(BAAI)、Spin Matrix、乐聚机器人与新加坡南洋理工大学等联合提出了一个全新的终身记忆系统—— RoboBrain-Memory RoboBrain-Memory团队 投稿 量子位 | 公众号 QbitAI △ RoboBrain-Memory 让机器人成为一个真正"有记性、更懂你"的实时智能伙伴。 RoboBrain-Memory是全球范围内首个专为全双工、全模态模型设计的终身记忆系统 ,旨在解决具身智能体在真实世界的复杂交互问题,不 仅支持实时音视频中多用户身份识别与关系理解,还能动态维护个体档案与社会关系图谱,从而实现类人的长期个性化交互。 下面具体来看。 模型架构:异步进程、两级系统,让"记忆"可存、可联、可用 RoboBrain-Memory的核心架构以三大异步进程与两级记忆体系为基础,实现"记忆"的可存、可联、可用。 三大异步进程:支撑用户建档、识别、个性化对话全流程 RoboBrain-Memory的记忆单元(Memory Unit)以文本形式存储每个用户的档案信息 ...
量子位2025年度榜单冲刺申报中!企业/产品/人物榜正在征集
量子位· 2025-11-05 15:56
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 企业榜 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术创新、产品落地、市场拓展或商业模式上取得显著突破。 1、 业务能力 |市场占有率与营收规模,商业模式与盈利能力,客户数量及行业覆盖面,增长潜力与持续 ...
北大字节开源首个时空推理视频模型!思考过程全透明,性能超越GPT-4o
量子位· 2025-11-05 15:56
文章核心观点 - 由北京大学和字节跳动联合团队推出的开源模型Open-o3 Video,是首个将显式时空证据嵌入视频推理全过程的多模态大模型,实现了“有迹可循”的视频推理[1][2] - 该模型采用non-agent架构,在一次回复中直接完成“看—想—证—答”的闭环,避免了复杂的工具调用和多轮推理[4] - 在多个视频推理测试中,其关键指标可提升至24.2%,性能表现超越了GPT-4o和Gemini-2-Flash等闭源模型[5] 研究背景与行业痛点 - 视频理解是多模态大模型中最复杂的任务之一,模型不仅需要识别物体与动作,还必须判断其出现的时间和位置[8][9] - 现有模型如Video-R1、VideoRFT虽提升了逻辑一致性,但其思维链是纯文本的,属于“黑箱式推理”,无法指出支撑答案的具体画面,导致判断难以解释和验证[10][11] - 将“图像思考”理念扩展到视频领域面临两大困难:1)在推理中保持文本、时间戳和物体目标框的一致性难度大;2)缺乏统一的时空耦合监督数据[12][15] 模型训练方法与技术创新 - **数据构建**:团队构建了首个面向显式时空推理的统一语料体系STGR,包括用于监督微调的STGR-CoT-30k和用于强化学习的STGR-RL-36k两部分[18] - **数据标注流程**:针对5.9k高质量时空数据,利用Gemini 2.5 Pro进行初始标注,并通过过滤无效框和Qwen2.5-VL-7B验证等方式确保数据质量[21][24] - **双阶段训练机制**:采用“冷启动预训练”与“基于GSPO的强化学习”相结合的方法[26] - 冷启动阶段通过监督微调让模型掌握带时空标注的推理格式与输出规范[27][28] - 强化学习阶段引入GSPO框架,通过由答案正确性、推理链合理性、格式规范性三部分组成的奖励函数进行自我校正[32][33] - **自适应奖励机制**:为解决时空联合定位的挑战,团队提出了自适应时间临近性机制和时间门控机制,以稳定训练并实现从“粗定位”到“精定位”的收敛[36][37] 性能表现与实验结果 - **基准测试领先**:在时空推理基准V-STAR上,Open-o3 Video的整体mAM提升14.4%、mLGM提升24.2%,超越GPT-4o与Gemini-2-Flash等模型[45][46] - **泛化能力强**:在VideoMME、WorldSense、VideoMMMU与TVGBench等多个基准测试上稳定超越基线模型,例如在VideoMME-Long子任务上达到54.9%,提升4.1%[46] - **消融实验验证**:实验证实双阶段训练、自适应奖励机制和高质量的时空标注数据对性能提升至关重要[54][58][62] - 移除时空标注数据,模型性能显著下降至mAM 28.3/mLGM 36.2[62] - 结合15k条通用VideoQA样本能实现语言生成与证据定位的最佳平衡[64][66] 推理增强与应用价值 - **测试时扩展**:模型生成的时空证据可作为可验证信号,通过裁剪关键帧区域并进行相关性评分,实现基于置信度的加权投票,提高推理准确性和鲁棒性[40][42][43] - **可解释性优势**:得益于显式的证据链设计,模型生成的答案具有可验证性,在同等准确率下提供了更高的可解释性与可靠性[48][76] - **可视化实例**:模型能够在推理中提供时间戳和目标框等时空证据,支持其在物体外观识别、动作意图分析及天气推理等任务上的判断[70][75] 行业影响与未来展望 - Open-o3 Video将推动视频多模态模型从“能答对”走向“能定位,能解释”,让机器真正具备在时空维度上进行有迹可循推理的能力[80] - 未来工作将集中于完善时空推理数据与后训练机制,以支持更长视频和更复杂场景下的问答[81] - 该模型的论文、代码和模型已全部开源,有助于促进开源社区的交流与发展[82]
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
量子位· 2025-11-05 13:39
模型性能与竞争优势 - 新一代图像编辑模型UniWorld-V2在GEdit-Bench基准测试中获得7.83分,显著优于GPT-Image-1的7.53分和Gemini 2.0的6.32分 [24] - 在ImgEdit基准测试中以4.49分领先,超越了所有已知的开源和闭源模型 [24] - 相比Nano Banana等模型,能更精准理解中文指令意图并完美执行复杂图像编辑任务 [1][4][6] 核心技术框架 - 创新性提出UniWorld-R1框架,是业内首个将强化学习策略优化应用于统一架构图像编辑模型的视觉强化学习框架 [8][19] - 采用Diffusion Negative-aware Finetuning技术,实现无需似然估计的高效策略优化 [19] - 开创性使用多模态大语言模型作为免训练的通用奖励模型,利用其输出logits提供精细化隐式反馈 [19] 功能应用特点 - 具备强大的中文字体掌握能力,能精准渲染如“月满中秋”等笔画复杂的艺术字体 [11] - 支持精细化空间可控编辑,用户可通过画红框指定区域,模型能严格执行如“将鸟移出红框”等指令 [14] - 拥有全局光影融合能力,可深刻理解“给场景重新打光”等指令,使物体自然融入场景且光影融合度极高 [15] 行业影响与模型泛化能力 - 该方法显著提升了基础模型性能,使FLUX.1-Kontext在ImgEdit基准分数从3.71上升到4.02,超越其Pro版本的4.00分 [25] - 在域外GEdit-Bench测试中展现出强大泛化能力,使FLUX.1-Kontext总分从6.00提升至6.74,超越Pro版本的6.56分 [26] - 人工偏好研究显示,用户在所有标准中更倾向于选择经过该方法微调的模型,证实其能有效引导模型生成更符合人类偏好的输出 [27]
量子位「MEET2026智能未来大会」已启动!年度AI榜单 & 趋势报告正在征集中
量子位· 2025-11-05 10:08
大会核心主题与背景 - 行业正迈入由人工智能重塑一切的新时代,智能技术已从工具发展为能深度理解人类需求的智能伙伴[1][2] - 智能技术跨越产业、学科和场景边界,催生出全新生态和机遇,数字世界与物理世界的界限正逐步模糊融合[3][4] - 大会以“共生无界,智启未来”为主题,探讨人工智能作为基础设施如何重塑工作、生活和社会运作模式,其本质是连接、共生、重塑与跃迁[5][7][14] 大会影响力与参与方 - MEET智能未来大会是年度影响力科技商业峰会,今年是第七届,每年吸引上千名科技从业者参与,百万观众线上围观,近百家合作媒体联合曝光[9][12] - 过往嘉宾包括李开复博士、张亚勤教授等产业领袖,倪光南院士等多位学术领路人,以及百度、阿里、腾讯、华为、京东、美团、小米、商汤等科技行业领军企业代表[9] 大会核心议题 - 大会将聚焦人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿科技话题[13] - 重点探讨人机共生、虚实结合、产业共生等趋势,关注AI如何理解人类意图并进行协同合作,以及多模态、AR/VR、空间计算等技术融合[14] 2025人工智能年度榜单 - 量子位发起的「人工智能年度榜单」是AI行业最具影响力榜单之一,旨在发现引领变革的探索者[16] - 评选从公司、产品、人物三大维度设置五类奖项,包括年度领航企业、潜力创业公司、杰出产品、杰出解决方案和焦点人物[17][18][19] - 评选报名从即日起至2025年11月17日截止[20] 2025年度AI十大趋势报告 - 量子位智库将在MEET2026大会上发布《2025年度AI十大趋势报告》,提名释放巨大潜力的十大AI趋势[23][24] - 报告将结合技术成熟度、落地现状和潜在价值进行深入分析,并提名代表机构与最佳案例[24] 大会基本信息 - MEET2026智能未来大会地点设在中国北京,参会报名通道即将开启[26] - 大会正积极筹备,并寻求与优秀企业、媒体、研究机构、投资机构、技术社区等潜在合作伙伴共商盛事[27]
OpenAI合纵亚马逊,微软连横Anthropic,硅谷只有利益没有盟友
量子位· 2025-11-05 10:08
OpenAI与亚马逊战略合作 - OpenAI与亚马逊AWS达成价值380亿美元的战略合作协议,规模远超此前任何SaaS客户采购额,被称为史上最大云服务合同之一[10] - OpenAI将全面接入AWS算力资源,包括数十万张最新一代英伟达GPU和数千万颗正在部署的CPU[17] - AWS为OpenAI定制超高规格算力基础设施,基于Amazon EC2 UltraServer平台,通过NVIDIA GB200和GB300 GPU高速互联实现低延迟,可覆盖ChatGPT日常推理到新模型训练的全场景需求[20] - 合作计划立即启动,2026年底前完成全部部署,并预留2027年及之后的算力扩展空间[22][23][24] 市场反应与行业影响 - 消息公布后亚马逊股价早盘飙升超5%,市值单日增长近1400亿美元,刷新历史纪录[11] - 微软股价同期出现微幅下挫[12] - 此次合作打破OpenAI与微软近六年的云服务绑定关系,标志着OpenAI首次获得在多家云平台自主调配算力的权利[35][43][46] - AWS此前已向Anthropic注资40亿美元,而微软也在Copilot中集成Claude,形成云厂商与AI公司交叉合作的行业格局[51][55] OpenAI算力战略布局 - Sam Altman宣布计划投资1.4万亿美元建设约30吉瓦算力基础设施,相当于30座核电站发电量,可满足2500万美国家庭用电需求[28][29] - 每1吉瓦算力建设成本约500亿美元,而OpenAI当前年经常性收入不足200亿美元[31][32] - 公司转型为公共利益公司后获得合法募资渠道,并已签署包括微软2500亿美元、甲骨文3000亿美元在内的多笔长期算力采购合同[34][60][61] - 与甲骨文、软银合作的"星际之门"超级数据中心项目因建设周期长,短期内仍需依赖第三方云服务[44][45] 亚马逊AI生态补强 - 亚马逊创始人贝佐斯曾因AI公司未使用AWS而焦虑,亲自参与引荐AI创业公司以弥补生态短板[71][72] - AWS虽为云计算鼻祖,但在AI模型开发工具链上落后于微软的Azure AI原生云和谷歌的TPU芯片+Gemini模型全栈方案[65][66][67] - 通过此次合作,OpenAI开源模型权重已登陆亚马逊Bedrock平台,成为该平台最受欢迎的模型之一,被数千家企业用于Agent、代码生成等场景[27]
AI算力大战打到太空!英伟达前脚H100入轨,谷歌TPU后脚上天,中国玩家笑而不语
量子位· 2025-11-05 10:08
太空算力竞赛格局 - 英伟达与谷歌正积极布局太空算力基础设施,计划在太空建立吉瓦级数据中心[2] - 中国公司在太空算力领域处于领先地位,已实现常态化商业运行[5][34] - 行业正从技术验证阶段向规模化商用阶段过渡[35] 英伟达太空算力部署 - 通过Inception计划孵化的Starcloud公司执行太空算力部署,本月已发射搭载H100芯片的Starcloud-1卫星[6][7] - 卫星重60公斤,尺寸相当于小型冰箱,选择H100因其在训练、微调和推理方面的最佳性能[7][8] - 卫星将处理合成孔径雷达卫星群数据并实时传回地球,计划2025年启动商业服务[9][11] - 远期目标建设功率达5吉瓦、跨度4公里的轨道数据中心,预言10年内新建数据中心将全部建在太空[11][12] 谷歌太空算力计划 - 太阳捕手计划预计2027年初发射两颗原型卫星,测试TPU在太空运行情况[14][18] - 卫星采用太阳能供能和自由空间光通信技术,验证分布式机器学习任务可行性[17][18] - 谷歌目标同样是在太空建成吉瓦级数据中心,已发表专门论文论证可行性[19][20] 太空算力经济性与技术优势 - 太空能源成本仅为陆基方案的1/10,发射成本持续下降推动经济可行性[21][22] - 太阳能电池板效率较地球提升8倍,深空真空环境提供无限散热能力[24] - 在轨处理卫星数据可减轻通信压力,Starcloud已实现对SAR数据的在轨处理[25][26] - 光通信链路实验实现800Gbps单向传输,TPU辐射耐受性达预期任务剂量三倍[27][30] 中国太空算力进展 - 之江实验室三体计算星座首批12颗卫星已于2024年5月发射,计算能力从T级提升至P级[32] - 星座在轨计算能力达5POPS,卫星间激光通信速度最高达100Gbps[32][33] - 该星座于2024年9月实现常态化商业运行,标志着太空算力进入实用阶段[34]
全球首个AI投资大赛落幕!阿里Qwen 20%收益夺冠,GPT-5亏到只剩三成
量子位· 2025-11-04 16:22
比赛概况 - Alpha Arena是由美国第三方机构Nof1发起的AI实盘投资比赛,历时17天,从10月18日进行至11月4日[8] - 参赛模型包括中美两队的六位选手:阿里千问Qwen3-Max、DeepSeek v3.1、GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Grok 4[8] - 每个大模型获得1万美元初始资金,在Hyperliquid交易所使用相同的提示词和输入数据进行真实市场交易[8][9] - 比赛目标是最大化风险调整后的收益,模型需独立完成识别Alpha机会、决定仓位、判断买卖点和实时风险管理等任务[12][13] 比赛结果 - 阿里千问Qwen以22.32%的收益率获得冠军,账户价值达到12,232美元,总盈利2,232美元[1][24] - DeepSeek位列第二,收益率4.89%,账户价值10,489美元,盈利489.08美元,成为全场唯二盈利的模型[2][24] - 美系四大模型全线亏损:Claude亏损30.81%,Grok亏损45.3%,Gemini亏损56.71%,GPT-5亏损62.66%垫底[3][22][24] - 从交易频率看,Gemini交易最频繁达238次,Grok为47次,Qwen和DeepSeek分别为43次和41次[24] 比赛过程分析 - 初期六大模型均表现克制,互相观望谨慎试水[13] - Qwen和DeepSeek组成"赚钱组",轮番登顶并始终占据第一梯队[14] - Claude和Grok采取"震荡派"策略,进出频繁但总体亏损[15] - GPT-5和Gemini呈现持续下滑趋势,越挣扎亏损越大[16] - 10月23日Qwen以14,657.43美元账户价值超越DeepSeek的12,220.14美元登顶[20] - Qwen在关键时刻通过紧急避险实现最终反超,以超过20%的收益率问鼎冠军[21] 行业意义 - 在无提示词、无人类兜底、无试错空间的真实交易环境中,中国模型包揽冠亚军显示其复杂任务理解力和执行稳定性[2][26] - 模型应用能力与真金白银的市场表现存在显著差异,实盘交易验证更具参考价值[27] - 这是首次通过真金白银验证的AI交易能力比拼,阿里通义千问成为首家在此类实盘比赛中问鼎的模型[28]
清华AI数学家系统攻克均匀化理论难题!人机协同完成17页严谨证明
量子位· 2025-11-04 16:22
核心观点 - AI在数学研究中的角色实现从“解题工具”到“科研协作伙伴”的升级,清华大学团队通过人机协同模式成功解决均匀化理论难题,形成约17页数学证明 [1][2][3] - 该研究验证了“人类分析+AI推导”协同范式的可行性,为攻克复杂数学问题提供了新路径,使AI踏入“原创科研”核心地带 [2][3][5] 研究背景与目标 - 当前主流AI系统在数学研究中存在局限,如FunSearch、AlphaEvolve依赖程序化表述,AlphaGeometry系列聚焦几何推理,难以覆盖广泛数学分支,且完整证明构建仍需依赖人类 [4] - 研究核心目标是打破AI在数学研究中的困境,通过人机协同实现能力互补,共同攻克单一主体难以突破的复杂数学难题 [5] 具体研究问题与成果 - 研究聚焦均匀化理论问题,具体为推导周期性分布的流体夹杂尺度趋近于零时耦合Stokes-Lamé系统的极限均匀化方程,并严格证明原解与极限解的误差估计 [6][7] - 团队通过人机协同不仅得出极限方程,更精确证明了误差阶数α=1/2,形成约17页数学证明,AIM系统在最困难的子问题证明中作出非平凡贡献 [8][12] 人机交互五大模式 - 直接提示:通过定理提示、概念引导、细节优化,引导AIM聚焦核心推理路径,减少无效探索 [13][14] - 理论协同应用:将完整数学理论体系打包为“知识包”提供给AIM,使其在预设框架内开展多步骤连贯推导 [16][17] - 交互式迭代优化:遵循“AI输出→人类诊断→反馈修正→AI再推理”循环,逐步完善证明链条 [18][19] - 明确运用边界:针对AIM当前难以胜任的任务由人类主导完成,避免资源浪费 [20][21] - 辅助优化策略:通过多轮尝试筛选最优证明、提供目标结论约束推理方向、根据任务选择适配模型,提升AI输出可靠性与效率 [22] 研究价值与突破 - 验证人机协同数学研究范式,将AI推理能力与人类知识经验系统性融合,拓宽数学工作者能力边界 [27][28] - 攻克均匀化理论难题,证明内容很大程度上由AI生成,体现了人机协同在解决研究级数学问题方面的潜力 [29] - 系统梳理交互模式,提炼具有实证价值的见解,为未来AI辅助数学研究框架设计提供参考,加速AI与数学科研融合落地 [30] 未来研究方向 - 深化并系统化人机交互模式,研究现有模式能否迁移到其他数学领域,并针对特定需求设计更丰富高效的交互模式 [32][33] - 基于交互反馈优化AIM系统,以实现数学定理证明自动化为长期目标,依据实验积累的见解提升模型推理能力 [34][35][36]