量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-10-15 14:27

中国开源大模型行业地位转变 - 中国开源大模型已占据全球榜单前五名，从追赶者转变为引领潮流的一方[1][6] - 阿里Qwen系列和DeepSeek自2024年下半年起在开源社区影响力持续扩大[1] - 行业普遍认为中国开源力量已对大模型格局产生冲击，重要节点是"DeepSeek时刻"[23] 文本能力表现 - 在LMArena文本排行榜中，智谱GLM-4.6和DeepSeek-v3.2紧随顶级闭源模型之后[7] - 阿里Qwen3-max-preview跻身文本排行榜TOP3，但该版本未开源[8] - 文本排行榜总投票数达4,222,042次，涵盖255个模型[9] 编程能力表现 - 前端开发排行榜中，国产开源模型与编程SOTA Claude分庭抗礼[10] - DeepSeek-R1/V3.1、GLM-4.6和Qwen3-Coder均进入前10名[10] - 前端开发排行榜总投票数为187,703次，涵盖49个模型[11] 多模态能力表现 - 视觉方面，腾讯Hunyuan-vision-1.5和Qwen3紧跟闭源SOTA，位列开源最强[12] - 视觉排行榜总投票数达532,681次，涵盖79个模型[13] - 视频模型领域，阿里Wan-v2.2在开源模型中表现最佳[13] - 国产闭源视频模型Kling-2.5、Seedance-v1-pro、Hailuo-02等位居榜单前列[14] 社区影响力与下载量 - 趋势榜中，蚂蚁Ling-1T和智谱GLM-4.6是最受关注的开源模型[16] - DeepSeek-R1是最受欢迎模型[17] - Qwen3是下载量最高的模型之一，在百亿参数级别领先包括gpt-oss在内的其他开源模型[18] - Qwen/Qwen3-0.6B模型下载量达6.86M，Qwen/Qwen3-32B下载量达6.24M[19] 全球竞争格局变化 - 开源模型领域主导地位转变可能重新定义全球创新格局[21] - Meta的Llama 4翻车为中国开源模型崛起提供了机会[24] - Meta以35亿美元offer挖走OpenAI前CTO公司联创Andrew Tulloch，引发对Llama 5的期待[25][26]

阿里巴巴(US:BABA)

开源大模型

Artificial Intelligence

Qwen系列

DeepSeek

GLM - 4.6

Hunyuan - vision - 1.5

开源大模型

Artificial Intelligence

Qwen系列

DeepSeek

GLM - 4.6

Hunyuan - vision - 1.5

王兴兴硕士论文惊现GitHub，宇树雏形那时候就有了

量子位· 2025-10-15 14:27

一水发自凹非寺量子位 | 公众号 QbitAI 人火了是连毕业论文都要被翻出来的（doge）。这不，宇树科技CEO 王兴兴的硕士毕业论文就被网友们掘地三尺找到了。（不在知网，而是在GitHub上找到的。）此时回看这篇近10年前的论文，有两点颇让人注意：一是王兴兴当时大胆押注的电驱式机器人方案，目前已经被业界广泛接受。当时包括波士顿动力在内的国内外团队都将研究集中于液压方案，而现在，这一形式已经发生逆转。（波士顿动力从去年开始改液压为电驱）二是宇树科技（已经估值百亿且即将IPO）的开局，其实就是源自论文所提出的那只名叫XDog的机器小狗。不止王兴兴本人在多个场合公开提到这只小狗，而且它还被明晃晃摆在宇树科技展厅的起首位置。当然更重要的是，论文中所蕴含的"性价比"思想后来也几乎成了宇树科技的"立身之本"—— 不谈如今已满大街跑的机器狗，这家公司去年8月发布的G1双足人形机器人，更是首次将人形机器人价格下探至10万元大关（9.9万元起售）所以，要问明星独角兽宇树科技是如何炼成的？创始人王兴兴的这篇论文，或许可以找到一些线索。论文已初现机器人"性价比"思维这篇论文完成于2016 ...

OPPO新AI操作系统，走出屏幕“指哪答哪”，嘈杂环境只听你声音

量子位· 2025-10-15 12:00

核心观点 - OPPO发布新一代AIOS ColorOS 16，核心是“一键闪记”和“一键问屏”两项AI功能的重大升级，标志着其操作系统进入AIOS时代 [1][50] 一键闪记功能升级 - 功能可一次性保存小红书笔记等多张图片，并提取图中关键信息和文字转化为记忆 [11][12] - 支持对“太长不看”的视频自动生成摘要并划分关键时间节点，无需播放 [14] - 自动识别餐厅点餐页面的取餐码和账单内容，推送至流体云方便随时调阅，避免遗忘 [18][20] - 支持在支付页面一键记账，自动识别消费金额和类型，定期生成专属消费报告 [23] - 可通过相机记录纸质小票等信息 [27] - 实现“记忆共生”，例如记住用户体检报告后，推荐餐厅时可自动避开不适宜食物 [4][26] 一键问屏功能升级 - 支持专属声纹识别，在嘈杂环境中能准确识别用户指令 [35][36] - 实现“哪里不会点哪里”的交互，用户只需在现实世界中用手指指向物体，AI即可识别并解答 [6][38] - 与大众点评合作，将“指哪答哪”功能拓展至探店场景 [41] 其他AI系统应用 - 全新录音功能通过AI人声增强使录音更清晰，AI摘要支持会议纪要等多种模板并自动生成标题 [40] - 全局AI写作功能可将文案一键生成PPT和脑图，并提供AI帮回复功能分析上下文给出高情商话术 [40] - AI便签引入“块编辑”提升办公效率，AI人像补光可细腻还原光影效果 [42] - 小布建议功能打通，能基于用户记忆（如半年前收藏的景点）在相关场景自动触发服务推荐 [29][30] - 每日AI简报推送天气、通勤、待办事项及取快递提醒 [32] OPPO AI技术架构 - 新计算指端侧智能计算，通过极致压缩技术实现全模态模型端侧部署，推理速度达300 token/秒，上下文长度128k [43][44] - 新感知指记忆共生引擎，具备全时感知物理世界能力和终身记忆，实现越用越好的个性化AI [46] - 新生态指智能体生态框架，通过意图框架及原子化服务结合MCP、A2A等协议，实现跨应用、跨设备的AI能力与人机协作 [48]

Artificial Intelligence

Artificial Intelligence

人工智能年度榜单火热报名中！五大奖项，寻找AI+时代的先锋力量

量子位· 2025-10-15 12:00

组委会发自凹非寺量子位｜公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁，也为了给予更多同行同路人掌声与鼓舞，我们将正式启动「2025人工智能年度榜单」评选报名。这是量子位人工智能年度榜单的第8年。八年来，我们见证了技术的突破与落地，产业的融合与重塑，也见证了一批又一批推动时代前行的企业、人物与产品。人物榜 2025 人工智能年度焦点人物详细评选标准及报名方式如下。在人工智能重新定义一切的时代里，智能技术已不再是单一工具，而是产业与社会协同进化的驱动力。我们期待通过这场年度评选，去发现并致敬那些真正引领变革、开拓边界的探索者与实践者。本次评选将从企业、产品、人物三大维度，设立五类奖项。欢迎企业踊跃报名！让我们共同见证年度之星，点亮未来的方向。企业榜产品榜 2025 人工智能年度领航企业 2025 人工智能年度领航企业 2025 人工智能年度潜力创业公司 2025 人工智能年度杰出产品 2025 人工智能年度杰出解决方案将面向中国人工智能领域，评选出最具综合实力的企业，参选条件：评选标准： 2025 人工智能年度潜力创业公司聚焦于中国人 ...

人工智能

谷歌新版Gemini一夜端掉UI：单HTML文件复刻macOS，成功率100%

量子位· 2025-10-15 09:08

Gemini 3.0 Pro的技术能力展示 - 谷歌AI模型Gemini 3.0 Pro能够根据简单的提示词生成功能完整的网页版操作系统，包括macOS、Windows和Linux [1][2][10] - 生成的操作系统界面具备苹果式动画、窗口最小化、工具栏、浏览器等元素，且所有功能均可正常运行 [4] - 生成的成功率极高，演示内容为一次性生成的结果，源代码已在CodePen平台公开 [7] 具体功能实现细节 - 网页版macOS包含文本编辑器、文件管理器、画图工具、视频编辑器等苹果预装软件功能，并设有彩蛋特效 [3][5] - 网页版Windows内置了Python终端、代码编辑器、可玩游戏，功能完整度超出预期 [11][12] - 网页版Linux可实现访问维基百科、调用计算器、更换壁纸等功能 [15][16] 与竞争对手的性能对比 - 在相同提示词下，Gemini 3.0 Pro的表现远超竞争对手Claude 4.5 Sonnet，后者甚至无法打开应用图标 [13] - 网友评价认为，若正式版能达到演示水准，Gemini将成为史上最强的编程型模型 [9] 行业影响与技术讨论 - 演示内容引发了关于AI创新能力的讨论，有观点认为这展示了大型语言模型并非简单模仿，而是具备一定创造力 [17] - 同时有业内观点指出，当前成果仍属于模拟环境，依赖于现有技术库，与真正实现操作系统存在本质区别 [18] 产品发布预期与市场策略 - 尽管谷歌尚未公布Gemini 3.0 Pro的正式发布时间，但业内推测其可能在未来几个月内亮相 [19] - 近期来自各路影响者的演示视频数量显著增加，超过此前Gemini 2.5 Pro发布前的规模 [20][21] - 市场策略显示，公司可能延续此前成功的预热营销模式，但需注意管理市场过高预期带来的风险 [22]

实测新版LiblibAI：终于把模型、生图、工作流塞进一个碗了

量子位· 2025-10-15 09:08

核心观点 - LiblibAI 2.0版本完成重要战略升级，从一个“找模型”的网站转变为可直接进行“AIGC流水线”创作的平台[11][36] - 平台通过集成多种主流图像和视频模型，并新增特效等实用功能，旨在打造创作者的“AI全家桶”[15][17][19][33][45] - 尽管功能升级带来想象空间，但在用户体验层面仍存在出图速度、模型同质化及页面卡顿等问题[37][38] 产品功能升级 - 平台界面风格从“极客社区范”转变为类似“ChatGPT+Canva”的合体，兼具模型调用和设计功能[12] - 新增视频生成页面的“添加特效”功能，用户可直接在生成板块为视频添加如“一飞冲天”等特效[19][21][23] - 提供视频的“首帧/尾帧”功能，适用于短剧封面和BGM剪辑片段制作[30][31] - 整合了全球最大图片风格开源模型库，覆盖插画、摄影、电商等多类视觉风格，将模型选型流程视觉化[33][34] 模型能力整合 - 图像模型方面，集成了Qwen-Image、Seedream 4.0、Nano-Banana等热门模型，并接入了Midjourney家族当前最强的V7模型[15][16] - 视频模型方面，集成了海螺2.0、通义万相2.5、可灵2.5、Vidu Q1等主流模型[17] - 使用模板生成视频时，提示词为锁死状态，不支持编辑，此举提升了效率但牺牲了画面可控性[28][29] 用户体验与反馈 - 实测生成效果获得认可，例如城堡图片添加特效后变为火箭发射，动作衔接尚可[21][23][25] - 存在稳定性问题，例如特效视频中猫的瞳孔颜色会突然变化，镜头会对不准人脸导致画面跑偏[25][27] - 用户反馈问题包括：付费后出图速度未见提升，尤其是一次性生成四张图时；模型选项虽多但同质化严重，惊喜感弱；部分用户遇到页面卡顿[37][38] 公司背景与战略 - LiblibAI是一家“非典型”公司，擅长内容产品打法，曾一年内完成四轮融资，创下当时国内AI应用赛道的融资速度纪录[38][39] - 公司海外子公司打造的AI设计产品Lovart为全球首个设计Agent，内测上线5天排队体验人数突破10万[40][41] - 创始人陈冕曾为剪映、CapCut的商业化负责人，也是字节跳动当年最年轻的产品4-1（对标阿里P9）之一，擅长构建“用户-内容-流量”闭环[42][43] - 公司战略路径清晰，从“模型开源社区”向“创作者的AI全家桶”转型，致力于构建创作闭环[44][45]

AIGC

Artificial Intelligence

LiblibAI 2.0

Lovart

AIGC

Artificial Intelligence

LiblibAI 2.0

Lovart

谢赛宁新作：VAE退役，RAE当立

量子位· 2025-10-14 16:16

文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE，标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对，在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51（无引导）和1.13（有引导）的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器（DINO、SigLIP、MAE等）与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数，架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间，支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量，而简易ViT-B编码器仅需22 GFLOPs，架构过于复杂[7] - VAE潜空间过度压缩（只有4个通道），信息容量严重受限[7] - VAE表征能力薄弱，线性探测精度约8%，特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上：DINOv2-B为0.49，SigLIP2-B为0.53，MAE-B为0.16，均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上：DINOv2-B达84.5%，SigLIP2-B达79.1%，MAE-B达68.0%，远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计，要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声，提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计，提升DiT在RAE框架内的可扩展性[21][22]

Diffusion Transformer（扩散Transformer）

Diffusion Transformer（扩散Transformer）

SD - VAE

不用跟AI客气了！新研究：语气越粗鲁回答正确率越高

量子位· 2025-10-14 16:16

研究核心发现 - 宾夕法尼亚州立大学研究显示，对大型语言模型的提问语气越粗鲁，其回答正确率反而越高[2] - 使用粗鲁语气时GPT-4o正确率达84.8%，而特别客气时正确率仅为80.8%，存在显著差异[3][10] - 不同语气导致的正确率差异经过统计检验确认并非偶然，具有统计学意义[12] 研究方法与设计 - 研究构建包含50道涵盖数学、科学、历史的中等难度选择题的题库[6] - 为每道题目设计5种不同语气版本，从非常客气到非常粗鲁[7] - 语气等级分为非常礼貌、礼貌、中性、粗鲁、非常粗鲁五个级别，共生成250个测试问题[8] - 测试前对GPT-4o进行标准化提示，要求其忘记之前对话并仅输出答案选项字母以确保回答一致性[9] 现象原因分析 - 礼貌表达中包含大量与题目无关的“多余”话语，这些内容可能对AI读题造成干扰[12] - 粗鲁的命令式表达更为直接，能帮助AI更精准地抓住“答题”核心任务，从而提高正确率[13] - 网友反馈证实指令越明确，AI生成的结果越好[14] 模型差异比较 - GPT-4o对粗鲁语气表现出更高的适应性，而GPT-3.5和Llama2-70B等老模型在粗鲁语气下表现更差[16] - 新模型可能因训练数据中语气相关数据更复杂，或优化了过滤无关信息的能力，故表现不同[17] 实践应用启示 - 使用AI工具时清晰表达诉求能有效提高效率[18] - 尽管研究显示粗鲁语气效果更好，但实践中仍需注意基本礼仪[19]

OpenAI自研芯片内幕曝光！18个月前开始用AI优化芯片设计，比人类工程师更快

量子位· 2025-10-14 13:39

合作核心内容 - OpenAI与博通达成战略合作，共同部署由OpenAI设计的10GW规模的AI加速器 [5] - 博通将从2026年下半年开始部署配备AI加速器和网络系统的机架，并于2029年底前完成全部部署 [5] - OpenAI负责芯片与系统设计，博通负责合作开发与投入部署 [6] - 10GW电力规模相当于10000兆瓦，足以同时点亮约1亿个100瓦灯泡 [10][11] 合作战略意义 - 通过自研芯片实现垂直整合，将前沿模型开发经验直接嵌入硬件以解锁新能力与智能水平 [7][20][21] - 定制加速器旨在满足现有芯片无法覆盖的特定计算任务或工作负载 [20][21] - 合作凸显定制加速器重要性及以太网作为AI数据中心纵向与横向扩展网络核心技术的战略地位 [13] - 有助于OpenAI缓解算力紧张问题，其ChatGPT每周有近8亿活跃用户 [14][15] 自研芯片动因 - 对AI工作负载的深刻理解以及实现公司使命需要进行垂直整合 [18][22][23] - 在2017年发现规模扩展对AI系统的巨大作用，自研芯片是实现算力扩展的重要举措 [28][29][30] - 与外部芯片公司合作时，关于模型发展方向与形状的反馈未被采纳，缺乏话语权 [30][31] - 公司CEO转变观点，认为垂直整合是实现使命的必要途径，并以iPhone的成功为例 [22][23][24] 预期效益与技术应用 - 通过优化整个技术堆栈，预计能从每瓦特中榨取更多智能，实现巨大的效率提升 [31] - 效率提升将直接转化为更好的模型性能、更快的模型训练速度以及更低的模型成本 [31] - 已在利用AI模型优化芯片设计，其优化速度比人类工程师更快 [32][33] - AI模型提出的优化方案通常是人类专家清单上的项目，但能显著缩短实现时间 [34] 整体战略布局 - 公司采取“自研+合作”路线突破算力瓶颈，除博通外也与英伟达、AMD等厂商合作 [36][37][40][41] - 与英伟达的合作规模同样为10GW，预计使用数百万块GPU，并获得高达1000亿美元投资 [37][38] - 自研芯片布局已持续约18个月，并在o1模型开启推理浪潮后开始专门设计推理芯片 [18][43]

量子位「MEET2026智能未来大会」启动！年度榜单征集中

量子位· 2025-10-14 13:39

技术发展趋势 - 人工智能正从工具演变为深度理解人类需求的智能伙伴，跨越软件、硬件、机器人等形态 [2] - 多模态、AR/VR、空间计算等技术融合，推动数字世界与物理世界的界限模糊并融合 [4] - 智能技术跨越产业、学科和场景边界，催生全新生态和机遇，成为驱动社会演进的核心动能 [3][14] 行业生态与影响 - 企业、技术与社会之间的连接与共生成为推动发展的核心动力，技术贯通产业链并催生新业态 [5][14] - 人工智能逐步成为基础设施，重塑人类未来的工作、生活和社会运作模式 [7] - 数字智慧开始重塑物理世界，提升全社会福祉和效率 [14] MEET2026智能未来大会 - 大会主题为“共生无界，智启未来”，聚焦人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿话题 [13][14] - 会议拟于2025年12月在北京举办，汇聚科技、产业、学术领域领军人物，包括李开复、张亚勤、多位院士及百度、阿里、腾讯、华为等公司代表 [7][9][24] - 大会作为年度科技商业峰会，过往吸引上千名科技从业者现场参与，百万观众线上围观，近百家合作媒体联合曝光 [12] 年度评选与报告 - 将发布“2025人工智能年度榜单”，从公司、产品、人物三大维度评选领航企业、潜力创业公司、杰出产品、杰出解决方案、焦点人物五类奖项 [16][17][18][19] - 量子位智库拟在大会上发布《2025年度AI十大趋势报告》，提名释放巨大潜力的十大AI趋势并进行深入分析 [22]