Workflow
量子位
icon
搜索文档
开源模型TOP5,被中国厂商包圆了
量子位· 2025-10-15 14:27
中国开源大模型行业地位转变 - 中国开源大模型已占据全球榜单前五名,从追赶者转变为引领潮流的一方[1][6] - 阿里Qwen系列和DeepSeek自2024年下半年起在开源社区影响力持续扩大[1] - 行业普遍认为中国开源力量已对大模型格局产生冲击,重要节点是"DeepSeek时刻"[23] 文本能力表现 - 在LMArena文本排行榜中,智谱GLM-4.6和DeepSeek-v3.2紧随顶级闭源模型之后[7] - 阿里Qwen3-max-preview跻身文本排行榜TOP3,但该版本未开源[8] - 文本排行榜总投票数达4,222,042次,涵盖255个模型[9] 编程能力表现 - 前端开发排行榜中,国产开源模型与编程SOTA Claude分庭抗礼[10] - DeepSeek-R1/V3.1、GLM-4.6和Qwen3-Coder均进入前10名[10] - 前端开发排行榜总投票数为187,703次,涵盖49个模型[11] 多模态能力表现 - 视觉方面,腾讯Hunyuan-vision-1.5和Qwen3紧跟闭源SOTA,位列开源最强[12] - 视觉排行榜总投票数达532,681次,涵盖79个模型[13] - 视频模型领域,阿里Wan-v2.2在开源模型中表现最佳[13] - 国产闭源视频模型Kling-2.5、Seedance-v1-pro、Hailuo-02等位居榜单前列[14] 社区影响力与下载量 - 趋势榜中,蚂蚁Ling-1T和智谱GLM-4.6是最受关注的开源模型[16] - DeepSeek-R1是最受欢迎模型[17] - Qwen3是下载量最高的模型之一,在百亿参数级别领先包括gpt-oss在内的其他开源模型[18] - Qwen/Qwen3-0.6B模型下载量达6.86M,Qwen/Qwen3-32B下载量达6.24M[19] 全球竞争格局变化 - 开源模型领域主导地位转变可能重新定义全球创新格局[21] - Meta的Llama 4翻车为中国开源模型崛起提供了机会[24] - Meta以35亿美元offer挖走OpenAI前CTO公司联创Andrew Tulloch,引发对Llama 5的期待[25][26]
王兴兴硕士论文惊现GitHub,宇树雏形那时候就有了
量子位· 2025-10-15 14:27
一水 发自 凹非寺 量子位 | 公众号 QbitAI 人火了是连毕业论文都要被翻出来的(doge)。 这不,宇树科技CEO 王兴兴的 硕士毕业论文 就被网友们掘地三尺找到了。 (不在知网,而是在GitHub上找到的。) 此时回看这篇近10年前的论文,有两点颇让人注意: 一是王兴兴当时大胆押注的电驱式机器人方案,目前已经被业界广泛接受。当时包括波士顿动力在内的国内外团队都将研究集中于液压方案, 而现在,这一形式已经发生逆转。 (波士顿动力从去年开始改液压为电驱) 二是宇树科技 (已经估值百亿且即将IPO) 的开局,其实就是源自论文所提出的那只名叫XDog的机器小狗。不止王兴兴本人在多个场合公 开提到这只小狗,而且它还被明晃晃摆在宇树科技展厅的起首位置。 当然更重要的是,论文中所蕴含的"性价比"思想后来也几乎成了宇树科技的"立身之本"—— 不谈如今已满大街跑的机器狗,这家公司去年8月发布的G1双足人形机器人,更是首次将人形机器人价格下探至10万元大关 (9.9万元起售) 所以,要问明星独角兽宇树科技是如何炼成的?创始人王兴兴的这篇论文,或许可以找到一些线索。 论文已初现机器人"性价比"思维 这篇论文完成于2016 ...
OPPO新AI操作系统,走出屏幕“指哪答哪”,嘈杂环境只听你声音
量子位· 2025-10-15 12:00
核心观点 - OPPO发布新一代AIOS ColorOS 16,核心是“一键闪记”和“一键问屏”两项AI功能的重大升级,标志着其操作系统进入AIOS时代 [1][50] 一键闪记功能升级 - 功能可一次性保存小红书笔记等多张图片,并提取图中关键信息和文字转化为记忆 [11][12] - 支持对“太长不看”的视频自动生成摘要并划分关键时间节点,无需播放 [14] - 自动识别餐厅点餐页面的取餐码和账单内容,推送至流体云方便随时调阅,避免遗忘 [18][20] - 支持在支付页面一键记账,自动识别消费金额和类型,定期生成专属消费报告 [23] - 可通过相机记录纸质小票等信息 [27] - 实现“记忆共生”,例如记住用户体检报告后,推荐餐厅时可自动避开不适宜食物 [4][26] 一键问屏功能升级 - 支持专属声纹识别,在嘈杂环境中能准确识别用户指令 [35][36] - 实现“哪里不会点哪里”的交互,用户只需在现实世界中用手指指向物体,AI即可识别并解答 [6][38] - 与大众点评合作,将“指哪答哪”功能拓展至探店场景 [41] 其他AI系统应用 - 全新录音功能通过AI人声增强使录音更清晰,AI摘要支持会议纪要等多种模板并自动生成标题 [40] - 全局AI写作功能可将文案一键生成PPT和脑图,并提供AI帮回复功能分析上下文给出高情商话术 [40] - AI便签引入“块编辑”提升办公效率,AI人像补光可细腻还原光影效果 [42] - 小布建议功能打通,能基于用户记忆(如半年前收藏的景点)在相关场景自动触发服务推荐 [29][30] - 每日AI简报推送天气、通勤、待办事项及取快递提醒 [32] OPPO AI技术架构 - 新计算指端侧智能计算,通过极致压缩技术实现全模态模型端侧部署,推理速度达300 token/秒,上下文长度128k [43][44] - 新感知指记忆共生引擎,具备全时感知物理世界能力和终身记忆,实现越用越好的个性化AI [46] - 新生态指智能体生态框架,通过意图框架及原子化服务结合MCP、A2A等协议,实现跨应用、跨设备的AI能力与人机协作 [48]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-15 12:00
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行 的企业、人物与产品。 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现 并致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 2025 人工智能年度领航企业 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人 ...
谷歌新版Gemini一夜端掉UI:单HTML文件复刻macOS,成功率100%
量子位· 2025-10-15 09:08
Gemini 3.0 Pro的技术能力展示 - 谷歌AI模型Gemini 3.0 Pro能够根据简单的提示词生成功能完整的网页版操作系统,包括macOS、Windows和Linux [1][2][10] - 生成的操作系统界面具备苹果式动画、窗口最小化、工具栏、浏览器等元素,且所有功能均可正常运行 [4] - 生成的成功率极高,演示内容为一次性生成的结果,源代码已在CodePen平台公开 [7] 具体功能实现细节 - 网页版macOS包含文本编辑器、文件管理器、画图工具、视频编辑器等苹果预装软件功能,并设有彩蛋特效 [3][5] - 网页版Windows内置了Python终端、代码编辑器、可玩游戏,功能完整度超出预期 [11][12] - 网页版Linux可实现访问维基百科、调用计算器、更换壁纸等功能 [15][16] 与竞争对手的性能对比 - 在相同提示词下,Gemini 3.0 Pro的表现远超竞争对手Claude 4.5 Sonnet,后者甚至无法打开应用图标 [13] - 网友评价认为,若正式版能达到演示水准,Gemini将成为史上最强的编程型模型 [9] 行业影响与技术讨论 - 演示内容引发了关于AI创新能力的讨论,有观点认为这展示了大型语言模型并非简单模仿,而是具备一定创造力 [17] - 同时有业内观点指出,当前成果仍属于模拟环境,依赖于现有技术库,与真正实现操作系统存在本质区别 [18] 产品发布预期与市场策略 - 尽管谷歌尚未公布Gemini 3.0 Pro的正式发布时间,但业内推测其可能在未来几个月内亮相 [19] - 近期来自各路影响者的演示视频数量显著增加,超过此前Gemini 2.5 Pro发布前的规模 [20][21] - 市场策略显示,公司可能延续此前成功的预热营销模式,但需注意管理市场过高预期带来的风险 [22]
实测新版LiblibAI:终于把模型、生图、工作流塞进一个碗了
量子位· 2025-10-15 09:08
核心观点 - LiblibAI 2.0版本完成重要战略升级,从一个“找模型”的网站转变为可直接进行“AIGC流水线”创作的平台[11][36] - 平台通过集成多种主流图像和视频模型,并新增特效等实用功能,旨在打造创作者的“AI全家桶”[15][17][19][33][45] - 尽管功能升级带来想象空间,但在用户体验层面仍存在出图速度、模型同质化及页面卡顿等问题[37][38] 产品功能升级 - 平台界面风格从“极客社区范”转变为类似“ChatGPT+Canva”的合体,兼具模型调用和设计功能[12] - 新增视频生成页面的“添加特效”功能,用户可直接在生成板块为视频添加如“一飞冲天”等特效[19][21][23] - 提供视频的“首帧/尾帧”功能,适用于短剧封面和BGM剪辑片段制作[30][31] - 整合了全球最大图片风格开源模型库,覆盖插画、摄影、电商等多类视觉风格,将模型选型流程视觉化[33][34] 模型能力整合 - 图像模型方面,集成了Qwen-Image、Seedream 4.0、Nano-Banana等热门模型,并接入了Midjourney家族当前最强的V7模型[15][16] - 视频模型方面,集成了海螺2.0、通义万相2.5、可灵2.5、Vidu Q1等主流模型[17] - 使用模板生成视频时,提示词为锁死状态,不支持编辑,此举提升了效率但牺牲了画面可控性[28][29] 用户体验与反馈 - 实测生成效果获得认可,例如城堡图片添加特效后变为火箭发射,动作衔接尚可[21][23][25] - 存在稳定性问题,例如特效视频中猫的瞳孔颜色会突然变化,镜头会对不准人脸导致画面跑偏[25][27] - 用户反馈问题包括:付费后出图速度未见提升,尤其是一次性生成四张图时;模型选项虽多但同质化严重,惊喜感弱;部分用户遇到页面卡顿[37][38] 公司背景与战略 - LiblibAI是一家“非典型”公司,擅长内容产品打法,曾一年内完成四轮融资,创下当时国内AI应用赛道的融资速度纪录[38][39] - 公司海外子公司打造的AI设计产品Lovart为全球首个设计Agent,内测上线5天排队体验人数突破10万[40][41] - 创始人陈冕曾为剪映、CapCut的商业化负责人,也是字节跳动当年最年轻的产品4-1(对标阿里P9)之一,擅长构建“用户-内容-流量”闭环[42][43] - 公司战略路径清晰,从“模型开源社区”向“创作者的AI全家桶”转型,致力于构建创作闭环[44][45]
谢赛宁新作:VAE退役,RAE当立
量子位· 2025-10-14 16:16
文章核心观点 - 谢赛宁团队提出表征自编码器RAE将取代变分自动编码器VAE,标志着VAE时代的结束[1][4] - RAE采用预训练表征编码器与轻量级解码器配对,在扩散Transformer模型中实现更高质量重建和更快收敛速度[3][9][19] - 该方法在ImageNet图像生成任务中取得FID 1.51(无引导)和1.13(有引导)的优异表现[6] RAE技术原理与优势 - RAE核心设计是用预训练表征编码器(DINO、SigLIP、MAE等)与训练后的轻量级解码器配对[3] - 无需额外表示对齐损失或辅助损失函数,架构简洁但重建质量超越SD-VAE[9][10] - 提供语义丰富的潜空间,支持可扩展的基于变换器的架构[4] 传统VAE的局限性 - SD-VAE需要约450 GFLOPs运算量,而简易ViT-B编码器仅需22 GFLOPs,架构过于复杂[7] - VAE潜空间过度压缩(只有4个通道),信息容量严重受限[7] - VAE表征能力薄弱,线性探测精度约8%,特征质量低下拖慢收敛速度并损害生成质量[7][11] RAE性能表现 - 在重建质量指标rFID上:DINOv2-B为0.49,SigLIP2-B为0.53,MAE-B为0.16,均优于SD-VAE的0.62[11] - 在表征质量指标Top-1准确率上:DINOv2-B达84.5%,SigLIP2-B达79.1%,MAE-B达68.0%,远高于SD-VAE的8.0%[11] - 收敛速度比基于SD-VAE的REPA快达16倍[19] DiT架构适配与优化 - 采用宽DiT设计,要求变换器宽度至少等于潜表征维度[14] - 调整噪声调度使扩散模型适应增加的输入通道维度[17] - 在解码器训练中注入微量噪声,提升对潜空间扩散误差的鲁棒性[17] - 引入极宽但极浅的扩散头部设计,提升DiT在RAE框架内的可扩展性[21][22]
不用跟AI客气了!新研究:语气越粗鲁回答正确率越高
量子位· 2025-10-14 16:16
研究核心发现 - 宾夕法尼亚州立大学研究显示,对大型语言模型的提问语气越粗鲁,其回答正确率反而越高[2] - 使用粗鲁语气时GPT-4o正确率达84.8%,而特别客气时正确率仅为80.8%,存在显著差异[3][10] - 不同语气导致的正确率差异经过统计检验确认并非偶然,具有统计学意义[12] 研究方法与设计 - 研究构建包含50道涵盖数学、科学、历史的中等难度选择题的题库[6] - 为每道题目设计5种不同语气版本,从非常客气到非常粗鲁[7] - 语气等级分为非常礼貌、礼貌、中性、粗鲁、非常粗鲁五个级别,共生成250个测试问题[8] - 测试前对GPT-4o进行标准化提示,要求其忘记之前对话并仅输出答案选项字母以确保回答一致性[9] 现象原因分析 - 礼貌表达中包含大量与题目无关的“多余”话语,这些内容可能对AI读题造成干扰[12] - 粗鲁的命令式表达更为直接,能帮助AI更精准地抓住“答题”核心任务,从而提高正确率[13] - 网友反馈证实指令越明确,AI生成的结果越好[14] 模型差异比较 - GPT-4o对粗鲁语气表现出更高的适应性,而GPT-3.5和Llama2-70B等老模型在粗鲁语气下表现更差[16] - 新模型可能因训练数据中语气相关数据更复杂,或优化了过滤无关信息的能力,故表现不同[17] 实践应用启示 - 使用AI工具时清晰表达诉求能有效提高效率[18] - 尽管研究显示粗鲁语气效果更好,但实践中仍需注意基本礼仪[19]
OpenAI自研芯片内幕曝光!18个月前开始用AI优化芯片设计,比人类工程师更快
量子位· 2025-10-14 13:39
合作核心内容 - OpenAI与博通达成战略合作,共同部署由OpenAI设计的10GW规模的AI加速器 [5] - 博通将从2026年下半年开始部署配备AI加速器和网络系统的机架,并于2029年底前完成全部部署 [5] - OpenAI负责芯片与系统设计,博通负责合作开发与投入部署 [6] - 10GW电力规模相当于10000兆瓦,足以同时点亮约1亿个100瓦灯泡 [10][11] 合作战略意义 - 通过自研芯片实现垂直整合,将前沿模型开发经验直接嵌入硬件以解锁新能力与智能水平 [7][20][21] - 定制加速器旨在满足现有芯片无法覆盖的特定计算任务或工作负载 [20][21] - 合作凸显定制加速器重要性及以太网作为AI数据中心纵向与横向扩展网络核心技术的战略地位 [13] - 有助于OpenAI缓解算力紧张问题,其ChatGPT每周有近8亿活跃用户 [14][15] 自研芯片动因 - 对AI工作负载的深刻理解以及实现公司使命需要进行垂直整合 [18][22][23] - 在2017年发现规模扩展对AI系统的巨大作用,自研芯片是实现算力扩展的重要举措 [28][29][30] - 与外部芯片公司合作时,关于模型发展方向与形状的反馈未被采纳,缺乏话语权 [30][31] - 公司CEO转变观点,认为垂直整合是实现使命的必要途径,并以iPhone的成功为例 [22][23][24] 预期效益与技术应用 - 通过优化整个技术堆栈,预计能从每瓦特中榨取更多智能,实现巨大的效率提升 [31] - 效率提升将直接转化为更好的模型性能、更快的模型训练速度以及更低的模型成本 [31] - 已在利用AI模型优化芯片设计,其优化速度比人类工程师更快 [32][33] - AI模型提出的优化方案通常是人类专家清单上的项目,但能显著缩短实现时间 [34] 整体战略布局 - 公司采取“自研+合作”路线突破算力瓶颈,除博通外也与英伟达、AMD等厂商合作 [36][37][40][41] - 与英伟达的合作规模同样为10GW,预计使用数百万块GPU,并获得高达1000亿美元投资 [37][38] - 自研芯片布局已持续约18个月,并在o1模型开启推理浪潮后开始专门设计推理芯片 [18][43]
量子位「MEET2026智能未来大会」启动!年度榜单征集中
量子位· 2025-10-14 13:39
技术发展趋势 - 人工智能正从工具演变为深度理解人类需求的智能伙伴,跨越软件、硬件、机器人等形态 [2] - 多模态、AR/VR、空间计算等技术融合,推动数字世界与物理世界的界限模糊并融合 [4] - 智能技术跨越产业、学科和场景边界,催生全新生态和机遇,成为驱动社会演进的核心动能 [3][14] 行业生态与影响 - 企业、技术与社会之间的连接与共生成为推动发展的核心动力,技术贯通产业链并催生新业态 [5][14] - 人工智能逐步成为基础设施,重塑人类未来的工作、生活和社会运作模式 [7] - 数字智慧开始重塑物理世界,提升全社会福祉和效率 [14] MEET2026智能未来大会 - 大会主题为“共生无界,智启未来”,聚焦人工智能+、AI Infra、智能终端、智能驾驶、低空经济、能源电力等前沿话题 [13][14] - 会议拟于2025年12月在北京举办,汇聚科技、产业、学术领域领军人物,包括李开复、张亚勤、多位院士及百度、阿里、腾讯、华为等公司代表 [7][9][24] - 大会作为年度科技商业峰会,过往吸引上千名科技从业者现场参与,百万观众线上围观,近百家合作媒体联合曝光 [12] 年度评选与报告 - 将发布“2025人工智能年度榜单”,从公司、产品、人物三大维度评选领航企业、潜力创业公司、杰出产品、杰出解决方案、焦点人物五类奖项 [16][17][18][19] - 量子位智库拟在大会上发布《2025年度AI十大趋势报告》,提名释放巨大潜力的十大AI趋势并进行深入分析 [22]