量子位

搜索文档
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
MENTOR团队 投稿 量子位 | 公众号 QbitAI 当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在 精准控制 上却常常"心有余而力不足"。 在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种 更高效、控制更精准 的范式? 近日,来自 伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软 的研究者们,将目光投向 了另一条技术路线—— 自回归(Autoregressive, AR)模型 ,并提出了一个全新的高效多模态微调框架 MENTOR ,仅用十分之一的训练数据和次优的模型组 件,就能够实现超越Diffusion方法(如Emu2、DreamEngine)的性能, 为复杂的多模态图像生成提供了一个更高效、更可控的新范式。 MENTOR巧妙地绕开了Diffusion模型中常见的复杂设计,通过独特的 两阶段训练法 ,让自回归模型也能高效地进行多模态条件下的图像生 成,实现了 像素级精准控制。 △ 多模态条件生成效果展示 解决多模态图像生成中的平衡难题 在真实世界的应用中,我们常常需要模型能够理解和处理比纯文本更复杂的指令, ...
英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA
量子位· 2025-07-29 13:05
英伟达最新推出的 Llama Nemotron Super v1.5 开源模型就专为复杂推理和agnet任务量身打造。 模型在科学、数学、编程及agent任务中实现SOTA表现的同时, 还将吞吐量提升至前代的3倍,且可在单卡高效运行,实现更准、更快、更 轻的"既要又要还要"。 这是怎么做到的? henry 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,老黄不仅卖铲子(GPU),还自己下场开矿(造模型)。 模型介绍 Llama Nemotron Super v1.5是Llama-3.3-Nemotron-Super-49B-V1.5的简称。它是Llama-3.3-Nemotron-Super-49B-V1的升级版本(该 模型是Meta的Llama-3.3-70B-Instruct的衍生模型),专为复杂推理和智能体任务设计。 模型架构 Llama Nemotron Super v1.5 采用神经架构搜索(Neural Architecture Search,NAS) ,使该模型在 准确率和效率 之间实现了良好的 平衡,将吞吐量的提升有效转化为更低的运行成本。 (注:NAS的目标是通过搜索算法从大量的可 ...
单张消费级显卡也能参与大模型训练!无问芯穹用「三个盒子」打通十万卡到一张卡AI效能跃升路径
量子位· 2025-07-29 13:05
衡宇 发自 WAIC 量子位 | 公众号 QbitAI 智能时代的尺度,在计算资源与智能效率的双重牵引下正在极速压缩、迅速蔓延。 两年前,我们惊艳于几千卡集群训练而成的GPT3.5;但今天,一部手机也可以装下与它同等性能的小型AI了。 2025年WAIC上, 无问芯穹联合创始人、CEO夏立雪 如此说道。 他还代表无问芯穹,带来了AI落地这道难题的最新回答—— 三个盒子,打通从十万卡到一张卡的AI效能跃升路径 。 是的,仅仅是三个盒子。 在无问芯穹看来,这三个盒子背后,是一整套面向未来的智能基础设施设计。 什么是三个盒子? "三个盒子"其实是无问芯穹全规模AI效能跃升方案的三大核心产品: 这是一整套软硬件协同系统,专为未来智能基础设施设计,能覆盖从云到端的各种规模场景,支持多种异构算力,同时打通模型调度、性能优 化到应用部署的全流程。 我们一个一个来看—— 大盒子:无穹AI云 大盒子:无穹AI云 中盒子:无界智算平台 小盒子:无垠终端智能 大盒子,即无问芯穹推出的 无穹AI云 ,是面向万卡至十万卡级别的智算网络,为超大规模算力集群的利用提供了一个系统性的解决方案。 夏立雪在现场透露,无界智算平台已在超过100个 ...
预测太阳磁暴全球最强!首个空间天气链式AI预报模型亮相WAIC
量子位· 2025-07-29 13:05
允中 发自 凹非寺 量子位 | 公众号 QbitAI 就在一颗通信卫星以第一宇宙速度飞过我们头顶的几分钟时间里,上百万人正借助由它所搭建的网络去链接这个世界,而实际上,这样的卫星 有成千上万颗。 当我们使用方便快捷的卫星网络服务时,就在网络的另一边,一个名 叫 " 风云太空 " 的系统 , 却平静无声地向这些为我们提供服务的卫星 发送了预警信息,一场因太阳爆发活动所带来的冲击即将在大约 24 小时后到达 ...... 在获取预警信息后,地面运控部门启动应急预案,并在 太阳风暴到来时从容应对,化解了此次空间天气危机。 这个场景,正是 我国空间天气预报能力迈向智能化 的一个缩影,而其背后的核心技术,就是本文的主角—— "风宇"模型 。 王劲松主任认为,"风宇"模型的研发成功,使得空间天气预报实现了 物理模型、数值预报和人工智能三足并立 的格局,大大提高了我国空间 天气预报水平。 国家卫星气象中心(国家空间天气监测预警中心)主任王劲松介绍,这是 全球首个全链式的空间天气人工智能预报模型 。 世界首个全链路空间天气AI预报模型 当前太阳正处于活动高发期,日珥爆发等随机事件如同无形的"宇宙海啸",时刻威胁着在轨卫星、航 ...
AI改造激光焊接检测!“过杀”率暴降50%,国际头部客户产线已用上
量子位· 2025-07-29 13:05
精密制造行业的生产产线,讲求精准与稳定,向来是硬科技的竞技场。在这轮AI重塑千行百业的浪潮中,可能没有比精密制造更适合AI改造 的场景了。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 在7月北京举办的第三届国际供应链博览会上,一套激光焊接在线检测系统展示了AI+先进制造检测的真实落地效果: 基于深度学习的AI检测模型, 焊接检测"过杀"率降低了50% ,且实现了更智能的故障诊断,使得产线检测精度和生产效率大幅提 升。 这套激光焊接在线检测系统由广州德擎光学科技研发,搭载自主研发的AI与光电检测深度融合的专利检测技术,包括AI参数调节、AI降过 杀、AI故障诊断等功能,目前已被国际头部消费电子客户的产线采用。 △ 德擎光学激光焊接检测设备在第三届链博会现场展出 加工越精密,过程控制越严苛 激光焊接涉及复杂的物理冶金过程,如熔池动态、热积累、晶粒生长等,过程中易产生气孔、裂纹、翘曲变形等缺陷。由于激光焊接过程呈 现明显的多光谱辐射特性,可见光波段表征金属蒸汽喷发量和飞溅程度,反射激光表征工件对激光的吸收情况,近红外波段则反映熔池的温 度波动情况。通过实时监测焊接过程中产生的光辐射,并将光辐射转化为电信号 ...
狂拿大模型明星订单,一家清华系HPC-AI Infra公司浮出水面
量子位· 2025-07-29 13:05
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不靠囤算力,拿下数家大模型明星公司订单。 93年创始人掌舵的清华系计算创业公司,有点出其不意。 2023上半年,百模大战开启,模型预训练需求空前爆发,在算力焦虑下,囤积算力成为一种趋同性动作,更充裕的算力几乎就等于金额更高 的订单。 10亿、甚至50亿 ,诱惑非常大。 站在暴风眼最核心,创始人闫博文没有这么做。从技术角度出发,他知道未来算力一定会有闲置,疯狂囤算力对于一家技术公司而言似乎也不 够make sense。 而且从结果看, 这也不影响他拿大单 。 百度、Kimi 以及视频生成赛道顶尖玩家 生数科技 等,都选择与他们合作。 So,why? 3次获得戈登·贝尔奖 是石科技创立于2021年,团队从国家超级计算无锡中心孵化而来,是国内最早将超算智算并行优化的技术进行产业化的团队之一。 创始人兼董事长闫博文 ,出生于1993年,毕业于清华大学,是清华计算机系博士后。主要研究方向包括计算机应用技术、高性能计算、并行 优化等。 博士期间,闫博文 参与了国家超级计算无锡中心项目 ,主要实现将CFD整体算法移植到国产超算"神威·太湖之光"上。 "神威·太湖之光" ...
每个人的AI科学助手!全球首个通用科学智能体来了,全网资源+1.7亿学术文献让科研效率狂飙
量子位· 2025-07-29 11:43
就在这届WAIC的未来发展论坛上,上海交大青年博导、CVPR最佳论文得主 张林峰 与深势科技创始人 张林峰 ,双峰闪耀,共同发布了全球 首个通用科研智能体 SciMaster 。 克雷西 发自 徐汇西岸 量子位 | 公众号 QbitAI 全球首个通用科学智能体,亮相WAIC! SciMaster是属于每个人的专家级科研助手,可以结合全网资源和1.7亿科学文献,帮你扫清科研过程中遇到的各种困难。 还可以跳出科研圈,以科研的思维审视日常问题,在工作生活的方方面面给予你帮助。 而且主要功能统统免费,这也使得SciMaster发布后,网友们迅速开启了求邀请码模式。 科研神器SciMaster SciMaster的核心功能,就是 专家级的深度调研 ,它的背后是通用科学基座大模型Innovator,具备多模态能力。 话不多说,直接看SciMaster的真实表现。 在AI前沿领域,出现了很多对Transformer发起挑战的新型模型架构,我们想让SciMaster帮我们调查一下,这些架构当中哪些最具应用前 景。 我们看到,SciMaster首先根据自身的知识储备,提出了可能的候选答案,然后设计了检索方案,以便寻找相关资料。 ...
刚刚,微软推出AI浏览器,上网从此不一样了
量子位· 2025-07-29 08:40
微软Edge浏览器Copilot模式 - Edge浏览器推出"Copilot模式",将传统浏览器改造为AI智能体,具备主动执行任务的能力[1][2] - 核心功能包括跨标签页情境感知,可同时读取分析多个标签页内容完成复杂比较和总结任务[3] - 演示案例显示AI能同时处理9篇Nature论文并总结共性[4] 产品功能创新 - 新标签页简化为统一输入框,集成网址跳转、搜索和AI对话功能[6][7] - AI可自动识别用户意图,动态切换搜索、聊天或导航模式[8] - 支持网页内容即时处理,如提取食谱并转换计量单位[10] - 提供标签页智能分组功能优化浏览效率[12] - 支持语音控制实现免提操作[16] 未来发展规划 - 将推出"主题式旅程"功能,AI自动组织浏览内容形成学习路径并推荐后续阅读[17] - 计划扩展至自动预订餐厅、管理行程和购物等场景[20] - 商业模式可能转向订阅制,推测未来与Copilot Pro服务(20美元/月)捆绑[30][31] 市场竞争格局 - 直接挑战Chrome市占率超60%的主导地位[24][25] - 产品定位介于Chrome保守集成Gemini与新创公司完全AI化浏览器之间[26][28] - 采用渐进式AI融合策略平衡用户接受度与创新需求[29] 行业影响 - 标志浏览器从工具向智能助手转型,传统"搜索-阅读"模式可能被颠覆[32][34] - 预示浏览器可能结束免费时代,AI功能成为付费核心价值点[32]
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
量子位· 2025-07-29 08:40
通义万相Wan2.2模型技术突破 - 阿里开源新一代视频生成模型通义万相Wan2.2,包含文生视频、图生视频和混合视频生成功能[4] - 首次在视频生成模型中实现MoE架构,包含Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两个版本,可生成电影级质感视频[5] - 5B版本支持消费级显卡部署,是目前最快的24fps、720P基础模型[5] - 相比前代Wan2.1,图像训练数据增加65.6%,视频数据增加83.2%[31] 模型架构创新 - 采用MoE架构解决视频生成模型参数扩展难题,通过拆分高噪/低噪专家模型处理不同去噪阶段[26][28] - 引入900去噪时间步划分,高噪模型负责主体结构构建,低噪模型处理细节生成[28] - 自研高压缩比3D VAE结构实现16x16x4压缩比,降低显存占用同时保持重建质量[34][35] - 验证损失(Validation loss)达到行业最低水平,视频生成质量最优[29] 电影级美学控制系统 - 整合光影、色彩、镜头语言三大电影元素,提供12个美学维度和60+专业参数控制[37][38] - 支持精确调控光线时段/类型/强度/方向、构图法、拍摄角度、色彩情绪等[38][40][42] - 用户仅需添加美学关键词前缀即可自动生成专业导演质感的画面[46] 复杂运动与交互能力 - 构建面部原子动作系统,可生成微表情如"强忍泪水时的嘴唇颤抖"[47] - 优化手部动作系统,支持从基础操作到专业精密动作的生成[48] - 提升多人交互物理合理性,避免角色穿模现象[49] - 增强高强度运动(体操/滑雪等)的稳定性,减少动作失真[50] 产品生态与行业影响 - 通义万相系列累计下载量超4亿次,衍生模型超14万,全球排名第一[54] - 配套推出"万相妙思+"创作活动,设置兴趣组(5-15秒)和专业组(30秒+)赛道[54] - 模型已上线通义万相平台及GitHub/HuggingFace/魔搭社区[18][56] - 该技术突破可能重塑电影工业生产流程[55]
抢跑GPT-5,智谱开源新SOTA模型,一句话搞出能看视频、发弹幕的B站!
量子位· 2025-07-28 22:44
金磊 发自 上海 量子位 | 公众号 QbitAI 就在刚刚, 智谱GLM史上最大 开源大模型来袭—— 代码 和 Agent ,直接拿下开源模型的 SOTA , 推理 拿下开源模型 第二 。 更重要的是,这是 首次 在单个模型中把这三个能力进行了原生融合的那种。 它就是智谱最新发布的新一代旗舰大模型, GLM-4.5 。 从评测维度来看,榜单挑选了最具代表性的12个评测基准,包括: MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、 BFCL v3 和BrowseComp。 评测结果显示,GLM-4.5的综合平均分全球范围内第三(仅次于闭源的o3、Grok4),而在 开源 和 国产 两个维度均取得 第一 的成绩! 整体来看,GLM-4.5采用的是MoE架构,并且全面开源,包括2个产品: 这则预告字里行间所透露的信息,可见海外世界对GLM模型的关注。 然而在一番体验下来之后我们发现,相比于OpenAI,智谱这次做到了更超前。 因为有传闻GPT-5将在本周上线,也有网友已经开始晒 ...