Workflow
量子位
icon
搜索文档
首个企业级智能体全开源!京东云将Agent门槛直接给打没了
量子位· 2025-07-29 15:07
核心观点 - 京东云JoyAgent成为行业首个100%开源企业级智能体,包含前后端、框架、引擎、核心子智能体等完整能力,企业开发者无需二次开发即可本地独立部署 [2][8][10] - JoyAgent在GAIA榜单上以Validation集准确率75.15%的成绩上榜,性能比肩行业领先产品,且具备轻量化优势 [4][5][13] - 该智能体已在京东内部经过超2万个智能体实践验证,可靠性有保障 [6][42] - 产品采用多智能体协同、并行处理等创新架构,显著提升执行效率并减少工具使用错误40% [16][21][41] 产品特性 技术架构 - 采用双层级规划架构:Work Level负责整体任务规划(最多分解5个子任务),Task Level采用ReAct模式执行具体任务 [34][35] - 创新文件系统+内存混合的上下文管理系统,突破LLM上下文限制并实现任务间文件共享 [36][37] - 工具/智能体具备自动进化机制,可根据任务动态生成专业化数字员工角色 [38][39] 功能表现 - 支持SearchAgent、ReportAgent、CodeAgent等多种子智能体及文档处理工具,可扩展性强 [16][17] - 演示案例显示其能并行启动5个搜索线程,1-2分钟内完成复杂报告生成 [21][22][23] - 在京东618实战中精准预测数百万台销量并实现采购流程从数天缩短至分钟级 [42] 行业意义 - 首次实现企业级智能体端到端完整开源,将使用门槛降至零成本 [10][47] - 解决企业场景三大核心挑战:专业知识门槛、传统系统协同复杂性、输出结果严谨性 [44][45] - 提供可复制的商业化样本,使中小企业能快速获得与京东同等的Agent能力 [47] 数据表现 - GAIA榜单成绩:总分0.7515(超过10个对比产品中的6个),一级指标达0.8679 [5] - 工具使用错误率降低40%,并行处理效率提升显著 [41][21] - GitHub Star数持续攀升,开发者社区反响热烈 [3][6]
自回归模型杀回图像生成!实现像素级精准控制,比Diffusion更高效可控
量子位· 2025-07-29 13:05
MENTOR团队 投稿 量子位 | 公众号 QbitAI 当下的AI图像生成领域,Diffusion模型无疑是绝对的王者,但在 精准控制 上却常常"心有余而力不足"。 在精确视觉控制、平衡多模态输入以及高昂的训练成本方面仍面临挑战。有没有一种 更高效、控制更精准 的范式? 近日,来自 伊利诺伊大学香槟分校(UIUC)、威斯康星大学麦迪逊分校、清华大学、北京大学、Adobe以及微软 的研究者们,将目光投向 了另一条技术路线—— 自回归(Autoregressive, AR)模型 ,并提出了一个全新的高效多模态微调框架 MENTOR ,仅用十分之一的训练数据和次优的模型组 件,就能够实现超越Diffusion方法(如Emu2、DreamEngine)的性能, 为复杂的多模态图像生成提供了一个更高效、更可控的新范式。 MENTOR巧妙地绕开了Diffusion模型中常见的复杂设计,通过独特的 两阶段训练法 ,让自回归模型也能高效地进行多模态条件下的图像生 成,实现了 像素级精准控制。 △ 多模态条件生成效果展示 解决多模态图像生成中的平衡难题 在真实世界的应用中,我们常常需要模型能够理解和处理比纯文本更复杂的指令, ...
英伟达全新开源模型:三倍吞吐、单卡可跑,还拿下推理SOTA
量子位· 2025-07-29 13:05
模型发布与定位 - 英伟达推出开源模型Llama Nemotron Super v1 5,专为复杂推理和agent任务设计,在科学、数学、编程及agent任务中实现SOTA表现 [2] - 模型吞吐量提升至前代的3倍,可在单卡高效运行,实现更准、更快、更轻的性能 [2] - 模型为Llama-3 3-Nemotron-Super-49B-V1的升级版本,衍生自Meta的Llama-3 3-70B-Instruct [3] 模型架构与技术 - 采用神经架构搜索(NAS)技术,平衡准确率和效率,降低运行成本 [4] - NAS生成非标准、非重复的网络模块,包含跳过注意力机制和可变前馈网络两类变化 [6][7] - 通过跳过attention或改变FFN宽度减少FLOPs,提升资源受限时的运行效率 [8] - 对原始Llama模型进行逐模块蒸馏,构建满足单卡H100 80GB显卡吞吐量和内存要求的模型 [8][9] 训练与数据集 - 模型在FineWeb、Buzz-V1 2和Dolma三个数据集共400亿token的训练数据上进行知识蒸馏,重点关注英语单轮和多轮聊天 [10] - 后训练阶段结合监督微调(SFT)和强化学习(RL),提升代码、数学、推理和指令遵循等任务表现 [10] - 数据集包含公开语料库题目和人工合成问答样本,部分题目配有开启和关闭推理的答案,增强模型推理模式辨别能力 [10] - 英伟达表示数据集将在未来几周内发布 [11] 部署与生态 - 模型专为NVIDIA GPU加速系统设计和优化,利用GPU核心和CUDA库实现显著速度提升 [12] - 模型已开源,开发者可通过build nvidia com或Hugging Face下载体验 [13] - 模型隶属于英伟达Nemotron生态,集成大语言模型、训练与推理框架、优化工具和企业级部署方案 [14] - Nemotron生态推出Nano、Super和Ultra三个系列,分别针对边缘部署、单GPU平衡精度和最大精度数据中心场景 [16][17] 行业应用与合作 - Nemotron已获SAP、ServiceNow、Microsoft、Accenture等企业支持,用于构建企业级AI智能体平台 [17] - 在Amazon Bedrock Marketplace中可通过NVIDIA NIM微服务调用Nemotron模型,支持云端和混合架构运营方案 [17]
单张消费级显卡也能参与大模型训练!无问芯穹用「三个盒子」打通十万卡到一张卡AI效能跃升路径
量子位· 2025-07-29 13:05
衡宇 发自 WAIC 量子位 | 公众号 QbitAI 智能时代的尺度,在计算资源与智能效率的双重牵引下正在极速压缩、迅速蔓延。 两年前,我们惊艳于几千卡集群训练而成的GPT3.5;但今天,一部手机也可以装下与它同等性能的小型AI了。 2025年WAIC上, 无问芯穹联合创始人、CEO夏立雪 如此说道。 他还代表无问芯穹,带来了AI落地这道难题的最新回答—— 三个盒子,打通从十万卡到一张卡的AI效能跃升路径 。 是的,仅仅是三个盒子。 在无问芯穹看来,这三个盒子背后,是一整套面向未来的智能基础设施设计。 什么是三个盒子? "三个盒子"其实是无问芯穹全规模AI效能跃升方案的三大核心产品: 这是一整套软硬件协同系统,专为未来智能基础设施设计,能覆盖从云到端的各种规模场景,支持多种异构算力,同时打通模型调度、性能优 化到应用部署的全流程。 我们一个一个来看—— 大盒子:无穹AI云 大盒子:无穹AI云 中盒子:无界智算平台 小盒子:无垠终端智能 大盒子,即无问芯穹推出的 无穹AI云 ,是面向万卡至十万卡级别的智算网络,为超大规模算力集群的利用提供了一个系统性的解决方案。 夏立雪在现场透露,无界智算平台已在超过100个 ...
预测太阳磁暴全球最强!首个空间天气链式AI预报模型亮相WAIC
量子位· 2025-07-29 13:05
允中 发自 凹非寺 量子位 | 公众号 QbitAI 就在一颗通信卫星以第一宇宙速度飞过我们头顶的几分钟时间里,上百万人正借助由它所搭建的网络去链接这个世界,而实际上,这样的卫星 有成千上万颗。 当我们使用方便快捷的卫星网络服务时,就在网络的另一边,一个名 叫 " 风云太空 " 的系统 , 却平静无声地向这些为我们提供服务的卫星 发送了预警信息,一场因太阳爆发活动所带来的冲击即将在大约 24 小时后到达 ...... 在获取预警信息后,地面运控部门启动应急预案,并在 太阳风暴到来时从容应对,化解了此次空间天气危机。 这个场景,正是 我国空间天气预报能力迈向智能化 的一个缩影,而其背后的核心技术,就是本文的主角—— "风宇"模型 。 王劲松主任认为,"风宇"模型的研发成功,使得空间天气预报实现了 物理模型、数值预报和人工智能三足并立 的格局,大大提高了我国空间 天气预报水平。 国家卫星气象中心(国家空间天气监测预警中心)主任王劲松介绍,这是 全球首个全链式的空间天气人工智能预报模型 。 世界首个全链路空间天气AI预报模型 当前太阳正处于活动高发期,日珥爆发等随机事件如同无形的"宇宙海啸",时刻威胁着在轨卫星、航 ...
AI改造激光焊接检测!“过杀”率暴降50%,国际头部客户产线已用上
量子位· 2025-07-29 13:05
精密制造行业的生产产线,讲求精准与稳定,向来是硬科技的竞技场。在这轮AI重塑千行百业的浪潮中,可能没有比精密制造更适合AI改造 的场景了。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 在7月北京举办的第三届国际供应链博览会上,一套激光焊接在线检测系统展示了AI+先进制造检测的真实落地效果: 基于深度学习的AI检测模型, 焊接检测"过杀"率降低了50% ,且实现了更智能的故障诊断,使得产线检测精度和生产效率大幅提 升。 这套激光焊接在线检测系统由广州德擎光学科技研发,搭载自主研发的AI与光电检测深度融合的专利检测技术,包括AI参数调节、AI降过 杀、AI故障诊断等功能,目前已被国际头部消费电子客户的产线采用。 △ 德擎光学激光焊接检测设备在第三届链博会现场展出 加工越精密,过程控制越严苛 激光焊接涉及复杂的物理冶金过程,如熔池动态、热积累、晶粒生长等,过程中易产生气孔、裂纹、翘曲变形等缺陷。由于激光焊接过程呈 现明显的多光谱辐射特性,可见光波段表征金属蒸汽喷发量和飞溅程度,反射激光表征工件对激光的吸收情况,近红外波段则反映熔池的温 度波动情况。通过实时监测焊接过程中产生的光辐射,并将光辐射转化为电信号 ...
狂拿大模型明星订单,一家清华系HPC-AI Infra公司浮出水面
量子位· 2025-07-29 13:05
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不靠囤算力,拿下数家大模型明星公司订单。 93年创始人掌舵的清华系计算创业公司,有点出其不意。 2023上半年,百模大战开启,模型预训练需求空前爆发,在算力焦虑下,囤积算力成为一种趋同性动作,更充裕的算力几乎就等于金额更高 的订单。 10亿、甚至50亿 ,诱惑非常大。 站在暴风眼最核心,创始人闫博文没有这么做。从技术角度出发,他知道未来算力一定会有闲置,疯狂囤算力对于一家技术公司而言似乎也不 够make sense。 而且从结果看, 这也不影响他拿大单 。 百度、Kimi 以及视频生成赛道顶尖玩家 生数科技 等,都选择与他们合作。 So,why? 3次获得戈登·贝尔奖 是石科技创立于2021年,团队从国家超级计算无锡中心孵化而来,是国内最早将超算智算并行优化的技术进行产业化的团队之一。 创始人兼董事长闫博文 ,出生于1993年,毕业于清华大学,是清华计算机系博士后。主要研究方向包括计算机应用技术、高性能计算、并行 优化等。 博士期间,闫博文 参与了国家超级计算无锡中心项目 ,主要实现将CFD整体算法移植到国产超算"神威·太湖之光"上。 "神威·太湖之光" ...
每个人的AI科学助手!全球首个通用科学智能体来了,全网资源+1.7亿学术文献让科研效率狂飙
量子位· 2025-07-29 11:43
通用科研智能体SciMaster发布 - 全球首个通用科研智能体SciMaster在WAIC未来发展论坛发布,由上海交大青年博导张林峰与深势科技创始人张林峰共同推出[1] - SciMaster具备专家级深度调研能力,基于通用科学基座大模型Innovator,拥有多模态能力[5] - 可结合全网资源和1.7亿科学文献进行科研辅助,并能以科研思维解决日常问题[2][3] - 主要功能免费开放,发布后迅速引发用户求邀请码热潮[4] 核心功能与技术特点 - 提供"通用助手"和"深度调研"两种模式,前者适合快速了解问题,后者可生成更翔实的报告并附参考文献[22] - 集成多种科学专用工具,支持主动调用和自动调用两种方式[24][28] - 检索方式包括WebSearch、WebParse、PaperSearch三种,覆盖全域互联网和1.7亿科学文献[7] - 支持用户干预检索方案,可随时暂停并编辑搜索策略[8] - 具备自动优化搜索能力,如不满意初次检索结果会自动调整关键词进行二次搜索[10] 实际应用案例 - 在AI前沿领域调研中,成功识别出Mamba、GNN等有前景的非Transformer架构,发现Mamba在长序列处理上效率是Transformer的5倍[15][17] - 在生物信息学领域,证实GNN在单细胞转录组学中可替代Transformer且计算资源消耗更少[18] - 在表格数据处理方面,发现传统MLP在某些情况下表现优于Transformer架构[19] - 生活场景中可提供科学开空调方案,根据不同关注点(舒适/健康/节能)给出最优解[29][30] - 商业场景中可帮助投资人发现具身智能领域有潜力的中国初创企业,并提供亮点和风险分析[37][39] 开发背景与行业影响 - 由上海交大与深势科技合作开发,是AI for Science(AI4S)领域的校企合作标杆成果[42] - 深势科技已推出科学大模型体系、药物计算平台等AI4S产品,并与40余所高校达成合作[43][44] - 数据来源于深势科技的玻尔科研空间站,并接入DeepModeling开源社区,已孕育上千款工具和数百个应用[43][46] - 目标是打造"AI4S领域的Hugging Face",推动重塑高校科研范式,改变传统"教、学、研、用"体系[45][47] - 作为通用科学智能体,将促进信息世界与物理世界融合,推动AI与传统学科的深度结合[48]
刚刚,微软推出AI浏览器,上网从此不一样了
量子位· 2025-07-29 08:40
微软Edge浏览器Copilot模式 - Edge浏览器推出"Copilot模式",将传统浏览器改造为AI智能体,具备主动执行任务的能力[1][2] - 核心功能包括跨标签页情境感知,可同时读取分析多个标签页内容完成复杂比较和总结任务[3] - 演示案例显示AI能同时处理9篇Nature论文并总结共性[4] 产品功能创新 - 新标签页简化为统一输入框,集成网址跳转、搜索和AI对话功能[6][7] - AI可自动识别用户意图,动态切换搜索、聊天或导航模式[8] - 支持网页内容即时处理,如提取食谱并转换计量单位[10] - 提供标签页智能分组功能优化浏览效率[12] - 支持语音控制实现免提操作[16] 未来发展规划 - 将推出"主题式旅程"功能,AI自动组织浏览内容形成学习路径并推荐后续阅读[17] - 计划扩展至自动预订餐厅、管理行程和购物等场景[20] - 商业模式可能转向订阅制,推测未来与Copilot Pro服务(20美元/月)捆绑[30][31] 市场竞争格局 - 直接挑战Chrome市占率超60%的主导地位[24][25] - 产品定位介于Chrome保守集成Gemini与新创公司完全AI化浏览器之间[26][28] - 采用渐进式AI融合策略平衡用户接受度与创新需求[29] 行业影响 - 标志浏览器从工具向智能助手转型,传统"搜索-阅读"模式可能被颠覆[32][34] - 预示浏览器可能结束免费时代,AI功能成为付费核心价值点[32]
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
量子位· 2025-07-29 08:40
通义万相Wan2.2模型技术突破 - 阿里开源新一代视频生成模型通义万相Wan2.2,包含文生视频、图生视频和混合视频生成功能[4] - 首次在视频生成模型中实现MoE架构,包含Wan2.2-T2V-A14B和Wan2.2-I2V-A14B两个版本,可生成电影级质感视频[5] - 5B版本支持消费级显卡部署,是目前最快的24fps、720P基础模型[5] - 相比前代Wan2.1,图像训练数据增加65.6%,视频数据增加83.2%[31] 模型架构创新 - 采用MoE架构解决视频生成模型参数扩展难题,通过拆分高噪/低噪专家模型处理不同去噪阶段[26][28] - 引入900去噪时间步划分,高噪模型负责主体结构构建,低噪模型处理细节生成[28] - 自研高压缩比3D VAE结构实现16x16x4压缩比,降低显存占用同时保持重建质量[34][35] - 验证损失(Validation loss)达到行业最低水平,视频生成质量最优[29] 电影级美学控制系统 - 整合光影、色彩、镜头语言三大电影元素,提供12个美学维度和60+专业参数控制[37][38] - 支持精确调控光线时段/类型/强度/方向、构图法、拍摄角度、色彩情绪等[38][40][42] - 用户仅需添加美学关键词前缀即可自动生成专业导演质感的画面[46] 复杂运动与交互能力 - 构建面部原子动作系统,可生成微表情如"强忍泪水时的嘴唇颤抖"[47] - 优化手部动作系统,支持从基础操作到专业精密动作的生成[48] - 提升多人交互物理合理性,避免角色穿模现象[49] - 增强高强度运动(体操/滑雪等)的稳定性,减少动作失真[50] 产品生态与行业影响 - 通义万相系列累计下载量超4亿次,衍生模型超14万,全球排名第一[54] - 配套推出"万相妙思+"创作活动,设置兴趣组(5-15秒)和专业组(30秒+)赛道[54] - 模型已上线通义万相平台及GitHub/HuggingFace/魔搭社区[18][56] - 该技术突破可能重塑电影工业生产流程[55]