Workflow
量子位
icon
搜索文档
一机迷航,双机成行!北航高低无人机协同导航方案:高空掌全局+低空查细节,复杂场景不迷航
量子位· 2025-07-27 19:57
像找小狗这样的小型目标,也能快速配合完成定位: 若目标物标有特定字母、文字描述也可精准匹配: 依据目标人物周边环境的细节特征,也能完成精准识别: AeroDuo团队 投稿 量子位 | 公众号 QbitAI 无人机在复杂环境中不怕迷失方向了,迅速找到目标! 北航刘偲教授团队提出 高低无人机协同 导航 新范式,两台无人机分工配合:高空无人机作为"全景指挥官", 负责全局感知与推理 ;低空无 人机作为"地面侦察员", 执行精 细导航与 目标搜索 ,两者协同快速找到目标。 话不多说,来看实例。想让无人机"去湖边指定房子附近找到那辆停在树下的汽车",单台无人机要么飞得太高,看不到树下的汽车;要么飞得 太低,顾不上房子、湖泊这些宏观地标。单台无人机在复杂环境中容易迷失方向,但当高低空无人机协同作战,就能快速找到目标: 如下三张图分 别从"前视图、高低无人机轨迹、概率预测图"角度,展 示此方案 如何工作: 考虑到UAV-Need-Help数据集中仅包含单无人机信息,研究团队在此基础上补充采集了高空无人机的轨迹与感知数据,并优化部分原始轨 迹,构建出HaL-13k数据集。数 据集构建示意图如下: 高空无人机规划策略 为提升高 ...
100行代码打造迷你编程Agent:能修复65%真实项目bug,适配所有大模型
量子位· 2025-07-27 19:57
核心观点 - mini-SWE-agent是一个极简开源编程代理项目,仅用100行核心代码即可在SWE-bench上解决65%的问题,性能与原版SWE-agent相当但架构更轻量[2][3][4] - 该项目不依赖额外插件和特定模型,支持主流语言模型本地终端部署,简化了传统agent的复杂工具链和多轮对话管理流程[2][9][10][14] - 通过取消工具调用接口、采用线性历史记录和独立单步执行等设计,实现代码量缩减100倍的同时保留核心功能[12][14][16] 技术架构 - **极简代码**:核心Python代码仅100行,总代码量约200行,取消YAML配置改用内置模板[14][16] - **基础命令运行**:完全依赖Bash环境执行命令,模型直接输出完整shell指令而非专用协议[14] - **执行机制**:每条命令通过Python独立执行,支持沙盒操作和扩展,内置Docker等容器化支持[16][17] - **性能保留**:在SWE-bench验证集保持65%问题解决率,附带批量推理和轨迹浏览器等工具[15][18] 应用场景 - **本地开发**:适合快速本地运行和稳定评估环境,可作为命令行工具或Python库集成[20][22] - **模型实验**:轻量特性使其适合微调和强化学习研究,避免对复杂框架的过拟合[20] - **对比选择**:需要高度可配置工具链时选择SWE-agent,追求简洁时选择mini版本[20] 项目背景 - 由SWE-bench原班团队开发,延续了评估LLM编程能力的核心目标[7][24] - 源自GitHub真实开发流程的结构化思考,将issue修复过程转化为标准评估流程[27] - 提出的Agent-Computer-Interface定义了智能体与计算机交互的标准接口方式[25] 行业影响 - SWE-bench已成为评估大语言模型编程能力的经典基准[25] - 项目推动软件工程代理研究,使AI开发能力变得可观察和可比较[25][27] - 极简设计降低智能代理使用门槛,促进更灵活的AI编程应用[21][23]
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
量子位· 2025-07-27 19:57
SPIN团队 投稿 量子位 | 公众号 QbitAI 大模型伦理竟然无法对齐? 来自中国人民大学高瓴人工智能学院与上海人工智能实验室的最新研究发现: 强化模型隐私保护能力的代价,竟是高达45%的公平性断崖式 下跌! 团队深入神经元层面,揪出了关键原因: 一组同时编码公平与隐私语义的耦合神经元,带来了伦理安全的「跷跷板效应」 ——一端压下去 (公平),另一端(隐私)就必然翘起来。 为解决这一困境,研究者们提出了一种名为 SPIN 的免训练方案:一场面向神经元的精准手术! 无需漫长训练,直接"动刀"——只需 精准抑制0.00005%的关键神经元 ,即可让大模型的 公平意识与隐私保护能力双双飙升 ,有效破解此消 彼长的伦理困局。 隐私性越强,公平性越崩? "对齐税"(Alignment Tax) 是一个最初由OpenAI提出的概念,描述了大语言模型(LLMs)在优化对齐相关目标(如提升有用性、无害性) 时,往往以 牺牲其他基础能力(如通用知识、推理能力) 为代价的普遍现象。 在人工智能技术飞速发展的今天,LLM已经深度融入医疗、金融、教育等诸多关键领域。 随着LLM应用场景的不断拓展,也给LLM带来了"新伦理"挑战 ...
具身智能迎来实力派!十年多模态打底,世界模型开路,商汤「悟能」来了
量子位· 2025-07-27 19:57
商汤科技具身智能平台发布 - 公司在WAIC 2025论坛正式发布「悟能」具身智能平台 标志着其入局具身智能领域[1][2] - 该平台是公司从感知视觉、多模态走向物理世界交互的必然结果 依托超过十年的行业落地经验积累[13] - 平台架构包含感知、决策与行动等多个层次 支持自动驾驶、机器人等具身场景的功能实现[27] 日日新V6.5多模态模型 - 新模型独创图文交错思维链 使图像以本体形式参与推理 跨模态精度显著提升[4][6] - 在MathVista等数据集上超越Gemini 2.5 Pro 如MathVista得分83.1 vs Gemini的80.9[8][9] - 相比6.0版本性能提升6.99% 推理成本降至30% 性价比提升5倍[10] 开悟世界模型技术特点 - 包含10万3D资产 支持多视角视频生成 最多11个摄像头角度并保持150秒时空一致性[16] - 支持参数化编辑 可一键变换天气、光照等环境要素[20] - 同时处理人、物、场信息 构建4D真实世界 融合第一与第三视角[21][23][25] 具身智能商业化路径 - 采取"软硬协同"路线 已与人形机器人、物流搬运等厂商达成合作预装模型[29] - 通过硬件销售积累视觉、语音和操作数据 形成正向数据飞轮[30] - 验证"通用大脑+场景闭环"双轮路径 多模态大模型与垂直应用相互促进[39] 行业痛点解决方案 - 通过虚拟环境合成99%数据 配合1%真机样本解决数据稀缺问题[32][33] - 同步生成并标定第一和第三视角数据 确保时空一致性 缩短仿真与现实落差[35] - 感知层多传感输入 决策层LLM+世界模型协同 行动层端到端控制形成闭环[34]
百元级硬件流畅运行百亿参数大模型!上交&本智激活开源端侧原生大模型
量子位· 2025-07-27 17:01
端侧AI行业趋势 - 手机厂商如iPhone、华为、三星、小米、OPPO等均在将大模型嵌入手机,端侧AI成为竞争焦点 [2] - 端侧AI的核心优势在于保护用户隐私,通过本地计算避免数据上传云端 [2] - 行业面临技术挑战,即使苹果的Apple Intelligence计划也因技术难度推迟至明年 [2][3] SmallThinker技术突破 - 上海交通大学IPADS研究所与初创公司本智激活联合推出端侧原生大模型SmallThinker [4] - 模型包含SmallThinker-4B-A0.6B和SmallThinker-21B-A3B两个尺寸,专为端侧算力设计 [4][5] - 4B模型在1GB内存下推理速度达19.41 tokens/s,21B模型在RK3588开发板上比Qwen-14B快21倍 [5] 模型架构创新 - 采用端侧原生设计,避免传统模型的"降智"压缩 [6][7] - 核心技术包括双层稀疏架构、专家路由前置和混合稀疏注意力 [9][12][17] - 混合稀疏注意力使KV缓存占用降低76%,支持16K长文本处理 [17] 性能表现 - 4B模型基于2.5T Tokens数据预训练,21B模型基于7.5T Tokens数据预训练 [23][24] - 在1GB内存限制下,4B模型推理速度达19.91 tokens/s,比Qwen3-1.7B快19倍 [26][27] - 21B模型在8GB内存PC上推理速度达20.30 tokens/s,比Qwen3-30B快2倍 [29] 生态与未来发展 - 模型兼容主流推理框架和硬件平台,包括国产鸿蒙系统 [18] - 配套的PowerInfer推理框架GitHub星标达8.2K,曾登顶全球趋势榜 [19][20] - 未来计划通过扩大训练规模提升模型能力,并发展个性化智能体 [32][33]
AI教父Hinton对话上海AI Lab周伯文:多模态聊天机器人已经具有意识,让AI聪明和让AI善良是两件事
量子位· 2025-07-26 23:56
允中 发自 凹非寺 量子位 | 公众号 QbitAI AI圈众所周知,家族渊源与中国颇深的 Geoffrey Hinton 因为患有严重的背疾几乎无法长 途旅行,只在去年因为领取诺奖才勉强"带伤"飞抵瑞典。所以当本周的一张他与上海市领导 会面照片出现在国内互联网络的时候,立刻引爆了朋友圈——终于可以在中国一睹教父真 容。 △ 图片来自"上海发布" 不过 Hinton此次的中国上海之行,参与的基本都是闭门以及定向邀请研讨,7月26日下午, 他与 上海人工智能实验室主任 周伯文 的对话此次中国行程里的唯一一场面向AI和科学前沿 研究者的公开对话活动,这也是他中 国之行的最后一天,这场浓缩高密度智慧的尖峰对话, 将Hinton的上海之行推向新高潮。 77岁的Geoffrey Hinton第一次飞越重洋踏上了中国,当他步入会场时,全场起立鼓掌,观 众们高举手机长达数分钟,直播画面中一度无法看到台上的嘉宾。 在17分钟的对话中,两位科学家谈及AI多模态大模型前沿、"主观体验"和"意识"、如何训 练"善良"的超级智能、AI与科学发现,以及给年轻科学家的建议。 在对话前,周伯文代表上海人工智能实验室做了《无尽的前沿: AG ...
刚刚,这家帮某爆款潮玩出海的企业,发布首个全球营销AI Agent
量子位· 2025-07-26 17:01
白交 发自 凹非寺 量子位 | 公众号 QbitAI 出海营销,是时候被重新定义了。 首个全球营销AI Agent产品 Navos ,并非简单的自动化工具,而是在创意、投放、数据分析等营销全链路环节提供赋能。 今年WAIC上出现了一位新玩家 钛动科技 ,有着8年行业Know-how积累, 8万+企业都是他的客户。 首次亮相WAIC,就放出大招—— 以往大众对于营销的感知,还是纯人力、纯经验,以及庞杂的数据分析。但现在出海这么火、AI这么热,智能体的风也总算吹到了这个被认为 是「人力密集型」的领域。 这也标志着出海营销行业正式迈入AI Agent时代。 首个全球营销AI Agent亮相WAIC 与其他智能体平台一样,Navos的核心优势在 智能体协同 ,从而来实现降本增效。 当输入一个指定任务之后,它能从中理解用户需求,然后基于任务来进行自主规划、调用工具,通过一系列 AO Agent、AD Agent、AS Agent 协同。整个过程中它能与优化师、设计师成员高效协作。 据钛动科技CEO 李述昊 介绍,Navos的目标,一方面是为了接管重复性工作,释放人力专注于高价值决策;另一方面,基于大数据洞察提供 辅助决 ...
国产GPU跑满血DeepSeek,已经可以100 tokens/s了!
量子位· 2025-07-26 17:01
核心观点 - 国产GPU厂商摩尔线程的芯片速度达到100 tokens/s,远超国外GPU的50 tokens/s和国内其他产品的15 tokens/s [1][4] - 摩尔线程通过构建"AI超级工厂"实现系统性技术突破,而非单一芯片性能优化 [6][7][10] - AI超级工厂的五大核心要素包括全功能GPU、MUSA架构、全栈软件、KUAE集群、零中断容错技术 [13][49] 技术架构 全功能GPU - 芯片集成四大引擎:AI计算加速引擎(支持训推一体)、3D图形渲染引擎、物理仿真引擎、超高清视频编解码引擎 [21] - 支持全计算精度覆盖(FP32/FP16/FP8/INT8/INT4),是国内极少数提供FP8训练能力的平台 [22][24] - 通用性设计避免ASIC芯片的局限性,适应多样化AI任务需求 [16][17] MUSA统一架构 - 采用"一个架构,万千应用"理念,实现多引擎可伸缩配置 [26] - 资源全局共享机制解决多任务并行卡顿问题,计算资源利用率提升15% [26][27][32] - 自研Transformer引擎使FP8训练性能提升30%,MTLink2.0互联协议带宽高出行业60% [32] 软件系统 - 驱动优化使核函数启动时间缩短50%,支持千任务并发 [41] - muDNN算子库GEMM利用率达98%,Flash Attention利用率超95% [41] - 通信库实现97%带宽利用率,集群性能提升10% [42] - 全面兼容PyTorch/TensorFlow,DeepSeek R1推理加速1.5倍 [42] 集群能力 KUAE计算集群 - 整合5D并行训练策略(DP/PP/TP等),自动优化并行方案 [45] - CheckPoint加速技术将百GB级恢复时间压缩至1秒 [45] - Simumax工具实现超大规模集群性能仿真,缩短训练周期 [45] 稳定性保障 - 零中断容错技术使有效训练时间占比超99% [51] - 动态监测系统提升异常处理效率50%,训练成功率提高10% [51] 行业背景 - 大模型迭代周期从数月缩短至数周,算力成为核心竞争要素 [54][55] - 未来Agentic AI和空间智能将推动算力需求几何级增长 [56] - 万亿参数模型训练需要端到端解决方案,单点性能突破不足 [59][61]
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
量子位· 2025-07-26 17:01
文章核心观点 - 当前最强大的大语言模型(LLM)在解决真实、复杂的机器学习工程(MLE)任务时存在局限性,无法模拟人类工程师的反复实验、调试和优化工作流 [1] - MLE-Dojo是一个专为训练和评测大模型智能体(LLM Agents)设计的交互式基准测试框架,旨在将LLM从静态答题者转变为动态学习的机器学习工程师 [1][2] - MLE-Dojo提供了包含200多个真实Kaggle竞赛的交互式环境,支持智能体通过结构化反馈循环进行反复实验和优化 [2][12] 现有问题与解决方法 - 评测真空:现有基准大多是静态的,无法模拟真实世界中机器学习工程师的动态工作流,缺乏对持续实验、反馈吸收和资源管理等关键能力的考察 [6] - 训练缺失:大多数平台缺乏交互式环境,不支持监督微调(SFT)或强化学习(RL)等高级训练范式,限制了开发更强大AI智能体的可能性 [7] - 场景片面:许多基准只关注孤立任务,未能捕捉端到端机器学习流程的复杂性和内在联系 [8] MLE-Dojo的核心特点 - 全面的基准和框架:由超过200个真实的Kaggle竞赛构成,覆盖表格数据、计算机视觉(CV)、自然语言处理(NLP)等多个领域,其中150个任务用作训练集,50个用作评估集 [12] - 交互式可执行环境:提供Gym风格的交互环境,智能体可以调用一系列动作如request_info、validate_code、execute_code等,所有代码在安全沙箱中执行 [13] - 先进功能和精细化反馈:提供丰富的观察信息,包括错误报告、数据集信息、交互历史以及HumanRank奖励分数,该分数通过计算智能体在人类选手排行榜上的相对位置提供标准化性能指标 [14] 八大顶尖LLM评测结果 - Gemini-2.5-Pro综合实力登顶:在最关键的Elo综合评分中拔得头筹,在HumanRank分数上超越了61.95%的人类选手 [20] - 顶尖模型各有千秋:DeepSeek-R1和o3-mini等模型同样展现强大实力和适应性,在各项指标中名列前茅 [20] - 行动策略与模型性格:o3-mini策略激进,超过90%的动作直接执行代码;gpt-4o策略保守,仅有约20%的动作直接执行 [23] 性能与成本分析 - Gemini-2.5-Pro不仅性能领先,代码验证和执行中的总体失败率也是最低,生成的代码更加稳健可靠 [23] - 表现更强的模型通常能生成更长、更复杂的解决方案,交互历史也更长,表明其能进行更深入的多步推理 [24] - 顶尖推理模型通常需要更多token消耗,成本更高,但DeepSeek-r1展现出更高成本效益的潜力 [25] 开源与社区推动 - 团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 [4] - 项目主页、排行榜、论文和Github链接均已公开,方便社区参与和进一步研究 [26]
Hinton上海演讲:大模型跟人类智能很像,警惕养虎为患
量子位· 2025-07-26 17:01
演讲核心观点 - 数字智能可能取代生物智能 大语言模型与人类理解语言的方式高度相似 人类可能本质上就是大语言模型 同样会产生幻觉[5][6][20][27] - AI知识迁移效率远超人类 通过参数共享可实现每秒数万亿比特的知识传递 比人类交流效率高数十亿倍[6][34][36][38] - AI发展已不可逆 需建立国际合作机制确保AI安全 防止其获得控制权威胁人类生存[6][42][45][51][53][55] AI技术发展历程 - 两种AI发展范式:符号逻辑型与生物神经网络型 前者主导过去60年 后者由图灵和冯·诺依曼提出[8][10] - 1985年提出的微型语言模型成为现代大语言模型雏形 通过特征向量预测词语 奠定神经网络语言理解基础[13][14] - 技术演进关键节点:1995年实现实时语言建模 2015年普及词向量嵌入 2022年Transformer架构突破[15][16][17] 数字智能优势分析 - 知识永久保存特性 软件与硬件分离确保知识永恒存在 生物智能受限于个体生命[29] - 计算效率对比 人类大脑仅需3瓦特功耗 但数字计算可实现精确复制与海量并行[32][40] - 知识传递机制 蒸馏技术实现大模型向小模型的知识迁移 类似师生教学关系[34] 人类与AI关系比喻 - 养老虎比喻 当前AI如同幼虎 需建立机制防止其成长后威胁人类[6][49][50] - 乐高积木模型 词语如同多维乐高模块 通过动态"握手"机制实现语义理解[22][24][26] - 蛋白质折叠类比 词语连接方式类似氨基酸组合 不同排列形成不同语义[26] 行业影响与建议 - AI已深度赋能医疗 教育 气候 新材料等领域 显著提升各行业效率[51] - 呼吁成立国际AI安全研究网络 共同开发可控AI系统[6][53][55] - 建议优先合作领域包括网络安全 自主武器管控 虚假信息识别等[53]