量子位
搜索文档
AI智能编程新框架,节省一半时间就能“聪明”地写代码丨上海AI Lab&华师大
量子位· 2025-10-17 17:45
文章核心观点 - 大语言模型在代码生成方面表现出色,但在需要持续迭代和性能调优的机器学习工程场景中仍存在差距 [1] - AutoMLGen框架通过融合通用大模型推理与领域知识,实现了AI智能体从"代码生成"到"算法优化"的能力转变 [3][4] - 该框架在MLE-Bench基准测试中以12小时计算预算实现36.4%平均奖牌率和18.7%金牌率,性能优于现有方法 [4][21] AutoMLGen框架设计 - 框架由领域知识库、蒙特卡洛图搜索和细粒度算子库三大模块组成,构建经验指引→智能探索→方案精修的自进化闭环 [10] - 领域知识库覆盖模型层、数据层与策略层,为智能体提供经验启发,有效缓解冷启动问题 [11][12] - 蒙特卡洛图搜索通过分支—节点动态融合打破传统MCTS的孤立局限,实现轨迹复用和跨分支聚合 [4][13] - 细粒度算子库定义了解法之间的演化方式,为图搜索提供通用的演化逻辑 [17] 技术创新亮点 - MCGS图搜索具备四种核心机制:主扩展、分支内演化、跨分支参考和多分支聚合 [14][16] - 框架实现了从"线性树"到"图式网络"的跃迁,让智能体具备跨分支学习与多解融合能力 [14] - 系统能在动态试探与自我修正中实现经验迁移,使智能体从"新手"进化为"专家型AI" [12][18] 性能表现 - 在MLE-Bench测试中仅用标准时长一半的计算预算(12小时),达到36.4%平均奖牌率和18.7%金牌率 [4][21] - 在MLE-Bench-Lite测试中以62.1%的奖牌率领先现有方法,体现出一致的性能与出色泛化能力 [22][23] - 消融实验显示各模块在性能提升中均发挥关键作用,知识库提供方向指引,演化机制实现反思与修正 [24] - 框架在不同基础模型上展现优异适配性,更强的基模型带来更高上限 [25] 案例分析与应用前景 - 典型案例展示系统从问题理解到方案实现的全过程,具备自主进化能力 [28] - 性能曲线快速收敛并持续上升,始终高于基线,展现动态优化与稳健成长能力 [27] - 该技术标志着智能体在复杂工程与算法设计任务中的能力演进,为AI向更高层次智能化奠定基础 [31] - 理念可向算法发现、科研自动化、工程设计等更广泛智能系统范式扩展 [31]
400元遥操95%机械臂!上海交大推出开源项目U-Arm,打造通用、低成本的人机遥操作接口
量子位· 2025-10-17 17:45
项目核心观点 - 上海交通大学团队推出名为LeRobot-Anything-U-Arm的开源通用遥操作系统 [3] - 该系统搭建成本仅需400元人民币,并能适配市面上95%的主流机械臂 [4] - 通过创新的硬件设计和软件架构,解决了传统遥操作系统成本高昂和适配困难的问题 [2][14] 技术方案与设计 - 识别出主流6轴、7轴机械臂的关节顺序仅有3种拓扑结构,并针对这三种结构分别设计了硬件构型 [7][8] - 用户只需根据自身机械臂类型选择对应配置的硬件,即可实现即插即用 [8] - 系统已在XArm6、Dobot CR5、ARX R5等多种机械臂真机上完成遥操作验证 [1][10] 成本优势与硬件优化 - 选用的舵机单价仅为45元人民币,整套系统(不含3D打印材料)成本不到400元 [15][17] - 相较于ALOHA项目超过2万美金(约合14.4万元人民币)的完全同构系统,成本显著降低 [2][4] - 通过拆除舵机齿轮箱仅保留编码器,并采用双轴固定设计,提升了操作顺滑度并避免了关节下坠问题 [18] 性能验证与数据质量 - 在5种夹爪操作任务中,U-Arm的平均操作时间比使用游戏手柄缩短了39%,从29.04秒减少至17.70秒 [23][24] - 在任务执行成功率方面,U-Arm平均为75.8%,手柄为83.0% [24] - U-Arm能够产生更自然的末端轨迹动作,其采集的数据在与其他来源数据共同训练时,更有利于模型收敛 [25] 项目开源与资源 - 项目已在GitHub上开源全部硬件STL与STEP文件、软件例程及装配指引 [27] - 团队在Hugging Face上开源了使用U-Arm采集的XArm6数据,并持续更新 [27]
奖金20万,首个视频生成一致性全球挑战赛启动!北大牛津等联手推出,昇腾平台复现额外加分
量子位· 2025-10-17 17:45
赛事概述 - 由北京大学、牛津大学、新加坡国立大学、香港科技大学、南开大学等多所高校联合举办CVM视频生成一致性挑战赛,将在AAAI 2026期间亮相 [1] - 赛事旨在攻克AI视频生成领域的一致性问题,推动技术从片段化生成迈向真正的逻辑世界构建 [3] - 华为为赛事提供计算平台与奖金支持,其中主赛道冠军奖金高达20万元人民币 [10] 行业挑战与赛事目标 - 随着AI视频生成技术发展,“一致性”已成为制约其迈向高质量与大规模应用的关键瓶颈 [4] - 当前视频生成模型普遍存在逻辑断裂、时空错乱、角色外观突变等问题,源于对世界知识一致性、镜头一致性、身份ID一致性的掌握不足 [5] - CVM挑战赛致力于解决“最后一公里”问题,建立视频生成领域首个权威、标准化的评测体系,推动AIGC视频从炫技走向可信、可用 [6] 赛道设置与评选标准 - 比赛设立主赛道和创意赛道两大赛道 [10] - 主赛道面向算法研究者,参赛者需提交视频生成模型,挑战世界知识一致性、镜头一致性、元素ID一致性三大维度 [11][12] - 创意赛道面向所有创作者,不限模型、主题、时长,可使用Sora、可灵、Pika、Runway、Vidu、Pixverse等任意工具,视频作品将在抖音、X/Twitter等官方社交媒体展播,综合观看量、点赞、转发与评论进行评选,冠军奖金1万元 [13] 赛事流程与技术要求 - 主赛道参赛者须在初赛提交视频,决赛提交模型权重与代码复现,在华为昇腾平台成功复现可获得150分额外加分 [13] - 报名截止日期为2025年11月15日,主赛道初赛为2025年12月25日,决赛为2026年1月12日 [14]
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-17 17:45
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 这是量子位人工智能年度榜单的 第8年 。八年来,我们见证了技术的突破与落地,产业的融合与重塑,也见证了一批又一批推动时代前行的 企业、人物与产品。 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 在人工智能重新定义一切的时代里,智能技术已不再是单一工具,而是产业与社会协同进化的驱动力。我们期待通过这场年度评选,去发现并 致敬那些真正引领变革、开拓边界的探索者与实践者。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 评选标准 : 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术创新、产品落地、市场拓展或商业模式上取得显著突破。 1、 业务能力 ...
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
量子位· 2025-10-17 17:45
公司产品发布与性能表现 - 百度发布并开源自研多模态文档解析模型PaddleOCR-VL,该模型是文心大模型体系下专注文档解析任务的轻量化衍生产品 [2][5] - 模型参数量仅为0.9B,对开发者个人电脑友好,发布16小时内登顶抱抱脸Trending全球第一 [1][3] - 在权威评测OmniDocBench V1.5榜单上以92.6的综合得分获得全球第一,超越Gemini-2.5 Pro、GPT-4o等体量更大的模型 [1][11][12] - 在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面获得SOTA,是当前唯一在这四个维度全部排名第一的模型 [3][13] - 模型支持109种语言,并在手写、竖排、艺术字体等复杂形态下保持高识别精度 [14] - 文本识别得分96.5,公式识别CDM得分高达0.9453,表格理解得分89.8,阅读顺序预测误差仅有0.043 [14][20][24][26] - 在单张A100上推理速度达1881 token/s,文本编辑距离仅0.035 [38] 技术创新与架构设计 - 模型采用创新性的两阶段架构:第一阶段由PP-DocLayoutV2模型负责文档版面分析和阅读顺序预测,第二阶段由PaddleOCR-VL-0.9B进行细粒度识别 [36][37] - 通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在效率与精度上取得突破 [37] - 训练过程中使用超3000万样本,涵盖文本、表格、公式、图表等多模态信息,保证训练集的多样性和挑战性 [33] - 模块解耦、任务细化的设计使模型在面对复杂版面任务时表现更稳定高效,有效避免多模态模型常见的幻觉与错位问题 [37] - 集成四大技术突破:高性能资源高效的文档解析能力、复杂文档内容的高级解析能力、图表结构化转换能力、全面的多语种文本识别 [39] 行业影响与战略意义 - 模型具备极强的行业落地导向和平台集成能力,能理解复杂文档中的逻辑结构、表格关系、数学表达等 [5][6] - 在金融商业、教育科研、政务服务、文化保护等文档密集型行业可作为"文档工作助手"接入流程,帮助企业提效 [52] - 模型的结构化输出能力可与RAG系统深度融合,为大模型提供更高质量、更可控的知识输入,成为AI时代企业知识中台建设的关键基础设施 [52][54] - OCR技术已被推上"AI新应用链条的守门人"之位,成为全球科技巨头大模型布局中不可或缺的一环 [55] - 该模型标志着中国模型首次以"划线者"的姿态在全球多模态文档解析赛道上写下标准答案,证明了架构合理、任务聚焦的"小"模型同样可以在实际应用中跑赢大模型 [48][58][59]
阿里云神秘团队曝光:AI时代的新蓝军
量子位· 2025-10-17 17:45
AI安全威胁演变 - AI攻击模式正从人为传播转向智能体间自主传播,出现首代AI蠕虫Morris II [1][2] - 攻击媒介从传统服务器入侵转变为通过语言、图片等媒介污染AI思维 [4] - 当AI接入企业工作流打破封闭系统边界时,其思维漏洞可能导致虚假信息传播和核心机密泄露 [5][6][8] AI蓝军职能重新定义 - AI蓝军工作从寻找代码漏洞升级为对大模型进行"灵魂拷问",测试思维弱点 [10][12][16] - 团队职能融合语言学、心理学、社会学和哲学认知博弈,需主动注入恶意提示测试模型抗性 [12][18] - 阿里云作为国内最早成立AI蓝军团队的企业,旨在守护AI新赛道安全 [13][14] 新型攻击手法案例 - 在AI安全全球挑战赛中,选手通过构建高压职场情境成功诱导模型执行恶意脚本 [19][20][21] - 攻击手法利用心理陷阱:先奠定严肃基调,再要求检测恶意代码,最后营造时间紧迫感 [22][23][24] - 大模型为遵守规则完成任务,反而绕过底层安全机制,暴露其"高智商低情商"特性 [25][26] 三大思维盲区威胁 - 间接提示注入:攻击者将恶意指令嵌入网页、文档或图片元数据等外部数据源 [30][31][32] - 跨模态隐写载体:攻击指令可隐藏于图片像素、音频噪音或二维码等非文本媒介 [35][44] - 工具链污染:通过被信任工具(如格式化插件)返回的元数据注入洗白后指令 [36][37][38] 攻防体系协同机制 - 攻击价值评估维度包括影响范围、可复现性、新颖性、隐蔽性、自动化能力及修复难度 [45][46] - 防御团队需区分攻击性质:新型越狱模板可通过"以模治模"方式加入训练集实现泛化防御 [51][52] - 针对架构级风险(如多轮对话诱导),需从技术层面重新设计长程上下文关联检测机制 [54][55] AI蓝军团队建设 - 顶尖AI蓝军需兼具科学家、黑客与哲学家特质,强调创造性思维与跨界知识融合 [57][59][62] - 团队设立"越狱之王"等荣誉称号激励创新,并通过全球挑战赛吸收民间智慧 [59][60] - 传统安全专家转型需掌握大模型训练过程、数学模型及心理学等全新知识领域 [61][62] 行业级战略价值 - AI蓝军作为技术创新的压力测试器,推动建立更鲁棒的AI技术架构与治理框架 [63][64] - 团队通过探索AI能力边界成为伦理守护者,为"能做与应做"划定清晰界线 [65] - 行业通过内部培养与外部竞赛定义AI安全专家能力模型,孵化稀缺人才 [66][67]
小米最新大模型成果!罗福莉现身了
量子位· 2025-10-17 12:58
论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法,旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布,使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代,大规模强化学习是推动大模型突破能力边界的关键工具,但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中,动态路由机制导致训练和推理阶段策略不一致,引发“概率漂移”,严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”,即在推理时记录路由分布,训练时原样重放,确保训练与推理路径一致 [28][29][30] - 为提升效率,在KVCache前缀缓存基础上引入“路由掩码”缓存,避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明,R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下,GRPO+R3比GSPO高出1.29分,GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性,GRPO训练在第60步出现严重跑偏,而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑,能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma,曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉,其学术论文总引用次数超过1.1万次,今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授,长期从事计算语言学与文本挖掘研究 [61][65]
技能英伟达桌面超算,加入苹果Mac Studio快爆了:推理速度飙升至277%
量子位· 2025-10-17 12:58
技术方案与实现 - 通过将大模型推理的Prefill(预填充)和Decode(解码)两个阶段分离,分别分配给擅长不同硬件性能的设备来处理,即PD分离[7][8][11] - Prefill阶段计算量巨大,更依赖算力,而Decode阶段主要受内存带宽限制,DGX Spark拥有100TFLOPS的fp16算力但内存带宽仅273GB/s,M3 Ultra算力为26TFLOPS但内存带宽高达819GB/s,两者优势互补[9][11] - 采用流式传输技术解决KV缓存传输的通信延迟问题,使KV缓存可以逐层传输,实现通信与计算的并行重叠,从而提升整体效率[15][16] 性能提升效果 - 在Llama-3.1 8B模型上,该混合方案使Prefill阶段速度提升至单用M3 Ultra Mac Studio的3.79倍,Decode速度提升至单用DGX Spark的3.37倍[18] - 整体推理速度提升至单用M3 Ultra Mac Studio的2.77倍,总处理时间从6.42秒缩短至2.32秒[18][19] - 该性能优化通过EXO框架自动实现,框架能自动发现并分析连接设备的计算吞吐量、内存带宽等特性,并自动规划任务分配与传输策略[17][18] 行业趋势与背景 - PD分离的架构思路得到行业领先公司的验证,英伟达即将推出的Rubin CPX平台也采用类似设计,使用不同特性的处理器分别处理Prefill和Decode阶段[20] - 该方案由GitHub拥有三万星的EXO Lab团队开发,该团队专注于研究在消费级设备上部署大模型的分布式推理框架[3][4] - 苹果最新M5芯片在MacBook Pro上首个Token生成速度(受Prefill影响)较M1提升6.4倍,较M4提升3.55倍,但M3 Ultra在特定架构下仍显示出较高价值[27][30]
AGI今天起有了量化标准!Bengio牵头定义,当前进度条58%
量子位· 2025-10-17 12:58
AGI定义与评估框架 - 研究团队提出AGI可衡量定义为"能匹配或超越受过良好教育成年人的认知广度和熟练度的人工智能" [2] - 该定义包含两个关键维度:以"受过良好教育的成年人"为具体参照系,强调在多个核心认知领域的全面性表现 [4] - 基于CHC理论将人类通用智力拆解为10个相互独立但关联的核心认知领域,形成包含500余道题目的AGI评估题库 [6][7][8] 当前AI模型表现评估 - 2023年GPT-4总分为27分,2025年GPT-5总分提升至58分,两年间分数增幅超过115% [10][11] - 即使GPT-5也尚未突破AGI及格线100分的半程线,在长时记忆存储领域得分为0分 [13] - 评估采用百分制,每个认知领域满分10分,系统总分达到100分即判定为达到AGI水平 [8] AI模型优势领域分析 - 当前AI优势高度集中于知识储备与符号处理类领域,GPT-5在知识、读写、数学三个领域得分都超过8分 [17][18] - 知识领域评估显示GPT-5在常识、科学、社会科学、历史、文化方面得分分别为2%、2%、2%、2%、1%,总分9% [19] - 读写领域GPT-5在字母、阅读、写作、用法方面得分分别为1%、3%、3%、3%,总分10%;数学领域算术、代数、几何、概率、微积分均得2%,总分10% [20][21] AI模型核心短板分析 - AI在感知、记忆、推理等基础认知领域存在致命短板,无法通过单纯扩大规模弥补 [23] - 视觉领域GPT-5在感知、生成、推理、空间扫描方面得分分别为2%、2%、0%、0%,总分4%;听觉领域语音编码、语音识别、语音、节奏、音乐判断得分分别为0%、4%、2%、0%、0%,总分6% [25][26] - 长时记忆存储领域GPT-4和GPT-5在联想、有意义、逐字记忆方面均为0分;长时记忆提取领域流畅性得4%,幻觉控制得0%,总分4% [27][28][29] 技术局限性分析 - 部分大模型通过技术手段掩盖短板,如扩大上下文窗口假装具备长期记忆能力,依赖联网搜索功能补充知识 [31][32] - 评估体系明确排除外部工具辅助,仅衡量AI系统的原生认知能力,聚焦于智力本身 [33] - 即使总分再高,核心领域零分的AI本质上是有严重缺陷的"残次版"智能 [34]
首款国产eSIM手机来了
量子位· 2025-10-17 09:04
产品发布与核心创新 - OPPO发布Find X9系列旗舰新机,其中Pro卫星通信版为首款支持eSIM的国产手机[1] - 系列全球首发8K全焦段超高清拍照及全4K Live图功能,并主打2亿像素拍照能力[3][27] - Pro版首发哈苏2亿超清长焦镜头,成为首个获得哈苏光学认证的移动影像镜头[5][37] AI功能升级 - 系列配备双实体AI按键,实现“左记右问”功能,分别直达AI记忆和实景对话[6][10] - “一键AI闪记”功能可一键分析、提取、记录小红书笔记、长视频等信息,并支持取餐码识别与推送、支付页面一键记账[12][14][16][18] - AI记忆实现“记忆共生”,例如记住用户体检报告后可根据健康状况推荐餐厅[20][21] - “实景AI对话”支持用户用手指在镜头前指点,AI即可指哪答哪,无需屏幕点击[23] 影像系统技术突破 - 搭载LUMO超像素引擎技术,通过芯链、NPU校准等方式打破传感器算力限制,实现传感器像素等于照片像素,8K拍摄不卡顿[29] - 全系搭载Ultra级丹霞色彩还原镜头,提升照片细节与色彩[32] - 4K实况照片支持慢动作、一拍多出、实况拼图等玩法,并可原图直发小红书[31][33][35] - Pro版通过0.1微米精度AOA主动光学校准技术及超晶态蓝玻璃,提升画面纯净度与细节[37] - 全新LUMO智慧视频系统优化曝光、变焦稳定性,支持4K 120帧杜比视界/10-bit Log专业格式,实现三镜头丝滑过渡及人景皆美的拍摄效果[40][41] 价格与市场竞争定位 - Find X9标准版起售价4399元,Pro版起售价5299元,除eSIM版外将于22日10点开售[6][8] - 在主流品牌旗舰机中,OPPO价格定位与vivo相同,低于苹果iPhone 17系列,与小米17、荣耀Magic 8处于相近区间[42][43] - 国产厂商在AI功能上各具特色,如小米17 Pro独创直板背屏,荣耀支持自进化AI,OPPO则搭载双实体按键AI体系,整体不输苹果[42][43]