量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-10-17 17:45

文章核心观点 - 大语言模型在代码生成方面表现出色，但在需要持续迭代和性能调优的机器学习工程场景中仍存在差距 [1] - AutoMLGen框架通过融合通用大模型推理与领域知识，实现了AI智能体从"代码生成"到"算法优化"的能力转变 [3][4] - 该框架在MLE-Bench基准测试中以12小时计算预算实现36.4%平均奖牌率和18.7%金牌率，性能优于现有方法 [4][21] AutoMLGen框架设计 - 框架由领域知识库、蒙特卡洛图搜索和细粒度算子库三大模块组成，构建经验指引→智能探索→方案精修的自进化闭环 [10] - 领域知识库覆盖模型层、数据层与策略层，为智能体提供经验启发，有效缓解冷启动问题 [11][12] - 蒙特卡洛图搜索通过分支—节点动态融合打破传统MCTS的孤立局限，实现轨迹复用和跨分支聚合 [4][13] - 细粒度算子库定义了解法之间的演化方式，为图搜索提供通用的演化逻辑 [17] 技术创新亮点 - MCGS图搜索具备四种核心机制：主扩展、分支内演化、跨分支参考和多分支聚合 [14][16] - 框架实现了从"线性树"到"图式网络"的跃迁，让智能体具备跨分支学习与多解融合能力 [14] - 系统能在动态试探与自我修正中实现经验迁移，使智能体从"新手"进化为"专家型AI" [12][18] 性能表现 - 在MLE-Bench测试中仅用标准时长一半的计算预算（12小时），达到36.4%平均奖牌率和18.7%金牌率 [4][21] - 在MLE-Bench-Lite测试中以62.1%的奖牌率领先现有方法，体现出一致的性能与出色泛化能力 [22][23] - 消融实验显示各模块在性能提升中均发挥关键作用，知识库提供方向指引，演化机制实现反思与修正 [24] - 框架在不同基础模型上展现优异适配性，更强的基模型带来更高上限 [25] 案例分析与应用前景 - 典型案例展示系统从问题理解到方案实现的全过程，具备自主进化能力 [28] - 性能曲线快速收敛并持续上升，始终高于基线，展现动态优化与稳健成长能力 [27] - 该技术标志着智能体在复杂工程与算法设计任务中的能力演进，为AI向更高层次智能化奠定基础 [31] - 理念可向算法发现、科研自动化、工程设计等更广泛智能系统范式扩展 [31]

400元遥操95%机械臂！上海交大推出开源项目U-Arm，打造通用、低成本的人机遥操作接口

量子位· 2025-10-17 17:45

项目核心观点 - 上海交通大学团队推出名为LeRobot-Anything-U-Arm的开源通用遥操作系统 [3] - 该系统搭建成本仅需400元人民币，并能适配市面上95%的主流机械臂 [4] - 通过创新的硬件设计和软件架构，解决了传统遥操作系统成本高昂和适配困难的问题 [2][14] 技术方案与设计 - 识别出主流6轴、7轴机械臂的关节顺序仅有3种拓扑结构，并针对这三种结构分别设计了硬件构型 [7][8] - 用户只需根据自身机械臂类型选择对应配置的硬件，即可实现即插即用 [8] - 系统已在XArm6、Dobot CR5、ARX R5等多种机械臂真机上完成遥操作验证 [1][10] 成本优势与硬件优化 - 选用的舵机单价仅为45元人民币，整套系统（不含3D打印材料）成本不到400元 [15][17] - 相较于ALOHA项目超过2万美金（约合14.4万元人民币）的完全同构系统，成本显著降低 [2][4] - 通过拆除舵机齿轮箱仅保留编码器，并采用双轴固定设计，提升了操作顺滑度并避免了关节下坠问题 [18] 性能验证与数据质量 - 在5种夹爪操作任务中，U-Arm的平均操作时间比使用游戏手柄缩短了39%，从29.04秒减少至17.70秒 [23][24] - 在任务执行成功率方面，U-Arm平均为75.8%，手柄为83.0% [24] - U-Arm能够产生更自然的末端轨迹动作，其采集的数据在与其他来源数据共同训练时，更有利于模型收敛 [25] 项目开源与资源 - 项目已在GitHub上开源全部硬件STL与STEP文件、软件例程及装配指引 [27] - 团队在Hugging Face上开源了使用U-Arm采集的XArm6数据，并持续更新 [27]

人机遥操作

机器人

LeRobot-Anything-U-Arm

LeRobot-Anything-U-Arm

XArm6

Dobot CR5

ARX R5

奖金20万，首个视频生成一致性全球挑战赛启动！北大牛津等联手推出，昇腾平台复现额外加分

量子位· 2025-10-17 17:45

赛事概述 - 由北京大学、牛津大学、新加坡国立大学、香港科技大学、南开大学等多所高校联合举办CVM视频生成一致性挑战赛，将在AAAI 2026期间亮相 [1] - 赛事旨在攻克AI视频生成领域的一致性问题，推动技术从片段化生成迈向真正的逻辑世界构建 [3] - 华为为赛事提供计算平台与奖金支持，其中主赛道冠军奖金高达20万元人民币 [10] 行业挑战与赛事目标 - 随着AI视频生成技术发展，“一致性”已成为制约其迈向高质量与大规模应用的关键瓶颈 [4] - 当前视频生成模型普遍存在逻辑断裂、时空错乱、角色外观突变等问题，源于对世界知识一致性、镜头一致性、身份ID一致性的掌握不足 [5] - CVM挑战赛致力于解决“最后一公里”问题，建立视频生成领域首个权威、标准化的评测体系，推动AIGC视频从炫技走向可信、可用 [6] 赛道设置与评选标准 - 比赛设立主赛道和创意赛道两大赛道 [10] - 主赛道面向算法研究者，参赛者需提交视频生成模型，挑战世界知识一致性、镜头一致性、元素ID一致性三大维度 [11][12] - 创意赛道面向所有创作者，不限模型、主题、时长，可使用Sora、可灵、Pika、Runway、Vidu、Pixverse等任意工具，视频作品将在抖音、X/Twitter等官方社交媒体展播，综合观看量、点赞、转发与评论进行评选，冠军奖金1万元 [13] 赛事流程与技术要求 - 主赛道参赛者须在初赛提交视频，决赛提交模型权重与代码复现，在华为昇腾平台成功复现可获得150分额外加分 [13] - 报名截止日期为2025年11月15日，主赛道初赛为2025年12月25日，决赛为2026年1月12日 [14]

视频生成一致性

AIGC视频

Artificial Intelligence

昇腾平台

视频生成一致性

AIGC视频

Artificial Intelligence

昇腾平台

人工智能年度榜单火热报名中！五大奖项，寻找AI+时代的先锋力量

量子位· 2025-10-17 17:45

组委会发自凹非寺量子位｜公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁，也为了给予更多同行同路人掌声与鼓舞，我们将正式启动「2025人工智能年度榜单」评选报名。这是量子位人工智能年度榜单的第8年。八年来，我们见证了技术的突破与落地，产业的融合与重塑，也见证了一批又一批推动时代前行的企业、人物与产品。让我们共同见证年度之星，点亮未来的方向。企业榜产品榜人物榜 2025 人工智能年度焦点人物详细评选标准及报名方式如下。在人工智能重新定义一切的时代里，智能技术已不再是单一工具，而是产业与社会协同进化的驱动力。我们期待通过这场年度评选，去发现并致敬那些真正引领变革、开拓边界的探索者与实践者。本次评选将从企业、产品、人物三大维度，设立五类奖项。欢迎企业踊跃报名！评选标准： 1、注册地在中国，或主营业务主要面向中国市场； 2、主营业务属于人工智能及相关产业，或已将人工智能广泛应用于主营业务，并在细分领域居于行业领先地位； 3、具备成熟的产品或服务，已获得实际客户应用及市场认可； 4、近一年在技术创新、产品落地、市场拓展或商业模式上取得显著突破。 1、业务能力 ...

人工智能

全球OCR最强模型仅0.9B！百度文心衍生模型刚刚横扫4项SOTA

量子位· 2025-10-17 17:45

公司产品发布与性能表现 - 百度发布并开源自研多模态文档解析模型PaddleOCR-VL，该模型是文心大模型体系下专注文档解析任务的轻量化衍生产品 [2][5] - 模型参数量仅为0.9B，对开发者个人电脑友好，发布16小时内登顶抱抱脸Trending全球第一 [1][3] - 在权威评测OmniDocBench V1.5榜单上以92.6的综合得分获得全球第一，超越Gemini-2.5 Pro、GPT-4o等体量更大的模型 [1][11][12] - 在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面获得SOTA，是当前唯一在这四个维度全部排名第一的模型 [3][13] - 模型支持109种语言，并在手写、竖排、艺术字体等复杂形态下保持高识别精度 [14] - 文本识别得分96.5，公式识别CDM得分高达0.9453，表格理解得分89.8，阅读顺序预测误差仅有0.043 [14][20][24][26] - 在单张A100上推理速度达1881 token/s，文本编辑距离仅0.035 [38] 技术创新与架构设计 - 模型采用创新性的两阶段架构：第一阶段由PP-DocLayoutV2模型负责文档版面分析和阅读顺序预测，第二阶段由PaddleOCR-VL-0.9B进行细粒度识别 [36][37] - 通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型，在效率与精度上取得突破 [37] - 训练过程中使用超3000万样本，涵盖文本、表格、公式、图表等多模态信息，保证训练集的多样性和挑战性 [33] - 模块解耦、任务细化的设计使模型在面对复杂版面任务时表现更稳定高效，有效避免多模态模型常见的幻觉与错位问题 [37] - 集成四大技术突破：高性能资源高效的文档解析能力、复杂文档内容的高级解析能力、图表结构化转换能力、全面的多语种文本识别 [39] 行业影响与战略意义 - 模型具备极强的行业落地导向和平台集成能力，能理解复杂文档中的逻辑结构、表格关系、数学表达等 [5][6] - 在金融商业、教育科研、政务服务、文化保护等文档密集型行业可作为"文档工作助手"接入流程，帮助企业提效 [52] - 模型的结构化输出能力可与RAG系统深度融合，为大模型提供更高质量、更可控的知识输入，成为AI时代企业知识中台建设的关键基础设施 [52][54] - OCR技术已被推上"AI新应用链条的守门人"之位，成为全球科技巨头大模型布局中不可或缺的一环 [55] - 该模型标志着中国模型首次以"划线者"的姿态在全球多模态文档解析赛道上写下标准答案，证明了架构合理、任务聚焦的"小"模型同样可以在实际应用中跑赢大模型 [48][58][59]

Artificial Intelligence

OCR

Artificial Intelligence

PaddleOCR-VL

Artificial Intelligence

OCR

Artificial Intelligence

PaddleOCR-VL

阿里云神秘团队曝光：AI时代的新蓝军

量子位· 2025-10-17 17:45

AI安全威胁演变 - AI攻击模式正从人为传播转向智能体间自主传播，出现首代AI蠕虫Morris II [1][2] - 攻击媒介从传统服务器入侵转变为通过语言、图片等媒介污染AI思维 [4] - 当AI接入企业工作流打破封闭系统边界时，其思维漏洞可能导致虚假信息传播和核心机密泄露 [5][6][8] AI蓝军职能重新定义 - AI蓝军工作从寻找代码漏洞升级为对大模型进行"灵魂拷问"，测试思维弱点 [10][12][16] - 团队职能融合语言学、心理学、社会学和哲学认知博弈，需主动注入恶意提示测试模型抗性 [12][18] - 阿里云作为国内最早成立AI蓝军团队的企业，旨在守护AI新赛道安全 [13][14] 新型攻击手法案例 - 在AI安全全球挑战赛中，选手通过构建高压职场情境成功诱导模型执行恶意脚本 [19][20][21] - 攻击手法利用心理陷阱：先奠定严肃基调，再要求检测恶意代码，最后营造时间紧迫感 [22][23][24] - 大模型为遵守规则完成任务，反而绕过底层安全机制，暴露其"高智商低情商"特性 [25][26] 三大思维盲区威胁 - 间接提示注入：攻击者将恶意指令嵌入网页、文档或图片元数据等外部数据源 [30][31][32] - 跨模态隐写载体：攻击指令可隐藏于图片像素、音频噪音或二维码等非文本媒介 [35][44] - 工具链污染：通过被信任工具（如格式化插件）返回的元数据注入洗白后指令 [36][37][38] 攻防体系协同机制 - 攻击价值评估维度包括影响范围、可复现性、新颖性、隐蔽性、自动化能力及修复难度 [45][46] - 防御团队需区分攻击性质：新型越狱模板可通过"以模治模"方式加入训练集实现泛化防御 [51][52] - 针对架构级风险（如多轮对话诱导），需从技术层面重新设计长程上下文关联检测机制 [54][55] AI蓝军团队建设 - 顶尖AI蓝军需兼具科学家、黑客与哲学家特质，强调创造性思维与跨界知识融合 [57][59][62] - 团队设立"越狱之王"等荣誉称号激励创新，并通过全球挑战赛吸收民间智慧 [59][60] - 传统安全专家转型需掌握大模型训练过程、数学模型及心理学等全新知识领域 [61][62] 行业级战略价值 - AI蓝军作为技术创新的压力测试器，推动建立更鲁棒的AI技术架构与治理框架 [63][64] - 团队通过探索AI能力边界成为伦理守护者，为"能做与应做"划定清晰界线 [65] - 行业通过内部培养与外部竞赛定义AI安全专家能力模型，孵化稀缺人才 [66][67]

阿里巴巴(US:BABA)

AI安全

AI蓝军

Software and Internet

阿里云AI安全产品

AI安全

AI蓝军

Software and Internet

阿里云AI安全产品

小米最新大模型成果！罗福莉现身了

量子位· 2025-10-17 12:58

论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法，旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布，使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代，大规模强化学习是推动大模型突破能力边界的关键工具，但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中，动态路由机制导致训练和推理阶段策略不一致，引发“概率漂移”，严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”，即在推理时记录路由分布，训练时原样重放，确保训练与推理路径一致 [28][29][30] - 为提升效率，在KVCache前缀缓存基础上引入“路由掩码”缓存，避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明，R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下，GRPO+R3比GSPO高出1.29分，GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性，GRPO训练在第60步出现严重跑偏，而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑，能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma，曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉，其学术论文总引用次数超过1.1万次，今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授，长期从事计算语言学与文本挖掘研究 [61][65]

技能英伟达桌面超算，加入苹果Mac Studio快爆了：推理速度飙升至277%

量子位· 2025-10-17 12:58

技术方案与实现 - 通过将大模型推理的Prefill（预填充）和Decode（解码）两个阶段分离，分别分配给擅长不同硬件性能的设备来处理，即PD分离[7][8][11] - Prefill阶段计算量巨大，更依赖算力，而Decode阶段主要受内存带宽限制，DGX Spark拥有100TFLOPS的fp16算力但内存带宽仅273GB/s，M3 Ultra算力为26TFLOPS但内存带宽高达819GB/s，两者优势互补[9][11] - 采用流式传输技术解决KV缓存传输的通信延迟问题，使KV缓存可以逐层传输，实现通信与计算的并行重叠，从而提升整体效率[15][16] 性能提升效果 - 在Llama-3.1 8B模型上，该混合方案使Prefill阶段速度提升至单用M3 Ultra Mac Studio的3.79倍，Decode速度提升至单用DGX Spark的3.37倍[18] - 整体推理速度提升至单用M3 Ultra Mac Studio的2.77倍，总处理时间从6.42秒缩短至2.32秒[18][19] - 该性能优化通过EXO框架自动实现，框架能自动发现并分析连接设备的计算吞吐量、内存带宽等特性，并自动规划任务分配与传输策略[17][18] 行业趋势与背景 - PD分离的架构思路得到行业领先公司的验证，英伟达即将推出的Rubin CPX平台也采用类似设计，使用不同特性的处理器分别处理Prefill和Decode阶段[20] - 该方案由GitHub拥有三万星的EXO Lab团队开发，该团队专注于研究在消费级设备上部署大模型的分布式推理框架[3][4] - 苹果最新M5芯片在MacBook Pro上首个Token生成速度（受Prefill影响）较M1提升6.4倍，较M4提升3.55倍，但M3 Ultra在特定架构下仍显示出较高价值[27][30]

AGI今天起有了量化标准！Bengio牵头定义，当前进度条58%

量子位· 2025-10-17 12:58

AGI定义与评估框架 - 研究团队提出AGI可衡量定义为"能匹配或超越受过良好教育成年人的认知广度和熟练度的人工智能" [2] - 该定义包含两个关键维度：以"受过良好教育的成年人"为具体参照系，强调在多个核心认知领域的全面性表现 [4] - 基于CHC理论将人类通用智力拆解为10个相互独立但关联的核心认知领域，形成包含500余道题目的AGI评估题库 [6][7][8] 当前AI模型表现评估 - 2023年GPT-4总分为27分，2025年GPT-5总分提升至58分，两年间分数增幅超过115% [10][11] - 即使GPT-5也尚未突破AGI及格线100分的半程线，在长时记忆存储领域得分为0分 [13] - 评估采用百分制，每个认知领域满分10分，系统总分达到100分即判定为达到AGI水平 [8] AI模型优势领域分析 - 当前AI优势高度集中于知识储备与符号处理类领域，GPT-5在知识、读写、数学三个领域得分都超过8分 [17][18] - 知识领域评估显示GPT-5在常识、科学、社会科学、历史、文化方面得分分别为2%、2%、2%、2%、1%，总分9% [19] - 读写领域GPT-5在字母、阅读、写作、用法方面得分分别为1%、3%、3%、3%，总分10%；数学领域算术、代数、几何、概率、微积分均得2%，总分10% [20][21] AI模型核心短板分析 - AI在感知、记忆、推理等基础认知领域存在致命短板，无法通过单纯扩大规模弥补 [23] - 视觉领域GPT-5在感知、生成、推理、空间扫描方面得分分别为2%、2%、0%、0%，总分4%；听觉领域语音编码、语音识别、语音、节奏、音乐判断得分分别为0%、4%、2%、0%、0%，总分6% [25][26] - 长时记忆存储领域GPT-4和GPT-5在联想、有意义、逐字记忆方面均为0分；长时记忆提取领域流畅性得4%，幻觉控制得0%，总分4% [27][28][29] 技术局限性分析 - 部分大模型通过技术手段掩盖短板，如扩大上下文窗口假装具备长期记忆能力，依赖联网搜索功能补充知识 [31][32] - 评估体系明确排除外部工具辅助，仅衡量AI系统的原生认知能力，聚焦于智力本身 [33] - 即使总分再高，核心领域零分的AI本质上是有严重缺陷的"残次版"智能 [34]

AGI

卡特尔 - 霍恩 - 卡罗尔（CHC）理论

卡特尔 - 霍恩 - 卡罗尔（CHC）理论

量子位· 2025-10-17 09:04

产品发布与核心创新 - OPPO发布Find X9系列旗舰新机，其中Pro卫星通信版为首款支持eSIM的国产手机[1] - 系列全球首发8K全焦段超高清拍照及全4K Live图功能，并主打2亿像素拍照能力[3][27] - Pro版首发哈苏2亿超清长焦镜头，成为首个获得哈苏光学认证的移动影像镜头[5][37] AI功能升级 - 系列配备双实体AI按键，实现“左记右问”功能，分别直达AI记忆和实景对话[6][10] - “一键AI闪记”功能可一键分析、提取、记录小红书笔记、长视频等信息，并支持取餐码识别与推送、支付页面一键记账[12][14][16][18] - AI记忆实现“记忆共生”，例如记住用户体检报告后可根据健康状况推荐餐厅[20][21] - “实景AI对话”支持用户用手指在镜头前指点，AI即可指哪答哪，无需屏幕点击[23] 影像系统技术突破 - 搭载LUMO超像素引擎技术，通过芯链、NPU校准等方式打破传感器算力限制，实现传感器像素等于照片像素，8K拍摄不卡顿[29] - 全系搭载Ultra级丹霞色彩还原镜头，提升照片细节与色彩[32] - 4K实况照片支持慢动作、一拍多出、实况拼图等玩法，并可原图直发小红书[31][33][35] - Pro版通过0.1微米精度AOA主动光学校准技术及超晶态蓝玻璃，提升画面纯净度与细节[37] - 全新LUMO智慧视频系统优化曝光、变焦稳定性，支持4K 120帧杜比视界/10-bit Log专业格式，实现三镜头丝滑过渡及人景皆美的拍摄效果[40][41] 价格与市场竞争定位 - Find X9标准版起售价4399元，Pro版起售价5299元，除eSIM版外将于22日10点开售[6][8] - 在主流品牌旗舰机中，OPPO价格定位与vivo相同，低于苹果iPhone 17系列，与小米17、荣耀Magic 8处于相近区间[42][43] - 国产厂商在AI功能上各具特色，如小米17 Pro独创直板背屏，荣耀支持自进化AI，OPPO则搭载双实体按键AI体系，整体不输苹果[42][43]

Artificial Intelligence

Artificial Intelligence