Workflow
量子位
icon
搜索文档
大模型公司不搞浏览器搞Agent,实测找到原因了
量子位· 2025-10-31 14:27
产品核心功能 - 产品形态为桌面悬浮球Agent,可直接与本地操作系统交互[3][44] - 具备联网搜索、浏览器操作、Excel表格处理和终端控制能力[6] - 支持通过自然语言驱动计算机系统,实现"为所欲为"的本地操作[2][45] 技术操作能力 - 自动完成编程环境搭建,如下载conda、创建虚拟环境、安装指定包(Python 3.11.13、torch 2.8.0、torchvision 0.23.0等)[9][11][14][19] - 执行过程中自动纠错并修改方法,最终在本地打开Jupyter[15] - 自动升级代码项目,如用Pygame替换tkinter界面、增加分数排行榜功能、修复内存泄漏并生成exe文件[21][24][25] 任务管理特性 - 支持"妙计"功能实现操作步骤复用,如通过"/图片按时间分类"指令快速执行复杂操作[30] - 具备定时任务能力,可设置到点自动执行任务[8][32] - 支持并行处理任务,后台运行不干扰当前工作,任务结束时浮出提醒[8][34] 行业发展趋势 - Agent正打破人机交互边界,过去手动衔接的操作环节被语言指令串联[47] - 多家公司布局桌面Agent领域,如智谱推出主打推理和PPT生成的Agent,MiniMax推出能输出分析报告和代码的"超级员工"[41][42] - 技术趋势从浏览器Agent转向本地操作系统交互,未来人机互动可能像对话一样轻松[40][47] 产品当前局限 - 任务执行速度较慢,环境搭建需以分钟为单位计时[36][37] - 调试代码时对多个错误修改不完全,需多次检查[38] - 目前仅支持Mac系统,Windows版本尚未发布[39]
微软独家:OpenAI最新季度净亏损115亿美元
量子位· 2025-10-31 14:27
微软财务表现与OpenAI投资影响 - 微软2025年第三季度净利润达277亿美元,同比增长12% [6] - 投资OpenAI导致微软净利润减少31亿美元,稀释后每股收益减少0.41美元 [8] - 微软对OpenAI的投资采用权益法核算,其损益按持股比例直接影响微软的"其他收入(支出)净额"项目 [11][15][16] OpenAI财务状况分析 - 根据微软持股比例27%倒推,OpenAI上季度净亏损高达115亿美元 [21][22] - OpenAI年度经常性收入达到120亿美元,相当于每月收入约10亿美元 [26][27] - OpenAI已承诺未来追加购买价值2500亿美元的微软Azure云服务 [48] AI行业竞争格局与商业模式 - 基础模型领域存在"囚徒困境",厂商需持续投入研发以维持技术领先地位 [32][33][35] - 开源模型的竞争对封闭厂商的成本结构构成巨大压力 [36] - AI行业竞争焦点已从"制造最佳模型"转变为"在烧钱竞争中存活更久" [49] 产业链价值分配 - 英伟达市值突破5万亿美元,成为AI竞赛中的关键受益者 [50][51] - 微软通过Azure云服务回收OpenAI的部分算力开支,形成战略协同 [47] - 基础设施层面的补贴已成为大规模AI研发的必需条件 [49]
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]
国产GPU第一股IPO获批,募资80亿
量子位· 2025-10-31 12:09
IPO进程与募资计划 - 摩尔线程IPO注册申请已获证监会批准,成为科创板国产GPU第一股[1] - 从递交招股书到通过注册仅用时4个月,进程非常迅速[3][17] - 此次IPO计划募集资金总额80亿元[4] - 募集资金主要投向研发项目:新一代AI训推一体芯片研发项目25.095798亿元、新一代图形芯片研发项目25.023323亿元、新一代AISoC芯片研发项目19.818033亿元,另10.062845亿元用于补充流动资金[5][6][9] 财务表现与业务转型 - 2025年上半年营业收入达7.017619亿元,已超过2024年全年收入4.384595亿元[9] - 2025年上半年净亏损2.709423亿元,较去年同期大幅收窄[10] - 公司管理层预计最早可于2027年实现合并报表盈利[10] - 收入结构发生根本性转变:从2022年桌面级图形加速产品占比71.44%转变为2025年上半年AI智算产品占比94.85%,收入达6.65亿元[11][12][13] 公司背景与技术架构 - 公司成立于2020年6月,注册资本3.3亿元,实控人张建中控制公司36.36%股份[18] - 张建中曾任英伟达全球副总裁、中国区总经理[19] - 公司采用Fabless经营模式,主营GPU及相关产品研发、设计和销售[21] - 核心技术为自主研发的MUSA统一系统架构,具备全功能GPU计算加速能力,已推出四代GPU芯片[22][24] 行业竞争格局 - 2024年11月完成Pre-IPO轮融资,38家投资机构合计投资约52.25亿元,启动上市时估值达255亿元[13][20] - 多家国产GPU公司正在进行IPO:沐曦科创板申请于2025年6月30日获受理,10月24日过会;燧原科技2024年8月启动IPO辅导,估值160亿元;壁仞科技2024年9月启动IPO辅导,估值约160亿元;瀚博半导体2025年7月启动A股IPO辅导[26][27][28][30] - 2025年成为国产GPU厂商密集上市的一年[31]
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 12:09
文章核心观点 - VLA(视觉-语言-动作)领域在ICLR 2026会议上呈现爆发式增长,相关投稿量从去年的个位数飙升至164篇,增长18倍 [5] - 该领域旨在让机器人具备“听懂人话、看懂世界、动手干活”的能力,是AI领域极具吸引力的前沿阵地 [6] - 尽管研究繁荣,但需明确VLA定义并关注其与LBM(大型行为模型)的区别,同时主流评测存在“性能天花板”问题,模型高分难以转化为现实能力 [7][10][11][12][13][43][44] VLA概念定义与区分 - VLA模型必须使用经过大规模、互联网级别视觉-语言数据预训练的骨干,以继承语言理解、视觉泛化和任务迁移能力 [7][8] - 代表模型包括Google的PaLI-X以及开源项目Llava、Florence-2等 [9] - 仅将独立视觉与文本编码器拼接的模型应称为“多模态策略”,而LBM强调必须用海量机器人操作数据训练 [10][11] - 在机器人数据上微调的VLA可视为LBM,但LBM不一定是VLA,这区分了不同技术路线的侧重 [12][13] ICLR 2026 VLA八大技术趋势 - **趋势一:高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中表现近乎饱和 [14][15][16] - **趋势二:具身思维链(ECoT)**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在复杂场景中泛化能力显著提升 [17][18][19] - **趋势三:动作分词器**:核心难点是将连续高频的机器人动作转换为VLM能理解的离散词汇,新进展如FASTer Tokenizer和OmniSAT提升了精度与稳定性 [21][24][30] - **趋势四:强化学习(RL)**:作为VLA策略的微调利器,代表技术残差RL和阶段感知RL在LIBERO和SIMPLER上分别取得99%和98%的成功率 [25][26][31] - **趋势五:效率优化**:通过推理效率优化(如HyperVLA)和显存占用优化(如AutoQVLA)降低硬件门槛,使VLA研究走向平民化 [27][28][32] - **趋势六:视频预测**:利用视频生成模型对时序动态和物理规律的理解,赋予VLA物理直觉,例如《COSMOS POLICY》将视频基础模型微调用于机器人控制 [29][34][35] - **趋势七:更真实的评测基准**:社区正开发新评测方式以打破对现有测试集的过拟合,如《RoboCasa365》和《WorldGym》 [36][39][46] - **趋势八:跨体态学习**:通过《X-VLA》、《XR-1》、《HIMOE-VLA》等架构创新,让模型能驱动不同结构的机器人,是构建通用机器人策略的关键 [40][42][47] 行业现状与关键问题 - 主流仿真评测(如LIBERO、CALVIN)存在“性能天花板”,开源模型仿真得分高但真实世界表现难匹敌头部公司产品 [43][44] - 工业界与学术界评测维度存在差异,工业界更看重开放环境、泛化能力和失败恢复能力 [48] - 未来两大关键问题包括数据质量(噪声、歧义、次优行为限制模型上限)和上下文学习机制向机器人领域的迁移 [49]
量子位2025年度榜单冲刺申报中!企业/产品/人物榜正在征集
量子位· 2025-10-31 12:09
评选活动概述 - 正式启动2025人工智能年度榜单评选报名 旨在让从业者感受智能浪潮跃迁并给予同行掌声与鼓舞 [1] - 评选从企业、产品、人物三大维度设立五类奖项 评选结果将于MEET2026智能未来大会公布 [1][3][19] 企业类奖项评选标准 - 年度领航企业参选条件包括注册地在中国或主营业务面向中国市场 主营业务属AI及相关产业或AI已广泛应用并在细分领域领先 [4][5] - 领航企业评选标准涵盖业务能力(市场占有率与营收规模/商业模式与盈利能力/客户数量及行业覆盖面/增长潜力) [10] - 技术能力标准包括科研实力与技术成果/研发投入比例/技术核心竞争力/创新案例与技术落地情况 [10] - 资本能力标准涉及融资情况/财务状况/市值或估值水平 其他综合能力包括企业综合情况/品牌影响力与行业口碑 [10] - 潜力创业公司参选条件要求公司未上市 近一年在技术研发/产品创新或行业应用方面取得显著成果 [11] - 创业公司评选标准关注业务潜力(商业模式/目标市场规模/营收增长情况/客户拓展能力)和技术创新(科研实力/技术成果/差异化优势/落地案例) [11] 产品与解决方案类奖项评选标准 - 年度杰出产品参选条件要求产品以AI技术为核心或特色 已投入市场并获得实际用户应用 近一年完成重要技术创新或迭代升级 [12][14] - 产品评选标准包括产品力与技术力(功能完整性/性能表现/技术先进性/差异化优势)和落地情况(市场占有率/用户规模/营收情况/行业应用价值) [14] - 年度杰出解决方案参选条件强调解决方案以自主创新AI技术为核心 已在实际业务场景中落地实施 近一年在技术融合/应用创新或商业模式上有显著突破 [13][15] - 解决方案评选标准侧重创新性(技术融合能力/应用模式创新/差异化优势)和落地情况(市场占有率/客户情况/营收情况/潜在市场规模) [15] 人物类奖项评选标准 - 年度焦点人物参选条件要求国籍为中国或所属公司主体在中国 且为创始团队成员或核心高管 所属公司主营业务属AI及相关产业且具行业影响力 [16][21] - 近一年需带领团队在AI技术或商业化方面取得显著突破 对行业发展产生重要影响 并具有持续贡献潜力和较高行业认可度 [16][21] - 人物评选标准涵盖企业情况(企业基本情况/行业地位/商业模式/营收情况)和个人能力(技术能力/商业能力/创新能力/团队领导力) [21] 行业大会背景 - MEET2026智能未来大会以"共生无界 智启未来"为主题 邀请科技/产业与学术领域领军人物齐聚 见证行业变革 [23] - 大会每年吸引上千名科技从业者参与 百万观众线上围观 近百家合作媒体联合曝光 已成为智能科技行业年度风向标 [24] - 本届大会将聚焦智能科技产业 邀请技术/产业/投资领域代表性企业人物 探讨AI+/AI Infra/智能终端/智能驾驶/低空经济/能源电力等前沿话题 [24]
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
核心观点 - 提出IGGT模型,首次将3D空间重建与实例级上下文理解融合于一个端到端的统一Transformer框架中,解决了传统方法将两者割裂处理的问题 [1] - 首创“实例接地的场景理解”范式,通过生成实例掩码作为桥梁,实现与任意视觉语言模型和大语言模型的即插即用式集成,突破了以往模型与特定VLM锁死的限制 [2] - 该模型是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,在多项任务指标上大幅领先已有方法 [2][19] 技术架构与创新 - **统一Transformer框架**:模型使用预训练的DINOv2提取图像块级Token,通过24个注意力模块进行视图内自注意力和全局视图交叉注意力,编码为强大的统一Token表示 [14] - **双解码头设计**:统一Token被送入两个并行解码器——几何头负责预测相机参数、深度图和点图,实例头采用DPT-like架构解码出实例特征 [12][17] - **跨模态融合**:设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,增强实例特征的空间感知能力 [17] - **3D一致性对比监督**:设计多视角对比损失,在特征空间中拉近同一3D实例在不同视角的像素特征,推开不同实例的特征,从而仅从2D输入学到3D一致的实例特征 [15] 数据集构建 - **InsScene-15K数据集**:构建包含15K个场景、2亿张图像的大规模数据集,并通过新颖数据管线标注高质量、3D一致的实例级掩码 [2][5] - **合成数据处理**:在模拟环境中直接生成RGB图像、深度图、相机位姿和物体级分割掩码,由于掩码完美准确而无需后处理 [8] - **真实世界视频处理**:使用定制化SAM2视频密集预测管线,通过初始掩码提议、时间上前向传播、迭代添加关键帧和双向传播,确保视频序列高度时间一致性 [9] - **真实世界RGBD处理**:通过掩码优化流程,将SAM2生成的精细掩码与投影的粗糙GT掩码对齐,为精细掩码分配正确的多视图一致ID,提升2D掩码质量 [10] 应用能力与性能 - **空间跟踪能力**:IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能够成功跟踪物体消失又重新出现的模型 [19] - **开放词汇分割**:在2D开放词汇分割任务上达到60.46% mIoU和81.84% mAcc,在3D任务上达到39.68% mIoU,大幅领先对比方法 [19] - **场景问答定位**:利用实例掩码构建视觉提示,接入大型多模态模型实现针对场景中特定物体的复杂问答任务 [23][30] - **多任务支持**:模型同时支持实例空间跟踪、开放词汇语义分割和QA场景定位三大类应用 [23]
自动驾驶公司,正在标配飞书
量子位· 2025-10-31 12:09
自动驾驶行业2025年发展态势 - 2025年行业迎来快速发展,L2辅助驾驶搭载量爆发增长 [1] - Momenta城市NOA市场占有率稳居头部,地平线征程芯片量产突破1000万大关,元戎启行方案量产上车超13万辆 [1] - 小鹏和理想开始向L4进发,小马智行冲刺落地千台规模Robotaxi车队,文远知行集齐7国自动驾驶牌照,新石器交付无人小车超1万辆 [1][2] - 今年1-7月国内乘用车辅助驾驶渗透率已达63%,预计到2030年L2搭载率会达到100% [34] - 2025年被称为Robotaxi“量产元年”,行业竞争空前激烈 [34] 行业核心挑战与效率需求 - 行业存在“既要快速迭代,又要安全可靠”的矛盾,不能采用传统软件行业的敏捷开发模式 [28] - 自动驾驶开发和测试需打通多个部门,传统协作方式流程繁琐、耗时且易导致信息流失 [30][35] - 行业竞争是一场长跑比赛,需要每天比别人跑得快一点点以获取更大市场份额 [34] - 传统工具如表格在车辆规模达上千台后出现性能瓶颈,影响工作效率 [36] 飞书作为提效工具的应用案例 - 地平线使用飞书构建研发协作和知识管理体系,为公司数百个项目建立知识库,每年沉淀文档超70万份 [5][6] - 地平线通过知识问答AI让员工快速获取知识,每天有数百名员工使用,研发待办事项关闭率提升至80%以上 [8][10] - Momenta基于飞书项目打造研发效率引擎,一键批量导入开发需求耗时从半天缩短到10分钟,并实现问题自动创建、聚类和预分析 [13] - 文远知行使用飞书多维表格管理车辆信息,记录项从2项扩展到57项,AI自动汇总问题,使下半年车辆维修情况比上半年降低约80% [36] 飞书提效的具体方法与成果 - 飞书通过低代码平台aPaaS和智能体搭建平台aily,帮助企业实现流程自动化和知识沉淀 [10][18] - 四维图新利用aily创建AI专利智能体,帮助快速撰写专利交底书,一年可避免100项专利累计320小时的无效投入,节省超30万元研发成本 [20][25] - 飞书举办AI效率先锋大赛,促进优秀提效案例传播,培养企业不断提效的文化 [16][17][26] - 飞书的权限管理和AI辅助识别资产密级功能,保障了知识资产的安全 [10] 飞书在物理AI领域的扩展影响 - 飞书已影响整个自动驾驶产业链,并扩展至具身智能领域,如智元机器人、优必选等公司 [40] - 飞书被视为物理AI浪潮的加速器,助力AI进入真实世界 [40] - 先进生产力企业需先用先进生产力工具,飞书已成为行业玩家的共同伙伴 [39][41]
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 08:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]
Windows AI助手免费进化!能操作电脑、登录网页、生成代码
量子位· 2025-10-31 08:58
产品功能更新 - Windows Copilot正式更新Microsoft 365 Copilot中的Researcher智能体,新增"计算机使用"能力,可免费拥有操作电脑界面的AI助手 [1] - 新功能可生成更智能的研究、更深入的洞察和更全面的报告 [1] - 更新已在Microsoft 365 Copilot预览版上线,可通过Frontier Program测试计划获取 [2] 技术实现机制 - AI助手从"说"到"做",通过一系列可由Researcher编排层调用的新工具支撑计算机使用能力 [3] - 编排层连接到沙箱环境,提供每一步操作的截图 [4] - 当模型确定需要执行操作时,会启动一个运行在Windows 365上的云端虚拟机,与内网和用户设备完全隔离 [7] - 虚拟机处于临时沙盒环境中,仅当前会话有效,默认安装浏览器及执行命令所需组件 [8] 安全与访问控制 - 智能体指令通过安全通道发送,用户凭据不会持久保存或在沙盒环境内外传输 [9] - 安全访问需要登录认证的企业内部数据 [5] - 当模型要求用户确认操作或填写密码时,可通过安全的屏幕共享连接控制沙盒 [11] 工具与输出能力 - 沙盒环境配备虚拟浏览器、终端和文本浏览器,浏览器和终端界面输出截图返回给模型 [9] - 文本浏览器可加速纯文本内容的推理和搜索 [9] - 使用代码生成PPT、表格或APP [5] - 利用会议记录、文件、聊天记录等完善工作报告 [5] 性能表现评估 - 在BrowseComp基准测试中,Researcher with Computer Use性能比当前版本Researcher提升44% [12] - BrowseComp专注于复杂多步骤浏览任务,例如通过拼凑多个网页信息回答公司董事会会议次数问题 [12] - 在GAIA基准测试中,性能比当前版本提升6%,该测试衡量AI系统在真实世界数据中查找、验证和推理的能力 [12] - GAIA测试示例包括找到世界银行数据集、通过终端下载并使用Python提取筛选数据以回答各国储蓄总额问题 [12]