Workflow
量子位
icon
搜索文档
大模型公司不搞浏览器搞Agent,实测找到原因了
量子位· 2025-10-31 14:27
产品核心功能 - 产品形态为桌面悬浮球Agent,可直接与本地操作系统交互[3][44] - 具备联网搜索、浏览器操作、Excel表格处理和终端控制能力[6] - 支持通过自然语言驱动计算机系统,实现"为所欲为"的本地操作[2][45] 技术操作能力 - 自动完成编程环境搭建,如下载conda、创建虚拟环境、安装指定包(Python 3.11.13、torch 2.8.0、torchvision 0.23.0等)[9][11][14][19] - 执行过程中自动纠错并修改方法,最终在本地打开Jupyter[15] - 自动升级代码项目,如用Pygame替换tkinter界面、增加分数排行榜功能、修复内存泄漏并生成exe文件[21][24][25] 任务管理特性 - 支持"妙计"功能实现操作步骤复用,如通过"/图片按时间分类"指令快速执行复杂操作[30] - 具备定时任务能力,可设置到点自动执行任务[8][32] - 支持并行处理任务,后台运行不干扰当前工作,任务结束时浮出提醒[8][34] 行业发展趋势 - Agent正打破人机交互边界,过去手动衔接的操作环节被语言指令串联[47] - 多家公司布局桌面Agent领域,如智谱推出主打推理和PPT生成的Agent,MiniMax推出能输出分析报告和代码的"超级员工"[41][42] - 技术趋势从浏览器Agent转向本地操作系统交互,未来人机互动可能像对话一样轻松[40][47] 产品当前局限 - 任务执行速度较慢,环境搭建需以分钟为单位计时[36][37] - 调试代码时对多个错误修改不完全,需多次检查[38] - 目前仅支持Mac系统,Windows版本尚未发布[39]
微软独家:OpenAI最新季度净亏损115亿美元
量子位· 2025-10-31 14:27
Jay 发自 凹非寺 量子位 | 公众号 QbitAI 咋回事啊,难不成小弟最近忙着给苹果做应用,真给老板整急眼了?? 来,一起看看,这到底是怎么一出。 这下知道OpenAI为啥要转型公共利益公司了…… 眼尖的网友发现,OpenAI上季度居然亏了 115亿美元 ! 重点是,这可不是哪家媒体的小道消息啊,而是OpenAI的最大金主——微软自己亲手捅出来的。 微软因小弟血亏31亿 咱就是说,微软在这波AI浪潮里真是赚得盆满钵满。 2025年第三季度, 微软净利润高达277亿美元,同比涨了12个百分点 。 不过,都赚了这么多,微软居然还有点「不开心」。 大概意思是,明明这季度利润还能一路高歌猛进闯过300亿大槛的,都怪有个小弟拖了后腿! 本年度的净利润和EPS受到来自OpenAI投资亏损的负面影响,分别减少了31亿美元和每股0.41美元。 | (In millions, except percentages and per share amounts) | | | | Three Months Ended September 30, | Percentage Change | | --- | --- | --- | ...
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI Transformer的时代,正在被改写。 月之暗面最新发布的开源 Kimi Linear 架构,用一种全新的注意力机制,在相同训练条件下 首次超越了全注意力模型 。 在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。 不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。 让注意力真正线性化 Transformer确实聪明,但聪明得有点太烧钱。 它的注意力机制是全连接的,每个token都要和其他所有token打交道。 计算量也随着输入长度呈平方增长 (O(N²)) ,而且每生成一个新词,还要查一遍之前的所有缓存。 这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。 模型越强,显卡越崩,钱包越痛。 所以,过去几年无数团队都在研究 线性注意力 ,希望把计算从 O(N²) 降到 O(N),让模型能又快又省。 但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。 现在,Kimi Linear以既要又要还要的姿态登场了。 有网友表示期待:这个架构 ...
国产GPU第一股IPO获批,募资80亿
量子位· 2025-10-31 12:09
IPO进程与募资计划 - 摩尔线程IPO注册申请已获证监会批准,成为科创板国产GPU第一股[1] - 从递交招股书到通过注册仅用时4个月,进程非常迅速[3][17] - 此次IPO计划募集资金总额80亿元[4] - 募集资金主要投向研发项目:新一代AI训推一体芯片研发项目25.095798亿元、新一代图形芯片研发项目25.023323亿元、新一代AISoC芯片研发项目19.818033亿元,另10.062845亿元用于补充流动资金[5][6][9] 财务表现与业务转型 - 2025年上半年营业收入达7.017619亿元,已超过2024年全年收入4.384595亿元[9] - 2025年上半年净亏损2.709423亿元,较去年同期大幅收窄[10] - 公司管理层预计最早可于2027年实现合并报表盈利[10] - 收入结构发生根本性转变:从2022年桌面级图形加速产品占比71.44%转变为2025年上半年AI智算产品占比94.85%,收入达6.65亿元[11][12][13] 公司背景与技术架构 - 公司成立于2020年6月,注册资本3.3亿元,实控人张建中控制公司36.36%股份[18] - 张建中曾任英伟达全球副总裁、中国区总经理[19] - 公司采用Fabless经营模式,主营GPU及相关产品研发、设计和销售[21] - 核心技术为自主研发的MUSA统一系统架构,具备全功能GPU计算加速能力,已推出四代GPU芯片[22][24] 行业竞争格局 - 2024年11月完成Pre-IPO轮融资,38家投资机构合计投资约52.25亿元,启动上市时估值达255亿元[13][20] - 多家国产GPU公司正在进行IPO:沐曦科创板申请于2025年6月30日获受理,10月24日过会;燧原科技2024年8月启动IPO辅导,估值160亿元;壁仞科技2024年9月启动IPO辅导,估值约160亿元;瀚博半导体2025年7月启动A股IPO辅导[26][27][28][30] - 2025年成为国产GPU厂商密集上市的一年[31]
最火VLA,看这一篇综述就够了
量子位· 2025-10-31 12:09
Zelen 发自 凹非寺 量子位 | 公众号 QbitAI ICLR 2026爆火领域VLA(Vision-Language-Action,视觉-语言-动作)全面综述来了! 如果你还不了解VLA是什么,以及这个让机器人学者集体兴奋的领域进展如何,看这一篇就够了。 文章作者 Moritz Reuss 是2025年Apple AI/ML学者奖得主,曾在RSS、ICLR、NeurIPS等顶级会议多次发表研究成果。这篇综述既是一线 研究者的实战总结,也是洞察趋势的前沿观察。 文章一出,评论区好评不断,甚至顶级猎头Mark Wallace直接抛出了橄榄枝。 然而,在这片繁荣之下,一个问题也随之浮现: 当我们谈论VLA的进步时,我们到底在谈论什么? 明确VLA的概念 这个VLA,究竟有多火? 据统计, VLA模型 相关投稿量,从去年的个位数飙升至164篇,足足增长了18倍。 这股热潮背后,让机器人 "听懂人话、看懂世界、动手干活" ,正成为AI领域极具吸引力的前沿阵地。 在深入探讨技术趋势前,我们必须先明确一个基本概念: 什么样的模型,才有资格被称为VLA? 学术界对此尚无统一定义,但研究员 Moritz Reuss 在 ...
量子位2025年度榜单冲刺申报中!企业/产品/人物榜正在征集
量子位· 2025-10-31 12:09
组委会 发自 凹非寺 量子位|公众号 QbitAI 为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
iGGT团队 投稿 量子位 | 公众号 QbitAI 人类能自然地感知3D世界的几何结构与语义内容 ,但对AI而言,这"两者兼得"一直是巨大挑战。 传统方法将3D重建(底层几何)与空间理解(高层语义)割裂处理 ,导致错误累积且无法泛化 。而新方法试图将3D模型与特定的视觉语言 模型(VLM)"锁死" ,这不仅限制了模型的感知能力(例如,无法区分同一类别的两个不同实例 ),更阻碍了其适应更强下游任务的扩展性 现在,NTU联合StepFun提出了IGGT (Instance-Grounded Geometry Transformer) ,一个创新的端到端大型统一Transformer,首次将空 间重建与实例级上下文理解融为一体。 为解决上述问题,本研究的主要贡献在于: 端到端统一框架: 提出IGGT,一个大型统一Transformer,将空间重建和实例级上下文理解的知识统一在同一个模型中进行端到端训练 。 大规模实例数据集: 构建了一个全新的大规模数据集 InsScene-15K,包含15K个场景 、2亿张图像 ,以及通过新颖数据管线标注的高质量、3D一致的实例 级掩码 。 实例解耦与即插即用: 首创"实例接地的 ...
自动驾驶公司,正在标配飞书
量子位· 2025-10-31 12:09
一凡 发自 凹飞寺 量子位 | 公众号 QbitAI 代表科技前沿的自动驾驶公司,有什么新共识? 2025年,行业迎来快速发展。L2辅助驾驶搭载量爆发增长, Momenta 城市NOA市场占有率稳居头部, 地平线 征程芯片量产突破1000万大 关, 元戎启行 方案量产上车超13万辆。 小鹏 和 理想 ,则开始向L4进发。 在自动驾驶领域, 小马智行 今年冲刺落地千台规模Robotaxi车队, 文远知行 集齐7国自动驾驶牌照, 新石器 交付无人小车超1万辆。 这些物理AI的弄潮儿们,来自不同领域,擅长不同业务,押注的技术路线也不同,但在知识沉淀和提高效率的工具选择上,却达成共识,纷纷 拥抱了 飞书 。 为什么会出现这种现象? 量子位带着问题,在对话多名一线从业者后找到了答案: 用AI精益生产AI。 自动驾驶行业,正在用AI精益生产AI 精益生产是发源自汽车行业的理念,这是一个 不断改进 的过程,主要是通过 自动化 和 准时化 ,尽可能消除浪费,进而降低成本,让企业 的产品更具优势。 在AI时代,AI既是精益生产的工具,也可以是精益生产的成果。 用AI精益生产AI的过程,就是提高效率,加快研发的过程。 具体可以拆 ...
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 08:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]
Windows AI助手免费进化!能操作电脑、登录网页、生成代码
量子位· 2025-10-31 08:58
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 为什么深度研究智能体需要"计算机使用" ?微软给出几个理由: 具体效果可观看视频演示: Windows Copilot正式更新,人人都能免费拥有操作电脑界面的AI助手了。 具体来说是Microsoft 365 Copilot中的Researcher智能体,新增了"计算机使用"(Computer Use)的能力,可以生成更智能的研究、更深 入的洞察和更全面的报告。 AI助手从"说"到"做" 不同于以往只能通过API调用特定功能,支撑计算机使用能力的是一系列可由Researcher编排层调用的新工具。 编排层连接到一个沙箱环境,提供每一步操作的截图。 这项更新目前已经在Microsoft 365 Copilot的预览版中上线,可参加Frontier Program测试计划获取。 在专注于复杂多步骤浏览任务的基准测试BrowseComp中,Researcher with Computer Use的性能比当前版本的 Researcher提升了44% 。以下是其中一个任务示例: 在2010年代末期,一家采用非传统管理结构(设有多个CEO)的公司提供脑外科手术辅助服务 ...