Workflow
量子位
icon
搜索文档
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 08:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]
Windows AI助手免费进化!能操作电脑、登录网页、生成代码
量子位· 2025-10-31 08:58
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 为什么深度研究智能体需要"计算机使用" ?微软给出几个理由: 具体效果可观看视频演示: Windows Copilot正式更新,人人都能免费拥有操作电脑界面的AI助手了。 具体来说是Microsoft 365 Copilot中的Researcher智能体,新增了"计算机使用"(Computer Use)的能力,可以生成更智能的研究、更深 入的洞察和更全面的报告。 AI助手从"说"到"做" 不同于以往只能通过API调用特定功能,支撑计算机使用能力的是一系列可由Researcher编排层调用的新工具。 编排层连接到一个沙箱环境,提供每一步操作的截图。 这项更新目前已经在Microsoft 365 Copilot的预览版中上线,可参加Frontier Program测试计划获取。 在专注于复杂多步骤浏览任务的基准测试BrowseComp中,Researcher with Computer Use的性能比当前版本的 Researcher提升了44% 。以下是其中一个任务示例: 在2010年代末期,一家采用非传统管理结构(设有多个CEO)的公司提供脑外科手术辅助服务 ...
量子位「MEET2026智能未来大会」已启动!年度AI榜单 & 趋势报告正在征集中
量子位· 2025-10-31 08:58
MEET组委会 发自 凹非寺 量子位|公众号 QbitAI 我们正迈入一个由人工智能重塑一切的新时代。 智能技术已经深刻渗透进生产和生活, 跨越了软件、硬件、机器人等不同形态 ,从工具发展为能深度理解人类需求的智能伙伴。 如今,智能技术不再局限于某一特定领域,而是 跨越产业、学科和场景的边界 ,催生出全新的生态和机遇。 随着多模态、AR/VR、空间计算等新兴技术的涌现, 数字世界与物理世界的界限正在逐步模糊并融合 。 在这股强大的技术浪潮中,企业、技术与社会之间的连接与共生,已成为推动发展的核心动力。 我们正见证人工智能逐步成为基础设施的一部分,正在重塑人类未来的工作、生活和社会运作模式。科技的不断进步正在突破传统的边界,各 类新兴技术交织融合,推动着产业的深度变革。 正是在这样的背景下,我们将以 「 共生无界,智启未来」 为主题,正式启动 MEET2026智能未来大会 !承袭MEET系列年度行业观察的视 角,诚邀科技、产业与学术领域的领军人物齐聚一堂,共同见证行业变革。 今年,是 MEET智能未来大会 的第七年。作为年度影响力科技商业峰会,每年最具行业代表性的科技商业领袖,都会来到大会分享前瞻观点 与认知。 ...
人工智能年度榜单火热报名中!五大奖项,寻找AI+时代的先锋力量
量子位· 2025-10-30 18:31
为了让更多从业者感受智能浪潮的跃迁,也为了给予更多同行同路人掌声与鼓舞,我们将正式启动 「2025人工智能年度榜单」评选报名 。 本次评选将从 企业 、 产品 、 人物 三大维度,设立五类奖项。欢迎企业踊跃报名! 组委会 发自 凹非寺 量子位|公众号 QbitAI 让我们共同见证年度之星,点亮未来的方向。 企业榜 产品榜 人物榜 2025 人工智能年度 焦点人物 详细评选标准及报名方式如下。 2025 人工智能年度领航企业 将面向中国人工智能领域,评选出最具综合实力的企业, 参选条件 : 2025 人工智能年度 领航企业 2025 人工智能年度 潜力创业公司 2025 人工智能年度 杰出产品 2025 人工智能年度 杰出解决方案 1、注册地在中国,或主营业务主要面向中国市场; 2、主营业务属于人工智能及相关产业,或已将人工智能广泛应用于主营业务,并在细分领域居于行业领先地位; 评选标准 : 2025 人工智能年度潜力创业公司 聚焦于中国人工智能领域创新创业力量,将评选出最具投资价值和发展潜力的AI创业公司, 参选条件 : 评选标准 : 3、具备成熟的产品或服务,已获得实际客户应用及市场认可; 4、近一年在技术 ...
AI百科全书SciencePedia:当马斯克Grokipedia遭遇滑铁卢,有个中国团队默默把活儿干了
量子位· 2025-10-30 18:31
产品核心定位与市场机遇 - 当前互联网存在信息过载、知识传播失真以及跨领域知识壁垒等挑战,用户获取深度见解的需求正遭遇传统平台的挑战[1][2][3] - SciencePedia被定位为一个具备「生命体征」的知识基座,旨在为知识安装一个会思考、能进化、可连接的数字大脑,以解决科学知识的传播与积累问题[4] - 该产品不仅是一个开创性产品,更是对未来学习认知方式的一次全新探索,致力于让真知更高效地抵达每一个需要它的人[4][5] 产品核心优势与差异化 - 在知识深度上,SciencePedia提供完整思维链,远超维基百科的概念定义、arXiv的原始论文和传统知识图谱的结构化数据[5] - 更新机制为实时进化,优于人工编辑、论文上传和定期更新,验证能力采用人机协同验证模式[5] - 具备系统化的跨学科连接能力,并能提供智能路径规划的个性化支持,这是传统平台所缺乏的[5] - 工作思路基于三大关键词:长思维链、逆思维链搜索、人机协同进化,旨在搭建科学知识的动态进化图谱而非死板的通用百科[12] 技术实现与工作机制 - **长思维链**:基于约400万条大语言模型的"思维链"知识库构建,试图还原结论是如何被人类一步步做出来的,让知识「活起来」[13][14] - 通过按学科划分、拆解关键知识点、并用逻辑/因果/应用关系串联成链路,实现「思维重演」,展示答案是如何被建立并被验证的[16][17][18][19] - **逆思维链搜索**:基于思维链构建深层逻辑网络,实现概念级的知识智能关联,擅长阐述用户的问题能通向什么,将跨学科偶然灵感转为系统化导航[20][21] - **人机协同进化**:采用AI抽取知识与专家社区仲裁校正的双引擎机制,确保可扩展性和科学严谨性,使系统能够自主进化,实现知识态的实时更新[22][23][24] 产品规模与价值主张 - 目前产品包含400万条思维链构建的科学推理网络,覆盖200个学科,精细解构24万知识点,并提供10万+练习题的实践闭环[27] - 能够生成知识地图,补完交叉关联信息,快速呈现领域全景,并通过逆知识搜索自动发现学科交叉点,揭示创新机会[29] - 正在重塑教育逻辑,通过个性化学习路径、思维链可视化和实践闭环设计,实现从理解到掌握的跨越,并与多所顶尖高校展开合作[30][31][32] 用户体验与功能特色 - 提供专属"学习规划",用户可通过"AI推荐"唤起"学习伴读"助手,获得量身定制的动态学习规划和智能推荐的素材[40] - 支持"动态讲解",学习过程中可随时划线提问,AI提供可交互的讲解,用户可要求深入解释、举例或换种方式说明[40][42] - 每个知识点配套"动手实践"模块,包含经典习题和解题过程,AI伴读会提供多种解题思路并展开完整思维链,帮助用户学会如何思考[44] - 支持用户随时划线提问或反馈,并可直接进行编辑或反馈,参与知识内容的修订与共建[42][46][47] 发展路径与生态建设 - 发展路径规划为从完善核心知识网络、建立基础应用生态,到实现自动化知识更新、构建全球贡献者社区,最终成为知识获取与科学研究的基础设施[38] - 采用开放生态模式,诚挚邀请全球科研工作者、教师与学生加入共建,可通过GitHub提交pull request或提交需求反馈参与[46][47] - 研发团队为SciencePedia描绘了一条由工具到生态的未来演进路径,旨在推动一种全新的知识呈现形态,并影响未来的学习方式[36]
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
量子位· 2025-10-30 18:31
模型概述 - 北京智源人工智能研究院发布最新开源原生多模态世界模型悟界·Emu3.5 [1] - 模型能够一网打尽图、文、视频任务,具备画图改图、生成图文教程、增强视频物理真实性等功能 [2] - 模型展现出高精度操作能力,例如一句话消除手写痕迹和第一视角漫游动态3D世界 [3] 行业背景与竞争格局 - AI迭代速度正在刷新所有人的认知,文生视频赛道几乎每月都有新技术出现 [5][6] - AI视频的逼真度和时长持续提升,但当前竞争焦点已从“像不像”转向“懂不懂”物理世界规律 [7][8] - 行业需解决的核心问题是模型是否理解物体移动后的空间变化、转身后场景的持续性等动态逻辑 [9] 核心技术能力 - Emu3.5生成作品具有极强连贯性和逻辑性,显著增强模拟动态物理世界的能力 [11] - 模型支持第一人称视角进入虚拟世界,动态构建移动或转身后的场景,全程保持空间一致性 [11] - 能够进行高精度可控图像编辑,如根据指令将草图转化为3D模型并完成3D打印、上色等完整流程 [16][26] - 支持多图多轮指令的复杂图像编辑,主体一致性和风格保持能力达业界顶尖水平 [29] - 模型在文本渲染和多模态交错生成任务上表现亮眼,性能媲美甚至超越Gemini-2.5-Flash-Image [18] 技术架构与创新 - Emu3.5参数量为34B,基于Decoder-only Transformer框架,统一所有任务为下一状态预测 [31] - 使用多模态分词器将文本和图像转换为离散Token序列,实现多任务处理 [31] - 在超过10万亿Token的多模态数据上预训练,主力数据为互联网视频的连续帧和转录文本 [32] - 视觉分词器基于IBQ框架,拥有13万视觉词汇表,集成扩散解码器支持2K分辨率高保真图像重建 [33] - 采用有监督微调和大规模多模态强化学习进行优化,使用复杂奖励系统提升模型质量 [34] - 通过离散扩散适配技术将推理速度提升近20倍,解决自回归模型生成图像慢的问题 [35] 应用场景与定位 - 模型定位为世界模型基座,开辟AI领域全新赛道,致力于构建理解物理规律的智能基座 [20][21] - 核心能力包括理解长时序、空间一致序列,模拟虚拟世界中的探索和操作,如逐步完成“整理桌面”任务 [23][24][28] - 应用场景覆盖生成视觉故事、第一视角参观场景(如客厅、火星开卡丁车等) [12][14][18] - 开源策略允许全球开发者直接使用模型,赋能千行百业实际应用,想象空间巨大 [36][37]
谷歌营收被Nano Banana带飞!季度首破千亿美元,Gemini APP月活6.5亿
量子位· 2025-10-30 18:31
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Nano Banana成为爆款之后,Gemini月活达到了6.5亿。 AI业务带动之下, 谷歌季度营收也首次突破千亿美元 ,交出了有史以来最亮眼的成绩单。 什么概念?市值刚刚突破5万亿美元的英伟达,2025财年上半年的收入也刚刚突破1000亿。 谷歌CEO桑达尔·皮查伊(劈柴哥)激动地宣布了这一结果,表示他们所采用的 全栈式AI策略推动了这一增长 。 AI用户规模方面,劈柴哥介绍,不仅Gemini APP已有6.5亿月活用户,每分钟要处理的Token数更是达到70亿。 Hyperbolic Labs的联创兼CTO Yuchen Jin分析, Nano Banana在其中起到了重要的作用 。 马斯克也认为这个成绩可喜可贺,称赞了一句Nice work。 财报发布后,谷歌的股价在盘后猛增,达到每股293.69美元,以此计算,市值达到了3.55万亿美元,增长了3000多万美元(超2万亿人民 币)。 靠着Nano Banana的爆火,Gemini起飞了,进而在AI的带动下,整个谷歌公司都起飞了。 季度营收首次突破千亿美元 财报显示,谷歌今年第三季度的总收入为10 ...
字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!
量子位· 2025-10-30 18:31
产品核心创新 - 字节跳动Seed团队开发的通用型游戏智能体Game-TARS,其核心创新在于采用“人类自然交互”方式,让智能体像真人一样使用键盘和鼠标操作游戏,而非调用特定函数或API [3][6][9] - 该智能体专注于最底层的“人类动作”,定义了一个可扩展、统一的键盘-鼠标动作空间,使动作指令集与任何特定应用或操作系统解耦,极大地提高了可扩展性和泛化性 [9][10][33] - 智能体将视觉感知、策略推理、动作执行和长期记忆整合到一个视觉语言模型中,无需为每款游戏编写特定代码即可自主学习操作 [12][13] 技术架构与训练方法 - 基于超过5000亿标注量级的多模态训练数据进行大规模预训练,结合稀疏推理与衰减持续损失来提升性能 [4][17][19] - 训练采用ReAct范式,通过“离线思维链+在线边做边说”的方式生成原生、即时的推理序列,并利用视觉锚点因果对齐技术确保训练数据的因果一致性 [17][18] - 引入指数衰减权重解决“行为惯性”问题,对连续重复动作按指数降低权重,使模型更专注于高熵动作转变 [19] - 训练分为持续预训练和后训练两个阶段,预训练数据超过2万小时(约5000亿token),后训练阶段对约200亿高质量token进行微调,并引入跨领域数据以扩展能力 [20][22][23] 性能表现与评估 - 在《我的世界》中的测试表明,基于统一动作空间的Game-TARS表现比以前最先进的专家模型提高了约2倍 [24][28] - 在FPS游戏、开放世界、WEB游戏等任务中,其迷你版本(GameTARS-MoE-mini)的表现超越了GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet等知名模型 [5][29] - 实验证明该智能体在训练和推理过程中均具有可扩展性,统一动作空间为实现通用智能体提供了卓越的基础 [27][31][34]
Agnes:不做通用型智能体丨对话全民AI应用平台Agnes AI
量子位· 2025-10-30 16:39
以下文章来源于量子位智库 ,作者量子位智库 量子位智库 . 连接AI创新,提供产业研究 分析师 刘萌媛 刘铁鹰 量子位智库 | 公众号 AI123All 这股浪潮也在AI产品上得以体现: Manus 于8月初推出「Wide Research」功能,支持上百个Agent同时工作; 纳米AI 「多智能体蜂群」8月上线,可让多个推理型智能体灵 活拉群、多层嵌套、组队协作,完成超长复杂任务; 快手 9月推出「Kwali」,可将视频生成需求拆解并分配给不同Agent完成,如意图解 析、脚本生成、镜头匹配和剪辑合成等…… 那么,多智能体在任务完成的效率和效果上真的超过单智能体吗?多智能体框架在AI产品中是如何应用的,又为AI产品创造了哪些价值?相比 于单智能体,多智能体适合什么样的使用场景呢? 带着这些疑问,量子位智库邀请到以 Mu lt i A gent架构 为核心的 全民可用的 AI应用 Agnes AI ,听创始人Bruce Yang深入聊一聊这款 上线四个月日活用户即突破20万的高潜AI产品。 △ Agnes访谈直播 在这次访谈中,Bruce分享了Agnes AI背后的多智能体架构设计,以及Agnes如何确认产品 ...
让机器人在“想象”中学习世界的模型来了!PI联创课题组&清华陈建宇团队联合出品
量子位· 2025-10-30 16:39
Ctrl-World团队 投稿 量子位 | 公众号 QbitAI 这两天,Physical Intelligence (PI) 联合创始人Chelsea Finn在上,对斯坦福课题组一项最新世界模型工作kuakua连续点赞。 生成看起来不错的视频很容易,难的是构建一个真正对机器人有用的通用模型 ——它需要紧密跟随动作,还要足够准确以避免频繁幻 觉。 这项研究,正是她在斯坦福带领的课题组与清华大学陈建宇团队联合提出的 可控生成世界模型Ctrl-World 。 这是一个能让机器人在"想象空间"中完成任务预演、策略评估与自我迭代的突破性方案。 核心数据显示,该模型 使用零真机数据 ,大幅提升策略在某些在下游任务的指令跟随能力,成功率从38.7%提升至83.4%,平均改进幅度 达44.7%。 其相关论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已发布于arXiv 平台。 注:Ctrl-World专为通用机器人策略的策略在环轨迹推演而设计。它生成联合多视角预测(包括腕部视角),通过帧级条件控制实现细粒度动作控制,并通 ...