量子位

搜索文档
GPT-4o连验证码都解不了??SOTA模型成功率仅40%
量子位· 2025-06-04 13:21
MetaAgentX团队 投稿 量子位 | 公众号 QbitAI 当前最强多模态Agent连验证码都解不了? 实测结果显示:人类平均成功率达 93.3% ,SOTA多模态模型平均仅 5%-40% 不等。 连 GPT-4o 都被难住了。 验证码是现阶段Agent部署的一大瓶颈 在真实网页场景中部署多模态Agent,你是否也被人机验证(CAPTCHA)卡住过? 项目团队发现,不少大型Benchmarks(包括AgentBench、VisualWebArena等)在构建过程中都 刻意跳过了含验证码的网页 ,仿佛这道拦 路虎根本不存在。 但现实很骨感: 验证码从不是"特例",而是任何实际任务中不可回避的存在 ,尤其在电商、登录、票务等高价值网页中更是常见。 于是,Open CaptchaWorld这个测试平台以及Benchmark应运而生:一个针对多模态大模型Agent的CAPTCHA解题平台与评估基准——专 为视觉-语言-动作交互任务设计。 无论是OpenAI的o3、Anthropic的Claude‑3.7-sonnet、还是Gemini‑2.5-pro,这些最新的多模态大模型Agent尽管在静态感知任务(如图文 ...
00后中国女孩0产品创业实现3亿估值:斯坦福数学博士的AI量化野心
量子位· 2025-06-04 13:21
明敏 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福华人数学博士AI创业, 0产品0用户 ,目标估值3亿美元。 0产品实现3-5亿估值 方向瞄准 数学AI ,要为量化和对冲基金公司提供可解决实际数学问题的模型能力。 (嗯,打造了DeepSeek的幻方量化,也是用AI来做投资量化) △ 来自个人主页 来自中国广州的 洪乐潼 (Carina Letong Hong)近期开启创业,立马一鸣惊人。 据The Information消息,她正在筹集目标为 5000万美元 的融资,公司估值预计 3-5亿美元 ——尽管目前公司还没有开发出一款产品。 为啥能实现如此估值? 来看创始人兼CEO洪乐潼身上的标签: 3年时间完成麻省理工数学和物理本科双修 ,然后拿下斯坦福数学博士录取offer研究方向为数论、组合学和概率学,同时也进修了法律学课 程。 本科期间的论文已经发表在《美国数学会会报》、《拉马努金期刊》等刊物。2021年获得牛津大学罗德奖学金,成为仅有的4名中国获奖者之 一…… 如今,她开启创业,希望利用编程语言来训练模型,使其能掌握形式化证明的"语言"。 洪乐潼创立的公司名叫Axiom (公理) ,它的核心 ...
开源播客生成MoonCast:让AI播客告别"机械味",中英双语对话更自然!
量子位· 2025-06-04 13:21
输入知识源:经典经济学论文 (PDF 链接: https://gwern.net/doc/statistics/decision/1951-nash.pdf) Zeqian Ju 投稿 量子位 | 公众号 QbitAI 英文播客示例: 仅听几秒人声,即可完成逼真复刻,而且是 对话式语音。 这就是 MoonCast , 一款革新性的对话式语音合成模型, 目前已开源 。 MoonCast 的"人味"播客效果如何?立即试听以下示例音频,让耳朵告诉你答案。 (注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。) 中文播客示例: 输入知识源:诺贝尔物理学奖新闻稿 (URL 链接: https://www.nobelprize.org/prizes/physics/2024/press-release/) 生成一段地道的 相声 ,完全就是郭德纲于谦那味儿啊。 (注:本文使用的所有音频仅用于展示,不代表任何真实事件或观点。禁止商用。) 它专为高质量播客内容创作量身打造, 旨在将文档转化为引人入胜的播客音频。 这些对话无论是文本内容还是说话人音色,MoonCast在训 练时都从未见过。 这得 益于强大的 ...
单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2
量子位· 2025-06-04 13:21
国产开源模型又上大分,这次是在长视频理解领域: 智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型 Video-XL-2 。 长视频理解是多模态大模型关键能力之一。尽管OpenAI GPT-4o、Google Gemini等私有模型已在该领域取得显著进展,当前的开源模型在 效果、计算开销和运行效率等方面仍存在明显短板。 而Video-XL-2相较于上一版本的Video-XL,在多个维度全面优化了开源多模态大模型对长视频内容的理解能力: 目前,Video-XL-2的模型权重已全面向社区开放。未来,该模型有望在影视内容分析、异常行为监测等多个实际场景中展现重要应用价值。 允中 发自 凹非寺 量子位 | 公众号 QbitAI 单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 技术简介 在模型架构设计上,Video-XL-2主要由三个核心组件构成: 视觉编码器(Visual Encoder) 、 动态 Token 合成模块(Dynamic Token Synthesis, DTS) 以及 大语言模型(LLM) 。 △ Video-XL-2的模型架构示意图 具体而言,Video-XL-2 ...
奥特曼宫斗要成好莱坞大片了!《哈利波特》同款制片人,主角人选被曝“蜘蛛侠”
量子位· 2025-06-04 13:21
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 奥特曼抓马的宫斗大戏,这下真的成drama了 。 The Hollywood Reporter消息,米高梅计划联手意大利知名导演 卢卡·瓜达尼诺 (Luca Guadagnino) ,将OpenAI高层的争斗翻拍成电 影。 该片名为 《Artificial》 ,米高梅计划今年夏天就开拍,正在和瓜达尼诺积极洽谈。 看到这个消息,网友们开始疯狂cue起了2010年的电影 《社交网络》 (《The Social Network》) ,该电影讲述了扎克伯格的Facebook创 业史。 还有网友表示,剧组很可能希望蜘蛛侠的扮演者、在《社交网络》中扮演Facebook联创萨维林 (Eduardo Saverin) 的 安德鲁·加菲尔德 (Andrew Garfield) 能来扮演奥特曼。 而手更快些的网友,已经把奥特曼电影的结局给安排上了 。 △ 图为电影《社交网络》中剧情 蜘蛛侠扮演者或出演奥特曼 除了意向导演瓜达尼诺之外,The Hollywood Reporter还爆料了《Artificial》的几名制片人。 其中包括将哈利波特改编成八部电影的知名制片人 大卫 ...
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 08:17
General-Reasoner团队 投稿 量子位 | 公众号 QbitAI 一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超! 来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架: General- Reasoner 。 结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。 上图显示出General-Reasoner在多项跨领域评测中显著提升基础模型推理能力。 当前,强化学习(RL)被视为提升模型推理能力的关键手段。其中,Zero-RL方法通过直接训练基础 模型,已在数学和编程等结构化任务上展现出强大效果。 问题是,这些方法往往局限于数据丰富、答案结构清晰的领域,在面对物理、金融或人文社科等更广 泛的领域时,模型难以有效泛化。 接下来看看研究团队是如何解决这些推理难题的? 相较现有方法的关键革新 目前的Zero-RL框架如SimpleRL通常聚焦于单一领域数据,采用简单的规则式答案验证,存在以下不 足: 数据单一 多为数学竞赛或代码任务,泛化能力有限; 验证方式僵化 仅能识别明确结构化答案,无法灵活处理多样化的答 ...
ChatGPT普通会员能用编程神器Codex了!支持联网,奥特曼:更多更新在路上
量子位· 2025-06-04 08:17
白交 发自 凹非寺 量子位 | 公众号 QbitAI 一觉醒来,ChatGPT又完成了一些"小"更新! 总结起来就是等等党胜利。 首先,刚发没多久的AI编程神器 CodeX ,现在可使用的用户群体扩展至了 Plus用户 。 此前仅对Pro会员,以及Enterprise和Team用户开放。 而且还进行了一波功能升级,最大也是比较刚需的功能就是可以 访问互联网 了—— 这样你在让它执行任务,比如升级or安装软件包、运行外部测试什么的了。 其次,ChatGPT的「记忆」功能,不再是Plus/Pro用户专属, 免费用户 也可以使用了。 除了已保存记忆之外,ChatGPT会参考最近的对话,以提供更个性化的回复。 看到这里,一些每个月花200大洋的pro用户有点破防了…… 我不在乎免费用户还是Plus用户,你就说对于我们来说有什么优惠吧。 奥特曼:比如o3-pro呀。 Plus会员能用Codex了 现在看CodeX这边,此次从功能上,有三个方面的升级。 Agent互联网访问 。 现在,您可以在任务执行期间让 Codex 访问互联网,以安装依赖项、升级包、运行需要外部资源的测试等。 OpenAI特意申明,这个功能一旦开启会 ...
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
量子位· 2025-06-04 08:17
3DLLM团队 投稿 量子位 | 公众号 QbitAI 想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的 空间-时间长时记忆 。 如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。 加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展: 3DLLM-MEM 模型与 3DMEM-BENCH 基准,让AI首次具备在 复杂3D环境中构建、维护和利用长时记忆的能力。 传统模型依赖稀疏或物体中心的表征,无法捕捉3D环境中复杂的几何关系(如家具布局、物体尺寸对比),而这些细节对任务成败至关重 要(如判断礼物盒是否"太松"或"太大")。 时空动态管理 环境变化(如移动家具、使用物品)会导致记忆过时,但现有模型缺乏动态更新机制,难以区分"旧记忆"与"新状态"。 简单地说,模型无法像人类一样形成"认知地图"并灵活调用记忆的 核心问题 在于缺乏针对3D空间-时间的记忆建模。 挑战:3D环境中的记忆困境 现有大语言模型(LLMs)在文本理解中表现卓越,但当"进入"动态3D环境时却举步维艰。存在以下问题: 突 ...
Manus新功能一手实测!10分钟8页PPT,网友:当前第一名没跑
量子位· 2025-06-03 15:59
Manus幻灯片功能评测 - 全新推出的幻灯片功能获得广泛好评 支持导出为Google Slides功能推动关注度持续上升[3][4] - 实测生成8页PPT仅需10分钟 包含基本介绍、技术亮点、对比分析等完整结构[12] - 生成过程包含6个步骤 耗时最长的代码生成环节约6分钟[13][14] - 支持即时修改与自动保存 导出格式涵盖PPTX/PDF/Google Slides[16][17] - 存在页面显示不完全问题 需手动调整导出文件[19][22] 产品优势与用户价值 - 高效省时 自动搜索汇总资料实现高度定制化内容生成[28] - 设计贴合用户职业属性 如针对AI分析师强化科技感元素[28] - 操作透明化 实时显示执行命令并开放步骤追溯[29] - 支持PPT内容一键转为交互式网站 保留原设计风格并增强导航功能[23][24] 竞品对比分析 - 相较Genspark生成速度快一倍(Manus 10分钟 vs Genspark 20分钟)[12][43] - 生成内容结构更完整 Genspark依赖外部信息搜集导致大纲冗余[45][46] - 两者均存在导出显示问题 但Genspark缺陷更显著[47] - Genspark暂不支持Google Slides导出 且单任务消耗全部200积分[46][49] 用户使用策略 - 明确演示目标与受众 提供具体参考资料提升生成准确性[23] - 建议从小型项目入手逐步适应AI工具能力边界[23] - 人工审核关键内容 结合传统工具进行深度优化[23] 市场推广动态 - 新用户注册赠送1000积分 每日赠送300积分[8] - 单次PPT生成消耗约100积分 需注意积分管理[9] - 推出限时双倍积分计划刺激用户活跃度[33]
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
量子位· 2025-06-03 15:59
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 别急,容在下为你推荐一款新时代科研党神器—— PosterAgent ,帮你一键从 paper.pdf 跳转 poster.pptx 。 相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少 87% ,还只需要 0.0045美元 ,就可将22页的论文转化为 可编辑 的 ".pptx" 终稿海报。 来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准 Paper2Poster ,解决了长上下文、多模态压缩的评估空白。 话不多说,先给大家展示一波效果,以下面这篇CV论文为例。 先喂给GPT-4o-image,得到的是这样的: Differentially Private CutMix for Split Learning with Vision Transformer 你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster (学术海报) ? Seungeun Oh, Sihun Beek, Hyelin Nam, Seong-Lyun Kun'" Pnehong Park (sschushbaeK hInam, sKirr ...