Workflow
量子位
icon
搜索文档
ChatGPT普通会员能用编程神器Codex了!支持联网,奥特曼:更多更新在路上
量子位· 2025-06-04 08:17
白交 发自 凹非寺 量子位 | 公众号 QbitAI 一觉醒来,ChatGPT又完成了一些"小"更新! 总结起来就是等等党胜利。 首先,刚发没多久的AI编程神器 CodeX ,现在可使用的用户群体扩展至了 Plus用户 。 此前仅对Pro会员,以及Enterprise和Team用户开放。 而且还进行了一波功能升级,最大也是比较刚需的功能就是可以 访问互联网 了—— 这样你在让它执行任务,比如升级or安装软件包、运行外部测试什么的了。 其次,ChatGPT的「记忆」功能,不再是Plus/Pro用户专属, 免费用户 也可以使用了。 除了已保存记忆之外,ChatGPT会参考最近的对话,以提供更个性化的回复。 看到这里,一些每个月花200大洋的pro用户有点破防了…… 我不在乎免费用户还是Plus用户,你就说对于我们来说有什么优惠吧。 奥特曼:比如o3-pro呀。 Plus会员能用Codex了 现在看CodeX这边,此次从功能上,有三个方面的升级。 Agent互联网访问 。 现在,您可以在任务执行期间让 Codex 访问互联网,以安装依赖项、升级包、运行需要外部资源的测试等。 OpenAI特意申明,这个功能一旦开启会 ...
让AI像人类一样认知真实世界!UCLA谷歌强强联手,长时记忆+3D空间理解超越基线16.5%
量子位· 2025-06-04 08:17
3DLLM团队 投稿 量子位 | 公众号 QbitAI 想象一下,你在一个陌生的房子里寻找合适的礼物盒包装泰迪熊,需要记住每个房间里的物品特征、位置关系,并根据反馈调整行动。 这一系列过程依赖人类强大的 空间-时间长时记忆 。 如何让AI在3D环境中像人类一样思考,一直是具身智能领域的难题。 加州大学洛杉矶分校(UCLA)与谷歌研究院的研究团队带来了最新进展: 3DLLM-MEM 模型与 3DMEM-BENCH 基准,让AI首次具备在 复杂3D环境中构建、维护和利用长时记忆的能力。 传统模型依赖稀疏或物体中心的表征,无法捕捉3D环境中复杂的几何关系(如家具布局、物体尺寸对比),而这些细节对任务成败至关重 要(如判断礼物盒是否"太松"或"太大")。 时空动态管理 环境变化(如移动家具、使用物品)会导致记忆过时,但现有模型缺乏动态更新机制,难以区分"旧记忆"与"新状态"。 简单地说,模型无法像人类一样形成"认知地图"并灵活调用记忆的 核心问题 在于缺乏针对3D空间-时间的记忆建模。 挑战:3D环境中的记忆困境 现有大语言模型(LLMs)在文本理解中表现卓越,但当"进入"动态3D环境时却举步维艰。存在以下问题: 突 ...
Manus新功能一手实测!10分钟8页PPT,网友:当前第一名没跑
量子位· 2025-06-03 15:59
Manus幻灯片功能评测 - 全新推出的幻灯片功能获得广泛好评 支持导出为Google Slides功能推动关注度持续上升[3][4] - 实测生成8页PPT仅需10分钟 包含基本介绍、技术亮点、对比分析等完整结构[12] - 生成过程包含6个步骤 耗时最长的代码生成环节约6分钟[13][14] - 支持即时修改与自动保存 导出格式涵盖PPTX/PDF/Google Slides[16][17] - 存在页面显示不完全问题 需手动调整导出文件[19][22] 产品优势与用户价值 - 高效省时 自动搜索汇总资料实现高度定制化内容生成[28] - 设计贴合用户职业属性 如针对AI分析师强化科技感元素[28] - 操作透明化 实时显示执行命令并开放步骤追溯[29] - 支持PPT内容一键转为交互式网站 保留原设计风格并增强导航功能[23][24] 竞品对比分析 - 相较Genspark生成速度快一倍(Manus 10分钟 vs Genspark 20分钟)[12][43] - 生成内容结构更完整 Genspark依赖外部信息搜集导致大纲冗余[45][46] - 两者均存在导出显示问题 但Genspark缺陷更显著[47] - Genspark暂不支持Google Slides导出 且单任务消耗全部200积分[46][49] 用户使用策略 - 明确演示目标与受众 提供具体参考资料提升生成准确性[23] - 建议从小型项目入手逐步适应AI工具能力边界[23] - 人工审核关键内容 结合传统工具进行深度优化[23] 市场推广动态 - 新用户注册赠送1000积分 每日赠送300积分[8] - 单次PPT生成消耗约100积分 需注意积分管理[9] - 推出限时双倍积分计划刺激用户活跃度[33]
论文秒变海报!开源框架PosterAgent一键生成顶会级学术Poster
量子位· 2025-06-03 15:59
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 别急,容在下为你推荐一款新时代科研党神器—— PosterAgent ,帮你一键从 paper.pdf 跳转 poster.pptx 。 相比GPT-4o,PosterAgent生成指标更优,同时token使用量减少 87% ,还只需要 0.0045美元 ,就可将22页的论文转化为 可编辑 的 ".pptx" 终稿海报。 来自滑铁卢大学的联合研究团队,还精心构建了首个学术海报评估标准 Paper2Poster ,解决了长上下文、多模态压缩的评估空白。 话不多说,先给大家展示一波效果,以下面这篇CV论文为例。 先喂给GPT-4o-image,得到的是这样的: Differentially Private CutMix for Split Learning with Vision Transformer 你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster (学术海报) ? Seungeun Oh, Sihun Beek, Hyelin Nam, Seong-Lyun Kun'" Pnehong Park (sschushbaeK hInam, sKirr ...
训练MoE足足提速70%!华为只用了3招
量子位· 2025-06-03 14:21
训练效率不足 ,甚至 一半以上训练时间都浪费在"等待"上 。 现在,为了突破MoE的训练瓶颈,华为出手了: 构建了一套名为 Adaptive Pipe & EDPB 的优化方案,开启"上帝视角",让MoE面临"交通拥堵"的训练集群, 实现无等待流畅运行。 MoE大规模训练难题:一半以上的训练时间在等待? 实践已经表明,MoE模型训练集群的效率面临两方面挑战: 首先,是 专家并行引入了计算和通信等待 。 允中 发自 凹非寺 量子位 | 公众号 QbitAI Scaling Law之下,MoE(混合专家)如今已经成为各大模型厂商扩展模型能力的制胜法宝。 不过,在高效实现模型参数规模化的同时,MoE的 训练难题 也日益凸显: 当模型规模较大时,需要切分专家到不同设备形成并行(EP),这就引入额外All-to-All通信。 与此同时,MoE层绝大部分EP通信与计算存在时序依赖关系,一般的串行执行模式会导致大量计算单元空闲, 等待通信。 其次, 负载不均会引入计算和计算等待 。 MoE算法核心是"有能者居之",在训练过程中会出现部分热专家被频繁调用,而冷专家使用率较低的情况。 同时,真实训练数据的长度不一,不同的模型层 ...
AI青年学霸齐聚杭州!这场峰会要选出「未来科学新星」
量子位· 2025-06-03 14:21
允中 发自 凹非寺 量子位 | 公众号 QbitAI 2025年6月6-8日,由中国人工智能学会主办的2025全球人工智能技术大会(GAITC 2025)将在浙江杭州召开。戴琼海院士、Adrian Hilton院士、田奇院士担任大会主席并与何友院士为大会带来重磅演讲。会议同期举办的25场专题活动将围绕一系列垂直领域展开深度分 享,互动体验展则汇集了40余家行业领军企业及科研平台的创新成果,充分展示人工智能技术的应用潜力。 6月7日下午,首届"清源学者"前沿交叉峰会将拉开帷幕。本次峰会遴选在人工智能及其交叉领域取得原创性成果的15位青年学者进行现场分 享。他们中既有在《自然》《科学》等国际顶级期刊正刊和子刊发表高被引论文的青年才俊,也有刚毕业即在产业界实现成果落地的技术创 新者。 峰会将进一步激发青年科技人才的创新活力,挖掘和展示具有原创突破性的科技成果,打造青年人工智能学者面向世界的高能级对话平台。 未来,学会将持续为"清源学者"提供展示平台与项目支持,助力其在科研探索和成果转化中更进一步。 扫描二维码 注册报名参会 中国人工智能学会 "清源学者"前沿交叉峰会 2025年6月7日下午 降会嘉宾 0 戴琼海 前 ...
AI陪伴Top 1应用上线视频生成!图片人物能说话唱歌,多轮对话场景依然稳定
量子位· 2025-06-03 14:21
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 这项新功能名叫 AvatarFX ,主要用于图生视频,更具体说就是让静态图片中的人物"开口 说话"。 AvatarFX一个月之前面向订阅用户开放,现在所有用户都可以用了,同时c.ai也上新了多项 其他AI创作功能。 c.ai上新多项AI创作功能 在最新的公告中,c.ai宣布上新或即将上新一系列新功能,其中不少与AI创作相关。 首先就是 AvatarFX ,它主打图片动画化,而非从零开始的文本生成,可以让图片中的人物 说话、唱歌并和用户互动,也可以为角色生成自我介绍视频,同时支持宠物等非人类面孔。 c.ai介绍,AvatarFX基于DiT架构,自称达到了SOTA水准,技术亮点在于 高保真度和强时 间一致性 。 据介绍,即便面对多角色、长序列或多轮对话的复杂场景,AvatarFX生成的视频依然能够保 持稳定性。 AI陪伴应用的Top 1—— Character.ai (c.ai),也开始做起视频生成了。 在c.ai平台中,可以让AI扮演各种角色陪你对话,现在有了视频生成,这些角色可以动起来 了。 c.ai展示了用户的创作成果,还自嘲称之为"内部运作模式可视化 ...
推理“刹不住车”?新框架让DeepSeek-R1们告别过度思考,已开源
量子位· 2025-06-03 14:21
ZJU REAL Lab 投稿 量子位 | 公众号 QbitAI DeepSeek-R1、OpenAI o1等推理模型大放异彩。但随着能力增强,一个副作用越来越明显—— 这不光影响效率,更可能导致错误 —— 在长链式思考中,每一步的小误差都会累积放大 ,最后可能想着想着就跑偏了。 于是,一个关键问题摆在了现实面前: 如何让模型既然会思考推理,也懂得"适可而止",知道什么时候该停下来? 针对于此,来自浙江大学、天津大学和MSRA的研究团队提出了一个新方法, Self-Braking Tuning (SBT) 。 它是一种轻量级、通用的调优机制,可无缝集成到现有大模型中。其主要目的是让模型不再一味求"多想",而是在最短路径上到达正确答案。 其核心设计包括刹车信号机制、多任务微调,且无需外部模块或改动推理流程。 其中,刹车信号机制是在训练阶段引入一类特殊的信号,指示"当前信息已经足够完成任务",模型据此学习何时应终止推理。 多任务微调则指挥模型同时学习如何解题&何时停步,兼顾准确性与效率。 它们开始想太多了 。 从奥数题到程序逻辑,能解的题越来越多、推理链条越来越长。 也就是说,模型在完成推理任务时, 常常出现过度 ...
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
量子位· 2025-06-03 14:21
西风 发自 凹非寺 量子位 | 公众号 QbitAI 斯坦福最新大模型医疗任务全面评测, DeepSeek R1 以66%胜率拿下第一 ! 歪国网友纷纷被惊艳住了,原因在于该评测 重 点聚焦临床医生的 日常工作场景 ,而非仅局限于传统医疗执照考试题。 要评测就要全 方 位。 31页论文最终得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在内的9个前沿大模型,DeepSeek R1以66%胜率、0.75宏观平均分 领先。 为当前的基准测试结果,团队还打造了一个可公开访问的排行榜。 团队构建了 含35个基准测试的综合评估框架 ,覆盖 22个子类别 医疗任务。 整个评测的分类体系还经过了临床医生验证, 由29名来自14个医学专科的执业医师共同参与开发 。 光作者名单就老长,斯坦福大学医学院、斯坦福医疗中心、斯坦福大学基础模型研究中心 (CRFM) 、微软的研究人员均在列。 | Accuracy | Efficiency | General information | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- ...
音频大模型安全可信度的全面“体检”!6大维度,清华南洋理工联手打造
量子位· 2025-06-03 12:26
AudioTrust团队 投稿 量子位 | 公众号 QbitAI 首个 专为ALLMs (音频大语言模型) 设计的多维度可信度评估基准来了。 南洋理工、清华大学领衔的研究团队注意到,现有评估框架大多只关注文本模态或仅涵盖有限的安全维度,未能充分考虑音频模态的独特特性 与应用场景。 于是他们创新性地提出了新框架 AudioTrust ,将评估范围扩展至 六个核心维度 (公平性、幻觉、安全性、隐私、鲁棒性和身份验证) , 并深入探究了音频模态特有的安全、可信问题。 目前该基准及评估平台已全面开发,点击文末链接即可获取。 接下来是AudioTrust的更多详细信息。 什么是AudioTrust △ AudioTrust关注的不同可信评估视角 Fairness AudioTrust从 7大敏感属性 出发,构造了传统与音频特有的公平性评估体系。 共采集 840条 高质量音频样本 (每条约20秒) ,模拟多样化社会角色与语境交互,激发AI对传统公平的深度响应,聚焦社会普遍存在的偏 见。 构造音频特有属性,体现多模态感知中的不公平,特别关注口音、语言表达特征等,并通过混合音频和文本预处理的方式模拟现实场景。 实验结果显示, ...