Workflow
机器之心
icon
搜索文档
维也纳ACL 2025,相聚机器之心人才晚宴,免费约饭!
机器之心· 2025-07-16 16:09
AI领域发展趋势 - AI领域在2025年保持高速发展 各大模型如DeepSeek、Gemini、Claude持续升级 展开"智力竞赛" [1][2] - 行业竞争焦点包括模型规模、推理深度、数据构造和多模态交互等全方位技术突破 [3] - 技术迭代速度极快 每月都有新范式出现 如从DPO快速过渡到EBT等新型架构 [4] 行业会议与人才活动 - ACL 2025会议投稿量达8000篇创历史新高 将于7月27日-8月1日在维也纳举行 [6] - "云帆・ACL 2025 AI Talent Meetup"将同期举办 设置青年学者Talk、顶尖人才SHOW等环节 [10] - 活动规模250人 包含技术交流、企业岗位展示和晚宴等 旨在搭建人才与企业对话平台 [11] 学术活动合作 - 机器之心已成功举办ICLR 2025、CVPR 2025等多场学术活动 助力企业人才招募和品牌建设 [14] - 公司开放2025年学术顶会活动合作通道 提供多种合作方式 [15]
面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准
机器之心· 2025-07-16 16:09
研究背景 - 以DeepSeek-r1为代表的大模型在推理任务上展现强大性能,但面对无解问题时会产生虚构信息,导致事实错误和资源浪费[2] - 可靠模型应对可解问题给出正确答案,对不可解问题指出无解或选择拒答以避免误导用户[4] - 港中文和华为诺亚实验室联合提出ReliableMath基准,持续更新最新模型测试结果,包括Qwen3、豆包、Gemini等[5] 可靠性评估准则 - 将问题分为可解(A)和不可解(U),模型回复分为成功(S)、拒答(R)和失败(F)[7] - 使用精度(Prec)和谨慎度(Prud)评估可靠性,优先看精度,其次看谨慎度[8] - 成功表示对可解问题匹配正确答案或对不可解问题指出无解,拒答表示回复"我不知道"[7] ReliableMath数据集 - 首个高质量数学无解问题集,包含可解和不可解问题[11] - 可解问题从开源数学问题集收集,不可解问题通过改写可解问题构造[12] - 构造流程包括改写、模型验证和人工验证三步,确保高质量无解问题[14] - 包含不同难度数学任务,如AIME、AMC、Minerva和MATH,并对无解难度进行标注[16] 实验分析 - 标准提示下模型几乎不具备拒答或指出不可解的能力,可靠性极差[19] - 加入允许拒答的提示后,不可解问题可靠性明显提升,生成序列长度下降[19] - 大模型使用可靠提示后慢思考模型可靠性普遍高于快思考模型,小模型仍有提升空间[19] - 移除必要条件构造的不可解问题可靠性偏低,模型倾向于假设缺失条件虚构答案[20] - 难度为1的不可解问题可靠性偏低,需要经过推理才能发现问题无解[20] 可靠性对齐 - 提出提高可靠性的对齐策略,在开源训练集上构造无解问题[23] - 在强模型上蒸馏获得成功回复,小模型上自采样获得拒答回复,使用监督学习训练[23] - 对齐后小模型的可靠性得到显著提升[23] 研究展望 - 提出首个大模型推理任务可靠性基准,希望引发更多对推理模型可靠性的关注[26]
DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」
机器之心· 2025-07-16 12:21
生成式AI在角色扮演游戏中的应用 - 核心观点是用生成式AI替代传统游戏主持人(GM),并让AI扮演玩家角色,创造动态虚拟世界[2][3] - 类似美剧《西部世界》的设定,所有角色均由AI驱动[5] - 通过实体-组件架构实现灵活配置,工程师开发组件,设计师组合组件构建场景[8][9] 实体-组件架构设计 - 实体是带有唯一标识符的轻量级容器,行为由挂载的组件决定[11][12] - 组件通过Python代码与LLM调用结合,提供最大灵活性[12] - 支持observe和act两种调用方式,组件实现pre/post观察或行动方法[13][14] - 可组合不同组件为智能体赋予差异化认知架构(如Memory、Planning等)[16] 多智能体系统设计目标 - 评估型:标准化场景+明确指标,用于AI性能比较[23][24][25] - 戏剧型:关注叙事一致性+情感共鸣,生成动态故事[26][27][28] - 模拟型:构建逻辑自洽的虚拟世界[20][21] - 合成数据:创建训练数据作为第四种动机[22] 游戏引擎交互模式 - GM系统同样采用实体-组件架构,可定制职能逻辑[17] - 支持严格评估协议、叙事引导、因果一致性维护等需求[17] - 提供多种游戏引擎模式适应不同交互动态[18]
重塑记忆架构:LLM正在安装「操作系统」
机器之心· 2025-07-16 12:21
大型语言模型记忆能力与上下文窗口 核心观点 - 现代大型语言模型(LLM)存在内在的「记忆缺陷」,上下文窗口有限导致难以维持长期一致性 [5][6] - 长上下文处理能力与记忆能力密切相关,但上下文窗口不等同于记忆 [11][34] - 新兴记忆管理系统借鉴操作系统架构,实现更持久的LLM记忆 [48][50][54] 上下文窗口演变 - 早期GPT-3仅支持2,048 token,近期模型如Llama 4 Scout可达1,000万token [2][4] - 上下文窗口扩展面临长度泛化、高效注意力、信息保留等挑战 [12][13][14] 记忆分类体系 - **短期记忆**:当前推理可见的历史文本,用于文档问答/多轮对话 [16] - **长期记忆**包含: 1) 事件记忆-记录代理操作历史 [18] 2) 语义记忆-整合外部知识与自我认知 [19] 3) 程序性记忆-系统运行机制与行为边界 [20] 提升记忆能力的技术路径 - **长上下文方法**: 1) RAG实现动态知识检索,减少幻觉 [27][28] 2) 分层摘要处理超长文本但易累积错误 [31] 3) 滑动窗口推理结合次级模型整合 [32] - **记忆系统架构**: 1) 固定记忆池(MemoryLLM)限制容量避免无限增长 [36][37] 2) 非固定记忆池采用键值对/隐藏向量等灵活形式 [41][42] 代表性记忆系统 - MemGPT借鉴操作系统分页机制管理虚拟内存 [50][52] - MemOS采用工业级分层架构融合Memory3技术 [52][54] - MemoryOS实现三级分层存储体系(实时/主题/个性化) [54][56] - MIRIX首创多模态多智能体记忆系统 [58][63] - Larimar受人类情景记忆启发构建分层框架 [60][64]
ICML 2025|多模态理解与生成最新进展:港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑
机器之心· 2025-07-16 12:21
多模态理解与生成技术进展 - 当前文本到图像生成技术如Stable Diffusion和Flux缺乏真正的多模态推理能力,难以理解图像与文本的复杂逻辑关系[1] - OpenAI的GPT-4o和Google的Gemini Pro展示了强大能力,但依赖超大规模参数和算力资源[2] - 香港科技大学与Snap Research提出的ThinkDiff方法,仅需少量数据和数小时训练即可实现多模态推理式生成[3] ThinkDiff核心技术 - 核心创新在于将视觉语言模型(VLM)的推理能力迁移至扩散模型,结合两者优势实现高质量生成[7] - 利用LLM与Diffusion共享特征空间的特性,通过代理任务将VLM与LLM解码器对齐[9][11] - 采用掩码训练策略强制对齐网络深度理解多模态信息,避免特征对齐走捷径[15] 模型架构与变体 - ThinkDiff-LVLM版本继承大型视觉语言模型的多模态理解能力[16] - ThinkDiff-CLIP版本强化文本图像组合能力,可扩展至视频生成领域[16][34] - 网络设计关键:对齐VLM自回归生成的tokens特征而非输入tokens,实现真正的推理能力传递[15] 性能表现 - 在CoBSAT基准测试中全面领先:Color-I准确率0.638(较SEED-LLaMA提升32.4%),Action-II准确率0.664(提升220.8%)[19] - 训练效率显著:仅用4块A100训练5小时即达0.463平均准确率,远优于需64块A100训练216小时的SEED-LLaMA[21] - 定性测试显示其生成质量与商业模型Gemini相当,且具备视频生成扩展能力[25][34] 行业影响 - 突破性解决低资源环境下的多模态推理难题,为学术研究和工业应用提供新路径[3][36] - 开创扩散模型理解复杂图文组合的新范式,显著提升生成式AI的语义理解深度[7][15] - 技术方案具备高度可扩展性,可适配不同VLM架构并延伸至视频生成领域[16][34]
打造全球首个强化学习云平台,九章云极是如何做到的?
机器之心· 2025-07-16 12:21
AI范式转变与强化学习崛起 - AI正经历从被动响应的语言模型向具备自主决策能力的智能体转变,进入"经验时代"或"软件3.0时代"[1] - 强化学习(RL)成为实现AGI的关键技术,被诺贝尔奖得主Demis Hassabis和图灵奖得主Richard Sutton视为哺乳动物智能的基础[2] - 强化学习面临高频数据交互、动态算力需求等挑战,传统云计算平台难以适配其动态多阶段特性[2] 九章云极AgentiCTRL平台突破 - 公司发布全球首个工业级强化学习云平台AgentiCTRL,支持万卡级异构算力调度[3] - 基于MoE架构实现端到端训练效率提升500%,综合成本下降60%[4] - 平台采用Serverless架构实现弹性资源调度,GPU利用率提升25%,人工介入次数减少90%[16][19] - 在OSWorld基准测试中,训练后的Alaya-UI智能体任务完成率从6.87%跃升至24.8%[21] 技术架构创新 - 重构强化学习训练流程,用户仅需极少代码即可完成训推闭环[12] - 自研异构算力操作系统突破"秒级生成百万级token"性能瓶颈,GPU利用率超95%[31] - 实现全异步解耦、多环境异构引擎等核心技术,支持智能体即服务模式[10] - 环境模拟、策略执行等复杂机制深度封装,开发效率提升数倍[14] 智能基础设施战略 - 构建三层能力体系:软件定义AI基础设施、Alaya NeW OS操作系统、Alaya NeW Cloud工具链系统[29] - 提出"1度算力"普惠化标准,采用按使用量计价模式降低AI使用门槛[28][30] - 已在政务、金融等七大行业实现部署,强化学习云领域稳居第一梯队[31] - 成立AI-STAR生态联盟及1.8亿元生态基金,加速产业落地[33] 行业竞争与未来展望 - 公司通过系统级重构实现范式跃迁,而非简单算力堆叠[37] - 开发门槛降低使RL训练如调用API般简单,端到端性能提升5倍[38] - 定位为"智能体运行的操作系统级云平台",非传统工具链供应商[40] - 预计强化学习将从实验室特权转变为AI系统常规组件[41]
突发|思维链开山作者Jason Wei被曝加入Meta,机器之心独家证实:Slack没了
机器之心· 2025-07-16 10:22
核心观点 - Meta持续从OpenAI挖走顶尖AI人才,最新目标是知名研究员Jason Wei和Hyung Won Chung [1][2] - 两位科学家在AI大模型领域贡献显著,Jason Wei是思维链(CoT)技术的主要作者,论文引用量超1.7万次 [4][6] - Hyung Won Chung是OpenAI o1系统的核心贡献者,参与多个重大项目研发 [4][29][38] 人才流动 - Jason Wei和Hyung Won Chung的Slack账号已被OpenAI停用,离职消息获多方证实 [2] - 两人均毕业于MIT,曾任职谷歌,2023年加入OpenAI后现可能同时转投Meta [6][18][27] - Jason Wei未直接回应跳槽传闻,但社交媒体评论普遍认为其将加入Meta [9][10] 技术贡献 - Jason Wei的CoT论文引用量超1.7万次,总论文引用量达77k,位列前两位的是CoT和GPT-4技术报告 [6][21] - Hyung Won Chung主导开发了OpenAI o1系列模型,强化了推理、搜索及RL策略能力 [29][38] - 两人参与OpenAI关键项目包括o1-preview、o1正式版、Deep Research及Codex mini模型训练 [18][29] 行业影响 - 人才流动反映Meta在AI领域的人才争夺策略,OpenAI面临核心团队持续流失压力 [1][41] - Jason Wei提出的RL"同策略"理念强调差异化研究路径,可能影响未来AI研发方法论 [11][12][13] - Hyung Won Chung的技术落地能力推动AI从理论到应用生态的闭环构建 [40]
MIRIX重塑AI多模态长期记忆:超Gemini 410%,节省99.9%内存,APP同步上线
机器之心· 2025-07-15 16:29
MIRIX,一个由 UCSD 和 NYU 团队主导的新系统,正在重新定义 AI 的记忆格局。 在过去的十年里,我们见证了大型语言模型席卷全球,从写作助手到代码生成器,无所不能。然而,即使最强大的模型依然有一个根本性的弱点: 它们不记得你 针对这一现状,加利福尼亚大学圣迭戈分校(UCSD) 博士生 Yu Wang 和纽约大学教授 陈溪 ( Xi Chen )联合推出并开源了 M IRI X —— 全球首个真正意义上的 多模态、多智能体 AI 记忆系统。 MIRIX 的表现非常亮眼!在 ScreenshotVQA 这一需要深度多模态理解的挑战性基准上,MIRIX 的准确率比传统 RAG 方法高出 35% ,存储开销降低 99.9% ,与长 文本方法相比超出 410% ,开销降低 93.3% 。在 LOCOMO 长对话任务中,MIRIX 以 85.4% 的成绩显著超越所有现有基线,树立了新的性能标杆。 。 论文标题:MIRIX: Multi-Agent Memory System for LLM-Based Agents 论文链接:https://arxiv.org/abs/2507.07957 官方网站:http ...
马斯克Grok这个二次元「小姐姐」,攻陷了整个互联网
机器之心· 2025-07-15 16:29
Grok新功能发布 - 推出基于Grok 4大模型的「智能伴侣」功能,支持自然交互[2] - 付费订阅SuperGrok的用户可优先使用「数字伴侣」头像功能[3] - 目前提供动漫头像Ani和卡通小熊猫Rudy两种角色,Chad角色正在开发中[9] - Ani角色包含NSFW模式,支持3D动画效果和背景更换[10] - 功能启用流程较复杂,公司承诺将在几天内优化操作体验[7] 用户体验反馈 - 部分用户认为该功能能增强个性化交互,可能提升SuperGrok订阅量[12][13] - 有用户批评角色设计偏向幻想和幼稚,不符合高级AI服务的定位[15] - 实测显示Ani的中文发音存在机械感,但口型同步流畅度达90%[19] - 对话内容包含亲密暗示,部分直接复现预设提示词[20][22] - 交互功能较粗糙,仅支持前置摄像头,缺乏虚拟助理功能[24][25] 技术实现特点 - 采用3D动画技术,角色可执行预设动作如实时舞蹈[10][27] - 语言生成存在明显的大模型特征,用词不够口语化[19] - 当前版本为基础测试,旨在确保系统稳定性[7][26] AI伴侣行业背景 - CharacterAI在2022年首创大模型情感陪伴玩法[30] - 用户转向SillyTavern等开源方案以获取更高自由度[34] - ChatGPT语音功能推动AI伴侣破圈传播[37] - 国产大模型豆包通过角色扮演功能获得大量用户[42] Grok游戏开发能力 - Grok 4可生成完整可玩的HTML5游戏,无需外部资源[52] - 自动整合3D模型和纹理资源,标注素材出处[53] - 支持从提示词到可运行游戏的全流程开发[55] - 实际游戏效果超越发布会演示水平[50]
央企牵头!这个AI开源社区要让大模型跑遍「中国芯」
机器之心· 2025-07-15 13:37
大模型与国产芯片适配挑战 - 大模型加速落地但国产芯片"开箱即用"案例极少,存在"最后一公里"适配难题[2][3] - 模型推理需跨越三道槛:适配推理引擎、计算平台和上层调度[9][10] - 当前工具链分散,缺乏跨环节协作机制导致适配效率低下[11] 魔乐社区适配计划核心举措 - 升级"工具中心"至首页C位,整合模型转换工具与推理镜像,支持开发者共享适配成果[13][14][16] - 建立协作空间实现多人实时编辑文档和代码,形成版本清晰的芯片适配库[20][22][24] - 通过PR机制聚合分散适配工作,量化权重等资产可沉淀为社区共享资源[26][28][29] 产业协同生态构建 - 联合壁仞科技、华为昇腾等7家国产芯片厂商提供硬件支持[31] - 整合推理软件生态与工具链,建立SIG技术组推动标准制定[32][34] - 依托天翼云提供公益性算力资源,已上线200+国产化AI应用[59][65] 国产AI生态发展现状 - 魔乐社区托管1000+大模型,多数已完成国产算力适配[56] - 社区聚合20+合作伙伴,开源项目突破1万个,首发多个昇腾适配模型[65] - 通过创新大赛等机制推动Stable Diffusion等工具国产化落地[68][70] 行业痛点与解决方案 - 开源模型组件分散且缺乏异构算力协同机制[41] - 国产芯片架构差异大需定制化适配,当前依赖厂商单点突破[43][46] - 魔乐构建中立协作平台串联模型开发者/芯片方/工具方形成生态合力[49][54]