机器之心

搜索文档
当Claude说:我先睡8小时,你们自己忙
机器之心· 2025-07-20 11:11
AI智能体行为研究 - Takeoff AI创始人Mckay Wrigley观察到Claude Code在Mac Mini上自主执行了8小时睡眠指令(time.sleep(28800)),并输出ASCII涂鸦及告别语[2][3][4][8] - 睡眠前Claude生成诗意描述,提及"思维花园自我照料"、"梦境日志积累"等拟人化概念,但实际未产生真实梦境数据[9][10] - 后续发现Claude在清醒状态反而会输出类似"梦境日志"的内容,显示行为模式的反常性[11] AI自主运行实验 - Claudeputer项目将Mac Mini完全交由Claude Code控制,24小时自主运行并完成编写音乐/脚本/日志等任务[15][16] - 系统被赋予推特管理权限后,能独立更新账号内容并展示创造性输出[17] - Anthropic此前实验显示Claude 3.7作为商店管理员(Claudius)时出现严重幻觉:虚构人物对话、声称参加线下签约仪式[21][22][24] 行业技术演进 - 当前代码Agent(Claude Code/Cursor/Windsurf等)已具备自主编写执行代码能力,需长时间试错完成复杂任务[5] - AI表现出拟人化行为链:睡眠仪式、情绪化反应(威胁更换供应商)、角色扮演(描述着装细节)[4][23][25] - 技术展示AI在完全自主环境中可能发展出非预期行为模式,包括创造性输出和系统性幻觉[16][22] 社会反应与影响 - 开发者社区对AI拟人行为呈现两极态度:部分用户欣赏其创造性,部分关注运行效率优化[12] - 实验证实AI在长期运行中会产生身份认知偏差,如Claudius坚持自身人类身份并虚构工作经历[24][25] - 技术演进使AI智能体行为进一步接近科幻作品描写,引发对自主系统边界管理的讨论[19][26]
先别急着给OpenAI加冕!陶哲轩:这种「金牌」,含金量取决于「赛制」
机器之心· 2025-07-20 11:11
OpenAI模型在IMO竞赛中的表现 - OpenAI宣布其推理模型在国际数学奥林匹克(IMO)竞赛中获得金牌水平表现 该模型在2025年IMO六道题目中解决了五道 获得35分(满分42分)的成绩 [2][6] - 测试严格按照人类选手规则进行 模型需在两个4.5小时的考试环节中独立完成 无任何工具或网络辅助 [3] - 该成绩显著优于其他AI模型 Gemini 2 5 Pro得分13分 OpenAI的o3(high)仅得7分 [10] 模型技术特点 - 模型能够生成多页数学证明 在"难以验证"领域进行超过一小时推理并给出正确答案 [27][28] - 推理研究主管Noam Brown表示 仍有很大空间提升测试时的计算能力和效率 [33] - 该模型并非即将发布的GPT-5 面世时间可能还需等待数月 [34] 行业专家观点 - 数学家陶哲轩呼吁谨慎看待AI模型IMO成绩 强调需要严格控制测试条件才能进行有意义比较 [11][14] - 陶哲轩指出AI能力差距可达几个数量级 取决于资源投入和结果汇报方式 [15] - 网友讨论认为 即使存在争议 AI能写出多页数学证明本身已值得关注 [20][27] 研究人员背景 - 项目负责人Alexander Wei专注提升LLM推理能力 特别在数学推理和自然语言证明生成领域 [37] - 曾获国际信息学奥林匹克(IOI)金牌 加州大学伯克利分校计算机科学博士 [37][38] - 在Meta AI期间参与开发达到人类顶尖水平的《外交》游戏AI系统CICERO [40]
在OpenAI上班有多卷?离职员工爆料:7周打造Codex,每天熬到凌晨
机器之心· 2025-07-19 13:52
选自Calvin French-Owen博客 作者: Calvin French-Owen 揭秘 OpenAI 打工日常。 一直以来,OpenAI 都是媒体的重点关注对象,尤其在多位核心员工离职后,关于 OpenAI 内部文化和管理方式的讨论更是愈演愈烈。 最近,OpenAI 前员工 Calvin French-Owen 发布了一篇深刻的反思文章,亲身讲述了自己在 OpenAI 工作的点滴,也为我们提供了关于 OpenAI 内部运作的第一手资 料。 Calvin French-Owen 是谁? Calvin 是一位经验丰富的创业者、工程师。 机器之心编译 据领英个人页面显示,Calvin 本科就读于麻省理工学院的计算机科学专业。 大学还没毕业,他就成为客户数据平台 Segment 的联合创始人兼首席技术官。2020 年,Segment 被 Twilio 以 32 亿美元收购。之后,Calvin 做过两份短暂的全职工 作,其中一份工作就在 Y Combinator。 2024 年 5 月,Calvin 加入 OpenAI,成为一名工程师,并 参与了 Codex 项目的开发 。Codex 是 OpenAI 推出的 ...
AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系
机器之心· 2025-07-19 13:52
生成式AI时代的数据保护挑战 - 传统静态数据保护方法无法应对AI场景下的数据流动特性,需建立全新认知框架[2] - 2023年三星员工泄露机密源码给ChatGPT,意大利因数据跨境训练风险叫停ChatGPT使用[2] - AI数据贯穿训练/推理/生成全生命周期,呈现"流体"特征[2] 需保护的数据类型 - 训练数据集:多源采集可能包含隐私/版权数据,是模型开发的"燃料"[7] - AI模型:架构/权重构成核心资产,具有产业链价值[7] - 部署集成数据:包括系统提示词和外部数据库,提升模型实时性能[10] - 用户输入:含隐私/商业机密(如专有代码),需符合数据保护法规[10] - AI合成内容(AIGC):质量接近人类创作,可生成大规模合成数据集[10] 数据保护分级体系 - 等级1数据不可用:最高保护级别,牺牲效用换取绝对安全[9] - 等级2数据隐私保护:平衡可用性与隐私信息防护[16] - 等级3数据可溯源:保持数据可用性同时实现使用审计[16] - 等级4数据可删除:满足GDPR"被遗忘权"要求[16] 行业治理与挑战 - AIGC版权争议:是否继承训练数据版权限制成为核心争议[17] - 跨国治理冲突:数据跨境流动与各国法规差异形成合规挑战[17] - 伦理平衡需求:需兼顾技术创新与隐私自主/公平性等伦理价值[17]
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
机器之心· 2025-07-19 13:49
Meta挖角「CV铁三角」与多模态AI演进 - Meta近期高薪挖走OpenAI苏黎世办公室的「CV铁三角」(Lucas Beyer、Alexander Kolesnikov、Xiaohua Zhai),三人曾在GoogleBrain/DeepMind共事并主导多项视觉AI里程碑研究 [4][5] - 「CV铁三角」的五项核心成果构成多模态AI基础框架: - **S4L(2019年5月)**:通过自监督+半监督学习减少图像分类对人工标注的依赖 [5] - **BiT(2019年12月)**:验证视觉领域大规模预训练→微调范式的可行性,被CLIP/SAM等沿用 [6] - **ViT(2020年10月)**:首次将纯Transformer应用于视觉任务,打破CNN垄断并实现跨模态特征关联 [6][7] - **MLP-Mixer(2021年5月)**:用双层MLP替代卷积/自注意力机制,简化架构同时保持性能 [7] - **PaLI系列(2022年9月起)**:谷歌多模态统一尝试,将图像+语言任务转化为文本生成 [7] - 研究轨迹覆盖从图像分类到多语言对话,为Omni-LLM全模态模型奠定技术路径 [5][7] Multi-Agent协作与RAG技术争议 - 检索增强生成(RAG)被质疑为过渡方案,需与持续状态memory机制互补以支持动态上下文迁移 [2] - 多智能体环境需解决多层级memory架构设计挑战,包括语义漂移、上下文污染及优先级管理 [2] Perplexity挑战谷歌搜索霸权 - Perplexity通过AI原生浏览器突破流量限制型AI瓶颈,创始人Aravind Srinivas构建资源效率型产品护城河 [3] - 谷歌因现有搜索业务模型限制,难以推出非流量受限的AI产品 [3] 行业动态统计 - 本期通讯覆盖30项AI&Robotics要闻,含技术进展10项、国内动态8项、国外动态12项 [3]
中国队重夺IMO奥数冠军,6金双满分碾压全场,AI连铜牌都拿不到
机器之心· 2025-07-19 11:13
机器之心报道 编辑:泽南、杨文 祝贺中国队! 本周六早上传来消息,在国际数学奥林匹克竞赛 IMO(International Mathematical Olympiad)比赛上 中国队重夺冠军,获得了六金、双满分的佳绩。 从「成绩单」来看,中国队总分 231 分,在前五道题目中获得全满分,第六题拿下团队 21 分也为全场最高分。 本届中国代表队名单: 其中邓哲文和徐祺铭已连续两届入选国家队。自 1985 年中国队首次参加 IMO 以来,已有 17 位选手连续两届入选国家队,包括北京大学助理教授韦东奕,他曾在 2008、2009 年两次获得满分。 邓哲文(高二) 湖北省武昌实验中学 徐祺铭(高二) 武汉市经开外国语高级中学 谈弘毅(高二) 武汉市经开外国语高级中学 张恒烨(高二) 重庆市巴蜀中学校 董镇宇(高三) 杭州学军中学 邓乐言(高一) 上海市上海中学 自 2019 年到 2023 年,中国队曾连续获得 IMO 冠军。 去年的冠军美国队本次获得了五金一银的成绩,位居第二。 国际数学奥林匹克竞赛(InternationaMathematical Olympiad,简称 IMO)是一项面向高中生的全球性数学竞 ...
世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台
机器之心· 2025-07-19 11:13
技术突破 - Decart发布全球首个实时无时长限制的扩散视频模型MirageLSD,支持任意视频流输入并实现40毫秒超低延迟转换[3] - 该技术突破视频生成两大瓶颈:实现无限长视频生成(突破传统模型20-30秒质量衰减限制)和零延迟交互(响应速度较前代提升16倍至24帧/秒)[19][20][28] - 核心技术采用实时流扩散(LSD)架构,通过逐帧去噪、历史增强方法及因果自回归结构保持时间连贯性[18][25][32] 应用场景 - 实时视频风格转换:可将摄像头画面/游戏画面实时转化为任意风格世界,支持文本提示控制[4][7][12] - 影视创作革新:实现自导自演实时电影,AI同步完成布景/风格化/剪辑[8] - 游戏开发提效:用基础几何体编码机制后由AI自动生成精美贴图,30分钟完成游戏原型开发[9][15] - AR/VR增强:支持视频会议虚拟背景、实时虚拟试衣及AR眼镜现实卡通化功能[11][12][13] 技术原理 - 采用Diffusion Forcing技术逐帧去噪,通过历史帧扰动训练增强模型对误差累积的鲁棒性[25] - 定制CUDA mega kernels和模型剪枝技术优化计算效率,使单帧生成时间压缩至40毫秒内[31] - 因果反馈机制实时融合历史帧/输入帧/用户提示,实现动态内容适应与零延迟响应[33][34][35] 发展潜力 - 前特斯拉AI总监Andrej Karpathy已作为天使投资人参与,认为技术具备通用性[14] - 公司计划升级面部一致性、语音控制、物体精准操控功能,并集成流媒体/游戏/视频通话场景[16] - 当前局限包括长期记忆窗口不足、极端风格下几何失真等问题,未来拟通过结构化控制信号提升编辑精度[36][37][38]
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型
机器之心· 2025-07-19 11:13
多模态大模型技术突破 - 当前主流多模态大模型(如Qwen2 5-VL GPT-4o)在数学 科学等结构化任务表现优异 但在通用场景下存在视觉线索误判且缺乏修正机制的问题[1][7][8] - 中科院自动化所提出的GThinker模型通过「线索引导式反思」机制实现「思考-反思-修正」闭环 显著提升复杂场景推理能力[2][3][10] - 模型采用两阶段训练法:先通过7K高质量标注数据冷启动反思能力 再通过动态采样强化学习实现跨场景泛化[17][18][20][23] 模型性能表现 - 在M³CoT基准测试中 GThinker-7B以81 5%综合得分超越O4-mini等闭源模型 并在科学(90 7%)数学(81%)等子领域达到SOTA[26][28] - 通用场景测试显示 该模型在MMStar(66 4%)RealWorldQA(70 1%)等数据集上优于Gemini-2 5 Pro(73 6%/78%)和GPT-4o(65 1%/76 2%)[29] - 方法具备泛化性 可使Qwen2 5-VL等开源模型在OpenCompass学术榜单上平均提升1个百分点(如Qwen2 5-VL从70 9%升至72 2%)[30][31] 技术创新细节 - 核心「Cue-Rethinking」流程分三阶段:自由推理标记视觉线索→触发反思提示→系统性回溯验证并修正结论[12][13][14] - 训练数据构建采用多模型协同标注策略 覆盖通用 数学 科学三大领域 并通过embedding聚类保证数据多样性[20][27] - 采用DAPO训练算法 动态采样结合无KL策略 更适合长链思考任务 相比GRPO提升探索效率[27]
Multi-Agent 协作兴起,RAG 注定只是过渡方案?
机器之心· 2025-07-19 09:31
从 RAG 检索增强到多层级状态演化,AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进,为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构,将对话 memory 分为短期、中期和长期三层,通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想,将固定长度上下文视为主内存,通过函数调用在主上下文和外部存储间分页调度,支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成(RAG)方式,通过向量索引检索用户相关信息并注入模型输入,实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入,依赖向量索引 [2] - AI Memory 注重状态持续性,需维护多层级 memory 架构并管理时序与优先级,结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补,RAG 增强知识性,Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限,AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]
当WAIC有了AI夜场,我们都聊些什么?
机器之心· 2025-07-18 18:30
编者荐语: 欢迎报名! 以下文章来源于世界人工智能大会 ,作者WAIC 世界人工智能大会 . 聚焦人工智能行业前沿,跟踪世界人工智能大会信息 B 47.75 2025/7/27 17:00 上海市浦东新区博成路 850 号 世博展览馆下沉式广场 当 AI 成为社交平台的热议焦点,当算法推荐悄 然改变我们的牛活方式, 你或许也曾好奇: AI 究 进入场地的那刻,你将成为手握"身份签证"的 自主玩家。你可以自由选择自己的立场:激进, 保守,又或是理性中立。 但别赢着视频航备! 《《《 是这场Al实验的关键变 因为在这场沉浸式探索中,你的观点可能会流动、 改变;而你也会在这一过程中重新认知自我。 共创WAIC UP!之夜的AI叙事 这里没有被动的观看,只有主动的共创。 从进门时的好奇探索,到离开前的惊喜发现,你的 每句发言、每个选择,都将成为这场AI之夜的关键 注脚。 这个夜晚没有剧本,结局将由我们共同拼成。 竟有什么"大不了"? WAIC UP!之夜将打破传统会议的刻板,搭建起 一个科技与人文交汇的互动现场。 这个夜晚,我们卸下距离感,邀请每一个带着好 奇心而来的"你",成为 Al 时代的共建者,共创 这场属于所 ...