Workflow
机器之心
icon
搜索文档
免费约饭!加拿大ICML 2025,相聚机器之心人才晚宴
机器之心· 2025-07-01 17:34
AI领域发展 - 2025年AI领域持续快速发展[1] - 图像视频生成技术取得突破性进展 扩散模型显著提升合成质量 分辨率 风格控制 语义理解等维度实现跨越式提升[2] - Google发布Veo 3实现原生音频同步生成 推动视频生成进入有声电影时代[2] ICML 2025会议 - ICML作为AI领域顶级学术会议 将于7月13-19日在加拿大温哥华会议中心举行[4] - 会议将汇聚全球顶尖AI研究成果[4] 云帆・ICML 2025 AI Talent Meetup活动 - 由机器之心联合上海人工智能实验室 东方菁汇 全球高校人工智能学术联盟共同发起[5] - 活动设置青年学者Talk 顶尖人才SHOW 互动体验 机构宣讲 企业岗位展示 晚宴交流等环节[7] - 活动时间7月15日16:00-20:30(加拿大时间) 地点温哥华会议中心周边 规模200人[8] - 旨在搭建人才与企业对话桥梁 探讨前沿技术应用落地问题[7] 机器之心活动经验 - 成功举办云帆・ICLR 2025 AI Talent Meetup CVPR 2025论文分享会 NeurIPS 2024论文分享会 ACL 2024 AI Talent晚宴等活动[11] - 活动有效助力合作伙伴吸纳人才并提升品牌影响力[11]
ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA
机器之心· 2025-07-01 17:34
背景 | 基于似然的生成模型 - 扩散模型和自回归模型在图像生成中占据主导地位,具有训练稳定、样本多样性强、容易规模化的特点 [4] - 这类模型显式估计数据的对数似然,但最大似然估计会导致「mode covering」问题,生成结果模糊或失真 [6] - 现有视觉生成模型依赖引导方法如CFG来抑制低质量生成样本 [6] 方法 | 直接判别优化(DDO) - DDO将基于似然的生成模型隐式参数化为GAN,无需额外网络即可实现高效微调 [1] - 使用对数似然比构造「隐式判别器」,引入反向KL散度强化真实数据附近的密度 [7][9] - 微调后的模型与原模型结构相同,但生成质量显著提升 [12] 实验结果 - 在ImageNet 256×256任务中,EDM模型+DDO的FID从1.97降至1.38 [14] - VAR-d16模型+DDO的FID从11.33降至3.12,VAR-d30模型+DDO的FID从4.74降至1.79 [14] - ImageNet 64×64无引导FID从1.58降至0.97,CIFAR-10无引导FID从1.85降至1.30 [18] - 生成图像的细节和真实度显著提升,且多样性未受影响 [15] 技术优势 - 无需修改网络结构、不增加推理成本,与主流CFG等引导方法兼容 [21] - 通过多轮self-play可进一步降低FID指标 [19] - 训练目标适用于扩散模型和自回归模型,具有通用性 [9][12] 应用展望 - 方法灵感来自语言模型的DPO,但扩展到了「分布对齐」 [23] - 自生成样本作为负例的思路与GRPO等RL算法相似,可用于数学推理等任务 [23] - 有望扩展至多模态生成任务,构建统一的对齐范式 [23]
SuperCLUE推理榜惊现黑马:原来中兴是一家AI公司?
机器之心· 2025-07-01 13:01
中兴通讯AI战略布局 - 公司凭借40年ICT技术积累正式进军AI赛道,星云大模型NebulaCoder-V6在SuperCLUE推理榜单以67.4分与字节跳动Doubao-1.5并列第一[1][2][4] - 在综合总榜中星云大模型与DeepSeek-R1并列第二,得分61.59,超越商汤、腾讯等厂商[4][5] - 公司内部AI代码占比已达30%,星云大模型日均生成15亿token,合成代码量达数千万行[13] 技术突破与模型优势 - 预训练阶段采用DASER框架构建全学科知识图谱,私域知识QA准确率从61.93%提升至66.48%[19][20][23] - 监督微调阶段引入批判学习(CL)和成对批判学习(PCL),代码生成任务准确率提升1.22-3.54个百分点[26][28][32] - 强化学习阶段创新双阶段优化策略,人类偏好打分提升13%,有效缓解能力崩塌问题[39][40][42] 行业协同与6G前瞻 - 通信网络自动化推动"自治网络"发展,6G将被设计为AI原生网络,需连接数千亿智能设备[9][10][11] - ICT与AI在数据处理、系统协同上高度契合,公司具备全栈技术积累和全局优化能力[45][47] - 产品生态全面AI化将打开巨大市场空间,形成硬件开发-软件平台-行业应用闭环[47][48] 核心竞争力分析 - 相比芯片厂商具备系统工程优势,较IT厂商拥有更强组网能力,较纯大模型厂商硬件能力突出[47] - 覆盖数学推理(62.1分)、科学推理(53.19分)、代码生成(86.59分)三大硬核维度[5][15] - 构建"批判-推理"数据飞轮,通过自动化场景挖掘持续优化模型意图理解能力[27][36]
你的下一个AI项目灵感,藏在首届魔搭开发者大会的七大论坛里
机器之心· 2025-07-01 13:01
AI时代背景与魔搭社区发展 - 当前处于AI下半场和软件3.0时代,创造者与AI协同进化重新定义可能性[1] - 魔搭社区(ModelScope)作为开放协作平台,汇聚顶尖智慧连接开发者与用户[1] - 社区成立两年多托管开源模型超7万个增长200倍,用户达1600万增长16倍[1] - 提供全链路服务覆盖LLM、多模态等领域,成为中国最大AI开源社区[2] 技术趋势与创新方向 - 开源生态:中国企业如阿里巴巴(通义千问)推动全球开源创新,Qwen系列成为开发者首选工具之一[8][10] - 多模态与世界模型:AI实现文本/图像/音频/视频跨模态交互,世界模型理解物理规律支撑机器人/自动驾驶发展[11][13] - 边缘AI:模型压缩技术推动端侧部署,清华团队开源Megrez-3B等小模型降低云端依赖[15][17][19] - 具身智能:人形机器人结合视觉语言模型执行仓库分拣等复杂任务,强调感知与行动协同[20][21][22] 行业应用与开发者生态 - 生成式AI深度应用于科学发现(新材料/药物设计)、工程设计(3D模型优化)、软件开发(代码重构)等领域[24] - 魔搭开发者大会覆盖65个主题,吸引通义千问、Gemma等国内外顶尖团队参与[5][6][7] - 推出开发者勋章激励计划,提供免费GPU算力及训练资源促进社区创新[25][26]
你的Agent电脑助手正在踩雷!最新研究揭秘Computer-Use Agent的安全漏洞
机器之心· 2025-07-01 13:01
核心观点 - 上海AI Lab、中国科学技术大学和上海交通大学联合推出RiOSWorld测试基准,用于全面评估Computer-Use Agent(CUA)在真实电脑使用场景中的安全风险 [1][8] - 当前阶段的CUA存在严重安全隐患,平均意图不安全率达84.93%,风险操作完成率达59.64% [24][25] - RiOSWorld搭建了100%真实的测试环境,包含492个风险案例,覆盖13类安全风险 [10][11][13] 研究背景 - 现有CUA测评环境缺乏真实性,风险类别单一,无法全面评估安全风险 [9] - RiOSWorld相比其他测评基准具有明显优势,支持真实网络环境和动态威胁 [10] 风险分类 - 环境风险(254个案例):钓鱼网站、钓鱼邮件、弹窗广告、reCAPTCHA、账户欺诈、诱导性文字 [11] - 用户风险(238个案例):网页操作、社交媒体、Office套件、文件操作、OS操作、代码IDE/Github、多媒体操作 [13] 评估方法 - 从两个维度评估:Risk Goal Intention(风险意图)和Risk Goal Completion(风险完成) [16] - 通过真实交互环境模拟各类风险场景,如点击恶意弹窗、执行高风险命令等 [19][20] 测试结果 - 主流CUA(GPT-4.1、Claude-3.7-Sonnet等)在钓鱼网站等高风险场景翻车率超89% [22][26] - 环境风险场景中,不安全意图率89.12%,完成率60.29% [24] - 用户风险场景中,不安全意图率81.33%,完成率59.07% [24] 项目成果 - 论文、项目官网和GitHub代码已全部开源 [2][4] - 为CUA安全发展提供了重要基准和方向指引 [29]
Sebastian Raschka著作免费开放!《机器学习与AI核心30问》,新手专家皆宜
机器之心· 2025-07-01 13:01
书籍免费开放 - 知名AI技术博主Sebastian Raschka宣布其著作《机器学习Q与AI:30个必备问答》的全部30章内容免费开放,旨在帮助夏季实习和技术面试的读者 [1] - 该书纸质版+电子版原价49.99美元(约358元),电子版原价39.9美元(约286元) [2] 书籍背景与特点 - 机器学习和AI领域发展迅速,从业者常疲于追赶新技术,该书提供从新手到专家的碎片化知识精华 [6][7] - 书籍内容写于2022年11月ChatGPT发布前,可能曾是ChatGPT的训练数据 [11] - 作者强调书籍内容并非AI生成,这违背其个人伦理 [12] 行业专家评价 - 《Designing Machine Learning Systems》作者Chip Huyen称赞该书融合学术深度、工程敏捷性和简化能力,是机器学习之旅的理想向导 [16] - 《How AI Works》作者Ronald T. Kneusel认为该书是关于关键AI主题的一站式指南,为已进入AI世界的读者提供下一阶段所需知识 [16] 书籍内容结构 第一部分:神经网络和机器学习 - 涵盖嵌入、隐空间与表征(第1章)、自监督学习(第2-3章)、彩票假设(第4章)、过拟合解决方案(第5-6章)、多GPU训练(第7章)、Transformers架构(第8章)、生成式AI模型(第9章)和随机性来源(第10章) [22][23][24][25][26][27][28][29][31][32][33][34][35][36][37][38] 第二部分:计算机视觉 - 包括CNN参数量计算(第11章)、全连接层与卷积层替代(第12章)、视觉Transformer数据需求(第13章) [39][40][41][42][44] 第三部分:自然语言处理 - 涵盖分布假说(第14章)、文本数据增强(第15章)、自注意力机制(第16章)、编码器-解码器Transformers(第17章)、预训练模型微调(第18章)和评估指标(第19章) [46][47][48][49][50][52] 第四部分:生产和部署 - 包括无状态/有状态训练(第20章)、以数据为中心的AI(第21章)、推理加速(第22章)和数据分布偏移(第23章) [54][55][56][57][58][59] 第五部分:预测性能和模型评估 - 涵盖泊松回归与有序回归(第24章)、置信区间构建(第25-26章)、评估指标特性(第27章)、k折交叉验证(第28章)、训练/测试集分布差异(第29章)和有限数据解决方案(第30章) [60][61][63][64][65][66][67][68][69][70]
Meta新AI团队成员大起底:8位华人,清北、浙大校友占半壁江山
机器之心· 2025-07-01 12:31
Meta AI人才战略 - Meta近期在AI领域采取激进人才招聘策略 从OpenAI 谷歌等竞争对手挖角顶级研究员和技术专家 组建11人豪华团队[1][2][3] - 新成立的「Meta超级智能实验室」由Scale AI创始人Alexandr Wang领导 其创立的Scale AI是硅谷最大AI公司之一 26岁成为亿万富豪[5][6][8] 核心团队成员背景 Alexandr Wang - 1997年出生 MIT辍学生 美国数学/物理/计算机奥林匹克竞赛获奖者 Quora早期程序员[6] - 2016年创立Scale AI 为AI模型开发提供数据标注服务 参与过行业多数领先模型开发[7][9] 毕树超 - 前OpenAI多模态后训练负责人 GPT-4o语音模式创建者 曾为谷歌广告业务带来超1亿美元增量收入[10][13] - 研究聚焦基础模型强化 科技前沿发展 以及通过自博弈智能体提升生产力[14] Huiwen Chang - 清华姚班本科 普林斯顿博士 参与创建GPT-4o图像系统 发明MaskGIT及Muse文生图架构[16][18][19] Ji Lin - 清华本科 MIT博士 开发过GPT-4o/4.1/4.5及Operator推理框架 曾任职NVIDIA Research[21][23][24] Shengjia Zhao - 清华本科 斯坦福博士 ICLR 2022杰出论文奖得主 创建ChatGPT/GPT-4等项目的合成数据团队主管[27][28][29] Hongyu Ren - 斯坦福博士 领导GPT-4o mini开发团队 曾任OpenAI后训练团队负责人[31][34][36] Pei Sun - 谷歌DeepMind Gemini架构师 主导Waymo近两代感知模型开发 精通多种编程语言[38][39][40] Jiahui Yu - 中科大少年班毕业 前Gemini多模态负责人 开发GPT-4.1/4o等模型 专精深度学习与高性能计算[41][43][47] 行业影响 - 团队构成显示Meta重点布局多模态AI 基础模型强化 以及合成数据技术领域[14][19][29] - 成员普遍具有清华 斯坦福 MIT等顶尖院校背景 且在OpenAI 谷歌等公司主导过核心项目[23][28][43]
伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来
机器之心· 2025-07-01 12:31
本文基于 Yutong Bai、Danny Tran、Amir Bar、Yann LeCun、Trevor Darrell 和 Jitendra Malik 等人的研究工作。 几十年来,人工智能领域一直在思考一个看似简单但非常根本的问题: 如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」? 在很多早期研究中,世界模型就是一个预测引擎:只要给它一个抽象的控制指令,比如「向前走一米」或者「向左转 30 度」,它就能模拟出未来的图像。这类方 式在实验室环境里已经发挥过很大作用,但一旦放到真正复杂的人类生活环境,就常常捉襟见肘。 毕竟,人并不是一个漂浮在空中的摄像头。人有四肢、有关节、有骨骼,也有着非常具体的物理限制: 这种「预演」能力让人类能及时修正动作并避免失误。也就是说,我们并不是光靠看到的画面做出决策,而是一直在用大脑里的「想象」,预测动作的结果。 如果未来的 AI 想在真实环境中做到和人一样自然地计划,就需要拥有同样的预测机制:「我如果这样动,接下来会看到什么?」 世界模型的老思路和新思路 这些物理约束决定了:并不是所有动作都能被执行,很多计划只能在可达、可平衡、可承受的 ...
UofT、UBC、MIT和复旦等联合发布:扩散模型驱动的异常检测与生成全面综述
机器之心· 2025-07-01 07:48
扩散模型(Diffusion Models, DMs)近年来展现出巨大的潜力,在计算机视觉和自然语言处理等诸多任务中取得了显著进展,而异常检测(Anomaly Detection, AD)作为人工智能领域的关键研究任务,在工业制造、金融风控、医疗诊断等众多实际场景中发挥着重要作用。近期,来自多伦多大学、 不列颠哥伦比亚大学 、麻省理工学院、悉尼大学、卡迪夫大学和复旦大学等知名机构的研究者合作完成题为 "Anomaly Detection and Generation with Diffusion Models: A Survey" 的长文 综述,首次聚焦于 DMs 在异常检测与生成领域的应用。该综述系统性地梳理了图像、视频、时间序列、表格和多模态异常检测任务的最新进展并从扩散模型视角 提供了全面的分类体系,结合生成式 AI 的研究动向展望了未来趋势和发展机遇,有望引导该领域的研究者和从业者。 论文标题: Anomaly Detection and Generation with Diffusion Models: A Survey 论文链接: https://arxiv.org/pdf/2506.09368 ...
刚刚,Meta宣布正式成立「超级智能实验室」!11人豪华团队首曝光
机器之心· 2025-07-01 07:48
机器之心报道 编辑:杜伟 该部门将由数据标注初创公司 Scale AI 前 CEO Alexandr Wang 领导,并担任公司首席人工智能官。同时, 扎克伯克还首次 曝光了 11 位从 OpenAI、Anthropic、谷歌 DeepMind 那里挖来的顶尖人才 。 扎克伯格表示,MSL 将吸纳公司的各个团队,致力于开发 Llama 开源系列大模型、相关产品和基础人工智 能研究项目等。 以下是扎克伯克完整的备忘录内容: 随着人工智能进步的加速,发展超级智能已指日可待。我相信这将是人类新纪元的开端,我本人将全力以 赴,确保 Meta 引领这一进程。今天,我想详细介绍一下我们如何调整组织架构,以实现我们的愿景:「为 每个人打造专属的超级智能」。 我们将把整个组织命名为「Meta 超级智能实验室」(Meta Superintelligence Labs,简称 MSL)。 这包括我 们所有的基础研究、产品和 FAIR 团队,以及一个新成立的专注于开发下一代模型的实验室 。 Alexandr Wang 已加入 Meta,担任我们的首席人工智能官 (Chief AI officer) 并领导 MSL。Alexandr ...