ResNet

搜索文档
刚刚,何恺明官宣新动向~
自动驾驶之心· 2025-06-26 18:41
何恺明职业动态 - AI领域顶尖学者何恺明正式入职谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授身份[1][3][4] - 此次跨界标志着何恺明实现"学界+业界"双轨并行发展模式[5][12] - DeepMind联合创始人Demis Hassabis曾预测AGI将在5-10年内实现,何恺明的加入将加速该目标[7][8] 学术成就与技术贡献 - 提出深度残差网络(ResNet)成为现代AI模型基石,相关论文在2016-2021年连续三年位居谷歌学术全领域被引榜首[18][19] - 开发的Faster R-CNN和Mask R-CNN是物体检测领域被引量最高的论文之一,分别被引用91993次和45582次[19][21][24] - 论文总被引量达713370次,h-index指数71,近五年被引量597873次[18][19] 近期研究成果 - 2024年与Yann LeCun合作提出无归一化层Transformer,仅用9行代码实现,成果被CVPR 2025收录[33][34] - 2024年2月提出分形生成模型,将像素级图像生成计算效率提升4000倍[36][37] - 2024年5月联合CMU团队开发MeanFlow框架,实现无需预训练的一步生成建模[38][39] 职业经历与教育背景 - 曾任职微软亚洲研究院(2011-2016)和Meta FAIR实验室(2016-2023)[12][32] - 2007年获清华大学学士学位,2011年获香港中文大学博士学位[29][30] - 2009年成为首位获得CVPR最佳论文奖的中国学者,累计获得4次国际顶会最佳论文奖[24][27]
刚刚,何恺明官宣入职谷歌DeepMind!
猿大侠· 2025-06-26 11:20
何恺明职业动态 - AI领域顶尖专家何恺明正式加入谷歌DeepMind担任杰出科学家,同时保留MIT终身副教授职位[2][3][4][5] - 此次跨界加盟将显著增强DeepMind在AGI领域的技术实力,其学术影响力(论文总引用71万次)与业界经验(Meta/微软亚研院)形成双重优势[5][7][11][17] - DeepMind CEO Demis Hassabis曾预测AGI将在5-10年内实现,何恺明的加入将加速这一进程[8][9] 技术成就与行业影响 - 提出的ResNet成为深度学习基石,相关论文在2016-2021年连续位居谷歌学术全领域引用榜首(28万次)[5][18][20] - 开发的Faster R-CNN(引用9.2万次)和Mask R-CNN(引用4.6万次)持续引领计算机视觉发展[18][20][23] - 2024年最新研究成果包括:无归一化Transformer(9行代码实现)、分形生成模型(计算效率提升4000倍)、MeanFlow一步生图框架[31][34][35][36] 学术地位与职业轨迹 - 首位获得CVPR最佳论文奖的中国学者,累计斩获4项国际顶会最佳论文荣誉[23][26] - 职业经历覆盖微软亚研院(2011-2016)、Meta FAIR(2016-2023)、MIT(2023至今)三大顶尖机构[11][30][5] - 保持高频科研产出,2024年已有3篇突破性论文被CVPR/ICCV等顶会收录[32][34][36]
何恺明新身份:谷歌DeepMind杰出科学家
机器之心· 2025-06-26 08:30
何恺明加入谷歌DeepMind - 何恺明以兼职形式加入谷歌DeepMind,职位为杰出科学家(Distinguished Scientist)[4] - 具体研究方向尚未公开,但近期团队发表了单步图像生成论文MeanFlow,性能提升达50%[6] - 在CVPR workshop上提出生成模型可能走向端到端训练的历史性思考[6] 学术成就与行业影响 - 论文总被引量超71万次,其中ResNet单篇被引28万次,为21世纪被引最多论文之一[12][15] - 三获CVPR最佳论文奖(2009/2016/2021候选),并获ICCV 2017 Marr Prize[10][11][16] - ResNet建立的残差连接已成为Transformer、AlphaGo Zero等现代模型的核心组件[18][19] - 2021年提出的MAE模型(Masked Autoencoders)迅速成为计算机视觉领域热点[20] 职业轨迹与行业地位 - 职业经历覆盖微软亚研院(2011-2016)、Facebook AI Lab(2016-2024)、MIT(2024年起)[9] - 业界公认的科研标杆,每年仅产出少量一作论文但均为重量级成果[22] - 论文以简明易读著称,擅长用直观方式解释复杂概念[23] - 行业专家评价"使用卷积神经网络时50%概率涉及ResNet或其变种"[17]
专访张祥雨:多模态推理和自主学习是未来的 2 个 「GPT-4」 时刻
海外独角兽· 2025-06-08 12:51
多模态大模型发展现状 - 阶跃星辰发布中国首个千亿参数原生多模态大模型Step-1V 基于业内最早的图文生成理解一体化框架DreamLLM [3] - 多模态领域预计未来2-3年将迎来两个GPT-4时刻:多模态推理和自主学习 [3] - 当前多模态生成理解一体化面临四大挑战:语言对视觉控制能力弱 图文对齐不精确 数据质量有限 生成模块无法反向影响理解模块 [3] 计算机视觉领域瓶颈 - CV领域长期缺乏类似NLP的GPT时刻 主要受限于数据标注依赖和自监督方法局限性 [13][15] - 对比学习和MIM等方法在小模型有效 但缺乏scale up特性 因其学习的不变性来自人工设计而非数据驱动 [16][18][19] - 静态图像数据存在本质缺陷:生成 理解与人类对齐三者割裂 难以实现智能质变 [24][25][26] 多模态技术突破方向 - 短期解决方案是利用图文对齐数据 通过文字的自闭环特性赋予模型智能能力 [27] - 长期需探索视频和具身系统 视频数据蕴含更丰富信息但利用难度更高 [27] - 生成理解一体化需先解决视觉空间CoT问题 当前action space过于受限 [55][56] 大模型训练范式演进 - Next Token Prediction存在本质缺陷:更大模型在数学等推理任务上表现反降 因倾向跳步且优化目标与任务目标存在gap [38][40][42] - Rule-based RL通过直接优化任务目标 可抑制跳步并强化稳定思维路径 [44] - o1范式突破在于激发Meta CoT 允许模型在关键节点反悔重试 使推理从单线变为图状结构 [44][53] 多模态数据影响 - 图文混排训练中生成模块产生的gradient噪声大且信息量低 可能破坏语义理解 [62] - 高质量多模态数据应确保图文强相关 避免无关数据导致模型confuse [63][64] - 视频数据蕴含丰富思维过程但清洗难度大 是扩展action space的重要方向 [65][66] 未来技术趋势 - 多模态GPT时刻预计1年内到来 需解决生成可控性和视觉空间推理问题 [68][69] - 当前long context方案存在注意力涣散问题 未来可能采用multi-agent分层记忆架构 [69][73][74] - 模型自主学习是ASI关键路径 需解决环境scaling和自然语言反馈利用问题 [78][80][82]
亚裔 AI 人才的硅谷晋升之路,被一张绿卡阻断了?
36氪· 2025-04-28 19:23
核心观点 - 美国移民政策收紧对科技行业华裔高端人才造成重大冲击 典型案例为OpenAI研究员Kai Chen因绿卡被拒被迫离美 反映政治不确定性对技术人才流动的深刻影响 [1][2][4][12] - AI行业技术密集型特征曾打破华裔职场天花板 但当前政策环境可能逆转这一趋势 数据显示谷歌亚裔员工占比达45.7% 已超过白人 Meta等企业同样呈现此趋势 [7][9][10] - 全球AI人才争夺战加剧 欧洲和中国企业正积极吸纳受政策影响的顶尖研究者 华为"天才少年"计划提供500万/年研发预算 阿里字节等大厂推出专项人才引进项目 [19][20][21] 行业格局 - 美国AI企业亚裔技术贡献显著 OpenAI的GPT-4研发团队至少有33位华人 谷歌BERT模型、ResNet等里程碑成果均由华裔主导 [11] - 华裔在AI领域晋升通道改善 谷歌DeepMind副总裁Ya Xu、Scale AI联合创始人Lucy Guo等案例显示技术实力正成为职业发展核心驱动力 [11] - 印度裔仍占据高管优势 微软谷歌CEO均为印度裔 反映办公室政治能力差异带来的职场天花板尚未完全消除 [9] 人才流动 - 签证政策直接影响企业人才储备 全美超1000名国际学生签证被撤销 波及130所高校 达特茅斯等院校已出现研究助理被迫中断项目的案例 [16][17] - 远程工作成为过渡方案 Kai Chen计划在温哥华通过Airbnb维持工作 但欧洲和中国企业的主动挖角显示人才可能永久性流失 [13][19] - 马斯克等科技领袖公开反对H1B限制 警告政策将削弱美国AI竞争力 但特朗普政府内部存在废除H1B的激进主张 短期政策转向可能性低 [18] 企业应对 - OpenAI等公司面临人才体系风险 尽管公司对Kai Chen提供支持 但移民流程仍导致关键研究员流失 [5] - 中国科技企业加速海外引才 字节跳动通过组织架构调整吸纳Google Fellow级人才 华为为95后研究员开放6G项目主导权 [20][21] - 薪酬竞争力显著提升 阿里云A Star项目、字节Top Seed计划等针对顶尖研究者提供定制化发展路径 形成与美国企业的人才争夺战 [21]
「AI三杰」背后的广东隐忧
投资界· 2025-02-17 09:33
AI三杰背景分析 - De e ps e e k创始人梁文锋1985年出生于广东湛江 17岁考入浙江大学信息与电子工程系 2015年创办幻方量化 2021年资产管理规模突破千亿 2023年进军AI领域创办De e pSe e k [7][8] - Kimi创始人杨植麟1993年出生于广东汕头 2011年保送清华大学热能工程系后转计算机系 博士毕业于卡内基梅隆大学 曾在Facebook和谷歌任职 2023年在北京创办月之暗面科技 发布kimi大模型后融资超10亿美元 估值达30亿美元 [9][10][11] - 科学家何恺明1984年出生于广州 2003年广东省高考满分状元 本科就读清华大学物理系 研究生师从汤晓鸥 现任职于MIT 其ResNet技术突破神经网络19层限制至152层 论文引用量52万居全球AI学界第三 [12][13][14][15] 区域创业环境差异 - 广东缺乏世界一流科研院所 高校实力与清华 浙大 MIT存在差距 难以承载顶尖科研人才 [17] - 广东营商文化侧重短期快速回报 民营经济占比96 48% 但高科技产业需长期投入 如华为芯片 阿里云等项目需承受十年不盈利压力 [18] - 加州通过建设斯坦福等高校扭转"文化沙漠"印象 孕育硅谷 广东近年加速高校建设以提升基础科研能力 [17][19] 行业发展趋势 - AI领域创业门槛显著提高 头部项目如kimi de e ps e e k均由高学历人才主导 知识密集型特征明显 [17] - 深度学习核心技术突破依赖基础研究 ResNet等成果直接推动ChatGPT AlphaGo等应用发展 [13][14] - 量化金融与AI结合形成新赛道 幻方量化通过数学模型实现资产管理规模千亿级突破 [8]