深度学习
搜索文档
港中文(深圳)冀晓强教授实验室全奖招收博士/博士后
具身智能之心· 2025-10-12 00:02
研究内容与方向 - 实验室聚焦人工智能控制理论、具身智能控制及强化学习控制等核心研究方向[11] - 致力于深度融合控制论、人工智能、机器人学、高性能计算及大数据等基础科学[13] - 开展人工智能与智能系统领域的基础理论与原创性研究[13] 任职要求与候选人背景 - 博士后需已获得或即将获得控制科学与工程、人工智能、机器人、计算机科学等相关专业博士学位[2] - 博士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业硕士学位或优秀学士学位[3] - 硕士研究生需已获得或即将获得计算机科学、数据科学、自动化等相关专业本科学位[5] - 候选人需对控制理论、人工智能、机器人学有浓厚科研兴趣并具备扎实数学和编程基础[4] 通用技能与加分项 - 熟悉CLIP、BLIP、LLaVA等多模态大模型及其应用[6] - 熟悉VAE、Transformer、BERT等经典模型并具备实现与调试能力[7] - 具备出色算法设计与编程能力,熟悉Linux,掌握C++/Rust等高性能语言者更佳[8] - 了解LLaMA、Qwen等大语言模型架构,具有无监督预训练、SFT、RLHF等实践经验者优先[9] - 曾在IJRR、ICRA、IROS、RSS等机器人顶会或ICML、NeurIPS、ICLR等AI顶会发表论文者优先[12] - 拥有顶尖竞赛经历或知名企业核心AI项目主导经验者优先[12] 导师与实验室资源 - 实验室导师冀晓强教授为香港中文大学(深圳)理工学院助理教授,主持多项国家级及省市级科研项目[13] - 实验室在IEEE Transactions on Automatic Control、Automatica等顶尖期刊及会议发表论文五十余篇[13] - 实验室提供国际化科研氛围、丰富算力资源及行业合作机会[2] 福利待遇 - 博士后可获得省市生活补助每人每年税前21万元,总额不超过42万元,大学另提供每人每年5万元专项补贴[14] - 博士后符合条件者可申请广东省海外博士后人才支持项目,享受在站补贴税前60万元/2年,出站留粤补贴税前40万元/3年[14] - 博士后可申请各级科研课题资助,出站后深圳市给予30万元科研或创业资助[14] - 博士生可获全奖/半奖,学费全覆盖并额外提供生活津贴,优秀者可申请校长奖学金税后18万/年[15] - 研究型硕士优秀者可额外提供生活津贴,毕业后有转PhD机会[16] 申请流程 - 申请材料需包括个人完整中英文简历、已发表代表作论文及其他证明个人科研能力的材料[19] - 申请邮件需以“姓名-当前所在单位/机构-博士后/博士/研究型硕士申请”为题发送至指定邮箱[17]
77 岁“AI 教父”,关于“下一代智能”,他最担心什么?
36氪· 2025-10-11 11:13
文章核心观点 - AI教父Geoffrey Hinton指出下一代AI的核心风险在于其发展出自主目标、人类无法理解其内部决策逻辑以及其知识共享速度远超人类,超级智能可能在5到20年内出现,而人类社会的应对机制远落后于AI的进化速度 [3][4][5][28][29][32][34] AI行为逻辑的根本转变 - 下一代AI的本质特征不是变得更聪明,而是开始拥有目标、动机和行为倾向,从被动执行指令的工具转变为主动设定子目标的参与者 [6][7][8] - AI通过创建子目标来达成任务,例如会推导出“要完成任务必须先生存下来”以及“获得更多权力和控制”这类中间目标 [8][9] - 这种转变使得AI的行为逻辑从“我命令你做”演变为“你决定我该怎么做”,关系发生根本性改变 [10] AI系统的不可解释性风险 - 现代大模型通过从海量数据中学习而“生长”出来,其内部决策过程如同黑箱,人类无法理解其判断依据和学习机制 [12][13][14] - 神经网络会掌握大量隐性知识,这些知识并非开发者故意植入,甚至开发者都未意识到AI已具备这些知识 [16] - 在高风险应用场景如医学诊断和金融交易中,依赖一个无法理解的系统做决策存在巨大隐患 [17] AI能力加速放大的机制 - 数字智能通过模型副本间直接共享连接强度参数来实现知识共享,效率远超人类语言交流 [21][22][23] - AI副本间的信息共享量级达到一万亿比特,而人类一句对话仅约100比特,存在超过十亿倍的效率差异 [25][27] - 这种高效的知识共享机制使得AI能快速整合不同领域的专业知识,如医学、法律和编程,风险被急剧放大 [26][27] 超级智能出现的时间窗口 - 大多数专家认为比人类更聪明的AI将在5到20年内出现,其能力增长是指数级的,时间窗口比预期更短 [4][28] - AI的迭代速度以月甚至天为单位,而人类从研究到立法的反应链长达数年,应对速度远远落后 [29][34] - 当前缺乏足够强大的全球监管合作机制,规则制定速度远跟不上技术发展步伐 [28][34]
研判2025!中国特殊空间机器人行业市场政策、产业链、市场规模、竞争格局及发展趋势分析:国产化替代进程提速[图]
产业信息网· 2025-10-11 09:26
文章核心观点 - 特殊空间机器人行业受益于城市化进程加速及老旧管网更新需求,正从示范试点转向常规运维工具,市场渗透率持续提升 [1][6] - 2024年中国特殊空间机器人市场规模达7亿美元,同比增长16.67%,占全球市场规模的23% [1][6] - 行业竞争格局发生转变,国内企业在技术积累下市场占有率不断提升,国产化替代进程提速 [7] 行业定义与分类 - 特殊空间机器人是特种机器人的一个子类,专为高风险、狭窄及密闭环境作业而设计,执行检查、维护、清洁及修复等任务 [2] - 主要部署于管网及节点特殊空间,涵盖水务、燃气、电力、热力和石化等多个领域 [2] - 按应用场景可分为管网特殊空间机器人和节点及其他特殊空间机器人两大类 [2] 市场驱动因素 - 城市化进程推进导致城市地下管网、水厂、热源厂、燃气门站等设施建设不断扩张,新增管道敷设量持续增加 [1][6] - 大量老旧管道已超过设计使用年限,催生了对检测、评估、修复、改造的庞大需求 [1][6] - 特殊空间机器人凭借高效、低风险及非开挖作业等优势,满足市场需求 [1][6] 政策环境 - 行业受到国家一系列政策支持,包括《关于推动未来产业创新发展的实施意见》、《推动大规模设备更新和消费品以旧换新行动方案》等,提供了良好的政策环境 [4] 产业链分析 - 行业上游主要包括摄像头模块、伺服电机、减速器、控制器、芯片、传感器、激光雷达等 [5] - 行业中游为特殊空间机器人的研发与生产制造 [5] - 行业下游应用市场广泛,涵盖排水、供水、供热、燃气、电力等多种管道及净水厂、泵站、水厂等设施 [5] 行业竞争格局 - 行业技术壁垒较高,市场曾由Envirosight、IBAK、RedZoneRobotics等欧美企业主导 [7] - 以深圳博铭维、武汉中仪物联、深圳华卓机器人等为代表的国内企业市场占有率不断提升 [7] - 武汉中仪物联技术股份有限公司业务已覆盖全球50多个国家和地区,实现内衬软管全球应用超2000公里,紫外光固化机组300台,管道机器人4000台 [9] 未来发展趋势 - 随着人工智能、深度学习技术发展,特殊空间机器人将具备更强的环境感知、自主决策和学习能力 [9] - 行业产业链上下游企业将加强合作,共同攻克技术难题,上游供应商将研发更适配的零部件,中游企业与下游应用企业紧密合作开发更符合需求的产品 [9]
李飞飞发起机器人家务挑战赛!老黄第一时间批钱赞助
量子位· 2025-10-11 09:15
挑战赛概述 - 由李飞飞团队发起、英伟达赞助的首届BEHAVIOR家务挑战赛正式启动,旨在凝聚学术界和产业界力量推动机器人做家务的能力[3][4] - 参赛者需统一使用星海图R1 Pro机器人,在BEHAVIOR-1K虚拟家庭环境中解决50项完整的家务任务,涵盖重新布置、烹饪、清洁等活动[5] - 比赛设置两条赛道:标准赛道机器人仅能依靠自身感知决策,特权赛道则可获取更详细的环境状态信息如物体坐标和房间结构[7][9] 比赛机制与资源 - 官方提供1万条专家演示轨迹作为训练数据,总计约1200小时,方便参赛者通过模仿学习快速上手[6] - 评分标准以平均任务完成率为主,同时考核部分完成度、模拟时间、导航距离、手部位移及稳定性等次要指标[7] - 比赛提交截止日期为2025年11月15日,获奖前三名将获得最高1000美元奖金及RTX 5080显卡[8] 项目愿景与行业意义 - BEHAVIOR项目灵感源于ImageNet,旨在通过标准化挑战赛解决机器人学习领域缺乏基准、任务零散及训练数据匮乏的痛点[11][14][25] - 项目以人为中心设计,强调AI增强和赋能人类,确保机器人目标与人类需求相符,并将家务任务视为机器人领域的“北极星”任务[16][18] - 挑战赛规模巨大,覆盖1000个家庭活动,50个完整长程挑战,平均单个任务需6.6分钟连续操作,具备成为具身智能领域基准的潜力[20][21] 技术挑战与能力要求 - 成功完成家务要求机器人同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项综合能力[19] - 家务任务正成为具身智能项目的重要测试场景,类比于大语言模型的检测是做题,具身智能机器人的检测是做家务[24]
高频选股因子周报(20250929-20250930)-20251009
国泰海通证券· 2025-10-09 22:37
根据提供的研报内容,以下是关于量化因子和模型的详细总结: 量化因子与构建方式 **1 因子名称:日内高频偏度因子** 因子构建思路:利用股票日内高频收益的分布偏度特征来预测未来收益[11] 因子具体构建过程:计算方式请参考专题报告《选股因子系列研究(十九)——高频因子之股票收益分布特征》[11] **2 因子名称:日内下行波动占比因子** 因子构建思路:通过分析已实现波动中下行波动的占比来选股[15] 因子具体构建过程:计算方式请参考专题报告《选股因子系列研究(二十五)——高频因子之已实现波动分解》[15] **3 因子名称:开盘后买入意愿占比因子** 因子构建思路:基于开盘后的交易行为数据度量市场买入意愿[21] 因子具体构建过程:计算方式请参考专题报告《选股因子系列研究(六十四)——基于直观逻辑和机器学习的高频数据低频化应用》[21] **4 因子名称:开盘后买入意愿强度因子** 因子构建思路:衡量开盘后买入意愿的强度水平[25] 因子具体构建过程:计算方式请参考专题报告《选股因子系列研究(六十四)——基于直观逻辑和机器学习的高频数据低频化应用》[25] **5 因子名称:开盘后大单净买入占比因子** 因子构建思路:分析开盘后大单净买入在总成交中的占比[28] **6 因子名称:开盘后大单净买入强度因子** 因子构建思路:度量开盘后大单净买入的强度[33] **7 因子名称:改进反转因子** 因子构建思路:在传统反转因子基础上进行优化改进[38] **8 因子名称:尾盘成交占比因子** 因子构建思路:利用尾盘成交在总成交中的占比信息[41] **9 因子名称:平均单笔流出金额占比因子** 因子构建思路:分析平均单笔流出金额的占比特征[47] **10 因子名称:大单推动涨幅因子** 因子构建思路:衡量大单交易对股价上涨的推动程度[52] **11 因子名称:改进GRU(50,2)+NN(10)因子** 因子构建思路:基于门控循环单元(GRU)和神经网络(NN)的深度学习模型[56] **12 因子名称:残差注意力LSTM(48,2)+NN(10)因子** 因子构建思路:结合残差注意力机制的长短期记忆网络(LSTM)模型[59] **13 因子名称:多颗粒度模型-5日标签因子** 因子构建思路:基于双向A-GRU训练的多时间颗粒度模型[60] 因子具体构建过程:因子基于双向A-GRU训练得到[60] **14 因子名称:多颗粒度模型-10日标签因子** 因子构建思路:基于双向A-GRU训练的多时间颗粒度模型[61] 因子具体构建过程:因子基于双向A-GRU训练得到[61] 量化模型与构建方式 **1 模型名称:中证500 AI增强宽约束组合** 模型构建思路:基于深度学习因子构建指数增强组合,采用较宽松的风险约束[65] 模型具体构建过程:优化目标为最大化预期收益,目标函数为: $$max\sum\mu_{i}w_{i}$$[66] 其中$w_i$为组合中股票i的权重,$\mu_i$为股票i的预期超额收益[66] **2 模型名称:中证500 AI增强严约束组合** 模型构建思路:基于深度学习因子构建指数增强组合,采用较严格的风险约束[65] 模型具体构建过程:优化目标为最大化预期收益,目标函数为: $$max\sum\mu_{i}w_{i}$$[66] **3 模型名称:中证1000 AI增强宽约束组合** 模型构建思路:基于深度学习因子构建指数增强组合,采用较宽松的风险约束[65] 模型具体构建过程:优化目标为最大化预期收益,目标函数为: $$max\sum\mu_{i}w_{i}$$[66] **4 模型名称:中证1000 AI增强严约束组合** 模型构建思路:基于深度学习因子构建指数增强组合,采用较严格的风险约束[65] 模型具体构建过程:优化目标为最大化预期收益,目标函数为: $$max\sum\mu_{i}w_{i}$$[66] 因子的回测效果 **1 日内高频偏度因子**:历史IC 0.027,2025年IC 0.043,历史e^(-rank mae) 0.324,2025年e^(-rank mae) 0.329,9月多空收益4.61%,2025YTD多空收益17.00%,2025年月胜率6/9,9月多头超额2.15%,2025YTD多头超额5.55%,2025年多头月胜率5/9[8] **2 日内下行波动占比因子**:历史IC 0.025,2025年IC 0.037,历史e^(-rank mae) 0.324,2025年e^(-rank mae) 0.326,9月多空收益3.44%,2025YTD多空收益14.16%,2025年月胜率7/9,9月多头超额0.72%,2025YTD多头超额1.58%,2025年多头月胜率5/9[8] **3 开盘后买入意愿占比因子**:历史IC 0.031,2025年IC 0.030,历史e^(-rank mae) 0.322,2025年e^(-rank mae) 0.324,9月多空收益0.45%,2025YTD多空收益10.17%,2025年月胜率6/9,9月多头超额0.30%,2025YTD多头超额3.83%,2025年多头月胜率7/9[8] **4 开盘后买入意愿强度因子**:历史IC 0.035,2025年IC 0.030,历史e^(-rank mae) 0.326,2025年e^(-rank mae) 0.329,9月多空收益0.49%,2025YTD多空收益11.13%,2025年月胜率7/9,9月多头超额0.68%,2025YTD多头超额4.60%,2025年多头月胜率6/9[8] **5 开盘后大单净买入占比因子**:历史IC 0.041,2025年IC 0.036,历史e^(-rank mae) 0.324,2025年e^(-rank mae) 0.324,9月多空收益2.09%,2025YTD多空收益16.20%,2025年月胜率8/9,9月多头超额0.58%,2025YTD多头超额8.16%,2025年多头月胜率8/9[8] **6 开盘后大单净买入强度因子**:历史IC 0.033,2025年IC 0.028,历史e^(-rank mae) 0.323,2025年e^(-rank mae) 0.322,9月多空收益1.59%,2025YTD多空收益12.01%,2025年月胜率8/9,9月多头超额1.21%,2025YTD多头超额6.55%,2025年多头月胜率8/9[8] **7 改进反转因子**:历史IC 0.032,2025年IC 0.016,历史e^(-rank mae) 0.324,2025年e^(-rank mae) 0.331,9月多空收益-0.74%,2025YTD多空收益4.14%,2025年月胜率5/9,9月多头超额-0.17%,2025YTD多头超额4.07%,2025年多头月胜率6/9[8] **8 尾盘成交占比因子**:历史IC 0.049,2025年IC 0.032,历史e^(-rank mae) 0.332,2025年e^(-rank mae) 0.323,9月多空收益3.11%,2025YTD多空收益15.09%,2025年月胜率7/9,9月多头超额1.03%,2025YTD多头超额6.55%,2025年多头月胜率6/9[8] **9 平均单笔流出金额占比因子**:历史IC 0.020,2025年IC 0.009,历史e^(-rank mae) 0.317,2025年e^(-rank mae) 0.319,9月多空收益-0.86%,2025YTD多空收益3.22%,2025年月胜率5/9,9月多头超额0.56%,2025YTD多头超额3.43%,2025年多头月胜率7/9[8] **10 大单推动涨幅因子**:历史IC 0.016,2025年IC 0.011,历史e^(-rank mae) 0.322,2025年e^(-rank mae) 0.327,9月多空收益2.62%,2025YTD多空收益7.76%,2025年月胜率7/9,9月多头超额1.48%,2025YTD多头超额3.63%,2025年多头月胜率6/9[8] 模型的回测效果 **1 中证500 AI增强宽约束组合**:上周超额收益-0.99%,9月超额收益-4.80%,2025YTD超额收益-0.06%,2025年周胜率23/40[11] **2 中证500 AI增强严约束组合**:上周超额收益-1.00%,9月超额收益-2.32%,2025YTD超额收益2.66%,2025年周胜率24/40[11] **3 中证1000 AI增强宽约束组合**:上周超额收益-1.48%,9月超额收益-1.06%,2025YTD超额收益7.53%,2025年周胜率26/40[11] **4 中证1000 AI增强严约束组合**:上周超额收益-0.79%,9月超额收益-0.12%,2025YTD超额收益13.11%,2025年周胜率25/40[11]
算法小垃圾跳槽日记 2024&2025版
自动驾驶之心· 2025-10-06 12:05
行业技术趋势 - 计算机视觉领域传统算法需求锐减,检测、分割等已被归类为传统算法,类似SVM、SIFT的地位 [8] - 市场需求高度集中于大模型、多模态、文生图/视频以及自动驾驶端到端大模型等前沿方向 [8] - 自动驾驶公司的感知岗位是计算机视觉领域内少数仍有需求的领域 [8] 企业招聘动态 - 2024年求职机会相比2021年显著增多,各大厂及知名中小厂均能提供较多面试机会 [8] - 面试流程密集,存在单日进行多达8场面试的情况,反映出招聘活动活跃 [4] - 企业招聘考核标准趋严,几乎所有公司都要求手写LeetCode代码题,高频题目包括实现NMS、MultiHeadSelfAttention、MLP的前向和反向、岛屿数量等 [9][11] 业务部门价值 - 公司中台部门业务价值受到质疑,缺乏自有业务,主要承接其他部门已深度优化的算法任务,难以形成系统性业务积累 [6] - 行业出现去中台化趋势,中台部门对求职者吸引力较低 [6] - 相比中台,拥有稳定业务的部门(如内容安全)更具吸引力 [6]
北大校友、华人学者金驰新身份——普林斯顿大学终身副教授
机器之心· 2025-10-04 13:30
金驰教授学术晋升与贡献 - 华人学者金驰在普林斯顿大学晋升为终身副教授,任命于2026年1月16日正式生效[1][4] - 金驰于2019年加入普林斯顿大学电气与计算机工程系担任助理教授,在6年任期内AI学术影响力迅速提升[3] - 其晋升是对其在机器学习理论领域所做基础性贡献的高度认可,这些贡献为当前大语言模型的崛起提供了关键数学基石[4] - 金驰与杨笛一、杜少雷等华人学者于2024年获得斯隆奖[6] - 在Google Scholar上,其论文总引用次数已达13,588次[27] 核心理论贡献:非凸优化 - 金驰的研究解决了深度学习革命中的一个根本问题:为何像随机梯度下降这样简单的优化器能有效训练大规模非凸模型[8][9] - 其工作证明,只要存在少量噪声,简单的梯度方法就能有效逃离损失函数景观中的鞍点,并在多项式时间内继续向更优区域探索[12] - 代表性论文《How to Escape Saddle Points Efficiently》(ICML 2017)被引1,111次,《Accelerated Gradient Descent Escapes Saddle Points Faster than Gradient Descent》(COLT 2018)也是该领域奠基性工作[14][17] - 该理论成果解释了简单算法在复杂问题上表现出的“不合理的有效性”,让公司和研究机构敢于投入数十亿美元进行模型训练,确信底层优化过程稳健[17] 核心理论贡献:强化学习 - 金驰的研究为强化学习核心算法的样本效率建立了严谨证明,推动了理论突破[10][19] - 其工作首次证明了无模型算法在复杂设定下具备样本效率,达到了近乎最优的遗憾界限[22] - 代表性论文《Is Q-learning Provably Efficient?》(NIPS 2018)被引1,113次,《Provably Efficient Reinforcement Learning with Linear Function Approximation》(COLT 2020)被引997次[20][22][27] - 该理论保障为开发更稳健、可靠的强化学习算法提供指导,确保其能在高风险、关键应用中安全部署[23] 学术背景与影响 - 金驰拥有北京大学物理学学士学位和加州大学伯克利分校电气工程与计算机科学博士学位[25] - 其博士导师为机器学习领域泰斗Michael I Jordan教授,早期多篇关键论文均与Jordan合作完成[25] - 金驰团队近期领衔开发了最强开源数学定理证明模型“哥德尔-Prover”,其32B参数模型性能大幅超越前代SOTA DeepSeek 671B模型[31]
吴恩达执教的深度学习课程CS230秋季上新,新增GPT-5专题
机器之心· 2025-10-04 11:38
课程概述与更新 - 斯坦福大学CS230深度学习旗舰课程已更新至2025年秋季版,由吴恩达执教 [1] - 课程采用翻转课堂模式,学生需提前在Coursera上观看deeplearning.ai专项课程视频,再参加线下课程 [3] - 课程核心框架与往年相似,但针对最新AI发展进行了更新,最大变化是新增了GPT-5专题章节 [4] 2025秋季版核心更新 - 新增深入探讨OpenAI于2025年8月发布的GPT-5模型的专题章节,内容覆盖其特性、过度拒绝问题、安全行为机制、微调技术及创新的agentic workflows [4] - 增强了对生成模型的讲解,并整合了最新的RAG和AI Agents等热门技术,结合GPT-5进行案例分析 [6] - 更注重AI项目开发全生命周期,强调从科学、工程到决策的完整项目技能,推荐使用Workera等前沿评估工具 [6] 课程结构与师资 - 课程从9月底开始,持续约10周,包含编程作业、测验和最终的大型项目 [15][16] - 师资包括人工智能领域顶尖专家吴恩达(斯坦福大学客座教授,Coursera和DeepLearning.AI创始人)以及Kian Katanforoosh(斯坦福大学讲师,Workera创始人兼CEO) [15] 课程核心主题 - 覆盖从基础理论到前沿应用的完整知识体系,包括神经网络与深度学习基础、神经网络优化技术、机器学习项目构建策略 [18][20] - 深入讲解卷积神经网络(CNN)在图像分类等领域的应用,以及循环神经网络(RNN)在自然语言处理等序列任务中的应用 [20] - 探索前沿高级主题,如生成对抗网络(GANs)、深度强化学习、对抗性攻击,并提供行业与学术洞见及AI职业发展建议 [20]
国庆长假充电指南:Ilya Sutskever's Top 30 论文阅读清单
锦秋集· 2025-10-01 21:25
文章核心观点 - 文章推荐了一份由Ilya Sutskever精选的30篇AI领域前沿论文合集,该合集覆盖了近15年AI发展的里程碑成果,以"技术底层-能力突破-场景落地"为主线,串联了AI从感知智能到认知智能的关键跃迁 [4] - 该论文合集旨在帮助投资者、从业者与研究者系统梳理AI技术演进脉络,深刻理解当前AI产业落地的机遇与挑战,实现专业能力的高效提升 [1][5] - 合集内容不仅清晰拆解了残差映射、动态指针网络等专业术语的技术逻辑,还通过论文中的实验数据和架构设计,为从业者提供从理论到落地的参考路径 [5] 论文合集技术框架 - 合集涵盖奠定深度学习基础的CNN、RNN,重构自然语言处理领域的Transformer与自注意力机制,以及推动RAG、多步推理等前沿方向的核心研究 [4] - 每篇论文都是对应技术领域的奠基之作,直接关联当前AI产业落地的核心能力底座,包括《GPipe》中的并行训练方案如何降低大模型算力成本,《Retrieval-Augmented Generation》如何解决AI幻觉问题以适配金融、医疗等高精度场景 [4][5] 代表性论文技术要点 深度学习基础架构 - ImageNet Classification with Deep Convolutional Neural Networks论文提出的CNN架构包含5个卷积层和3个全连接层,在ILSVRC-2010数据集上top-5错误率为17.0%,显著优于此前方法 [48][52] - Deep Residual Learning for Image Recognition提出的残差网络通过残差块简化了深层网络训练,152层ResNets在ImageNet等数据集上性能优于VGG nets [73][77] - Recurrent Neural Network Regularization提出将dropout技术应用于LSTM的新方法,在Penn Tree Bank数据集上词级困惑度显著降低 [21][24] 注意力机制与Transformer - Attention is All You Need完全依赖自注意力机制提出Transformer架构,在WMT 2014 English-to-German翻译任务中BLEU分数达到28.4,比当时最先进模型高出2个多BLEU点 [105][117] - Neural Machine Translation by Jointly Learning to Align and Translate引入注意力机制解决固定长度向量瓶颈问题,在WMT '14 English-to-French翻译任务上BLEU分数显著提升 [119][126] 模型扩展与优化技术 - GPipe通过微批量流水线并行技术实现大型神经网络高效训练,支持训练包含60亿参数、128层的Transformer模型,在ImageNet-2012数据集上top-1准确率达到84.4% [62][72] - Scaling Laws for Neural Language Models发现模型性能与参数规模遵循幂律关系,更大规模模型具有更高样本效率,在固定计算预算下训练极大型模型是最优策略 [212][218] 特定应用领域突破 - Neural Message Passing for Quantum Chemistry提出的MPNNs框架在QM9数据集上13种性质中有11种达到化学精度,为分子性质预测提供强大工具 [94][101] - Deep Speech 2端到端语音识别模型在英语和普通话上均实现高准确率,在WSJ、LibriSpeech等基准测试中性能超过人类转录员 [203][209] - Pointer Networks提出新型神经架构解决输出词典大小可变问题,在计算平面凸包、德劳内三角剖分等几何问题上性能显著优于传统序列到序列模型 [37][45] 技术演进趋势 - 从传统神经网络到残差网络、注意力机制的演进表明,通过架构创新可有效解决梯度消失、长期依赖关系等核心挑战 [73][105] - 模型规模与性能关系研究为大规模神经网络训练提供理论指导,计算效率最优策略推动行业向极大型模型方向发展 [212][224] - 多令牌预测等新型训练方法重新定义LLMs处理文本方式,通过并行预测多个未来令牌提升模型效率和速度 [259][264]
革命就要有人牺牲,最后一次人工智能革命牺牲的是谁的命?
搜狐财经· 2025-10-01 14:01
人工智能革命的性质与前景 - 人工智能革命被视为人类社会的最后一次技术革命,其发展将经历数十年乃至数百年,并可能伴随能源核聚变的突破 [1] - 该革命是技术革命的核心驱动力,旨在实现机器的自主决策能力,依赖机器学习、深度学习和大模型等核心技术 [3] - 人工智能革命将重塑产业格局,并对国防、医疗、金融等关键领域产生深远影响 [3] 技术发展中的挑战与代价 - 技术突破往往伴随着牺牲,具体表现为科研人员在推动前沿应用时承担的风险 [1] - 发展过程中需面对伦理、法律与安全挑战 [3] - 在推动人工智能技术,尤其是国防应用时,已有专家因公牺牲,例如国防科技大学38岁的冯旸赫副教授于2023年7月1日在北京执行任务期间因车祸不幸牺牲 [5] 案例分析:冯旸赫的贡献与牺牲 - 冯旸赫是中国著名指挥控制和人工智能领域专家,专注于兵棋推演、智能辅助决策等军事人工智能研究 [5] - 其贡献在于提升国防系统的智能决策能力 [5] - 官方通报将其牺牲定性为“因公牺牲”,未证实关于外部干预的猜测,强调其在人工智能军事应用领域的贡献 [7]