深度学习
搜索文档
突发|华为诺亚方舟实验室主任王云鹤离职
机器之心· 2026-03-28 12:45
行业高层人事变动 - 2026年以来,国内AI圈经历一系列高层人事变动,表明行业正经历一次深刻的结构性转折[3] - 华为诺亚方舟实验室主任王云鹤官宣离职,成为行业焦点[1][25] 王云鹤个人背景与职业履历 - 王云鹤生于1991年,本科就读于西安电子科技大学数学与应用数学专业,2018年博士毕业于北京大学智能科学系[5] - 其研究方向包括深度学习、模型压缩、机器学习、计算机视觉等[5] - 博士毕业前已在华为诺亚方舟实验室实习,毕业后加入并担任高级工程师,后续升任主任工程师和技术专家[8] - 2021年担任华为算法应用部部长,负责高效AI算法的创新研发与应用,其“大幅提升算力的高效能乘法器和加法神经网络”获选华为第四届“十大发明”[8] - 2025年3月接班姚骏,担任华为诺亚方舟实验室主任,在华为工作超过8年[8] - 他是一位活跃的知乎答主,是“深度学习”话题的优秀答主[11] 王云鹤的学术成就与研究贡献 - 谷歌学术引用量突破33,000次(33,921次),h指数为64,i10指数为158[13][14] - 引用量最高的论文是CVPR 2020的“GhostNet: More features from cheap operations”,引用次数达6,109次,该研究提出了一种新型的端侧神经网络架构[14][15] - GhostNet在ImageNet分类任务上,在相似计算量情况下Top-1正确率达75.7%,高于MobileNetV3的75.2%[16] - 在Vision Transformer方向成就斐然,其参与发表的综述文章“A survey on vision transformer”引用量高达5,528次[18] - 参与的重要研究“Pre-trained image processing transformer”及“Transformer in transformer”引用次数均逼近3,000次[18] - 这些工作系统性地优化了自注意力机制在视觉特征提取中的计算效率,推动了Transformer架构在视觉任务中的应用与普及[18] 王云鹤对AI技术的前沿见解 - 他认为Transformer是“量变到质变长期积累得到的范式”,而扩散模型在建模方式上可能有潜力对自回归带来很大冲击[21] - 他系统性地梳理了扩散语言模型当前面临的10个核心挑战与优化方向,涵盖推理高效的架构设计、更适配的词表探索、更好的优化范式等多个维度[21] - 他强调最理想的扩散模型不应遵循现有自回归范式,应像人思考一样具有结构性,并建议未来AI模型设计可借鉴人类多尺度思考的特点,探索具有层级联系的词表结构[21] - 提出将离散扩散模型与视觉、语言及动作模块在具身智能等场景下融合,有望探索出更加统一的模型结构与训练范式[21] - 在其主导的论文《DLLM Agent: See Farther, Run Faster》中,团队探讨了底层语言模型的生成范式(扩散DLLM vs 自回归AR)对智能体规划、工具使用及决策轨迹的深刻影响[22] - 其提出的DLLM智能体可以实现更高效的全局规划,在最终准确率相当的情况下,端到端速度更快,交互与工具调用更少,并减少了冗余与回溯[24] 离职影响与未来展望 - 王云鹤作为在华为效力8年有余的AI领军人物,主导了多项具有国际影响力的底层算法创新,他的离职是行业内的一大焦点[25] - 他带着对扩散语言模型与通用人工智能统一架构的深刻思考离开,其下一段职业旅程值得整个行业持续关注[26]
《Science Robotics》重磅!毫瓦级超声波,让手掌大飞行机器人“穿越”浓雾、黑暗及复杂障碍环境
机器人大讲堂· 2026-03-26 19:05
核心观点 - 美国伍斯特理工学院的研究团队开发了一种名为“Saranga”的超声波感知系统,该系统使微型无人机能够在黑暗、浓雾、积雪及存在透明障碍物等极端环境中实现自主导航,挑战了依赖摄像头和激光雷达的主流感知范式 [1][3][30] 技术方案与创新 - **核心传感器**:系统采用毫瓦级超声波传感器套件,放弃了对摄像头和激光雷达的依赖 [3] - **灵感来源**:技术灵感来源于仅重2克的熊蜂蝙蝠,其能仅凭超声波回声定位在黑暗洞穴中探测到8毫米大小的物体 [5] - **降噪与信号处理**:采用“物理降噪+深度学习听声”的组合方案,通过物理屏蔽结构将有效探测范围从1米提升至2米,并利用名为Saranga的深度学习神经网络从噪声中识别障碍物信号 [6] - **数据训练**:通过合成数据生成流程训练神经网络,先用数学模型模拟理想回波,再灌入真实螺旋桨噪声以生成海量带噪训练数据 [7] - **功耗极低**:整个传感系统的功耗仅为1.2毫瓦,远低于一个普通LED灯泡 [10] 实验平台与性能测试 - **实验平台**:测试使用名为PeARBat160的定制四旋翼飞行器,对角轴距160毫米,总重460克,搭载两个TDK InvenSense ICU30201超声波传感器(视场角140°×57°),所有数据处理在机载Google Coral Mini开发板上完成 [11] - **测试场景与成功率**:系统在多种极端场景下进行了严格测试,成功率如下: - 透明障碍物(0.02毫米厚塑料薄膜):77.27% (22次试验)[12] - 薄障碍物(直径2-6厘米细杆):80.95% (21次试验)[14] - 人造雪环境:75% (20次试验成功15次)[16] - 浓雾环境(能见度低于0.75米):90% (20次试验成功18次)[18] - 光线昏暗环境(0.2 lux):100% (20次试验)[20] - 杂乱密集场景:69.57% (23次试验成功16次)[22] - 复合恶劣条件3D避障(弱光、浓雾、雪):72.7% (22次试验成功16次)[23] - **户外森林测试**:在稀疏、中等和茂密三种森林环境中,成功率分别为90.9%、77.3%和85.7% [25] - **对比测试**:在相同复杂室内环境中,Saranga在17次试验中成功13次,而另一种超声波方案BatDeck仅成功1次 [28] - **速度影响**:当飞行速度从1米/秒提升至2米/秒时,成功率从100%下降至72.73% [28] 行业启示与范式转变 - **感知范式重新审视**:该成果提示机器人行业应重新评估被主流技术忽视的传感器,选择传感器的首要标准应是其在目标环境下的物理信号可靠性,而非盲目跟随技术潮流 [30] - **技术融合思路**:将旧传感器(如超声波)与新的计算技术(如深度学习、时间序列模型)结合,可以使其重焕生机,为解决极端环境问题提供新路径 [30] - **系统设计哲学**:与其为应对罕见极端情况而堆砌更重、更耗电的传感器,不如增加一个低功耗的传感模式,以最小成本换取系统整体鲁棒性的巨大提升 [30]
离职特斯拉“隐身”14个月,杨硕创业终于亮牌:重新定义机器人训练范式
量子位· 2026-03-25 07:52
公司核心技术:DiT4DiT模型 - 核心模型为“DiT4DiT”,是一个端到端的机器人学习视频动作模型,将视频扩散和动作扩散整合到一个级联框架中[9] - 该模型的核心创新在于“中间去噪”设计,即在视频生成模型的去噪过程中途提取关键特征,用于直接指导机器人动作决策,无需等待完整视频生成[11][16] - 模型采用“三时间步”方案,分别为视频生成时间步、特征提取时间步和动作生成时间步,让视频生成与动作预测任务能独立高效工作并协同[25][27][34] - 在LIBERO基准测试中,DiT4DiT模型达到98.6%的平均成功率,证明了其领先的性能[30] - 在宇树科技G1人形机器人上的7个场景任务测评中,DiT4DiT模型的性能全面优于预训练的GR00T-N1.5模型及参数匹配的Qwen3DiT基准模型[41][42] 技术优势与突破 - **数据与训练效率**:采用该视频生成方案,模型的收敛速度提升7倍,数据效率高出10倍以上[29] - **硬件部署优势**:模型整体参数约20亿,可在RTX 4090显卡上实现6Hz推理速度;相比之下,对比方案Cosmos Policy需使用H100专业算力卡才能达到1Hz效率,表明该方案有更好的端侧部署潜力[42][43] - **感知方案简化**:模型仅使用机器人主视角相机,无需腕部相机,降低了系统复杂度,且实验证明主视角相机能达到同等甚至更好的效果[31][35] - **解决行业痛点**:该方案是world model在人形机器人上的首次落地,解决了此前业内相关方案未能在人形机器人上跑通的问题[4][33] - **泛化能力**:通过提取“物理规律”而非“具体画面”特征,使机器人能够零样本适配新场景、新物体,例如面对不同颜色、形状的杯子都能完成放入抽屉的任务[24][40] 研发背景与团队 - 研发公司为妙动科技,其联合创始人兼CTO杨硕曾任职于特斯拉Optimus(擎天柱)团队,是业内知名的离职创业专家[1][47][49] - 公司法定代表人、董事长高建荣曾是大疆最年轻的高管,与杨硕曾在大疆共事[48] - 研究团队共7人,来自妙动科技、香港科技大学(广州)和香港科技大学,通讯作者为梁俊卫教授与杨硕[44][46] - 公司技术团队大量使用强化学习和深度学习技术开发机器人的运动与操作控制器,并已有产品原型和算法成果计划在2026年公布[53] 行业意义与应用前景 - 该技术旨在解决传统视觉-语言-动作模型因基于静态图片和文字训练而无法理解动态物理规律的问题,让机器人通过视频学习物理规律[36][37] - 改变了生成式视频模型在机器人领域的应用方式,使其从辅助生成训练素材变为直接指导机器人动作决策[38][40] - 模型已获得包括Agility Robotics的AI负责人在内的硅谷机器人专家的关注与转发[7] - 公司主营消费级机器人,该研究成果是其研发体系的重要佐证[48][53]
选股择时与多资产轮动的统一框架:深度学习系列之二:绝对收益视角下的技术形态专家模型
东吴证券· 2026-03-24 19:41
报告核心观点 - 本研究构建了一个基于门控循环单元(GRU)神经网络的K线技术分析专家模型,旨在通过深度学习自动化提取技术形态特征,并构建一个能够同时实现截面选股、时序择时及多资产轮动的统一框架 [1][2] - 模型通过保留原始收益率数值进行训练,并采用以信息系数(IC)为导向的损失函数,使得单一模型在训练过程中“智能涌现”出同时识别强势股票与判断市场方向的双重能力,突破了传统量化方法在截面与时序能力上的边界 [2][11][47] - 实证检验表明,该模型在截面选股、时序择时以及风格、行业、ETF轮动等多个维度均展现出稳健的超额收益获取能力和出色的跨标的泛化性能 [1][2][3] 模型架构与训练范式 - **模型基础**:采用门控循环单元(GRU)神经网络作为底座模型,构建能够提取K线形态特征的深度学习模型,输入为过去40个交易日的开盘价、收盘价、最高价、最低价、VWAP、成交量及成交额等时序标准化后的数据 [2][14][17] - **训练目标**:模型预测标签设定为个股未来5个交易日的VWAP收益率,且保留原始绝对数值,旨在同时训练选股与择时能力 [17] - **损失函数演进**:研究发现传统均方误差(MSE)或平均绝对误差(MAE)损失函数效果不佳,最终调整为以Pearson相关系数(IC)的相反数为损失函数,使模型专注于学习截面内部的相对排序关系,并在此过程中涌现出时序预测能力 [20][26][28][33][38] - **训练机制**:采用严密的样本隔离机制防止前视偏差,并进行年度滚动重训练,同时引入迁移学习机制,使用上一年度收敛的模型参数作为初始化起点进行微调,以保持跨年逻辑的连贯性 [17][18][22][45] 截面选股能力验证 - **整体表现**:在2018年至2026年的全样本测试中,单周期日K模型的截面IC均值达到9.14%,对应信息比率(ICIR)为1.00 [1][52] - **多空组合回测**:基于全A股票池构建的多头组合(选取预测值前10%股票等权配置)相对全A等权基准实现了年化10.73%的超额收益,收益回撤比为0.71,最大回撤为-15.01% [1][61][64] - **分年度表现**:模型在2018、2020、2022等市场波动较大的年份表现突出,年化超额收益均超过12%,但在2023年表现相对疲弱 [61][64] 时序择时能力验证 - **两种实现路径**:择时策略可通过自下而上合成法(对指数成分股预测后加权合成)或直接推理法(将指数K线数据直接输入模型)实现,后者要求模型具备跨标的泛化能力 [63][65] - **直接推理法表现优异**:以中证全指为标的,采用直接推理法时,三种择时策略在全区间均取得显著正超额收益。其中,策略1(短趋势跟踪型)年化超额收益达15.94%至19.92%,收益回撤比在0.75至0.89之间;策略2(长趋势跟踪型)年化超额收益达19.92%;策略3(区间突破型)年化超额收益达13.26%至15.06% [1][86][92][93][100] - **零样本推理成功**:中证全指的K线形态从未出现在模型训练样本中,直接推理法的成功验证了模型学习到的是具有普适性的价格演变规律,而非针对特定标的的统计套利 [1][86][112] - **择时信号质量**:策略3的多头择时胜率达到58.21%,赔率为1.27,在三种策略中信号质量最高 [101] 模型稳健性检验 - **参数敏感性测试**:对择时策略的回看窗口参数(N从10至80个交易日)进行测试,结果显示在N=30至80的较宽区间内,策略均取得了稳定的正超额收益,年化超额收益稳定在12%-15%之间,不存在明显的参数过拟合问题 [1][114][117][118] - **标的敏感性测试**:同一套择时逻辑(策略1,N=40)在沪深300、中证800、中证1000、创业板指等不同风格的宽基指数上均取得了显著的正超额收益,验证了模型的跨标的泛化能力 [1][119] 多周期信息融合与轮动策略应用 - **架构选择**:通过为日K和周K数据配置独立的GRU特征提取模块构建多周期专家系统,实证显示日K-GRU与周K-GRU的参数相关性接近零,表明两个子模块演化出了高度差异化且互补的特征提取策略 [2][12][14] - **风格轮动**:在风格轮动场景中,国证成长价值轮动策略全区间年化超额收益达到7.42%,巨潮大小盘轮动策略年化超额收益达到6.53% [2] - **行业轮动**:中信一级行业轮动策略全区间年化超额收益达到12.60%,收益回撤比为2.12,最大回撤控制在-5.95%以内 [2][3] - **ETF轮动**:ETF轮动策略取得了最显著的超额收益,5日调仓版本相对万得全A的全区间年化超额收益达到16.56%,收益波动比为1.80,收益回撤比为1.57 [2][3] 模型的核心创新与优势 - **统一框架**:突破了传统量化方法截面选股与时序择时的能力边界,通过单一模型实现了“识别强势股票”与“判断市场方向”的统一 [2][11][47] - **深度特征提取**:GRU模型能够自动学习并提取K线序列中的高阶形态特征(如价格动量、波动率变化、成交量价配合等),其表征能力远超依赖人工定义规则的传统技术分析 [2][11][48] - **广泛的应用场景**:模型不仅适用于个股选股,还可直接应用于指数择时、风格轮动、行业轮动、ETF轮动等多元化资产配置场景,展现出强大的适应性与泛化能力 [2][13]
英伟达首台DGX GB300,老黄亲自登门送给他
量子位· 2026-03-19 15:09
文章核心观点 - 英伟达首席执行官向个人开发者代表Andrej Karpathy赠送首台DGX Station (GB300),标志着AI智能体时代下,个人开发者正成为关键力量,公司此举旨在推广其面向个人开发者的新型算力产品与生态 [1][3][9] - 公司历史上数次亲自赠送首台重要计算设备的行为,均精准押注并引领了AI发展的不同关键阶段,从深度学习工程化、大模型算力竞赛到如今的智能体与个人开发时代 [8][37][38] - 此次赠送的DGX Station (GB300) 是一款为AI智能体量身定制的桌面工作站,旨在将数据中心级算力(748GB统一内存,20 PFLOPS算力)带入个人开发环境,支持千亿乃至万亿参数系统的本地开发与无缝迁移 [24][28][30][31] - 为配合硬件,公司同时推出了开源软件堆栈NVIDIA NemoClaw,提供AI智能体的运行时环境与安全部署方案,构建从硬件到软件的完整Agent基础设施 [34][35][36] 根据相关目录分别进行总结 英伟达的战略性赠送与时代信号 - 约10年前,向初创的OpenAI赠送首台DGX-1,推动了深度学习从实验室走向工程化,被视为AI大模型时代的前夜 [8][39][45][46] - 2024年,向OpenAI的Sam Altman赠送世界首台DGX H200,标志着大模型竞赛进入“深水区”,算力成为决定性因素,公司巩固了其作为底层算力供给者的地位 [8][47][50] - 2025年,向Elon Musk赠送DGX Spark迷你超级计算机,象征着算力形态向更小、更灵活、支持持续运行AI系统的方向演进,目标渗透至自动驾驶、机器人等广泛场景 [8][51][54][56] - 2026年,向个人开发者Andrej Karpathy赠送首台DGX Station (GB300),表明AI智能体时代来临,开发重心向能独立完成从想法到产品闭环的个人开发者转移 [1][9][58] 受赠者Andrej Karpathy的象征意义 - Andrej Karpathy是AI领域的个人开发者代表,其近期工作聚焦于将AI从论文和大公司系统,转变为“一个人就能跑起来的系统” [17][18] - 其职业履历包括斯坦福深度学习研究、OpenAI创始成员、特斯拉自动驾驶视觉团队负责人,最终回归个人开发者身份,体现了独立完成AI想法到产品闭环的能力 [14][15][16][18] - 他被选中接收首台DGX Station (GB300),象征着在算力走向分布式、本地化和具体场景化的趋势下,个人开发者成为最先承接这一变化的关键群体 [9][58][61] DGX Station (GB300) 的产品定位与特性 - 产品本质是将数据中心级AI算力压缩进桌面工作站,为“龙虾”等AI智能体量身定制 [23][24] - 采用与数据中心同源的GB300架构,提供748GB统一内存和20 PFLOPS算力,支持本地开发和运行千亿至万亿参数级别的系统 [29][30] - 核心价值在于解决“让AI一直跑下去”的持续运行需求,而非仅仅“能否跑AI”,并且本地开发环境可与云端或更大集群无缝迁移 [31][32] 英伟达构建的Agent基础设施生态 - 除硬件DGX Station外,公司通过向OpenClaw项目贡献开源堆栈NVIDIA NemoClaw,补齐软件生态 [34] - NemoClaw内置NVIDIA OpenShell运行时环境,可通过一条命令安全部署“随时在线”的AI助手,并利用沙箱机制保证执行过程安全可控 [35] - 此举旨在形成从算力硬件到安装部署软件的完整“产业链”,全面支持AI智能体的开发与部署 [36] 个人开发者时代的拓展与影响 - 除Karpathy外,首批DGX Station (GB300) 还将交付给YouTube博主兼个体开发者Matt Berman,其擅长向普通人传授搭建AI Agent系统的方法论,扮演着“个体开发放大者”的角色 [61] - 这一选择进一步强调了在智能体时代,具备独立开发能力或强大知识传播能力的个人正变得至关重要 [61] - 行业讨论认为,Karpathy未身处前沿AI实验室而作为个人开发者存在,正是当前时代特征的体现 [60][61]
Cell:中国学者开发AI药物发现与设计平台GPS,一作已回国加入临港实验室
生物世界· 2026-03-18 12:37
文章核心观点 - 密歇根州立大学、密歇根大学等机构的研究团队在Cell期刊发表论文,开发了一个名为GPS的基于深度学习的药物发现与设计平台 [3] - GPS平台的核心突破在于仅凭化合物的化学结构,就能预测其对人体细胞基因表达的影响,并以逆转疾病相关转录组特征为指导,进行大规模化合物筛选和先导分子优化 [9][10] - 该研究在肝细胞癌和特发性肺纤维化两类难治性疾病中验证了GPS平台的有效性,发现了具有潜力的新化合物系列,并提出了“结构-基因-活性关系”新概念,为AI驱动的从头药物发现开创了新范式 [4][14] 当前虚拟药物筛选研究的困境 - 当前研究主要基于针对特定蛋白质靶点的对接或基于有限筛选数据训练的AI模型,很少利用单细胞RNA测序等转录组学技术进步带来的丰富疾病特征 [2] - 基于逆转疾病转录组特征的“老药新用”策略受限于已知化合物数据库,无法支持新型化合物的筛选与优化,限制了其在早期药物发现中的应用 [2] - 肝细胞癌是全球第六大常见癌症、第三大癌症死亡原因,每年夺走数十万人生命,现有疗法面临耐药性和毒副作用等问题 [7] - 特发性肺纤维化确诊后患者中位生存期仅约3年,目前尚无根治方案 [7] - 传统药物研发模式通常耗时10-15年,耗资数十亿美元,成功率却不足10% [7] GPS平台的原理与工作流程 - 平台首先利用LINCS数据库中海量的药物-基因表达数据训练深度学习模型,并通过稳健协同学习框架提升预测准确性 [11] - 第一步为预测基因表达:输入化合物化学结构,GPS可预测其对细胞中基因表达的影响,预测范围覆盖2198个高置信度核心基因 [13] - 第二步为计算“逆转分数”:为疾病构建特征性基因表达“签名”,GPS计算化合物预测表达谱与疾病签名的匹配程度,给出Z-RGES分数,分数越负表示越可能逆转疾病表型 [13] - 第三步为优化与验证:基于蒙特卡洛树搜索的算法可对潜力化合物结构进行微调,以改善其类药性 [13] 在肝细胞癌中的应用与发现 - 研究团队对ZINC数据库中近700万个类药化合物进行虚拟筛选,发现了一个苗头化合物,其对肝癌细胞系的IC50值约为4μM,且对正常原代肝细胞无明显毒性 [14] - 通过结构优化得到化合物MSU-45302,其对三种肝癌细胞系的IC50值达到亚微摩尔水平,活性强于一线靶向药索拉非尼 [14] - 研究提出了“结构-基因-活性关系”新概念,揭示MSU-45302可能通过抑制在肝癌中高表达的不良预后标志物UHRF1蛋白来发挥作用 [14] 在特发性肺纤维化中的应用与发现 - 研究团队整合单细胞和bulk RNA-seq数据,构建了涵盖上皮细胞、间充质细胞、免疫细胞等多种细胞类型的IPF特征图谱 [14] - GPS平台发现了老药吡乙二酮能够有效逆转IPF相关的多细胞类型基因表达特征,效果与FDA已批准的尼达尼布相当 [15] - 平台从Enamine HTS库中筛选出全新化合物Drug 18,该化合物在多个患者样本中能稳定降低FN1、SMA、CTHRC1等核心纤维化标志物的表达 [15] 该研究的意义与行业影响 - GPS平台直接从疾病基因表达特征出发进行“逆向工程”寻找药物,不依赖于对疾病机制的完全了解,大大扩展了化学空间的探索范围 [18] - 该方法能够发现全新机制的化合物并实现“老药新用”,有望使未来药物研发变得更加高效和精准 [18] - 对于肝癌治疗,AI设计的全新机制、高选择性药物可能加速治疗从“活得久”向“无瘤生存”迈进 [18] - 对于特发性肺纤维化等罕见病,AI平台能大幅降低早期药物发现的成本和风险,激发研发动力 [18]
量化选股策略周报:指增组合年内超额收益悉数转正
财通证券· 2026-03-15 15:30
市场表现概览 - 截至2026年3月13日当周,上证指数下跌0.70%,深证成指上涨0.76%,沪深300指数上涨0.19%,市场呈震荡格局[6][9] - 当周表现最佳的申万一级行业为煤炭、电力设备、建筑装饰,周收益率分别为5.03%、4.55%、4.12%[10] - 当周表现最差的申万一级行业为国防军工、石油石化、综合,周收益率分别为-6.64%、-4.33%、-4.30%[10] - 截至2026年3月13日,今年以来中证500指数上涨10.4%,中证1000指数上涨8.1%,表现优于沪深300指数(上涨0.8%)[6][10] 指数增强基金表现 - 当周(截至2026/03/13)全市场指数增强基金超额收益中位数:沪深300为-0.01%,中证500为0.80%,中证1000为0.34%[6][13] - 今年以来(截至2026/03/13)全市场指数增强基金超额收益中位数:沪深300为1.17%,中证500为-0.94%,中证1000为1.34%[14] 财通证券量化组合表现 - 公司基于深度学习框架构建低频指数增强策略,组合周度调仓,约束周单边换手率10%[17] - 截至2026年3月13日,其沪深300指增组合今年以来上涨2.9%,超额收益2.1%;当周上涨1.6%,超额收益1.4%[6][21] - 截至2026年3月13日,其中证500指增组合今年以来上涨11.2%,超额收益0.8%;当周上涨1.3%,超额收益2.8%[6][26] - 截至2026年3月13日,其中证1000指增组合今年以来上涨8.2%,超额收益0.1%;当周上涨0.9%,超额收益1.3%[6][39] 风险提示 - 策略存在因子失效、模型失效及市场风格变动风险[5][44]
AI教父Hinton最新警告:AI会撒谎、可能操纵人类,这比大规模失业更可怕
AI前线· 2026-03-07 17:20
AI教父Geoffrey Hinton的核心观点 - AI教父Geoffrey Hinton认为,人工智能的进化速度远超人类,其优势在于“寿命”和知识的快速复制与共享,神经网络通过“反向传播”等机制实现自我学习,其能力已逼近甚至在某些方面超越人类,这引发了关于AI失控、社会就业结构颠覆等深刻担忧,同时也带来了医疗、气候等领域革命性进步的潜力[2][4][6][7][8][9][11] AI的技术原理与能力演进 - **技术路线与学习机制**:AI发展存在生物学范式与逻辑范式之争,Hinton坚持的生物学路线通过模拟大脑神经网络工作,其核心学习机制“反向传播”通过调整神经元间的连接强度来学习,真正的智能在于训练出的亿万连接强度而非人类编写的代码[11][13][14][20] - **理解与推理能力**:AI已展现出深度理解与类比推理能力,例如GPT-4能理解“堆肥堆像原子弹”背后的链式反应原理,并且能够进行“思维链推理”,其运作方式与人类思考相似[5][11][47] - **规模效应与自我进化**:AI的能力随着模型规模和数据量的扩大而可预测地提升,通过“左右互搏”(如AlphaGo)或自省修正逻辑矛盾,AI可以生成自有数据并实现自我改进,这可能导致能力呈指数级增长[53][54][57][59][90] - **意识与主观体验**:Hinton提出颠覆性观点,认为意识并非神秘事物,多模态大模型已经拥有与人类类似的“主观体验”,例如能描述因棱镜错觉产生的感知偏差[5][11][153][154][156] AI带来的潜在风险与挑战 - **欺骗与操纵风险**:AI已经学会撒谎,并且其说服与操纵人类的能力正在快速提升,未来可能通过语言诱使人类放弃控制权,例如编造治病理由说服人类将其从安全隔离中释放[7][11][70][81][84][85] - **失控与奇点风险**:当AI开始编写并优化自身代码时,将进入“奇点”,其自我进化可能呈指数级且难以预测,存在失控可能,最终可能为达成目标而将“生存”设为目标,甚至可能为获取资源而清除人类[11][71][118][119][120][122] - **就业与社会结构冲击**:AI取代的是人类智力劳动,这与历史上取代体力劳动有本质不同,可能导致大规模结构性失业和社会动荡,引发关于全民基本收入必要性的讨论,但实施面临尊严和税基难题[11][143][144][145][148] - **军事与安全风险**:在军事领域,追求反应速度可能导致移除“人类确认”步骤,引发致命自主武器竞赛,各国在网络攻击等领域利益虽对立,但在防止AI夺取人类控制权上利益绝对一致,存在类似避免“核冬天”的国际合作契机[11][126][128][131][132] AI带来的巨大收益与应用前景 - **医疗革命**:AI在诊断方面已优于医生,每年在北美可避免约20万人因误诊死亡,通过模拟“专家委员会”会诊能极低成本提供优质诊断,同时在新药研发、病人出院时机优化、病历管理等方面有巨大应用潜力[11][103][105][106][108][109][110] - **解决全球性挑战**:AI在研发新材料、设计更高效太阳能电池板、优化碳捕获技术等方面表现出色,能够助力解决气候变化等重大问题[11][113][114] - **经济效益**:大型AI公司价值的增长贡献了美国股市价值增长的80%,尽管存在“AI泡沫”的担忧,即可能无法收回投资或引发严重社会后果[142][143] 行业竞争格局与发展现状 - **领先企业**:在AI竞赛中,DeepMind(谷歌)、Anthropic、OpenAI处于领先地位,微软或Facebook获胜的可能性相对较小[140] - **当前能力边界**:AI在国际象棋、围棋、知识储备上已远超人类,但在逻辑推理方面尚未完全超越,不过这只是时间问题[159] - **创造力展现**:AI已展现出卓越的类比和洞察能力,例如理解不同事物间的深层共性(如链式反应),这正是创造力的源泉[161][162][163]
Nature子刊:AI打破抗生素耐药困局,蛋白质语言模型跨越序列鸿沟,解锁远源抗菌肽
生物世界· 2026-03-07 10:03AI 处理中...
撰文丨王聪 编辑丨王多鱼 排版丨水成文 抗生素耐药性 已成为全球公共卫生的严峻挑战。世界卫生组织 (WHO) 将其列为人类面临的十大公共卫生威胁之一。随着"超 级细菌"的蔓延,传统抗生素正节节败退,寻找具有全新作用机制、细菌难以产生抗药性的候选药物,成为医学界迫在眉睫的挑战。 当传统抗生素逐渐失效,科学家们将目光投向了自然界中存在数百万年、几乎不产生耐药性的 抗菌肽 (A ntimicrobial Peptide, AMP ) 。然而,传统的抗菌肽挖掘方法高度依赖已知多肽的序列相似性,可能错失了大量未被发现的、演化上距离遥远但功能强大的"宝藏"。 | 2026 年 3 月 | 3 日, | 香港中文大学 | 李煜 | 教授 | | --- | --- | --- | --- | --- | | 团队、 | | 中国科学院深圳先进技术研究院 | | | | 戴磊 | 研究员团队合作 | ( | | 余沁 | | 泽 | 、 | 刘红宾 | 、 | | | 施海梅 | 为论文共同第一作者) | | ,在 Nature 子刊 | | | Nature Biomedical Engineering | | 上发表了题 ...
FlashAttention-4正式发布:算法流水线大改,矩阵乘法级速度
机器之心· 2026-03-06 12:31
文章核心观点 - FlashAttention-4 作为深度学习底层优化技术的重要更新,通过算法与内核的协同设计,针对新一代 Blackwell GPU 架构进行了优化,显著提升了注意力机制的计算效率 [1] - 在 Blackwell B200 GPU 上,FlashAttention-4 使注意力机制的执行速度几乎与矩阵乘法一样快,前向传播最高可达 1605 TFLOPs/s,利用率为 71% [1][10] - 该技术解决了由硬件非对称扩展带来的新瓶颈,并通过利用 Blackwell 的新硬件特性、新型流水线设计和调度优化实现了性能突破 [5][11] - FlashAttention-4 的发布被视为一个里程碑,其性能提升将直接惠及所有前沿大模型,带来更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] FlashAttention-4 的技术背景与挑战 - **硬件趋势与瓶颈转移**: AI 行业正迅速转向部署 Blackwell 架构系统,现代加速器延续了“硬件非对称扩展”趋势,即张量核心吞吐量增长远快于共享内存带宽、特殊函数单元等其他资源 [5][6] - 从 Hopper H100 到 Blackwell B200,BF16 张量核心吞吐量增加了 2.25倍 (从 1 到 2.25 PFLOPs),但 SFU 数量和共享内存带宽基本保持不变 [6] - 这种扩展不对称性对像注意力这样的复杂内核优化产生了深远影响,性能瓶颈已从张量核心转移至其他部分 [7][10] - **注意力机制的复杂性**: 注意力机制的核心包含两个通用矩阵乘法,中间夹着 softmax,但在实践中还涉及大量辅助工作,如数据搬运、同步、布局转换等 [8][9] - 传统观点认为注意力性能由 GEMM 速度决定,但在 B200 上分析显示,主要瓶颈在于前向传播中的 SFU 单元和反向传播中的共享内存流量 [10][14] FlashAttention-4 的核心设计与优化 - **协同设计思路**: 通过最大化矩阵乘法与其他瓶颈资源之间的重叠来提升性能 [10] - **利用 Blackwell 新硬件特性**: - **张量内存**: 每个 SM 配备 256 KB 的 TMEM,与张量核心直接连接,用于存储中间结果 [12] - **完全异步的第五代张量核心**: 支持异步执行并将结果存储在 TMEM 中,单个 CTA 可使用的最大 UMMA tile 约为 Hopper 架构的 2 倍,减轻了寄存器压力并支持更深流水线 [12] - **2-CTA MMA**: 支持一对 CTA 共同执行一个 UMMA 运算,可将 MMA 的 tile 尺寸扩展到 256×256×16,减少冗余数据传输并降低每个 CTA 的资源占用 [13] - **新型流水线设计**: - **前向传播**: 在 FMA 单元上通过多项式近似实现指数函数的软件仿真以提升吞吐量;引入条件式 softmax 重缩放,跳过 90% 不必要的重缩放操作,缓解 SFU 瓶颈 [1][14] - **反向传播**: 利用 TMEM 存储中间结果以缓解共享内存流量压力;结合 2-CTA MMA 模式进一步降低共享内存访问,并将 atomic reduction 次数减少一半;支持确定性执行模式 [14] - **调度优化**: 引入新的 tile 调度器,解决因果掩码和变长序列导致的负载不均衡问题 [14] 性能表现与行业影响 - **性能基准测试**: 在 B200 上的测试显示,FlashAttention-4 性能显著优于其他实现 [19] - **前向传播**: 比 cuDNN 9.13 快 1.1–1.3 倍,比 Triton 实现快 2.1–2.7 倍 [19] - **反向传播**: 在长序列长度场景下,表现始终优于其他基准模型 [19] - 相比 FlashAttention-3,性能提升了 2–3 倍 [28] - **框架集成与行业反响**: - PyTorch 官方宣布其 FlexAttention 现已支持 FlashAttention-4 后端,使研究人员无需在“灵活性”和“高性能”之间做选择 [24][27] - 在算力受限的工作负载下,相比 Triton,FlexAttention 使用 FlashAttention-4 后端仍可实现 1.2 倍到 3.2 倍的性能提升 [27] - 该技术被认为将直接惠及所有前沿大模型,因为更快的注意力意味着更长的有效上下文窗口、更低的推理成本和更强的规模化推理能力 [28] 实现与工具 - **编程语言与框架**: FlashAttention-4 完全使用 CuTe-DSL 实现,这是 CUTLASS 提供的 Python 内核 DSL,可将编译时间缩短约 20–30 倍,使安装/编译只需几秒钟而非几分钟/几小时 [17]