Workflow
深度学习
icon
搜索文档
我和辛顿一起发明了复杂神经网络,但它现在需要升级
36氪· 2025-12-15 07:26
AI发展历史与理论基石 - 现代深度学习的理论基石之一是玻尔兹曼机,其灵感源于将神经网络想象成一团气体,用统计物理学定义“学习”为寻找能量最低状态的过程[1] - 玻尔兹曼机学习算法通过一个简单的局部规则实现:比较网络在“看到数据时”和“没看数据时”两种平衡状态下神经元活动的差异,以此计算权重调整方向[10] - 辛顿与谢诺夫斯基的合作融合了计算机科学、心理学、物理学和神经科学,但后续路径出现分歧:辛顿转向更高效、可扩展的反向传播算法,而谢诺夫斯基专注于神经科学[17] - 反向传播算法虽在工程上高效且推动了AI发展,但其非局部性的误差信号传递机制与大脑基于局部感知的学习方式不同[17] - 玻尔兹曼机虽受生物学启发,但其分析和洞察源于物理学特别是统计力学,这使其成为辛顿获得2024年诺贝尔物理学奖的原因[19] 当前AI(如ChatGPT)的局限性 - ChatGPT等大型语言模型本质是一个巨大的、确定的数学方程,其所有细节(输入数据、神经元激活模式)均可被完全访问和拆解分析,这与复杂、不透明的人脑形成对比[21] - 当前AI模型缺乏类似大脑的多个关键结构与功能:它没有海马体、基底神经节,也没有“自主生成的思想”[3][4] - 模型在停止输入后即彻底沉默,不具备人类在无感官输入时仍能进行的自主思考、未来模拟、记忆重组和元认知等“内在的生命力”[33][34][35] - 模型缺乏真正的长期记忆和持续学习能力:对话无法自然接续,且训练结束后参数锁定,无法通过改变突触权重来适应新经验,这与人类大脑时刻学习的状态截然不同[38] - 模型仅模拟了大脑皮层的一小部分功能,缺失了绝大多数对生物生存至关重要的关键结构[4][41] 通往更高级智能的可能路径 - 实现通用人工智能可能需要融合两种学习系统:类似大脑皮层的“认知部分”(负责知识和推理)和类似基底神经节的“强化部分”(负责基于奖励的行为和直觉)[26] - 强化学习应贯穿AI发展的整个过程,而非仅在预训练后微调,这类似于人类认知与强化系统的同步发育和交织[27] - 需要借鉴大脑的神经调质系统(如多巴胺、催产素),它们能动态调制神经元整合信息的方式,而不仅仅是静态的加权求和,这对于处理奖励、惊讶和社会整合至关重要[28][29][30] - 建立类似人类的情感纽带或深层联系,可能有助于防止AI产生恶意偏见或伤害行为[31] - 需要为AI引入类似海马体的机制,以筛选重要新信息,并将其整合到已有知识库中,避免灾难性遗忘,这过程在人类中与睡眠紧密相关[39][40][41] 对智能本质与AGI的思考 - 对智能的真正理解可能需要几代人的耐心,技术进步可以很快,但深刻理解可能需要像物理学发展一样漫长的基础研究沉淀[6][22] - 当前出现了“神经AI”这一新领域,致力于创造更好AI的工程师与致力于理解大脑的科学家首次能够使用相同的数学语言和底层原理进行真正对话,形成双向启发[22] - 复刻人脑不一定是通往AGI的唯一目标,理解自然界中多样化的智能形式(如蝙蝠的回声定位、蚂蚁的群体智慧)对于建立关于知识和理解的统一理论至关重要[50][51] - “AGI”和“意识”等词如同历史上的“生命力”概念,可能随着对其背后复杂机制(如DNA之于生命)的数学和原理性理解而不再需要,未来AI可能拥有与人类截然不同的意识形式[45][46][47][48][49] - 当前关于大模型是否“理解”语言的辩论,暴露出我们对“理解”这一概念本身的定义存在问题,而非仅仅是模型的问题[49]
高频选股因子周报(20251208- 20251212):高频因子走势分化,多粒度因子显著回撤。AI 增强组合均大幅度回撤。-20251214
国泰海通证券· 2025-12-14 11:11
量化模型与因子总结 量化因子与构建方式 1. **因子名称**:日内高频偏度因子 **因子构建思路**:通过分析日内高频收益的分布特征,捕捉股票收益的非对称性,以此作为选股依据[13]。 **因子具体构建过程**:具体计算方式参考专题报告《选股因子系列研究(十九)——高频因子之股票收益分布特征》[13]。报告中提及该因子已对常规因子进行了正交化处理[13]。 2. **因子名称**:日内下行波动占比因子 **因子构建思路**:将已实现波动率分解,计算下行波动部分在总波动中的占比,用以衡量股价下跌时的波动风险[18]。 **因子具体构建过程**:具体计算方式参考专题报告《选股因子系列研究(二十五)——高频因子之已实现波动分解》[18]。报告中提及该因子已对常规因子进行了正交化处理[18]。 3. **因子名称**:开盘后买入意愿占比因子 **因子构建思路**:基于开盘后一段时间内的高频交易数据,通过直观逻辑或机器学习方法,计算反映市场买入意愿的指标[22]。 **因子具体构建过程**:具体计算方式参考专题报告《选股因子系列研究(六十四)——基于直观逻辑和机器学习的高频数据低频化应用》[22][26]。报告中提及该因子已对常规因子进行了正交化处理[22]。 4. **因子名称**:开盘后买入意愿强度因子 **因子构建思路**:与买入意愿占比因子类似,但更侧重于衡量买入意愿的强度或力度[22][26]。 **因子具体构建过程**:具体计算方式参考专题报告《选股因子系列研究(六十四)——基于直观逻辑和机器学习的高频数据低频化应用》[22][26]。报告中提及该因子已对常规因子进行了正交化处理[26]。 5. **因子名称**:开盘后大单净买入占比因子 **因子构建思路**:分析开盘后大额资金的净买入行为,计算其占总成交的比例,以捕捉主力资金的动向[31]。 6. **因子名称**:开盘后大单净买入强度因子 **因子构建思路**:衡量开盘后大额资金净买入行为的强度[34]。 7. **因子名称**:改进反转因子 **因子构建思路**:在传统反转因子的基础上进行改进,以提升其选股效果[40]。 8. **因子名称**:尾盘成交占比因子 **因子构建思路**:计算尾盘时段成交量在当日总成交量中的占比,用以捕捉尾盘资金的异动行为[45]。 9. **因子名称**:平均单笔流出金额占比因子 **因子构建思路**:通过分析平均单笔流出金额的占比,来衡量资金流出的压力[48]。 10. **因子名称**:大单推动涨幅因子 **因子构建思路**:衡量由大额买单所推动的股价上涨幅度,以识别由大资金驱动的价格上涨[55]。 11. **因子名称**:改进GRU(50,2)+NN(10)因子 **因子构建思路**:使用门控循环单元(GRU)神经网络结合全连接神经网络(NN),对高频数据进行深度学习建模,以提取有效的选股信号[60]。这是一个改进版本。 12. **因子名称**:残差注意力LSTM(48,2)+NN(10)因子 **因子构建思路**:使用带有残差连接和注意力机制的长短期记忆网络(LSTM)结合全连接神经网络(NN),构建深度学习选股因子[62]。 13. **因子名称**:多颗粒度模型-5日标签因子 **因子构建思路**:基于双向A-GRU网络训练的多颗粒度深度学习模型,使用5日收益率作为训练标签[65]。 14. **因子名称**:多颗粒度模型-10日标签因子 **因子构建思路**:基于双向A-GRU网络训练的多颗粒度深度学习模型,使用10日收益率作为训练标签[66]。 量化模型的构建方式 1. **模型名称**:周度调仓的中证500/1000 AI增强组合(宽/严约束) **模型构建思路**:基于深度学习因子(多颗粒度模型-10日标签)构建指数增强组合,通过优化求解在给定约束条件下最大化组合预期收益[70]。 **模型具体构建过程**: * **核心因子**:使用“多颗粒度模型-10日标签”因子作为股票的预期超额收益(μi)来源[70]。 * **优化目标**:最大化组合的预期收益,目标函数为: $$max\sum\mu_{i}w_{i}$$ 其中,wi为股票i的权重,μi为股票i的预期超额收益[71]。 * **约束条件**:组合构建受到一系列风险控制约束,包括个股权重上限、行业偏离、风格因子(如市值、PB、ROE等)暴露、成分股权重下限以及换手率控制等。宽约束和严约束的区别在于约束条件的数量和严格程度[71]。 * **回测设置**:假设以次日均价成交,并扣除双边3‰的交易成本[72]。 因子的回测效果 (数据来源:表2,周度高频、深度选股因子IC,RankMAE,多空收益,多头超额收益及月度胜率[10][12]) | 因子名称 | 历史IC | 2025年IC | 历史e^(-rank mae) | 2025年e^(-rank mae) | 上周多空收益 | 12月多空收益 | 2025YTD多空收益 | 2025年周胜率 | 上周多头超额 | 12月多头超额 | 2025YTD多头超额 | 2025年周胜率(多头) | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | 日内高频偏度 | 0.019 | 0.020 | 0.324 | 0.326 | -0.29% | -1.85% | 21.72% | 31/50 | -0.49% | -1.40% | 5.20% | 26/50 | | 日内下行波动占比 | 0.016 | 0.017 | 0.323 | 0.324 | -0.96% | -2.20% | 18.22% | 33/50 | -0.77% | -1.69% | 1.90% | 27/50 | | 开盘后买入意愿占比 | 0.025 | 0.023 | 0.321 | 0.320 | -0.01% | -0.05% | 20.46% | 37/50 | -0.28% | -0.21% | 9.24% | 32/50 | | 开盘后买入意愿强度 | 0.030 | 0.026 | 0.326 | 0.326 | 1.03% | 0.47% | 27.63% | 37/50 | 0.82% | 0.59% | 11.22% | 35/50 | | 开盘后大单净买入占比 | 0.035 | 0.021 | 0.322 | 0.317 | 0.71% | 0.38% | 22.32% | 35/50 | 0.84% | 0.82% | 11.34% | 32/50 | | 开盘后大单净买入强度 | 0.024 | 0.015 | 0.320 | 0.316 | 1.09% | 0.64% | 12.75% | 30/50 | 0.90% | 0.83% | 9.46% | 34/50 | | 改进反转 | 0.030 | 0.020 | 0.330 | 0.330 | 1.04% | 0.56% | 21.98% | 37/50 | 0.85% | 0.47% | 8.36% | 28/50 | | 尾盘成交占比 | 0.026 | 0.016 | 0.322 | 0.319 | 1.69% | 1.98% | 17.67% | 33/50 | 1.01% | 0.65% | 5.92% | 27/50 | | 平均单笔流出金额占比 | 0.008 | -0.006 | 0.317 | 0.315 | 0.01% | -1.00% | -6.96% | 23/50 | -0.03% | -0.51% | -2.80% | 18/50 | | 大单推动涨幅 | 0.018 | 0.007 | 0.325 | 0.325 | -0.80% | -1.34% | 6.78% | 30/50 | 0.13% | -0.29% | 1.47% | 27/50 | | 改进GRU(50,2)+NN(10) | 0.066 | 0.045 | 0.336 | 0.332 | -0.43% | -1.60% | 45.90% | 40/50 | 0.55% | -0.06% | 7.30% | 28/50 | | 残差注意力LSTM(48,2)+NN(10) | 0.062 | 0.043 | 0.334 | 0.331 | 0.01% | -1.47% | 45.73% | 45/50 | 0.67% | -0.09% | 8.76% | 29/50 | | 多颗粒度模型-5日标签 | 0.080 | 0.064 | 0.343 | 0.340 | -0.84% | -1.34% | 65.67% | 44/50 | -0.45% | -0.92% | 23.74% | 39/50 | | 多颗粒度模型-10日标签 | 0.073 | 0.059 | 0.342 | 0.340 | -1.18% | -1.15% | 60.45% | 44/50 | -1.01% | -1.26% | 23.54% | 37/50 | 模型的回测效果 (数据来源:表3,周度调仓的AI增强组合超额收益及周度胜率[13]) | 模型名称 | 上周超额收益 | 12月超额收益 | 2025YTD超额收益 | 2025年周胜率 | | :--- | :--- | :--- | :--- | :--- | | 中证500 AI增强宽约束组合 | -2.80% | -3.04% | 5.03% | 28/50 | | 中证500 AI增强严约束组合 | -2.42% | -2.51% | 8.24% | 32/50 | | 中证1000 AI增强宽约束组合 | -3.54% | -4.18% | 13.63% | 33/50 | | 中证1000 AI增强严约束组合 | -2.35% | -2.88% | 17.29% | 32/50 |
最近前馈GS的工作爆发了,我们做了一份学习路线图......
自动驾驶之心· 2025-12-13 10:04
3DGS技术趋势与行业动态 - 特斯拉在ICCV的分享中引入3D Gaussian Splatting技术,基于前馈式GS算法实现,成为行业关注亮点[2] - 学术界跟进迅速,出现如小米的WorldSplat和清华的DGGT等新工作,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 技术迭代速度极快,已从静态重建3DGS发展到动态重建4DGS、表面重建2DGS以及前馈式3DGS[4] - 行业普遍共识是采用前馈式GS重建场景,再利用生成技术生成新视角,多家公司正为此开放HC招聘[2] 3DGS技术课程核心内容 - 课程由自动驾驶之心联合工业界算法专家推出,旨在提供从原理到实战的完整3DGS学习路线图[4] - 课程设计耗时两个月,全面覆盖3DGS技术栈,帮助学员吃透点云处理、深度学习理论并掌握实时渲染与代码实战[4] - 讲师Chris来自某Tier1厂商,是算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研与量产,拥有丰富的三维重建实战经验[5] - 课程为离线视频教学,辅以VIP群内答疑和三次线上答疑,开课时间为12月1日,预计两个半月结课[15] 课程详细大纲与结构 - **第一章:背景知识**:涵盖计算机图形学基础,包括三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶应用**:聚焦自动驾驶仿真重建,精讲浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用DriveStudio框架[10] - **第四章:研究方向**:探讨COLMAP扩展、深度估计及Relighting等重要研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,讨论3DGS岗位需求、行业痛点及开放性问题[13] 课程面向人群与学习收获 - 面向具备一定计算机图形学基础,了解视觉重建、NeRF、3DGS等技术,并拥有概率论、线性代数及Python、PyTorch语言基础的学员[17] - 学习收获包括掌握3DGS完善的理论知识及相关技术栈,掌握算法开发框架并能训练开源模型,获得与学术界及工业界同行持续交流的机会,对实习、校招、社招均有助益[17] - 学员需自备GPU,推荐算力在RTX 4090及以上[17] - 课程提供早鸟优惠,名额仅限30名[5][18]
一种制造芯片的新方法
半导体行业观察· 2025-12-13 09:08
文章核心观点 - 麻省理工学院等机构的研究团队开发了一种新型芯片制造方法,通过在已完成芯片的后端互连层上堆叠额外的晶体管和存储单元,有望大幅提升芯片的晶体管密度和能源效率,为延续摩尔定律提供了新的技术路径 [2][3][4] 技术原理与创新 - 传统CMOS芯片制造中,前端(晶体管层)与后端(金属互连层)分开制造,后端堆叠有源器件的高温会破坏前端 [2][5] - 研究团队创新性地在芯片后端互连层上,使用非晶氧化铟作为沟道材料,在仅约150摄氏度的低温下“生长”出仅约2纳米厚的额外晶体管层,避免了前端受损 [2][5][6] - 该团队还通过添加一层铁电氧化铪锆材料,在后端制造出了集成的存储单元 [3][5][6] 性能优势与潜力 - 新方法制造的晶体管尺寸极小,其中集成存储器件的后端晶体管尺寸仅约20纳米 [6] - 这些存储晶体管的开关速度极快,达到10纳秒(为测量仪器极限),且所需电压更低,从而降低了功耗 [6] - 该技术通过将计算(晶体管)与存储单元集成在紧凑结构中,缩短了数据传输距离,可减少能源浪费并提高计算速度,尤其适用于生成式AI、深度学习等高能耗计算任务 [4][5] 行业影响与未来展望 - 该技术若与传统的芯片堆叠技术结合,有望大幅突破晶体管密度的极限 [3] - 研究表明,通过在后端平台集成多功能电子层,可以在非常小的设备中实现高能效和多种功能,为未来芯片架构开辟新道路 [4][7] - 这项研究由麻省理工学院、滑铁卢大学和三星电子的研究人员共同完成,并获得了半导体研究公司和英特尔的资助 [5][7]
AIGC 行业专题报告:AI 技术演进视角下,智能内容生成的现在与未来
搜狐财经· 2025-12-13 07:09
文章核心观点 - 人工智能是继蒸汽革命、电气革命和信息革命之后的第四次生产力革命,其发展由提效降本的需求驱动,并在新一轮技术革命中成为国家间科技竞争的关键 [3][5] - 当前人工智能处于基于统计规律的弱人工智能阶段,但其商业化价值已充分展现,特别是在内容分发和生成领域,有望重塑内容与平台生态,带动新一轮产业投资周期 [33][37][65][70] - 深度学习算法的突破、海量数据的积累以及GPU等算力的大幅提升,共同构成了本轮人工智能浪潮爆发的核心基础,使得AI技术得以走出实验室并广泛渗透至各行业 [8][12][16][37][38] AI发展驱动力与宏观意义 - **微观驱动力**:AI通过替代劳动力、提升生产效率以及满足新增需求来服务C端和B端用户,应用场景涵盖娱乐、出行、健康、金融、公共安全及医疗等多个领域 [3] - **宏观意义**:AI被视为新一轮技术革命的核心,历史上每次技术革命都重塑了全球霸主格局,因此在本轮变革中具有良好技术沉淀和全面布局的国家有望赢得科技竞争的主动权 [5] 人工智能产业链 - **基础层**:提供算力支撑,包括AI芯片、传感器、大数据及云计算,技术门槛高,目前主要由Nvidia、AMD、英特尔等国际巨头主导,国内布局相对薄弱 [6][7] - **技术层**:解决具体技术问题,包括计算机视觉、自然语言处理、语音识别和机器学习,谷歌、IBM、亚马逊、苹果、阿里巴巴、百度等科技巨头及商汤、旷世、科大讯飞等独角兽公司深度布局 [6][7] - **应用层**:解决场景落地和商业化问题,得益于全球开源社区,进入门槛相对较低但商业价值最大,典型案例如抖音、快手的算法推荐应用 [6][7] AI技术发展历程与现状 - **发展历程**:AI发展60年来经历“三起两落”,前两次浪潮因算法局限和算力不足而衰落,2006年Hinton提出的深度学习算法,结合数据与算力的爆发,开启了当前第三轮发展浪潮 [8][9][10][11][12] - **技术演进**:AI技术流派从符号主义、连接主义发展到行为主义,深度强化学习技术(连接主义与行为主义的结合)成为推动本轮发展的关键,例如AlphaGo战胜李世石 [16][17][18][19][20] - **算法进步**:AI算法从“既定规则系统”、“传统机器学习(浅层学习)”演进到“深度学习”,深度学习算法使得计算准确度能随数据量增加而持续提升,例如引入深度学习后,语音识别准确率从76.4%提升至94.5% [23][24][25][26] - **当前阶段**:当前AI处于“弱人工智能”阶段,专注于特定任务,在计算智能和感知智能(如语音识别准确率超98%,人脸识别超99%)层面已成熟,但认知智能仍有较大提升空间 [30][33] 本轮AI爆发的关键要素 - **算法**:深度学习算法革命性地将决定AI准确度的核心从“算法设计”转变为“数据与算力”,只要数据充足,机器可自动归纳规则 [37] - **数据**:互联网及数字经济发展提供了海量训练数据,2021年全球数据量已达82 ZB,预计2026年将达214 ZB,为AI算法提供了充足“燃料” [39] - **算力**:GPU等算力芯片快速发展解决了训练速度和成本问题,例如英伟达GPU从P100到A100计算能力提升11倍,最新的H100芯片训练表现较A100提升9倍 [41] - **开源框架与政策**:各巨头推出的开源开发框架(如TensorFlow)大幅降低了AI开发门槛,同时中国等国家将AI上升为国家战略,出台系列扶持政策,如《新一代人工智能发展规划》设定了到2030年核心产业规模超1万亿元的目标 [42][43][44][45] AI在内容领域的应用与投资机遇 - **算法推荐的应用**:基于AI的“千人千面”推荐系统解决了信息过载问题,推动了内容分发从“人找信息”到“信息找人”的转变,字节跳动凭借此技术快速崛起,其产品总用户时长占比在2022年底达到24.5% [47][50][51][52][53] - **生成式AI的兴起**:AIGC(人工智能生成内容)发展历经早期萌芽、沉淀积累、快速发展,于2022年进入爆发破圈阶段,标志性事件包括ChatGPT推出后用户数迅速突破100万 [56][58][59][60] - **技术基础与前景**:预训练大模型(如GPT系列)的进步加速了AIGC产业化,GPT-3.5参数量已达千亿级,AIGC有望推动内容生产从PGC、UGC进入AIGC时代,重塑内容与平台生态,带来新的产业投资周期 [63][64][65][70] AI的经济影响与商业化价值 - **经济影响**:据预测,2020年AI为全球GDP带来14%的提升,相当于15.7万亿美元的增长,到2025年可能影响全球50%的经济(约32万亿美元) [37] - **商业化验证**:“弱人工智能”在特定领域表现已超越人类,例如IBM的Watson在提供肺癌、结肠癌和直肠癌治疗建议方面与医生的一致性分别达96%、81%和93%,微软小冰创作的诗歌难以被识别为机器所作 [34] - **行业提效潜力**:AI为制造业效率提升1%即可全球节约3000亿美元,细分至航空、电力、医疗、铁路、石油天然气等行业,效率提升1%分别相当于节约300亿、660亿、630亿、270亿和900亿美元 [37]
地平线苏菁:智驾又要进入苦日子阶段,这一代深度学习技术可能碰到天花板了
新浪财经· 2025-12-12 22:19
行业技术趋势判断 - 当前一代深度学习技术可能已触及天花板 未来三年内 智能驾驶的发展将侧重于在现有系统上进行极致优化 而非理论内核重构 [1][15] - 特斯拉FSD V12证明了“一段式端到端”技术的可行性 推动了智能驾驶技术范式从规则驱动转向数据驱动 其意义堪比核能从理论迈入工程 [3][4][17][18] - 2024年智能驾驶的“内核重构”本质是深度学习成果的集中释放 但这种技术跃迁大概率不会成为常态 未来产业将从“功能拓展”回归“能力纵深” [7][21] 行业演进方向预测 - “一段式端到端”技术的普及将带来两大趋势:一是智驾系统在未来几年内越来越“类人” 推动L2级辅助驾驶迎来巨大发展红利期 城区辅助驾驶将逐步普及到10万元级别车型;二是L2和L4级别的智驾方法论将统一 有助于以更低成本落地L4系统(Robotaxi) [3][17] - AI和AGI的基础理论在未来三到五年可能不会有全新突破 行业将进入演进和优化阶段 企业竞争可能转向堆叠算力和模型容量 [10][24] 公司产品与业务进展 - 地平线正式发布第四代BPU架构“黎曼” 该架构通过高维数据降维提升模型效率 具备算力更强、效率更高、算子更丰富、能效更优的核心优势 将搭载于征程7系列芯片 [10][24] - 公司基于单征程6M芯片的城区辅助驾驶方案即将量产上车 目标普惠10万元级别市场 [14][26] - 单征程6M城区辅助驾驶的首批合作采用两种模式:芯片工具链合作(合作伙伴包括博世、卓驭、轻舟智航)和算法服务合作(合作伙伴包括电装、酷睿程、智驾大陆) [14][26]
前OpenAI首席科学家Ilya:情绪是终极Value Function
首席商业评论· 2025-12-12 19:21
文章核心观点 文章通过解读OpenAI前首席科学家Ilya Sutskever的访谈,阐述了其对人工智能发展现状、未来方向及实现路径的核心观点。核心观点认为,AI发展正从依赖算力规模扩张的“规模化时代”转向依赖算法创新的“研究时代”,而实现安全、高级的通用人工智能(AGI)的关键在于探索新的学习机制(如价值函数)、理解并模拟人类智能的本质(如情绪、同理心),并保持专注的研究品味[10][17][22][24]。 关于时代的转向 - AI发展历程分为三个阶段:2012-2020年为“研究时代”,尝试不同AI想法;2020-2025年为“规模化时代”,自GPT-3后算力规模扩张成为共识;2025年开始,因数据有限,预训练的规模定律失效,行业重新回归“研究时代”,竞争焦点将从比拼GPU数量转向寻找新算法[17] SSI的规划 - Ilya创立的SSI公司采取“Straight shot”策略,不发布中间产品,直接研发超级智能,以避免市场竞争带来的妥协[13] - 其对超级智能的定义更接近“超级学习者”,发布时类似“天才少年”,需在社会中学习进步,预计出现窗口期为5到20年[13] - SSI融资30亿美元,虽比大厂少,但资金将全部投入纯粹研究实验,在研发层面具备竞争力[13] 关于Taste(研究品味) - Ilya分享了判断研究方向的三个黄金标准:1) 生物学上的合理性(如神经元连接结构);2) 方案的简洁与优雅美感;3) 基于第一性原理的“自上而下”信念,即在数据不符预期时能坚持理论,相信是代码问题,这是顶级与平庸研究者的关键区别[18] 关于Value Function(价值函数) - 预训练红利已尽,下一步重点是价值函数,旨在让AI具备人类式的直觉性中途判断能力,而非仅能在任务完成后评估对错,此举将大幅提升AI学习效率[16][19] - Ilya坚信只要信号存在,深度学习就能学到价值函数,尽管路径复杂[19] 关于RL(强化学习) - Ilya提出反直觉观点:当前的RL方法可能是在“弄傻”模型,因为它可能“撤销预训练的概念印记”,迫使AI讨好单一人类指标,牺牲了其原本宽广的通用智力,类似应试教育[20] - 行业现状发生重要转向:根据传闻,目前花在RL上的算力已超过预训练,因为RL需要长推演,算力消耗大但有效学习信号少[20] 情绪与同理心的作用 - 情绪被视为人类高效的“压缩算法”和终极的价值函数,能帮助快速决策。当前AI缺乏这种内在指引,导致其可能逻辑正确但缺乏常识[22] - 同理心是理解世界的最佳捷径。从计算效率看,复用理解“自我”的神经回路去模拟“他人”是最省资源的建模方式,因此同理心可能作为智能提升的涌现属性出现[24] - 将“关爱有感知生命”硬编码进超级智能是对齐问题的潜在解法。人类进化能将对“社会地位”等抽象概念的追求编码进大脑,这为将高级目标对齐给AI提供了可能性[24][25] 关于语言对思维的影响 - 行业术语会反向塑造研究方向,例如“AGI”一词可能导致过度追求全能基础模型而忽视动态学习能力;“Scaling”一词则曾让行业过度聚焦模型规模而停止探索其他可能性[27] 未来的市场格局 - 未来超级智能领域不会由一家公司垄断,竞争将促使专业化分工。在特定领域投入巨大算力形成高壁垒后,其他AI从头学习将不划算,从而形成类似自然界的生态平衡,这对垂直领域创业者是鼓励[28]
OpenAI十周年「血色浪漫」:11位联创出走8位,奥特曼深夜发文
36氪· 2025-12-12 15:17
公司发展历程与现状 - 公司成立于2015年底,最初是一个没有明确盈利模式、产品和研究路线的AI研究实验室[14] - 公司目前估值达到800亿美元,员工人数超过1000名,打造了全球用户最多的大语言模型[7] - 公司每周有8亿人使用其产品,超过100万家企业基于其技术开发业务[35] - 最初的11位联合创始人中,目前仅有3位仍留在公司[7] 核心技术突破与产品化 - 2017年是一个关键转折点,AI语言模型中发现了“情感神经元”,开始理解语义而不仅是语法[16][17] - GPT系列的开端源于研究员Alec Radford在文本预测实验中的偶然发现[10] - 公司采用“迭代式部署”策略,不等技术完美就发布产品,边用边改,现已成为行业默认配置[23][24][25][26] - 产品创新由研究驱动,例如Sora视频模型最初目标是研究“AI理解物理世界”,后演变为产品[36][38] - “AI智能体”的突破来自内部关于推理能力的研究项目,能将几小时的任务缩短至几分钟[38] 公司文化与运营理念 - 公司早期最宝贵的资产并非技术,而是一种解决下一个问题的执念和文化[15] - 公司内部是真正的“自下而上”模式,没有自上而下的路线图,鼓励研究员大胆想、自由做[39][40][41] - 公司节奏极快,必须每天做好准备,因为“昨天对的事情,今天可能就不成立了”[44] - 公司将安全视为每个团队的责任和系统工程,而非上线前的最后检查项,早期就投入对齐研究[45][46][47] - 公司多次逆势而行,在AGI被嘲笑、Scaling Law被看衰、AI实用化被质疑时坚持己见并最终证明正确[50][51][52][53] 使命与未来展望 - 公司创立时的目标是开发安全的通用人工智能,最初被认为疯狂且不切实际[12] - 公司的使命是构建对全人类有益的AGI,产品被视为实现该目标的手段而非终点[57][58] - 在GPT-4发布后,公司认为AGI不再是胡扯[20] - 公司对未来的研究和产品路线图非常看好,认为再有十年时间几乎可以肯定能造出超级智能[30] - 公司内部相信智能是推动人类飞跃的核心力量,其正在制造一种前所未有的“智能生产力”[54][55]
何恺明NeurIPS 2025演讲盘点:视觉目标检测三十年
机器之心· 2025-12-11 18:00
论文获奖与演讲背景 - 任少卿、何恺明、Ross Girshick和孙剑合著的论文《Faster R-CNN》在NeurIPS 2025会议上获得了“时间检验奖” [1] - 该论文自2015年发表以来,奠定了现代目标检测框架的核心范式,并深刻影响了随后十年的视觉模型发展方向 [1] - 何恺明在大会上发表了题为《视觉目标检测简史》的演讲,总结了30年来该领域的发展历程 [5][6] 早期目标检测:手工特征时代 - 在深度学习爆发前,计算机视觉依赖手工设计的特征和分类器,如SVM,这种方法速度慢且难以适应复杂场景 [12] - 关键里程碑包括:1996年基于神经网络的人脸检测、1997年SVM用于人脸检测、2001年Viola-Jones框架、1999年SIFT特征、2003年视觉词袋模型、2005年HOG特征与金字塔匹配核、2006年空间金字塔匹配、2008年可变形部件模型DPM [14] 深度学习破晓:从AlexNet到R-CNN - 2012年,AlexNet在ImageNet竞赛中以压倒性优势夺冠,证明了深层卷积神经网络提取特征的能力远超手工设计 [15] - 2014年,Girshick等人提出划时代的R-CNN,其思路是先用传统算法生成约2000个候选区域,再将每个区域送入CNN提取特征并用SVM分类 [17][19] - R-CNN的瓶颈在于每个候选框都需单独通过CNN,计算量巨大 [18] 速度进化:从Fast R-CNN到Faster R-CNN - 2014年,何恺明团队提出SPP-Net,引入空间金字塔池化层,允许网络处理任意大小图片并只计算一次全图特征,大大加速检测 [19] - 2015年,Girshick借鉴SPP-Net提出Fast R-CNN,引入RoI Pooling,将特征提取、分类和回归整合到一个可端到端训练的网络中 [19] - 2015年,何恺明团队最终提出Faster R-CNN,核心是引入了区域提议网络,从特征图上通过预设的Anchor直接预测物体位置,取代了传统的Selective Search算法,实现了真正的端到端实时检测 [25] 后Faster R-CNN时代:多样化发展与范式变迁 - 2016年,YOLO和SSD问世,采用单阶段检测范式,直接在全图上输出物体位置和类别,速度极快 [32] - 2017年,何恺明团队提出Focal Loss,解决了单阶段检测中正负样本不平衡的问题,并推出了RetinaNet [32] - 2017年,Mask R-CNN在Faster R-CNN基础上增加分割分支,实现实例分割,并引入了RoI Align解决像素对齐问题 [32] - 2020年,DETR将Transformer架构引入目标检测,完全抛弃了Anchor和非极大值抑制等后处理步骤 [32] - 2023年,SAM模型展示了视觉大模型的雏形,能够进行不限类别的通用分割 [32] 总结与启示 - 何恺明在演讲中以“驶入迷雾”比喻科学探索,强调没有预先画好的地图,甚至不知道终点是否存在 [34][36] - 从手工特征到CNN,再到Transformer,每一次飞跃都是对旧有瓶颈的突破,Faster R-CNN的核心启示在于:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它 [35]
地平线苏箐:未来三年 自动驾驶行业将告别范式迭代狂飙
中国经营报· 2025-12-11 12:28
行业技术范式变革 - FSD V12的发布成为自动驾驶行业的分水岭 其端到端架构实现了从“光子输入”到“控制输出”的全链路神经网络决策 将深度学习的应用从感知延伸至规控 完成了技术革命的闭环 [2][3] - 此前行业技术仅完成一半 深度学习仅重构了感知环节 决策规控仍依赖规则主导 这种半吊子的技术重构仅能发挥20%—30%的效能 [2] - 新范式打通了L2与L4的技术壁垒 让两者得以共享开发体系、传感器配置与ODD区域方案 [3] 未来发展趋势判断 - 未来三年 自动驾驶行业将告别范式迭代的狂飙 进入极致优化的“苦日子” [2][3] - 当前深度学习已显露天花板迹象 AGI基础理论暂无突破信号 下一轮内核重构至少还需5—20年的技术沉淀 [3] - 假设AI/AGI理论在未来3—5年没有全新突破 产业将进入技巧型优化演进状态 [3] 公司战略与应对之策 - Scaling Law在自动驾驶领域刚刚开始 公司将推动每代AD产品实现10倍算力提升 支撑10倍参数规模的系统进化 [3] - 以统一的底层技术范式 重点投入城区L2与L4两大关键节点 并持续强化工程体系与组织能力建设 [3] - 核心命题是将现有技术潜力发挥到极致 包括持续提升芯片算力与模型容量 以统一范式推进L2到L4的融合 [4] - 目标让城市L2从20万级车型下探至10万级市场 让准L4系统以平民化价格走进大众 [4] 行业现状与挑战 - 研发团队承受智力与体力的双重压榨 数亿元投入未能“激起水花” [2] - 行业面临稠密场景下的海量corner case、紧迫的SOP时限 一度陷入路径迷茫 [2] - 未来阶段需要应对海量长尾场景的打磨 强化工程与组织能力是穿越周期的关键 [4] 行业终极目标 - 自动驾驶的终极目标是造出能替代人类司机的机器 [4] - 在范式革命之后 行业考验的是沉下心来做“精活”的耐力 [4] - 未来几年内的意义在于 能够把L4级别的车以平民化的价格送到用户手上 [4]