大语言模型（LLMs） - 财报，业绩电话会，研报，新闻 - Reportify

大语言模型（LLMs）

搜索文档

顾客期待共情，企业该如何满足？

36氪· 2025-11-20 09:12

在此情境下，共情指的是顾客认为公司及其代表真诚地试图理解并回应其情绪状态，尤其是在顾客脆弱的时刻。对于保险客户而言，这可能意味着保险代表不仅处理理赔事宜，还认可客户正在经历的困难，或者公司事后跟进了解情况。这是一种从客户视角看待问题，并将这种认知转化为关怀和积极回应的能力。曾几何时，共情被认为过于温情柔弱，不适用于职场环境。但数十年的研究已打破这一误解。共情包含三个要素：分享他人经历、尝试理解他人眼中的世界，以及关心他人的福祉。当人们表达共情时，会建立起更深层次、更具滋养性的关系；当他们感受到共情时，其信任度、士气和幸福感也会随之提升。职场亦是如此。富有共情力的领导者能够打造出员工敬业度更高、忠诚度更强的团队，在这样的团队中，员工不仅感觉更良好（体验到更多的快乐、更强的韧性和更高的幸福感），而且工作表现也更出色（协作更高效、创新能力更强、工作产出更高）。如今，任何一家希望以数据驱动企业文化的公司，都应确保领导者能够给予共情，员工也能感受到共情。但企业的顾客又如何呢？在苏黎世保险集团赞助的一项全新全球调查中，我们对11个国家近1.2万人进行了民意调查，结果发现，大多数顾客希望从与之打交道 ...

数据驱动企业文化

大语言模型（LLMs）

数据驱动企业文化

大语言模型（LLMs）

GitHub 工程师揭底：代码审查常犯这 5 个错，难怪你改到崩溃！网友：差点全中了

程序员的那些事· 2025-11-04 17:09

文章核心观点 - 在AI生成代码日益普及的背景下，代码审查的重要性显著提升，但工程师在审查过程中常犯错误，需改进审查方法以提升效率[5] - 工程师应避免仅审查代码差异、留过多意见、以个人偏好为标准审查，并应明确使用审查状态，多数审查应为“通过”状态[6][8][9][12][13] - 审查原则同样适用于AI生成代码，但对其应更严格，代码审查方式因团队目标优先级不同而异[17] 工程师在代码审查中常犯的错误 - 最大错误是只审查代码差异，而忽略代码在整体系统中的适配性，应结合对代码库其他部分的熟悉度提出更有影响力的意见[6] - 审查意见过多会淹没重要问题，一次好的审查意见不应超过五六条，风格问题应汇总提出而非逐条标注[8] - 使用“我会怎么写”的个人偏好标准进行审查会导致意见堆积，只要代码能正常工作且方案合理就应通过，避免强加个人偏好[9][10][11] - 不想让变更合并时应明确标记“阻塞性审查”，避免使用模糊意见导致合并流程混乱[12] - 多数审查应为“通过”状态，高阻塞率可能反映团队结构性问题或过度“守门”，谷歌指南将“优先通过变更”作为首要原则[13][14] 代码审查的实用原则 - 审查时应思考PR中“没写的代码”是否合理，而不仅看已写部分[18] - 留少量经过深思熟虑的意见，而非堆砌上百条随手意见[18] - 以“代码能正常工作”为标准审查，而非追求与个人写法完全一致[18] - 除非有严重问题，否则应通过审查，对AI生成代码可更严格[17][18] - 代码审查是学习机会，需在进度推进和代码库质量维护间找到平衡[22]

大语言模型（LLMs）

大语言模型（LLMs）

AI赋能资产配置（十九）：机构AI+投资的实战创新之路

国信证券· 2025-10-29 14:51

核心观点 - 大语言模型、深度强化学习和图神经网络三大技术正从信息基础、决策机制到系统架构三个层面深度重构资产配置的理论与实践 [1] - AI技术栈已具备现实基础，AI正从辅助工具转向决策中枢，推动资产配置从静态优化迈向动态智能演进 [1] - 头部机构的竞争已升维至构建专有、可信且能驾驭复杂系统的"AI原生"战略，其核心是全链条的专有技术布局 [2] - 对国内资管机构而言，破局之道在于战略重构与组织变革，走差异化、聚焦式的技术落地路径，构建务实高效的"人机协同"体系 [2][3] AI技术范式重塑大语言模型（LLMs） - LLMs通过深度理解财报、政策等非结构化文本，将海量非结构化文本转化为可量化的Alpha因子，根本上拓展了传统投研的信息边界 [1][11] - 金融专用LLMs的开发遵循预训练加微调的两步范式，以克服通用模型在金融专业术语理解上的不足，业界已出现如BloombergGPT（500亿参数）、FinGPT等专用模型 [12][13] - LLMs的应用场景包括为算法交易系统提供实时情绪信号，以及7×24小时不间断监控全球信息流进行风险管理 [14] - LLMs应用面临数据偏见与模型幻觉、高昂计算成本及可解释性难题等核心挑战 [15][16] 深度强化学习（DRL） - DRL推动资产配置决策框架从静态优化转向动态自适应，其目标是学习在长期内实现最优回报的决策策略，而非一次性精准预测 [1][17] - DRL构建"智能代理"通过与模拟或真实的金融市场交互来学习，其核心是经历"观察-行动-奖励"循环以学会最优策略 [18] - 主流DRL算法包括演员-评论家方法、近端策略优化和深度确定性策略梯度，这些算法非常适合投资组合管理中的连续权重调整任务 [19][20] - DRL的发展瓶颈包括数据依赖与过拟合风险、市场周期适应性难题、高昂计算成本及现实世界约束整合的技术挑战 [21][22] 图神经网络（GNNs） - GNNs通过将金融系统抽象为网络（节点代表金融机构，边代表相互关联），揭示金融网络中的风险传导路径，深化对系统性风险的认知 [1][23] - GNNs通过"消息传递"机制学习节点的自身特征和图的拓扑结构，能够进行风险传播建模和压力测试，识别"大到不能倒"的核心机构 [24][25] - GNNs对监管者的启示在于能够进行动态系统性风险评估和压力测试，对投资者的价值在于帮助构建更有效的投资组合对冲策略 [26] 头部机构实践案例贝莱德（BlackRock）AlphaAgents - AlphaAgents项目采用多智能体系统模拟人类投资委员会的"协作与辩论"机制，设立基本面分析、情绪分析和估值分析三个专业分工的AI智能体 [30][31] - 系统核心技术由GPT-4o驱动，通过对抗性辩论与共识辩论环节，强制智能体就"买入"或"卖出"展开多轮讨论直至达成一致，以提升结论稳健性 [31][33] - 回测实验显示，在风险中性策略下，多代理投资组合的累计回报和夏普比率显著优于所有单代理组合及市场基准，而在风险规避策略下成功实现了规避下行风险的策略目标 [34][35] - 该系统的战略定位是代表贝莱德人机协作模式的根本性升级，其未来价值在于解决AI信任问题、具备全流程AI赋能潜力及寻找判断性Alpha [39][40] 摩根大通（JPMorgan）"AI原生"战略 - 摩根大通每年在AI上投入20亿美元，其AI研究部门在2024至2025年间共发表140篇出版物，其中8篇发表于AAAI顶级会议，研究布局具有鲜明的学术导向 [42][43][44] - 战略支柱一聚焦构建专有、可信的AI核心技术，通过研究如模型公平性、差分隐私和输出控制等技术，将合规成本中心转化为竞争护城河 [45][46][47][49] - 战略支柱二通过多智能体模拟和强化学习创建金融"风洞实验室"，旨在模拟复杂经济系统并训练AI代理做出最优决策，以掌控复杂系统 [53][54][55][56] - 战略支柱三从物理与另类数据中创造信息优势，应用计算机视觉和地理空间分析技术将现实世界数据转化为结构化金融信息，扩展"可知"和"可定价"的边界 [58][59][60][61] 对国内资管机构的启示 - 国内机构需进行战略重构，成立跨部门AI战略委员会，制定符合公司特色的转型路线图，并采取"聚焦突破"策略而非盲目追求"大而全" [63] - 技术落地应采取"三步走"策略，夯实数据基础，基于开源框架务实选择模型，并确立"人机协同"原则，将AI定位为投研团队的"智能副手" [64] - 组织变革需打破部门壁垒，构建融合投资、数据科学和工程的跨职能团队，并采取"外部引进与内部培养"双轨制进行人才建设 [65][66] - 风险管控需建立覆盖模型全生命周期的治理框架，前瞻性布局"可信AI"能力，将合规能力转化为竞争优势 [67]

AI赋能资产配置

大语言模型（LLMs）

深度强化学习（DRL）

图神经网络（GNNs）

AI赋能资产配置

大语言模型（LLMs）

深度强化学习（DRL）

图神经网络（GNNs）

纯血VLA综述来啦！从VLM到扩散，再到强化学习方案

具身智能之心· 2025-09-30 12:00

视觉-语言-动作模型综述的核心观点 - 该综述系统性地总结了纯视觉-语言-动作方法的研究现状，旨在填补现有综述在纯VLA方法上的空白，并提出清晰的分类体系以阐明该领域的演进轨迹 [4][8] - VLA模型通过提供统一框架将视觉感知、语言理解和可执行动作相结合，标志着通用具身智能发展的重要一步，其目标是克服传统机器人系统在动态和非结构化环境下泛化能力差的问题 [11][14] - 该领域正从单一生成范式向混合架构演进，结合自回归、扩散和强化学习等多种范式的优势，以应对复杂任务，并朝着更高效、安全且易于部署的通用机器人系统发展 [18][56][57] 背景与发展脉络 - VLA模型的发展建立在单模态建模突破的基础上，早期LLM/VLM基础模型如Transformer架构和对比学习方法为多模态整合奠定了方法学基础 [12][13] - 从LLM/VLM到VLA模型的演进体现在将图像、指令和机器人状态统一编码为token，并通过自回归生成动作序列，从而在单一序列建模框架下实现感知-语言-动作的闭环 [14] - VLA模型被视为实现通用具身智能的关键前沿，其通过结合视觉编码器、大语言模型和强化学习的决策能力，展现出弥合“感知-理解-行动”鸿沟的重要潜力 [17] VLA方法学范式自回归范式 - 自回归模型通过将动作序列视为时间相关过程，在Transformer架构中统一多模态感知和动作生成，支持跨任务泛化的通用代理，代表性工作包括Gato、RT-1/RT-2和PaLM-E [19][21] - 该范式通过引入LLM实现语义规划和分层推理，增强了长时任务和复杂指令的处理能力，但面临误差累积、多模态对齐脆弱以及高计算成本等限制 [24][26][32] - 结构优化方向聚焦于降低计算冗余和提升实时性，采用层级分解、自适应推理和轻量化压缩等策略，以改善部署效率 [30][31] 扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题，通过条件去噪过程支持多样化的动作分布生成，在几何一致性（如SE(3)约束）和视频生成式规划方面展现出优势 [33][37] - 多模态架构融合趋势将Transformer与扩散模型结合，实现异质模态的统一表征，并引入显式推理模块和领域专用设计（如力觉感知）以提升性能 [38][39] - 应用优化方向通过轻量化设计（如TinyVLA）、认知启发式架构和运行时鲁棒性机制，推动模型从实验室原型向真实世界部署过渡 [40][42][44] 强化学习范式 - 强化学习微调策略通过视觉和语言信号生成可迁移的奖励代理，结合离线行为克隆和在线强化学习稳定策略优化，并扩展至四足机器人、人形机器人和自动驾驶等场景 [48][51][53] - 安全导向方法如SafeVLA引入约束学习对齐机制，在开放环境中防止高风险动作，但奖励工程的噪声信号和训练稳定性仍是挑战 [50][54] - 效率优化策略采用量化、剪枝和知识蒸馏等技术，在保持任务成功率的同时降低内存使用和提升推理速度 [53] 混合与专用方法 - 混合架构整合自回归、扩散和强化学习等多种范式，以兼顾推理精度与动作生成的物理一致性，代表性工作如HybridVLA在单一框架中结合扩散轨迹和自回归推理 [56][57] - 高级多模态融合强调3D空间理解和显式几何约束建模，从早期2D特征拼接转向模块化、具3D意识的架构，以提升在非结构化环境中的操作可靠性 [59][60] - 领域适配将VLA原则扩展至自动驾驶、人形机器人控制和GUI交互等特定场景，通过专用数据集（如CoVLA）和层级化设计解决领域独特挑战 [61][62] 数据集与仿真资源 - 高质量数据集是VLA模型发展的基石，真实世界数据集如Open X-Embodiment整合了来自21个机构的22个机器人数据集，覆盖527种技能和160,266个任务，显著提升了模型的泛化能力 [16][71][76] - 仿真数据集通过虚拟环境生成大规模标注数据，支持可扩展训练和安全测试，代表性平台包括THOR、Habitat和CARLA，它们提供了多样化的交互场景和传感器配置 [16][80][81] - 基准评测常用成功率、语言跟随率和轨迹误差等指标，并通过迁移到未见环境评估模型的鲁棒性，仿真基准如VIMA-BENCH和CALVIN设计了多级协议以系统化测试泛化能力 [76][79][82]

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

视觉-语言-动作（VLA）模型

大语言模型（LLMs）

视觉语言模型（VLMs）

自回归范式

UCLA最新！大模型时序推理和Agentic系统的全面综述

自动驾驶之心· 2025-09-28 07:33

时间序列推理（TSR）的兴起背景 - 时间序列数据是现代社会的"数字脉搏"，广泛应用于金融风控、医疗诊断、能源调度和交通管理等关键领域[1] - 传统时间序列分析技术（如ARIMA、LSTM）在预测和异常检测等基础任务上已取得显著进展，例如用LSTM预测未来24小时城市用电量，用CNN检测心电图中的心律失常片段[1] - 随着应用需求升级，传统方法在解释性、因果推断和动态响应方面存在三大局限：缺乏解释性、难以处理因果、静态响应不足[8][14] - 大语言模型（LLMs）具备分步推理轨迹、因果假设生成和智能体交互能力三大核心能力，为时间序列分析带来范式革命[8][14] - 时间序列推理被定义为利用LLMs对时序数据执行显式结构化推理的方法，可融合多模态上下文与智能体系统，实现解释、干预与动态生成[8] 三维分类框架 - 综述构建了"推理拓扑-核心目标-属性标签"三维分类框架，系统化梳理时间序列推理领域[9] - 第一维度推理拓扑定义LLMs执行推理的流程结构，分为直接推理、线性链推理和分支结构推理三类[12] - 直接推理是单步映射结构，高效但缺乏可解释性，典型案例包括LLMTIME将预测转化为文本生成任务，HiTime在单次前向传递中生成类标签[15][17] - 线性链推理通过有序推理步骤序列提升可解释性，案例如TimeReasoner将预测视为深思熟虑过程，RAF引入检索增强框架[18][21] - 分支结构推理支持多路径探索和自修正，是最高级拓扑，案例如AD-AGENT多智能体异常检测框架，BRIDGE多智能体时序生成模型[22][23][27] - 第二维度核心目标定义推理意图，涵盖传统时间序列分析、解释与理解、因果推断与决策、时间序列生成四类[24][28] - 第三维度属性标签细化方法特征，包括控制流操作、执行主体、信息来源和LLM对齐方式四类辅助特征[28][29][30][31][32] 核心目标应用场景 - 传统时间序列分析目标用LLM增强预测、分类、异常检测和分割等基础任务性能，例如用LLM结合新闻预测股价，用VLM分析时序图表检测电力系统异常[28] - 解释与理解目标要求LLM输出人类可理解的解释，支持时序问答、诊断解释和结构发现等任务，例如生成ECG诊断报告时说明异常波峰出现时间及可能原因[28] - 因果推断与决策是高级目标，支持自主策略学习、辅助决策支持和控制优化，例如LLM结合市场数据学习交易策略，为医生提供用药剂量调整建议[28] - 时间序列生成目标聚焦数据合成，支持条件合成和场景模拟，例如基于文本描述生成温度数据，生成极端天气下的电网负荷数据用于测试[28] 资源与工具支撑 - 推理优先基准专门测试LLM推理能力，例如MTBench多模态时序问答基准要求结合文本报告与时序数据回答问题[34][36] - 推理就绪基准自带丰富辅助信息支持推理研究，例如GPT4MTS包含时序数据与文本描述，RATs40K异常检测基准包含异常原因文本标注[34][36] - 通用时序基准是传统任务测试床，例如FinBen金融时序基准支持预测和风险管理，UEA/UCR时序分类基准包含多领域数据[34][36] 核心挑战与未来方向 - 标准化评估需结合证据忠实性和决策效用等全面指标，构建压力测试基准应对数据分布偏移和长时域场景[34][37] - 多模态融合存在时间对齐、模态失衡和风格鲁棒性三大问题，需解决文本、图像与时序数据精准匹配难题[38][41] - 长上下文与效率挑战需开发时序压缩技术和优化推理效率，以处理现实中的超长时序数据[38][41] - 智能体与工具使用需解决行动选择、工具适配和风险控制等鲁棒性与安全性问题[38][41] - 因果推断落地需解决时间混淆变量和构建因果基准，实现从相关性到因果性的跨越[38][41] - 成本与实用性需开发轻量化推理技术，将成本纳入设计指标以平衡性能与计算开销[38][41] - 未来时间序列推理将向大规模可靠性迈进，构建能理解、解释并作用于动态世界的智能系统[39]

时间序列推理（Time Series Reasoning

大语言模型（LLMs）

传统时间序列分析

大语言模型（LLMs）

时间序列推理（Time Series Reasoning

大语言模型（LLMs）

传统时间序列分析

大语言模型（LLMs）

西交利物浦&港科最新！轨迹预测基座大模型综述

自动驾驶之心· 2025-09-25 07:33

文章核心观点 - 大型基础模型（LFMs）为自动驾驶轨迹预测带来了范式转变，从传统的信号级预测转向语义级推理，通过整合语言和情境知识提升了对复杂交通场景的理解能力 [1] - 基于LLM的方法在轨迹预测中展现出三大核心优势：强大的语义推理能力、对长尾场景的卓越泛化能力以及多模态信息的深度融合能力，显著提高了预测的可解释性和安全性 [11][20] - 尽管优势显著，该技术在实际应用中仍面临计算延迟高（自回归解码延迟常超过100毫秒，难以满足车辆控制周期低于50毫秒的严格要求）、数据稀缺以及真实世界鲁棒性等关键挑战 [20] 轨迹预测技术演变 - 轨迹预测技术经历了从基于物理模型和机器学习方法，到深度学习方法，再到当前以大型基础模型为主导的演变过程 [4][8] - 传统方法（如卡尔曼滤波器、高斯过程）计算高效但难以处理复杂交互场景，深度学习方法（端到端架构）能自动提取时空特征并生成多模态概率输出，但存在计算需求高、可解释性差等局限 [8][9] - 强化学习方法在交互场景建模和长期预测方面表现出色，但训练过程复杂且不稳定，存在“黑盒”问题 [9] 基于LLM的轨迹预测关键方法 - **轨迹-语言映射**：通过提示工程将轨迹数据编码为结构化文本（如“自车速度：12m/s”），或利用轨迹离散化技术（如VQ-VAE）将连续轨迹映射为离散符号序列，使LLM能够理解运动行为 [12] - **多模态融合**：设计共享的场景编码器（如BEV编码器）将图像、LiDAR点云和地图信息映射为统一表示，再与语言指令进行交叉注意力融合，典型框架包括DiMA和DrivingGPT [12] - **基于约束的推理**：利用LLM的常识知识，通过链式思维提示和规则注入（如交通规则）使轨迹生成过程透明且合规，例如CoT-Drive将预测分解为场景解析、交互分析等多步骤 [13] 实验基准与性能评估 - **主流数据集**：行人预测广泛使用ETH/UCY数据集，车辆轨迹预测则以Waymo Open Motion Dataset（WOMD）、nuScenes和Argoverse为主流基准，新兴数据集如nuPlan专注于闭环规划与预测的协同评估 [16] - **核心评估指标**：车辆轨迹预测主要关注L2距离（预测终点与真实终点的欧氏距离）和碰撞率，行人预测则主要使用minADE和minFDE（计算K=20个预测值中的最佳结果） [17] - **性能对比**：基于LLM的方法在关键指标上显著优于传统深度学习方法，例如DriveVLM-Dual在NuScenes数据集上的平均碰撞率仅为0.1%，而传统方法如UniAD为0.37% [18] 未来研究方向 - 发展超低延迟推理技术（如非自回归解码）以满足实时控制需求，解决当前自回归解码延迟超过100毫秒的问题 [21] - 构建面向运动的基础模型，通过大规模轨迹预训练提升模型的运动语义理解与生成能力 [21] - 推进世界感知与因果推理模型的研究，使轨迹预测建立在因果机制之上，而不仅仅是关联模式 [21]

大语言模型（LLMs）

多模态大语言模型（MLLMs）

自动驾驶轨迹预测

自动驾驶轨迹预测技术

大语言模型（LLMs）

多模态大语言模型（MLLMs）

自动驾驶轨迹预测

自动驾驶轨迹预测技术

万字长文！首篇智能体自进化综述：迈向超级人工智能之路

自动驾驶之心· 2025-09-12 07:33

自进化智能体综述核心观点 - 大语言模型本质上是静态的无法在面对新任务不断进化的知识领域或动态交互环境时调整其内部参数这已成为开放交互式环境部署的关键瓶颈[2][3] - 自进化智能体代表人工智能领域的范式转变从扩展静态模型转向开发能够从数据交互和经验中持续学习与适应的系统这是通往人工超级智能(ASI)的关键路径[3][4] - 综述首次系统性地围绕三个基础维度组织该领域：进化对象(what) 进化时机(when)和进化机制(how) 为理解与设计自进化智能体提供结构化框架[3][6] 进化对象(What to Evolve) - 智能体系统可分解为四个基本进化支柱：模型(推理和行为参数) 上下文(指令和长期记忆) 工具集(外部技能创建和管理) 以及架构(系统协作结构)[19] - 进化机制涵盖策略经验提示记忆工具创建与掌握架构选择等多个维度不同方法在各维度有不同侧重例如Mem0在7个维度均有进化 MAS-Zero侧重模型和经验进化[20] 进化时机(When to Evolve) - 按时间阶段分为测试时内自进化(任务执行期间实时适应)和测试时外自进化(任务完成间利用积累经验提升未来表现)[22] - 测试时内进化具有在线性学习数据动态产生且直接针对当前问题测试时外进化具有回顾性作用于历史数据旨在提高任务分布预期性能[23] - 进化依赖三种基本学习范式：上下文学习(ICL) 监督微调(SFT)和强化学习(RL) 在不同时间背景下数据可用性和学习目标存在差异[23] 进化机制(How to Evolve) - 主要方法家族包括基于奖励的进化(标量奖励自然语言反馈外部信号) 模仿与示范学习(高质量范例学习) 以及基于群体和进化的方法(选择变异交叉等机制)[27] - 不同方法在反馈类型数据源奖励粒度样本效率稳定性和可扩展性等方面存在显著差异例如基于奖励的方法对奖励设计敏感模仿学习受示范质量影响大群体方法资源密集但可扩展性好[29] 应用场景(Where to Evolve) - 应用系统分为通用领域进化(数字领域各种任务能力扩展)和专用领域进化(特定领域专业知识深化) 前者侧重经验迁移后者侧重领域深化[31] - 关键应用领域包括自主软件工程个性化教育医疗保健和智能虚拟助手等持续适应和进化在这些领域至关重要[10][38] 评估体系(Evaluation) - 评估需超越传统静态系统涵盖随时间推移的适应能力知识积累与保留长期泛化能力以及技能迁移同时减轻灾难性遗忘[34] - 现有基准如ScienceAgentBench(102任务) SWE-bench(2,294任务) WebShop(12,087任务)等在任务领域核心指标和时空范围上各有侧重[36] - 个性化评估需开发更轻量级适应性指标和动态基准传统ROUGE和BLEU等指标无法充分捕捉动态进化特性[39] 技术挑战与研究方向 - 泛化能力面临专业化与广泛适应性矛盾需可扩展架构设计跨领域适应技术(测试时扩展推理时适应)以及持续学习与灾难性遗忘解决方案[40][42] - 安全与可控性需应对用户相关风险和环境风险通过智能体宪法安全训练算法和隐私保护措施实现平衡部署[43][44] - 多智能体生态系统需平衡个体与集体推理开发高效算法和自适应框架并建立动态评估基准反映持续适应和演变交互[45]

自进化智能体

人工超级智能（ASI）

大语言模型（LLMs）

基于奖励的进化

模仿与示范学习

基于群体和进化的方法

自进化智能体

人工超级智能（ASI）

大语言模型（LLMs）

基于奖励的进化

模仿与示范学习

基于群体和进化的方法

敏捷大佬：AI 大模型彻底改写编程规则，这一变化颠覆所有人认知

程序员的那些事· 2025-09-05 09:08

文章核心观点 - 大语言模型的出现对软件开发的变革程度堪比从汇编语言到第一代高级编程语言的转变，是一次根本性变革 [5] - 大语言模型不仅提升了抽象层次，还迫使行业重新思考使用非确定性工具进行编程的意义 [7] - 与高级编程语言的改进不同，大语言模型引入了非确定性抽象，这是行业历史上前所未有的演变 [10][13] 编程范式演变 - 高级编程语言引入全新抽象层次，使编程从机器指令转向语句序列、条件语句和迭代语句 [8] - 语言和框架的进一步发展提升了抽象水平和生产效率，但未从根本上改变编程本质 [6] - 从Fortran到Ruby的演进属于同类改进，与机器对话的方式在本质上并无二致 [9] 非确定性编程特征 - 大语言模型引入非确定性抽象，不能简单把提示词存入git就指望每次得到相同结果 [10] - 使用提示词与机器对话和使用Ruby编程的差异，如同Fortran与汇编语言的差异一样巨大 [10] - 行业不仅在抽象层次上向上迈进，同时还横向踏入非确定性领域 [10]

大语言模型（LLMs）

编程范式变革

Software Development

大语言模型（LLMs）

编程范式变革

Software Development

招聘最猛的竟不是OpenAI，这家陷入间谍案的HR初创，正在狂招工程师

36氪· 2025-09-04 16:22

美国科技行业就业市场变化 - 自2022年11月ChatGPT推出后美国技术岗位发生巨大变化部分岗位需求断崖式下跌但另一些岗位企业需求旺盛[1] - 2023年美国开启史上最大裁员潮 IT技术岗招聘市场元气未复裁员潮已缓解招聘活动逐渐回暖但新增岗位数量有限远不足以填补过去流失职位[2] - 科技大厂软件工程师平均任期显著增长反映大厂不再积极招聘或员工更不愿换工作招聘竞争较之前繁荣期更激烈[6] 岗位需求分化 - 移动开发者需求下降72% Java开发者下降70% 前端开发者下降69% 云计算架构师下降69% 软件工程经理下降69% 网站可靠性工程师下降68% 后端开发者下降68%[10] - Workday集成负责人需求增长203% SAP负责人增长105% Oracle HCM经理增长101% SAP顾问增长61% AI架构师增长48% Dynamics 365架构师增长30% 数据中心技术员增长23% Oracle顾问增长5%[10] - 顶尖科技公司和初创公司持续扩大软件工程岗位数量增速缓慢但稳定增加资深职位主导招聘[11] 企业招聘动态 - 苹果开放2177个岗位 IBM开放1924个岗位亚马逊开放1794个岗位为招聘量最大三家科技公司[13][14] - 甲骨文开放1396个岗位 TikTok开放1367个岗位英伟达开放871个岗位谷歌开放810个岗位微软开放735个岗位[14] - Speechify作为文本转语音初创公司虽仅融资1000万美元但在多国发布800多个工程岗位 Anduril作为国防科技初创公司获美国政府合同并融资25亿美元招聘规模与Meta相当[20] - 咨询公司NTT Data和DXC Technology积极招聘可能得益于AI咨询业务增长[20] 岗位级别分布 - 高级职位数量几乎与中级别和入门级职位相当超过一半开放职位在资深级别以上[21][24] - 资深工程师级别以上职位空缺数量下降可能促使资深工程师申请较低级别职位[24] - TrueUp上大多数岗位来自成功上市技术公司这些公司提供高薪职位公开交易公司拥有最多高薪职位空缺[25][28] AI工程师岗位需求 - AI工程师成为科技行业最热门职位招聘需求自2023年中期以来爆炸式增长[29] - 软件工程师转行AI工程师相对容易只需学会基于大语言模型开发应用本质是利用软件工程思维操作LLMs[32][34][35] - 旧金山湾区AI工程师职位数量占全美近三分之一比其后九个地区总和还多[36][37] - TikTok招聘457个AI工程师岗位苹果招聘360个亚马逊招聘191个字节跳动招聘166个英伟达招聘164个 Speechify招聘159个[40] - AI工程师技术要求包括Python LLM PyTorch AWS TensorFlow C++ Google Cloud Kubernetes Azure Java[42] AI工程职位特点 - AI工程职位分为三类：平台岗位聚焦通用工具与基础设施产品岗位直接嵌入产品团队通用岗位要求宽泛专精岗位专攻语音识别或强化学习绝大多数岗位只需集成现成模型[45] - 进入顶级AI公司最可靠路径是在科技巨头或知名AI公司积累经验知名公司员工内部流动频繁[45][47] 科技公司人员变化 - 过去12个月科技大厂招聘重新加速招聘速度已超过前两年水平[48] - Meta招聘强势反弹 2023年工程人员减少约12% 现为招聘最多工程师公司[51] - 谷歌工程人员较2022年增长16% 苹果增长13% 苹果是唯一未进行大规模裁员科技巨头[52] - 亚马逊工程人员较2022年仅增长8% 微软从2023年初起几乎无增长[53] - 英伟达工程人员自2022年1月以来激增58% Netflix自2023年中期以来增长40% Stripe截至2025年8月较2022年初增长32% Uber过去三年增长20%[54][55] - Shopify工程人员较2022年初减少22% Spotify减少16% Twilio减少28% 微软减少5% Oracle减少2%[58][59][60][61] 快速增长企业 - Deel登顶员工规模1000+企业增长榜首 Figma刚刚上市工程招聘投入获回报未来可能保持增长[66][67] 地域分布与经验要求 - 旧金山湾区招聘9072个岗位班加罗尔招聘5714个美国远程岗位招聘4135个纽约招聘2514个西雅图招聘2469个[73] - 旧金山湾区岗位占比接近20% 为全球科技招聘核心[74] - 0-5年经验软件工程师失业率接近15% 5年以上经验工程师失业率明显更低公司更偏向招聘资深工程师[71] - 湾区软件工程师跳槽率最高 0-5年经验跳槽率28% 5-15年经验跳槽率15% 15年以上经验跳槽率仅10%[76][79] 任职年限与流动趋势 - 科技大厂平均任职年限自2022年年中以来显著上升过去三年普遍增加约2年反映招聘放缓及员工不愿离职[80][83] - 五大科技巨头主要彼此挖人外加英特尔高通 TikTok 甲骨文等类似岗位减少使横向流动空间缩小[85] - 工程管理人员跳出大厂后转向自由职业或自雇比例更高因中层管理岗位收缩且职位稀缺[87] 管理岗位变化 - 工程经理招聘较软件工程招聘更适度亚马逊削减最多工程经理其他公司工程经理数量与两年前大致相同或略多[92][94] - 除苹果外所有大型科技公司都削减总监及以上职位亚马逊工程总监及以上职位减少16%[95][97] 远程工作趋势 - 远程岗位比例从一年前25%下滑至20% 顶级科技公司仅五分之一岗位支持全远程[98] - AI工程岗位远程机会略有上升但可能阶段性[100] - 远程工作薪酬普遍下滑10-15% 纽约本地中级岗位薪资18-25万美元/年全美远程岗位仅11万美元/年欧洲远程合同工时薪50-65美元[102]

大语言模型（LLMs）

软件与服务

大语言模型（LLMs）

软件与服务

Kitchen-R ：高层任务规划与低层控制联合评估的移动操作机器人基准

具身智能之心· 2025-08-25 08:04

基准设计背景 - 当前具身AI基准存在显著割裂：高层语言指令遵循类基准假设低层执行完美，低层控制类基准仅依赖简单单步指令，导致无法全面评估任务规划与物理执行集成的系统[4] - Kitchen-R基准填补了该空白，通过仿真厨房环境统一评估任务规划与低层控制，为语言引导机器人代理提供更全面、更贴近真实场景的测试平台[6] 核心功能特点 - 基于Isaac Sim构建真实厨房的数字孪生环境，支持mobile ALOHA移动操作机器人[8][9] - 包含500+条复杂语言指令，覆盖移动操作任务[8][9] - 提供三种评估模式：独立评估规划模块、独立评估控制策略、全系统集成评估[8][9] - 已用于2024年AIJ竞赛具身AI赛道数据收集与验证，累计收集约2700条移动操作轨迹[9] 技术架构 - 任务规划子问题输入自然语言指令和场景俯视图，输出可执行任务计划（如"移动到水槽区→拾取杯子→移动到餐桌区→放置杯子"）[19] - 移动操作子问题输入单步任务和双相机视觉信息，输出10维轨迹点序列（含底座速度、末端执行器位姿及夹爪开合度）[19] - 导航模块采用Theta*算法进行路径规划，低层控制器通过动态速度调整实现精准移动[31][37] - 操作模块基于RMPs运动控制和10阶段有限状态机，通过余弦混合运动插值确保动作平滑过渡[33][35] 评估指标体系 - 离线独立评估指标：任务规划采用精确匹配率（EM），移动操作采用均方误差（MSE），综合指标P融合两者性能[20][21][22] - 在线联合评估指标：实时执行任务时计算EM与成功率（SR），最终合并为指标M，高M值表示规划准确且执行可靠[23][26][29] - 单任务成功标准：导航任务要求机器人底座与目标距离≤10cm，操作任务要求物体与目标距离≤5cm，且需在120秒内完成[28] 基线方法性能 - VLM规划基线基于OmniFusion模型，通过添加上下文计划示例使EM指标从0提升至0.612，约束生成进一步优化至0.632[47][48] - 移动操作基线采用Diffusion Policy，融合双相机视觉特征和10维机器人状态，通过交叉注意力机制预测未来16步动作轨迹[49][52] - 执行效率对比：oracle政策单episode耗时约1分钟，而高推理时间政策最长需50分钟[57] 系统扩展性 - 支持场景/物体添加：通过配置USD文件路径实现新场景或物体导入[42] - 支持多模态数据收集：包括RGB-D图像和点云数据，传感器可通过模型配置灵活添加[42] - 任务创建基于"移动、拾取、放置"三个基础动作，通过配置文件定义关键点位和物体列表[42]

大语言模型（LLMs）

视觉语言模型（VLMs）

机器人任务规划

机器人低层控制

Kitchen-R基准

大语言模型（LLMs）

视觉语言模型（VLMs）

机器人任务规划

机器人低层控制

Kitchen-R基准