evaluation

搜索文档
The Second Half:一位 OpenAI 科学家的 AI 下半场启示录
海外独角兽· 2025-04-17 14:26
AI发展阶段的划分 - AI发展已进入下半场,从单纯解决问题转向定义问题和评估模型效果 [6][7] - 上半场核心在于训练方法创新,如Transformer、AlexNet、GPT-3等模型突破 [9] - 上半场训练方法论文引用量远超benchmark论文,如Transformer引用16万次vs WMT'14的1300次 [9][11] 强化学习(RL)的突破 - RL获得泛化能力,能同时处理软件工程、创意写作、数学问题等多样化任务 [8] - RL三大要素中,先验知识(priors)重要性超过算法和环境 [13][14][15] - 语言模型pre-training为RL提供了关键先验知识,但直接应用于控制领域效果不佳 [20][21] AI有效配方 - 核心配方包含:大规模语言预训练、算力数据扩展、推理与行动理念 [12] - 语言通过agent reasoning实现泛化,如ReAct框架结合推理与行动 [25][26] - 环境设计重要性凸显,OpenAI曾开发Gym、World of Bits等标准化RL环境 [18][19] 评估方法的转变 - 传统i.i.d评估假设与现实不符,需开发考虑长期记忆和连续任务的评估方式 [30] - 自动评估假设被质疑,真实人机交互评估如Chatbot Arena更具现实意义 [28][30] - 效用问题成为关键,AI需从攻克benchmark转向创造实际经济价值 [28][30] 行业影响与趋势 - 通用配方使渐进式改进价值降低,5%专项优化可能不如30%的通用模型提升 [26][28] - 下半场将催生万亿级公司,通过智能产品化实现商业价值 [30] - 行业需重新思考问题定义,产品经理类技能将更受重视 [7][28]
AI视频是否符合物理规律,量化基准来了,实现人类感知对齐 | 阿里高德/中科院出品
量子位· 2025-03-20 18:56
西风 发自 凹非寺 量子位 | 公众号 QbitAI 测一测现有AI生成视频是否符合物理运动规律! 来自阿里-高德、中科院的研究人员提出一个 面向感知对齐的视频运动生成基准 。 名为 VMBench ,是首个开源的运动质量评测基准,通过整合运动评估指标与 人类感知对齐 的评测方法,揭示现有模型在生成物理合理 运动方面的不足。 △ 图1 VMBench的整体结构 新基准测试涵盖了六种主要的运动模式类别,每个提示都构建为围绕三个核心组件 (主体、地点和动作) 的综合运动。 作者提出了一种新颖的多维视频运动评估方法,包含五个源自感知偏好的以人类为中心的质量指标。利用由流行的T2V模型生成的视频进行 了系统的人类评估,以验证其指标在捕捉人类感知偏好的有效性。 总体而言,VMBench具有以下几大优势: 此外,团队已将VMBench代码及相关资源开源至GitHub。 以下是更多细节。 感知对齐的评估体系 视频动态生成的评估面临两大核心挑战: 现有指标 未能充分对齐人类感知 ,且 评测提示的多样性有限 ,导致模型动态生成潜力未被充分探索。 为此,团队提出VMBench——首个融合感知对齐指标与多样化动态类型的视频运动评测 ...
NuVista Energy Ltd. Announces Record Year End 2024 Reserves, Financial and Operating Results
Globenewswire· 2025-03-05 20:00
文章核心观点 公司公布2024年四季度及全年创纪录的储量、强劲财务和运营业绩,资产优势推动储量显著增长,进入2025年财务状况良好,重申年度资本和产量指引,有望实现产量增长目标并为股东带来回报 [1] 各部分总结 运营和财务亮点 - 四季度平均日产量85,635桶油当量,超指引范围,全年平均日产量83,084桶油当量,同比增8%,产量构成符合指引 [4] - 成功执行资本支出计划,全年投资4.989亿美元用于油井和设施活动,四季度资本支出7110万美元 [4] - 全年调整后资金流5.522亿美元,四季度贡献1.371亿美元,全年自由调整后资金流3960万美元 [4] - 2024年回购注销590万股普通股,自2022年实施正常发行人投标以来,累计回购注销3650万股,总成本4.383亿美元 [4] - 年末信贷额度使用540万美元,净债务2.325亿美元,净债务与四季度调整后资金流比率为0.4倍 [4] - 全年净利润3.057亿美元,四季度9920万美元 [4] - 通过与托克的净回值协议增加液化天然气销售,自2027年1月1日起为期13年,涉及2.1亿立方英尺/日的液化天然气 [4] - 连续三年入选TSX30,排名第六 [4] 储量评估成果 - 已证实开发生产(PDP)储量1.773亿桶油当量,同比增9%,每股增12% [9] - 总证实加可能(TP + PA)储量7.797亿桶油当量,同比增21%,每股增24% [9] - PDP和TP + PA基础上分别替换2024年产量的150%和550% [9] - PDP发现、开发和收购成本(FD&A)为11.13美元/桶油当量,超预期 [9] - PDP循环比率达1.8倍 [9] - TP + PA的FD&A为6.97美元/桶油当量 [9] - 总开发油井增加42口至395口,未开发钻井位置增加9个至1189个 [9] - PDP、TP和TP + PA税前净现值(NPV10)分别为每股10.01美元、20.56美元和30.11美元 [9] 股东资本回报与资产负债表实力 - 2025年计划至少分配1亿美元用于回购普通股,至少75%的增量自由调整后资金流用于额外股份回购 [7] - 年末净债务2.325亿美元,远低于约3.5亿美元的软上限,信贷额度使用少,净债务与四季度调整后资金流比率为0.4倍 [8] 运营与2025年指引 - 2025年初运营进展顺利,钻机利用率高,完井作业效率超预期,资本成本低于预算,预计井成本同比降3% [11] - 多个井垫按计划推进,预计带来产量增长 [12] - 1 - 2月产量趋势良好,预计一季度平均日产量8.7 - 8.8万桶油当量,预计全年平均日产量约9万桶油当量,若第三方天然气厂二季度投产,预计全年平均日产量约9.2万桶油当量,若推迟至四季度,预计约8.8万桶油当量 [13] - 重申年度资本支出指引目标约4.5亿美元,优先通过回购普通股向股东返还资本 [14] 财务数据对比 |项目|2024年四季度|2023年四季度|变化率|2024年全年|2023年全年|变化率| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | |石油和天然气收入(千美元)|281,454|365,497|-23%|1,215,234|1,398,097|-13%| |经营活动提供的现金(千美元)|135,831|211,761|-36%|600,253|721,342|-17%| |调整后资金流(千美元)|137,059|201,987|-32%|552,196|756,943|-27%| |每股调整后资金流(基本)(美元)|0.67|0.95|-29%|2.68|3.50|-23%| |每股调整后资金流(摊薄)(美元)|0.66|0.93|-29%|2.64|3.40|-22%| |净利润(千美元)|99,152|89,513|11%|305,718|367,678|-17%| |每股净利润(基本)(美元)|0.48|0.42|14%|1.48|1.70|-13%| |每股净利润(摊薄)(美元)|0.48|0.41|17%|1.46|1.65|-12%| |总资产(千美元)|-|-|-|3,450,419|3,058,053|13%| |净资本支出(千美元)|71,090|113,258|-37%|498,876|518,294|-4%| |净债务(千美元)|-|-|-|232,503|183,551|27%| |日产量 - 天然气(百万立方英尺/日)|327.1|310.5|5%|304.3|276.0|10%| |日产量 - 凝析油(桶/日)|22,657|26,889|-16%|24,709|24,633|—| |日产量 - 天然气液(桶/日)|8,455|7,287|16%|7,661|6,545|17%| |日总产量(桶油当量/日)|85,635|85,924|—|83,084|77,185|8%| |凝析油和天然气液权重|36%|40%|—|39%|40%|—| |凝析油权重|26%|31%|—|30%|32%|—| |平均实现销售价格 - 天然气(美元/千立方英尺)|2.78|3.45|-19%|2.51|4.19|-40%| |平均实现销售价格 - 凝析油(美元/桶)|83.58|99.20|-16%|94.83|100.02|-5%| |平均实现销售价格 - 天然气液(美元/桶)|30.38|32.46|-6%|27.86|31.80|-12%| |石油和天然气收入净回值(美元/桶油当量)|35.72|46.24|-23%|39.96|49.62|-19%| |金融衍生品实现收益(美元/桶油当量)|1.75|0.46|280%|0.86|0.41|110%| |其他收入(美元/桶油当量)|0.01|—|—|0.11|—|—| |特许权使用费(美元/桶油当量)|-3.13|-4.50|-30%|-4.30|-4.80|-10%| |运输费用(美元/桶油当量)|-4.57|-4.54|1%|-4.78|-4.77|—| |净运营费用(美元/桶油当量)|-11.07|-10.65|4%|-11.37|-11.40|—| |运营净回值(美元/桶油当量)|18.71|27.01|-31%|20.48|29.06|-30%| |公司净回值(美元/桶油当量)|17.40|25.55|-32%|18.15|26.86|-32%| |股票交易统计 - 最高价(美元/股)|14.18|13.72|3%|14.86|13.72|8%| |股票交易统计 - 最低价(美元/股)|10.34|10.40|-1%|9.59|9.93|-3%| |股票交易统计 - 收盘价(美元/股)|13.82|11.04|25%|13.82|11.04|25%| |流通普通股数量(千股)|-|-|-|203,701|207,584|-2%| [17][19] 公司储量数据详情 |储量类别|天然气(百万立方英尺)|液体(千桶)|石油(千桶)|总计(千桶油当量)| | ---- | ---- | ---- | ---- | ---- | |已证实 - 开发生产|680,168|63,913| - |177,275| |已证实 - 开发非生产|93,825|10,140| - |25,777| |已证实 - 未开发|938,058|86,693| - |243,036| |总已证实|1,712,051|160,747| - |446,088| |总可能|1,313,477|114,729| - |333,642| |总已证实加可能|3,025,528|275,475| - |779,730| [24] 储量数据调整 |项目|天然气(百万立方英尺)|液体(千桶)|石油(千桶)|总油当量(千桶油当量)| | ---- | ---- | ---- | ---- | ---- | |总已证实 - 2023年12月31日余额|1,546,471|144,132| - |401,877| |勘探与开发|234,672|24,335| - |63,447| |技术修订|30,118|2,912|11|7,942| |收购|18,123|1,720| - |4,741| |处置|-156|-18| - |-44| |经济因素|-5,809|-498| - |-1,466| |产量|-111,368|-11,837|-11|-30,409| |总已证实 - 2024年12月31日余额|1,712,051|160,747| - |446,088| |总已证实加可能 - 2023年12月31日余额|2,505,894|225,374| - |643,023| |勘探与开发|597,808|57,452| - |157,087| |技术修订|12,434|2,496|11|4,579| |收购|22,817|2,161| - |5,964| |处置|-201|-22| - |-56| |经济因素|-1,857|-148| - |-458| |产量|-111,368|-11,837|-11|-30,409| |总已证实加可能 - 2024年12月31日余额|3,025,528|275,475| - |779,730| [26][27] 未来开发资本需求 |年份|已证实生产(千美元)|已证实(千美元)|已证实加可能(千美元)| | ---- | ---- | ---- | ---- | |2025|10,000|270,190|283,615| |2026| - |441,337|441,337| |2027| - |378,915|378,915| |2028| - |582,820|623,529| |2029| - |210,425|385,690| |剩余| - | - |1,205,057| |总计(未折现)|10,000|1,883,686|3,318,141| [28] 公司发现、开发和收购成本详情 |项目|3年平均 - 已证实|3年平均 - 已证实加可能|2024年 - 已证实|2024年 - 已证实加可能|2023年 - 已证实|2023年 - 已证实加可能| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | |发现和开发成本(美元/桶油当量)|10.06|8.69|7.18|10.92|12.59| - | |发现、开发和收购成本(美元/桶油当量)|9.95|8.60|6.97|11.12|12.86| - | [29] 未来净收入净现值数据 |储量类别|0%折现率(千美元)|5%折现率(千美元)|10%折现率(千美元)|15%折现率(千美元)|20%折现率(千美元)| | ---- | ---- | ---- | ---- | ---- | ---- | |已证实 - 开发生产|3,311,450|2,531,022|2,038,337|1,715,462|1,491,640| |已证实 - 开发非生产|589,610|437,020|350,631|295,990|258,256| |已证实 - 未开发|4,450,580|2,705,801|1,798,236|1,270,234|934,810| |总已证实|8,351,651|5,673,843|4,187,204|3,281,686|2,684,706| |可能|7,457,152|3,482,560|1,946,864|1,232,453|849,096| |总已证实加可能|15,808,803|9,156,404|6,134,068|4,514,138|3,533,801| [32] 定价和通胀率假设 |年份|AECO天然气(加元/百万英热单位)|NYMEX天然气(美元/百万英热单位)|芝加哥天然气(美元/百万英热单位)|埃德蒙顿C5 +(加元/桶)|埃德蒙顿丙烷(加元/桶)|埃德蒙顿丁烷(加元/桶)|WTI库欣(美元/桶)|埃德蒙顿40 API(加元/桶)|汇率(美元/加元)| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ----