原文: https://machinelearningmastery.com/gentle-introduction-box-jenkins-method-time-series-forecasting/
自回归整合移动平均模型(简称 ARIMA)是时间序列预测和分析的标准统计模型。
随着它的发展,作者 Box 和 Jenkins 还建议了一个识别,估计和检查特定时间序列数据集模型的过程。此过程现在称为 Box-Jenkins 方法。
在这篇文章中,您将发现 Box-Jenkins 方法以及在时间序列预测问题中使用它的提示。
具体来说,您将学到:
让我们开始吧。
时间序列预测 Box-Jenkins 方法的温和介绍 Erich Ferdinand 的照片,保留一些权利。
ARIMA 模型是一类用于分析和预测时间序列数据的统计模型。
ARIMA 是 A uto R egressive I 整合 M oving A verage 的首字母缩写词。它是更简单的 AutoRegressive 移动平均线的推广,并添加了集成的概念。
这个首字母缩略词是描述性的,捕捉模型本身的关键方面。简而言之,它们是:
这些组件中的每一个都在模型中明确指定为参数。
标准符号用于 ARIMA(p,d,q),其中参数用整数值代替,以快速指示正在使用的特定 ARIMA 模型。
ARIMA 模型的参数定义如下:
Box-Jenkins 方法由 George Box 和 Gwilym Jenkins 在其开创性的 1970 年教科书时间序列分析:预测和控制中提出。
该方法首先假设生成时间序列的过程可以使用 ARMA 模型(如果它是静止的)或 ARIMA 模型(如果它是非静态的)来近似。
2016 年第 5 版教科书(第二部分,第 177 页)将该过程称为随机模型构建,它是一种迭代方法,包括以下 3 个步骤:
这是一个迭代过程,因此在诊断过程中获取新信息时,您可以回到步骤 1 并将其合并到新的模型类中。
让我们更详细地看一下这些步骤。
识别步骤进一步细分为:
以下是识别过程中的一些提示。
两个诊断图可用于帮助选择 ARMA 或 ARIMA 的p
和q
参数。他们是:
两个图都绘制为条形图,显示 95%和 99%置信区间为水平线。因此,跨越这些置信区间的条形图更为重要且值得注意。
您可以在这些图中观察到的一些有用模式是:
p
的值。q
的值。估算涉及使用数值方法来最小化损失或误差项。
我们不会详细介绍估算模型参数,因为这些细节由所选库或工具处理。
我建议参考一本教科书,以便更深入地理解 ARMA 和 ARIMA 模型以及用于解决它的有限记忆 BFGS 等优化方法所要解决的优化问题。
诊断检查的想法是寻找模型不适合数据的证据。
调查诊断的两个有用领域是:
第一项检查是检查模型是否过拟合数据。通常,这意味着模型比它需要的更复杂并且捕获训练数据中的随机噪声。
这是时间序列预测的一个问题,因为它会对模型推广的能力产生负面影响,导致样本数据的预测表现不佳。
必须仔细注意样品内和样品外的表现,这需要仔细设计一个强大的测试工具来评估模型。
预测残差为诊断提供了很好的机会。
对错误分布的回顾可以帮助梳理出模型中的偏差。来自理想模型的误差将类似于白噪声,即具有零均值和对称方差的高斯分布。
为此,您可以使用密度图,直方图和 Q-Q 图来比较错误分布与预期分布。非高斯分布可以提示数据预处理的机会。分布的偏差或非零均值可能表明预测偏差可能是正确的。
此外,理想模型在预测残差的时间序列中不会留下时间结构。可以通过创建剩余错误时间序列的 ACF 和 PACF 图来检查这些。
残差中存在序列相关性表明在模型中使用该信息的进一步机会。
关于该主题的权威资源是时间序列分析:预测和控制。我会推荐 2016 年第 5 版,特别是第二部分和第 6-10 章。
以下是一些额外的阅读材料,如果您希望深入了解,可能有助于充实您的理解:
在这篇文章中,您发现了用于时间序列分析和预测的 Box-Jenkins 方法。
具体来说,你学到了:
p
和q
参数。您对 Box-Jenkins 方法或此帖有任何疑问吗? 在下面的评论中提出您的问题,我会尽力回答。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。