写在前面

Informer模型来自发表于AAAI21的一篇best paper《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》。Informer模型针对Transformer存在的一系列问题,如二次时间复杂度、高内存使用率以及Encoder-Decoder的结构限制,提出了一种新的思路来用于提高长序列的预测问题。下面的这篇文章主要带大家使用作者开源的Informer代码,并将其用于股票价格预测当中。

1

Informer模型

近年来的研究表明,Transformer具有提高预测能力的潜力。然而,Transformer存在几个严重的问题,使其不能直接适用于长期时序预测问题,例如二次时间复杂度、高内存使用量和编码器-解码器体系结构固有的局限性。为了解决这些问题,这篇文章中设计了一种基于Transformer的长期时序预测模型,即Informer模型,该模型具有三个显著特征:

  1. 一种ProbSpare self-attention机制,它可以在时间复杂度和空间复杂度方面达到。

  2. self-attention机制通过将级联层输入减半来突出主导注意,并有效地处理过长的输入序列。

  3. 生成式解码器虽然概念简单,但对长时间序列序列进行一次正向操作而不是step-by-step的方式进行预测,这大大提高了长序列预测的推理速度。

并且,在4个大规模数据集上的大量实验表明,Informer方法显著优于现有方法,为长期时序建模问题提供了一种新的解决方案。

文中提出的模型的整体框架如下图所示,可以看出提出的Informer模型仍然保存了Encoder-Decoder的架构:

Self-attentionmechanism

首先,传统的self-attention机制输入形式是,然后进行scaled dot-product。第i个Query的attention系数的概率形式是:

d1bd1a4060c6848d81d86a26e0c7a977.png

self-attention机制要求二次时间复杂度的点积运算来计算上面的概率,计算需要的空间复杂度。因此,这是提高预测能力的主要障碍。另外,之前的研究发现,self-attention的概率分布具有潜在的稀疏性,并对所有的都设计了一些“选择性”的计数策略,而不显著影响性能。因此,作者首先对典型的self-attention的学习模式进行定性评估。“稀疏性” self-attention的分布呈长尾分布,即少数点积对主要注意有贡献,其他点积对可以忽略。那么,下一个问题是如何区分它们?

为了度量query的稀疏性,作者用到了KL散度。其中第i个query的稀疏性的评价公式是:

其中第一项是对于所有的key的Log-Sum-Exp (LSE),第二项是它们的算数平均值。

基于上面的评价方式,就可以得到ProbSparse self-attetion的公式,即:

3c0395a468756ed8e610e90e79f9764c.png

其中,是和具有相同尺寸的稀疏矩阵,并且它只包含在稀疏评估下top-u的queries。其中,u的大小通过一个采样参数来决定。这使得ProbSparse self-attention对于每个query-key只需要计算点积操作。另外经过文章Lemma 1的证明,其对稀疏评估进行了上边界的计算,从而保证了计算的时间和空间复杂度为。

Encoder

Encoder的设计目的是提取长序列输入的远期依赖性。作为ProbSpare自注意机制的结果,encoder的特征映射存在值V的冗余组合,因此,这里利用distilling操作对具有主导特征的优势特征进行赋予更高权重,并在下一层生成focus self-attention特征映射。从j到j+1层的distilling操作的过程如下:

其中,包含了multi-head probsparse self-attention以及在attention block中的关键操作。Conv1d表示时间序列上的一维卷积操作,并通过ELU作为了激活函数。

Decoder

Decoder部分中使用了一个标准的decoder结构 (Vaswani et al. 2017),它由两个相同的多头注意层组成。另外,生成推理被用来缓解长期预测的速度下降。我们向decoder提供如下输入向量:

30a33212a7a796732d57eac4e5459926.png

其中,将masked multi-head attention应用于probsparse self-attention的计算中。它防止每个位置都注意到下一个位置,以此避免了自回归。最后,一个全连接层获得最终的输出,它的输出维度取决于我们是在进行单变量预测还是多变量预测。

Loss Function

模型选取MSE作为loss function以将decoder的输出与目标序列的误差进行反向传播。

2

环境配置

本地环境:

Python3.7IDE:Pycharm

库版本:

numpy 1.18.1pandas 1.0.3 sklearn 0.22.2matplotlib 3.2.1torch1.10.1

Informer源码Github链接:https://github.com/zhouhaoyi/Informer2020

3

代码实现

首先将Informer的源码下载到本地,然后将我们的数据集放到某个路径下,这里用到了上证指数14到17年四年的开高低收成交量数据。在将Informer的代码用于我们的股票数据预测任务时,由于我们的任务是基于高低收成交量来预测收盘价,这是一个多变量输入,单变量输出的预测任务。所以主要需要修改下面几个参数的设置。针对其他不同预测任务要求,如增加某些特征,预测多个目标变量等则可通过修改features,target,enc_in,dec_in以及c_out参数进行实现。

  • data:设置为custom,用于调用Dataset_Custom类,从而可以自定义数据集。

  • root_path:指定数据集存放的文件夹。

  • data_path:指定csv数据集的名称。

  • features:设置为MS,这是因为我们是用开高低收成交量来预测收盘价,所以是多变量输出来预测单变量。

  • target:表示预测变量,设置为Close,对应我们csv文件预测变量的列名。

  • freq:表示预测频率,设置为d,因为我们用到的是日线级别的数据。

  • seq_len:表示输入encoder的序列长度,这里设置为20。

  • label_len:表示输入decoder中的token的长度,这里设置为10,即通过前10个真实值来辅助decoder进行预测。

  • pred_len:表示预测序列的长度,这里设置为5,即表示预测后5个时刻的序列值。

  • enc_in:表示encoder的输入维度,这里设置为5,因为我们用到了开高低收以及成交量5个特征。

  • dec_in:表示decoder的输入维度,同enc_in。

  • c_out:表示输出序列的维度,这里设置为1,因为我们的目标变量只有收盘价。

其他参数像模型层数,维度之类的可以根据自己的电脑配置进行修改。下面是进行上证指数预测实验的参数配置:

args = dotdict()args.model = 'informer' # model of experiment, options: [informer, informerstack, informerlight(TBD)]args.data = 'custom' # dataargs.root_path = './data/stock/' # root path of data fileargs.data_path = 'SH000001.csv' # data fileargs.features = 'MS' # forecasting task, options:[M, S, MS]; M:multivariate predict multivariate, S:univariate predict univariate, MS:multivariate predict univariateargs.target = 'Close' # target feature in S or MS taskargs.freq = 'd' # freq for time features encoding, options:[s:secondly, t:minutely, h:hourly, d:daily, b:business days, w:weekly, m:monthly], you can also use more detailed freq like 15min or 3hargs.checkpoints = './checkpoints' # location of model checkpointsargs.seq_len = 20 # input sequence length of Informer encoderargs.label_len = 10 # start token length of Informer decoderargs.pred_len = 5 # prediction sequence length# Informer decoder input: concat[start token series(label_len), zero padding series(pred_len)]args.enc_in = 5 # encoder input sizeargs.dec_in = 5 # decoder input sizeargs.c_out = 1 # output sizeargs.factor = 5 # probsparse attn factorargs.padding = 0  # padding typeargs.d_model = 256 # dimension of modelargs.n_heads = 4 # num of headsargs.e_layers = 2 # num of encoder layersargs.d_layers = 1 # num of decoder layersargs.d_ff = 256 # dimension of fcn in modelargs.dropout = 0.05 # dropoutargs.attn = 'prob' # attention used in encoder, options:[prob, full]args.embed = 'timeF' # time features encoding, options:[timeF, fixed, learned]args.activation = 'gelu' # activationargs.distil = True # whether to use distilling in encoderargs.output_attention = False # whether to output attention in ecoderargs.batch_size = 32args.learning_rate = 0.0001args.loss = 'mse'args.lradj = 'type1'args.use_amp = False # whether to use automatic mixed precision trainingargs.num_workers = 0args.train_epochs = 20args.patience = 3args.des = 'exp'# args.use_gpu = True if torch.cuda.is_available() else Falseargs.use_gpu = Falseargs.gpu = 0args.use_multi_gpu = Falseargs.devices = '0,1,2,3'

按照设置的参数,然后对模型进行训练跟测试:

Exp = Exp_Informer#%%# setting record of experimentssetting = '{}_{}_ft{}_sl{}_ll{}_pl{}_dm{}_nh{}_el{}_dl{}_df{}_at{}_fc{}_eb{}_dt{}_{}'.format(args.model, args.data, args.features,            args.seq_len, args.label_len, args.pred_len,            args.d_model, args.n_heads, args.e_layers, args.d_layers, args.d_ff, args.attn, args.factor, args.embed, args.distil, args.des)# set experimentsexp = Exp(args)# trainprint('>>>>>>>start training : {}>>>>>>>>>>>>>>>>>>>>>>>>>>'.format(setting))exp.train(setting)# testprint('>>>>>>>testing : {}<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<'.format(setting))exp.test(setting)

经过训练,可以看出模型的训练集上的loss不断下降,因为加入了early stop机制,所以经过8个epoch模型就停止训练了。经过在测试集上的测试,informer实现了0.021的mse跟0.123的mae(归一化后的结果)。需要注意的是,模型经过训练跟测试之后,会在当前路径的./checkpoints中保存模型参数,在./results/{settings}/下生成pred.npy以及true.npy文件用来分别存放测试集上的预测结果跟ground truth。

>>>>>>>start training : informer_custom_ftMS_sl20_ll10_pl5_dm256_nh4_el2_dl1_df256_atprob_fc5_ebtimeF_dtTrue_exp>>>>>>>>>>>>>>>>>>>>>>>>>>train 659val 95test 191Epoch: 1 cost time: 1.8236503601074219Epoch: 1, Steps: 20 | Train Loss: 0.4227553 Vali Loss: 0.0319062 Test Loss: 0.0245216Validation loss decreased (inf --> 0.031906).  Saving model ...Updating learning rate to 0.0001Epoch: 2 cost time: 1.803605556488037Epoch: 2, Steps: 20 | Train Loss: 0.1243612 Vali Loss: 0.0671695 Test Loss: 0.0823020EarlyStopping counter: 1 out of 3Updating learning rate to 5e-05Epoch: 3 cost time: 1.8560359477996826Epoch: 3, Steps: 20 | Train Loss: 0.0910275 Vali Loss: 0.0242387 Test Loss: 0.0311569Validation loss decreased (0.031906 --> 0.024239).  Saving model ...Updating learning rate to 2.5e-05Epoch: 4 cost time: 2.1183347702026367Epoch: 4, Steps: 20 | Train Loss: 0.0757393 Vali Loss: 0.0215489 Test Loss: 0.0264782Validation loss decreased (0.024239 --> 0.021549).  Saving model ...Updating learning rate to 1.25e-05Epoch: 5 cost time: 2.111354351043701Epoch: 5, Steps: 20 | Train Loss: 0.0707515 Vali Loss: 0.0184724 Test Loss: 0.0211690Validation loss decreased (0.021549 --> 0.018472).  Saving model ...Updating learning rate to 6.25e-06Epoch: 6 cost time: 1.6446027755737305Epoch: 6, Steps: 20 | Train Loss: 0.0712520 Vali Loss: 0.0198189 Test Loss: 0.0230161EarlyStopping counter: 1 out of 3Updating learning rate to 3.125e-06Epoch: 7 cost time: 1.7283775806427002Epoch: 7, Steps: 20 | Train Loss: 0.0701941 Vali Loss: 0.0202722 Test Loss: 0.0219292EarlyStopping counter: 2 out of 3Updating learning rate to 1.5625e-06Epoch: 8 cost time: 1.8929383754730225Epoch: 8, Steps: 20 | Train Loss: 0.0698262 Vali Loss: 0.0195256 Test Loss: 0.0222712EarlyStopping counter: 3 out of 3Early stopping>>>>>>>testing : informer_custom_ftMS_sl20_ll10_pl5_dm256_nh4_el2_dl1_df256_atprob_fc5_ebtimeF_dtTrue_exp<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<test 191test shape: (5, 32, 5, 1) (5, 32, 5, 1)test shape: (160, 5, 1) (160, 5, 1)mse:0.021161550655961037, mae:0.1239549070596695

调用模型的predict()方法可以直接预测所有数据后面的未知数据,因为这里预测长度为5,所以直接调用就相当于预测后5天的收盘价走势了。预测的结果会保存在./results/{settings}/下面的real_prediction.npy文件中。

setting = 'informer_custom_ftMS_sl20_ll10_pl5_dm256_nh4_el2_dl1_df256_atprob_fc5_ebtimeF_dtTrue_exp'exp = Exp(args)exp.predict(setting, True)prediction = np.load('./results/'+setting+'/real_prediction.npy')plt.figure()plt.plot(prediction[0,:,-1])plt.show()

从测试集上随机选出几条预测结果以及ground truth进行可视化:

preds = np.load('./results/'+setting+'/pred.npy')trues = np.load('./results/'+setting+'/true.npy')plt.figure()plt.plot(trues[20,:,-1], label='GroundTruth')plt.plot(preds[20,:,-1], label='Prediction')plt.legend()plt.show()

23e75a42ad655414ac0780645f0e9976.png

最后将完整的测试集上的预测结果进行可视化。

plt.figure()plt.plot(trues[:,0,-1].reshape(-1), label='GroundTruth')plt.plot(preds[:,0,-1].reshape(-1), label='Prediction')plt.legend()plt.show()

f484c5dbdfdb66a782392abd2da15540.png

4

总结

作为AAAI 2021的best paper,Informer对Transformer在时序预测应用上从三个方面进行了改进,并取得了不错的长期预测效果。基于官网Informer的代码,本文简单介绍了Informer模型的基本原理,以及在股价预测方面的代码实现,并通过上证指数数据进行了实验验证,从实验结果中,可以看出informer大体拟合出了上证指数这段时间的走势,但仍然存在精度上的不足,这也说明了不同于其他天气,电力等周期性强的时序数据,股价数据存在的高噪声跟不确定性使得其预测的难度之大,尤其是进行高精度的多步预测更是难以实现。Informer官方提供了详细完整的代码,大家感兴趣的也可以进一步进行调参或者修改,来用于自己的预测任务。本文内容仅仅是技术探讨和学习,并不构成任何投资建议。

参考文献:

Zhou H, Zhang S, Peng J, et al. Informer: Beyond efficient transformer for long sequence time-series forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2021, 35(12): 11106-11115.

https://colab.research.google.com/github/patoalejor/Workshop2021/blob/main/Informer.ipynb

获取完整代码以及其他历史文章完整源码可加入《人工智能量化实验室》知识星球。

《人工智能量化实验室》知识星球

35df68c06759e70fb0c48fe301724aac.png

加入人工智能量化实验室知识星球,您可以获得:(1)定期推送最新人工智能量化应用相关的研究成果,包括高水平期刊论文以及券商优质金融工程研究报告,便于您随时随地了解最新前沿知识;(2)公众号历史文章Python项目完整源码;(3)优质Python、机器学习、量化交易相关电子书PDF;(4)优质量化交易资料、项目代码分享;(5)跟星友一起交流,结交志同道合朋友。(6)向博主发起提问,答疑解惑。

268bcd2047f2d783dfeb6f4d7b7fedc8.png