时序数据是物联网领域广泛存在的数据类型,具有一定的时空特性,处理难度大
1、预处理
1.1 样本权重调整
(1)调整分类阈值
使得结果更加倾向于数据少的类别
(2)选择合适的评价标准
包括ROC、AUC、F1、G-mean,而不是单纯的准确率。
(3)过采样
过采样:重复数据量少的数据,实际上没有为模型引入更多数据,过分强调数据量少的数据,会放大该类数据噪音对模型的影响。
欠采样:丢弃大量数据,和过采样一样会存在过拟合的问题。
(4)数据合成
用现有的数据合成数量少的类别的数据。
1.2 时效性
对于时效性要求较高的系统(如系统异常检测系统),对于数据预处理速度要求较高。
2、特征提取
(1)统计特征
窗口内数据的统计特征
(2)对比数据
序列前后数据的对比
(3)组合特征
(4)比统计特征
结合滑动窗口和对比
3、模型训练
3.1 选择模型
- 异常检测模型
(1)IsolationForest
(2)随机森林
(3)深度学习
3.2 训练模型
4、模型运行
5、参考文献
1.首届AIOps挑战赛——冠军LogicMonitor-AI团队方案分享
欢迎关注我的微信公众号
互联网矿工