首页 > 解决方案 > tsfresh select_features 方法背后的算法

问题描述

我最近开始使用tsfresh库从时间序列数据中提取特征。

我可以在几行代码中获得功能包,这非常酷,但我对该方法背后的逻辑持怀疑态度select_features。我查看了官方文档并搜索了它,但我找不到用于此的算法。我想知道它是如何工作的,这样我就可以决定在tsfresh.

标签: pythontime-seriesfeature-extractionfeature-selection

解决方案


根据他们文档中的该页面,他们所做的是:

  1. 他们提取一整套特征
  2. 他们单独测试不同特征的重要性(在监督环境中,所以测试类似于“这个特征对预测输出有用吗?”)并使用称为 Benjamini-Yekutieli 程序的程序保留最重要的特征

他们提供的参考资料应该是有趣的:

[1] Christ, M., Kempa-Liehr, AW 和 Feindt, M. (2016)。面向工业大数据应用的分布式并行时间序列特征提取。ArXiv 电子版:1610.07717 网址:http ://adsabs.harvard.edu/abs/2016arXiv161007717C

[2] Benjamini, Y. 和 Yekutieli, D. (2001)。依赖关系下多次测试中错误发现率的控制。统计年鉴,1165–1188

其中 [1] 是描述的论文tsfresh,[2] 是多重测试程序(上面称为 Benjamini-Yekutieli 程序)的参考。


推荐阅读