python - tsfresh select_features 方法背后的算法
问题描述
我最近开始使用tsfresh
库从时间序列数据中提取特征。
我可以在几行代码中获得功能包,这非常酷,但我对该方法背后的逻辑持怀疑态度select_features
。我查看了官方文档并搜索了它,但我找不到用于此的算法。我想知道它是如何工作的,这样我就可以决定在tsfresh
.
解决方案
根据他们文档中的该页面,他们所做的是:
- 他们提取一整套特征
- 他们单独测试不同特征的重要性(在监督环境中,所以测试类似于“这个特征对预测输出有用吗?”)并使用称为 Benjamini-Yekutieli 程序的程序保留最重要的特征
他们提供的参考资料应该是有趣的:
[1] Christ, M., Kempa-Liehr, AW 和 Feindt, M. (2016)。面向工业大数据应用的分布式并行时间序列特征提取。ArXiv 电子版:1610.07717 网址:http ://adsabs.harvard.edu/abs/2016arXiv161007717C
[2] Benjamini, Y. 和 Yekutieli, D. (2001)。依赖关系下多次测试中错误发现率的控制。统计年鉴,1165–1188
其中 [1] 是描述的论文tsfresh
,[2] 是多重测试程序(上面称为 Benjamini-Yekutieli 程序)的参考。
推荐阅读
- z3 - z3不解量词表达式,表达式为sat
- html - 停止移动菜单后面的文本滚动
- java - 为什么控制器显示问题而不是西里尔字符?
- google-chrome-devtools - 当返回“no-store, no-cache, must-revalidate”时,Chrome 的开发者工具会显示响应内容吗?
- android - 如何验证用户是否是 Android 应用程序上的学生
- html - css和firefox的问题
- sql-server - 始终显示计数结果为 0 的行 (1)
- apache-spark - Spark Structured Streaming 中的窗口操作
- jmeter - 随时间变化的活动线程图未更新
- java - 直接从maven部署war到appserver