TGTGInsighttelegram intelligenceLIVE / telegram public index
← Data Science Archive
Data Science Archive avatar

TGINSIGHT POST

Post #94

@DataScienceArchive

Data Science Archive

Views6,530帖子阅读量
发布9月25日2019/09/25 18:33
Post content

帖子内容

说到特征降维/选择的问题,大部分EDA的套路都是从model训练的loss来判断feature importance。其实有一个简单易行而且很有效的办法是在CV里面用做feature permutation,对原始特征shuffle得到shadow(也可以加一些噪音),在通过zscore比较两者差异来判断importance,不断遍历筛选。在ESLII中593页有提到这个办法。R里面有一个包Boruta可以做这件事,py也有:https://github.com/scikit-learn-contrib/boruta_py