Data Science Archive

@DataScienceArchive

小熊猫的个人工具收纳箱，还包括一些零碎的笔记，大概会有这些： * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理，计算机视觉，语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊，搜索和个性化推荐算法产品的工程化 * 统计学习，矩阵计算，贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具希望我收集的信息也可以帮到你，如果有其他建议，或者寻找工作机会，都可以给我发邮件： [email protected]

Subscribers1,720频道当前订阅规模

Tracked posts118频道帖子计数

Recent reach54,990最近帖子视图总和

最近帖子

第 3/10 页 · 共 118 条

发布 1月14日

查看

来自 Huggingface 的 tokenizer，Rust 实现，确实速度惊人。https://github.com/huggingface/tokenizers

6,010 views

发布 12月23日

查看

HuggingFace Transformers 包加了几组中文的 pre-trained models，包括 BERT-wwm, RoBERTa-wwm, XLNet，来自哈工大和讯飞。https://github.com/ymcui/Chinese-BERT-wwm/blob/master/README_EN.md

6,060 views

发布 12月21日

查看

2019 ACL Salesforce Research 上常识阅读理解paper 的 code 更新，依赖 huggingface 的 transformers，看过 demo 还是非常不错的。https://github.com/salesforce/cos-e

5,560 views

发布 12月20日

查看

一个 Time series 数据集补空的工具，集成了几乎全部所需的统计方法，transform 上也是该有的都用，Box-Cox 什么的，几乎不需要底层的那些 DS工具包了，api上兼容了 scikit-learn，用法和功能和 R 里面的auto.arima 一样，只多不少。https://github.com/alkaline-ml/pmdarima

4,820 views

发布 12月19日

查看

PTP 是 IBM 出品的一个为 PyTorch 服务的部署框架。看了一下涵盖的领域比较全面，CV，NLP 都有，各种 pre-trained model 也比较全，甚至包含了许多评测基准和现成的一些更 high-level 的模型结构。非常适合快速实验。https://github.com/ibm/pytorchpipe

3,850 views

发布 12月19日

查看

中间这段时间一直在面试换工作，现在基本稳定之后会继续更新和收集相关工作资料。感谢订阅的朋友。

3,470 views

发布 9月25日

查看

说到特征降维/选择的问题，大部分EDA的套路都是从model训练的loss来判断feature importance。其实有一个简单易行而且很有效的办法是在CV里面用做feature permutation，对原始特征shuffle得到shadow（也可以加一些噪音），在通过zscore比较两者差异来判断importance，不断遍历筛选。在ESLII中593页有提到这个办法。R里面有一个包Boruta可以做这件事，py也有：https://github.com/scikit-learn-contrib/boruta_py

6,530 views

发布 9月25日

查看

晚上有一个朋友看到推送问我，对categorical feature 为什么要做target encoding。其实这比较取决于模型，不过对于tabular data常用的tree based model来说，OHE是比较差的，如果是用xgboost需要自己做target encoding，catBoost/lightGBM不需要，自带了。https://medium.com/data-design/visiting-categorical-features-and-encoding-in-decision-trees-53400fa65931

4,430 views

发布 9月25日

查看

最近在用一些非监督方法做降维的时候，发现在categorical feature有时候MCA比传统的PCA要好一些，（不过有时候先做target encoding再用普通的PCA也不错）。用了一段时间Prince，简单好用，性能不错。https://github.com/MaxHalford/Prince

3,470 views

发布 9月8日

查看

上周在造一个CTR项目轮子的时候又系统回顾了一些非复杂DNN模型的hyper param optmization 的方法和工具，发现一个新的工具：Optuna https://github.com/pfnet/optuna

3,590 views

发布 8月23日

查看

RAdam + LookAhead 实验结果还是有点奇怪的，不是太明朗的感觉。一个用fastdoai的实现。https://medium.com/@lessw/new-deep-learning-optimizer-ranger-synergistic-combination-of-radam-lookahead-for-the-best-of-2dc83f79a48d

3,940 views

发布 8月22日

查看

关于Pandas apply/groupby 并行老生常谈的问题，一直觉得dask不好用，需要转来转去，刚刚发现一个简单好用的工具。https://github.com/nalepae/pandarallel

3,260 views

1 234 5•••9 10