Data Science Archive

@DataScienceArchive

小熊猫的个人工具收纳箱，还包括一些零碎的笔记，大概会有这些： * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理，计算机视觉，语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊，搜索和个性化推荐算法产品的工程化 * 统计学习，矩阵计算，贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具希望我收集的信息也可以帮到你，如果有其他建议，或者寻找工作机会，都可以给我发邮件： [email protected]

Subscribers1,720频道当前订阅规模

Tracked posts118频道帖子计数

Recent reach7,500最近帖子视图总和

最近帖子

第 9/10 页 · 共 118 条

发布 11月10日

查看

一个强化学习introductory课程，看了两眼质量还不错，挺系统的，code里面基础RL算法的细节都有涉及，有配套视频，口音还算可以接受。 slides：http://pages.isir.upmc.fr/~sigaud/teach/english.html code：https://github.com/osigaud/rl_labs_notebooks 视频部分不长，十几分钟的简短介绍。 video：https://www.youtube.com/watch?v=9gzL3QQzvQ4

708 views

发布 11月10日

查看

介绍wasserstein距离的一篇科普文章，深入浅出写得非常好。link：http://www.mindcodec.com/an-intuitive-guide-to-optimal-transport-for-machine-learning/

662 views

发布 11月10日

查看

一个 GBM 的实验，比较纯 Python+numba jit 和efficient version histogram binning优化过的 GBT（lightGBM) 的 benchmark。试了一下，貌似 master 分支上的 code 已经相差无几，更新比较活跃。 code: https://github.com/ogrisel/pygbm 关于 numba jit：http://numba.pydata.org/

639 views

发布 11月10日

查看

Yandex 的 NLP 课程资料，这家俄罗斯的公司实力很强，也是 catboost 和 Clickhouse 的东家。 link: https://github.com/yandexdataschool/nlp_course 顺便可以看看托管：https://github.com/yandexdataschool 似乎是他们做的DataScience公开课，值得关注。

653 views

发布 11月10日

查看

NIPS 2018 上 MPC solver，用于在强化学习模型中的控制辅助。Specifically, we differentiate through MPC by using the KKT conditions of the convex approximation at a fixed point of the controller. 作者是用在 PyTorch 上，做了一个 PyTorch 的 Lib，不过确实先前的control methods 都有局限。 paper: https://arxiv.org/abs/1810.13400 code: https://github.com/locuslab/mpc.pytorch link: https://locuslab.github.io/mpc.pytorch/

623 views

发布 11月10日

查看

一个将 scikit-learn estimator 转化成其他语言的工具，这样线上做 prediction 的时候会更加灵活，暂时还没有需要研究，不过看起来是非常有意义的项目，目前更新也比较活跃。https://github.com/nok/sklearn-porter

616 views

发布 11月10日

查看

ICL 数学系DL课程的一些资料，包括有PyTorch和 TensorFlow 的 Tutorial 以及作业相关，看了一下Tutorial 部分，觉得非常有意思，和其他传统的基础作业不太一样，这里都是流行的落地项目，比如Question Answering、Generative Model with VAEs/GANs，非常值得一看。https://github.com/pukkapies/dl-imperial-maths

702 views

发布 11月10日

查看

HotpotQA：一个 wikipedia-based QA pairs dataset。 paper：https://arxiv.org/abs/1809.09600 code：https://github.com/hotpotqa/hotpot link：https://hotpotqa.github.io/

584 views

发布 11月10日

查看

PyTorch 的 BERT 实现，包括 script 来将 TensorFlow 的 pre-trained model 进行转换，作者来自huggingface。https://github.com/huggingface/pytorch-pretrained-BERT

580 views

发布 11月10日

查看

语言模型中的迁移学习进展和总结，对目前State of the Art 的 LM 都有介绍，包括allennlp 的 ELMo，ULMFiT，OpenAI 的 Transformer，以及最近 Google 刷屏的 BERT。https://drive.google.com/file/d/1kmNAwrSlFYo0cN_DcURMOArBwe9FxWxR/view

572 views

发布 11月10日

查看

一个对 LSTM 中 autoencoder 的科普介绍，还挺清楚。just another，有关键部分的 Keras code 帮助理解。https://machinelearningmastery.com/lstm-autoencoders

579 views

发布 11月10日

查看

基于 LSTM 构建语言模型，然后用作输入法，以前有看到过一个韩国人做的，这次作者来自东京大学和 CMU，数据集是日语的 BCCWJ。其实是2016年的工作，但是语言模型放进输入法还是一个挺自然的事情，看起来还是挺有意思。 paper：https://arxiv.org/pdf/1810.09309.pdf code：https://github.com/yohokuno/neural_ime

582 views

1 2•••7 8910