TGINSIGHT CHAT
Data Science Archive
@DataScienceArchive
科技小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些: * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理,计算机视觉,语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊,搜索和个性化推荐算法产品的工程化 * 统计学习,矩阵计算,贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具 希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: [email protected]
最近帖子
第 9/10 页 · 共 118 条
发布 11月10日
一个强化学习introductory课程,看了两眼质量还不错,挺系统的,code里面基础RL算法的细节都有涉及,有配套视频,口音还算可以接受。 slides:http://pages.isir.upmc.fr/~sigaud/teach/english.html code:https://github.com/osigaud/rl_labs_notebooks 视频部分不长,十几分钟的简短介绍。 video:https://www.youtube.com/watch?v=9gzL3QQzvQ4
发布 11月10日
介绍wasserstein距离的一篇科普文章,深入浅出写得非常好。link:http://www.mindcodec.com/an-intuitive-guide-to-optimal-transport-for-machine-learning/
发布 11月10日
一个 GBM 的实验,比较纯 Python+numba jit 和efficient version histogram binning优化过的 GBT(lightGBM) 的 benchmark。试了一下,貌似 master 分支上的 code 已经相差无几,更新比较活跃。 code: https://github.com/ogrisel/pygbm 关于 numba jit:http://numba.pydata.org/
发布 11月10日
Yandex 的 NLP 课程资料,这家俄罗斯的公司实力很强,也是 catboost 和 Clickhouse 的东家。 link: https://github.com/yandexdataschool/nlp_course 顺便可以看看托管:https://github.com/yandexdataschool 似乎是他们做的DataScience公开课,值得关注。
发布 11月10日
NIPS 2018 上 MPC solver,用于在强化学习模型中的控制辅助。Specifically, we differentiate through MPC by using the KKT conditions of the convex approximation at a fixed point of the controller. 作者是用在 PyTorch 上,做了一个 PyTorch 的 Lib,不过确实先前的control methods 都有局限。 paper: https://arxiv.org/abs/1810.13400 code: https://github.com/locuslab/mpc.pytorch link: https://locuslab.github.io/mpc.pytorch/
发布 11月10日
一个将 scikit-learn estimator 转化成其他语言的工具,这样线上做 prediction 的时候会更加灵活,暂时还没有需要研究,不过看起来是非常有意义的项目,目前更新也比较活跃。https://github.com/nok/sklearn-porter
发布 11月10日
ICL 数学系DL课程的一些资料,包括有PyTorch和 TensorFlow 的 Tutorial 以及作业相关,看了一下Tutorial 部分,觉得非常有意思,和其他传统的基础作业不太一样,这里都是流行的落地项目,比如Question Answering、Generative Model with VAEs/GANs,非常值得一看。https://github.com/pukkapies/dl-imperial-maths
发布 11月10日
HotpotQA:一个 wikipedia-based QA pairs dataset。 paper:https://arxiv.org/abs/1809.09600 code:https://github.com/hotpotqa/hotpot link:https://hotpotqa.github.io/
发布 11月10日
PyTorch 的 BERT 实现,包括 script 来将 TensorFlow 的 pre-trained model 进行转换,作者来自huggingface。https://github.com/huggingface/pytorch-pretrained-BERT
发布 11月10日
语言模型中的迁移学习进展和总结,对目前State of the Art 的 LM 都有介绍,包括allennlp 的 ELMo,ULMFiT,OpenAI 的 Transformer,以及最近 Google 刷屏的 BERT。https://drive.google.com/file/d/1kmNAwrSlFYo0cN_DcURMOArBwe9FxWxR/view
发布 11月10日
一个对 LSTM 中 autoencoder 的科普介绍,还挺清楚。just another,有关键部分的 Keras code 帮助理解。https://machinelearningmastery.com/lstm-autoencoders
发布 11月10日
基于 LSTM 构建语言模型,然后用作输入法,以前有看到过一个韩国人做的,这次作者来自东京大学和 CMU,数据集是日语的 BCCWJ。其实是2016年的工作,但是语言模型放进输入法还是一个挺自然的事情,看起来还是挺有意思。 paper:https://arxiv.org/pdf/1810.09309.pdf code:https://github.com/yohokuno/neural_ime