Data Science Archive

@DataScienceArchive

小熊猫的个人工具收纳箱，还包括一些零碎的笔记，大概会有这些： * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理，计算机视觉，语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊，搜索和个性化推荐算法产品的工程化 * 统计学习，矩阵计算，贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具希望我收集的信息也可以帮到你，如果有其他建议，或者寻找工作机会，都可以给我发邮件： [email protected]

Subscribers1,720频道当前订阅规模

Tracked posts118频道帖子计数

Recent reach8,801最近帖子视图总和

最近帖子

第 8/10 页 · 共 118 条

发布 11月11日

查看

Sebastian Raschka终于写完了他的这套博文系列《Model evaluation, model selection, and algorithm selection in machine learning》的第四章，非常详细地介绍了模型评测部分需要考虑的各种环节，需要一些统计基础。前三篇连载都是两年前写的，当时看得也是获益匪浅，统计背景比较强的老师看模型和算法的角度会不太一样，非常推荐。 link: 1. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part1.html 2. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part2.html 3. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part3.html 4. https://sebastianraschka.com/blog/2018/model-evaluation-selection-part4.html

795 views

发布 11月11日

查看

一篇快速回顾统计概念的小文，举的例子还是挺不错的，写得也很好。贝叶斯学派和统计学派，虚空假设，Type Error，p-value。 link: https://towardsdatascience.com/statistics-for-people-in-a-hurry-a9613c0ed0b

769 views

发布 11月11日

查看

一个用featuretools做特征工程的例子，ft这个工具还不错，上次做Kaggle也有用到，如果是不太熟悉的领域，又是categorical data，先ft提一波高阶组合特征，跑一个baseline还是不错的。不过这个工具有相当多tricky的参数，时间开销也比较大。 link：https://medium.com/@rrfd/simple-automatic-feature-engineering-using-featuretools-in-python-for-classification-b1308040e183

736 views

发布 11月10日

查看

EMNLP 2018 上一个非监督的Statistical Machine Translation，WMT14 的 BLEU 分数26.2，还是挺不错的。翻译领域其实不太了解，NMT 还算实践过一些，传统的Statistical MT几乎不太懂。看了一下项目里的requirements，看到了Moses 的身影，似乎这个是早期传统的 SMT 的重要工具？（上次在一个文言文翻译现代汉语的项目里见到过。 code: https://github.com/artetxem/monoses link: https://arxiv.org/abs/1809.01272 Moses: http://www.statmt.org/moses/

721 views

发布 11月10日

查看

一个收集 NLP 各个子领域进展的 markdown 项目，这里对进展的定义不错，都是基于某某公开数据集，以及相应的 metrics，非常适合刚刚入门某个领域。扫了一眼 text classification & summarization，还是比较系统的。遗憾的是对于各个领域独有的（默认的）一些 trick 没有提及。 link: https://github.com/sebastianruder/NLP-progress

708 views

发布 11月10日

查看

XLNI Dataset，和先前 MLNI 差不多类型，不过语言种类更多，但是是它们翻译过来的。这次 Google BERT pre-trained 项目中官方实现的例子里面也有。https://code.fb.com/ai-research/xlni/

703 views

发布 11月10日

查看

cuDF: GPU DataFrame Library，pandas-like API。貌似 NVIDIA 也有一个类似的项目？但是刚才去找了半天没找到。来自 rapids.ai。 link: https://github.com/rapidsai/cudf 团队还有其他不错的项目，cuML，cuGRAPH，可视化的工具等等，可能是想做一个 GPU Data Science Ecosystem，可以关注一下。团队主页：https://rapids.ai/ 团队项目主页：https://github.com/RAPIDSai

710 views

发布 11月10日

查看

一个 ML 系统线上部署以及实战操作部分的工具栈，有模型存储， Data Pipeline，ETL，特征工程，以及各种性能优化，很多工程角度实用的工具收集。 link: https://github.com/EthicalML/awesome-machine-learning-operations 作者也在 EuroScipy 2018上给了一个比较简短的 talk: https://axsauze.github.io/scalable-data-science/#/

710 views

发布 11月10日

查看

flexdashboard，可以在 RStudio 里面做交互的可视化插件。如果用 RStudio 的话可以一试，用 Jupyter 似乎不是太需要了。https://blog.rstudio.com/2016/05/17/flexdashboard-easy-interactive-dashboards-for-r/

710 views

发布 11月10日

查看

一个用 R 做 EDA 的例子，作者来自UChicago。https://angela-li.github.io/slides/2018-11-08/dc-r-presentation#1

706 views

发布 11月10日

查看

一个 ML 扩展包，配合scikit-learn 一起食用还是很不错的，以前用过，主要优势在于 ensemble 和各种常用应用层面的封装，毕竟scikit-learn 里面不常用的方法还是有点多。 link: http://rasbt.github.io/mlxtend/ 作者是威斯康辛麦迪逊的统计系老师，也是这本《Python Machine Learning》的作者。书：https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130

794 views

发布 11月10日

查看

介绍 QTE/ATE，以及 Local ATE，来自 Uber Eng，有不少产品角度的数据科学思考。 link: https://eng.uber.com/analyzing-experiment-outcomes/ 顺带找到一个知乎上关于 Local ATE 的介绍：https://www.zhihu.com/question/32199571/answer/55792738

739 views

1 2•••6 789 10