TGINSIGHT CHAT
Data Science Archive
@DataScienceArchive
科技小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些: * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理,计算机视觉,语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊,搜索和个性化推荐算法产品的工程化 * 统计学习,矩阵计算,贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具 希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: [email protected]
最近帖子
第 8/10 页 · 共 118 条
发布 11月11日
Sebastian Raschka终于写完了他的这套博文系列《Model evaluation, model selection, and algorithm selection in machine learning》的第四章,非常详细地介绍了模型评测部分需要考虑的各种环节,需要一些统计基础。 前三篇连载都是两年前写的,当时看得也是获益匪浅,统计背景比较强的老师看模型和算法的角度会不太一样,非常推荐。 link: 1. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part1.html 2. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part2.html 3. https://sebastianraschka.com/blog/2016/model-evaluation-selection-part3.html 4. https://sebastianraschka.com/blog/2018/model-evaluation-selection-part4.html
发布 11月11日
一篇快速回顾统计概念的小文,举的例子还是挺不错的,写得也很好。贝叶斯学派和统计学派,虚空假设,Type Error,p-value。 link: https://towardsdatascience.com/statistics-for-people-in-a-hurry-a9613c0ed0b
发布 11月11日
一个用featuretools做特征工程的例子,ft这个工具还不错,上次做Kaggle也有用到,如果是不太熟悉的领域,又是categorical data,先ft提一波高阶组合特征,跑一个baseline还是不错的。 不过这个工具有相当多tricky的参数,时间开销也比较大。 link:https://medium.com/@rrfd/simple-automatic-feature-engineering-using-featuretools-in-python-for-classification-b1308040e183
发布 11月10日
EMNLP 2018 上一个非监督的Statistical Machine Translation,WMT14 的 BLEU 分数26.2,还是挺不错的。翻译领域其实不太了解,NMT 还算实践过一些,传统的Statistical MT几乎不太懂。 看了一下项目里的requirements,看到了Moses 的身影,似乎这个是早期传统的 SMT 的重要工具?(上次在一个文言文翻译现代汉语的项目里见到过。 code: https://github.com/artetxem/monoses link: https://arxiv.org/abs/1809.01272 Moses: http://www.statmt.org/moses/
发布 11月10日
一个收集 NLP 各个子领域进展的 markdown 项目,这里对进展的定义不错,都是基于某某公开数据集,以及相应的 metrics,非常适合刚刚入门某个领域。扫了一眼 text classification & summarization,还是比较系统的。遗憾的是对于各个领域独有的(默认的)一些 trick 没有提及。 link: https://github.com/sebastianruder/NLP-progress
发布 11月10日
XLNI Dataset,和先前 MLNI 差不多类型,不过语言种类更多,但是是它们翻译过来的。这次 Google BERT pre-trained 项目中官方实现的例子里面也有。https://code.fb.com/ai-research/xlni/
发布 11月10日
cuDF: GPU DataFrame Library,pandas-like API。貌似 NVIDIA 也有一个类似的项目?但是刚才去找了半天没找到。来自 rapids.ai。 link: https://github.com/rapidsai/cudf 团队还有其他不错的项目,cuML,cuGRAPH,可视化的工具等等,可能是想做一个 GPU Data Science Ecosystem,可以关注一下。 团队主页:https://rapids.ai/ 团队项目主页:https://github.com/RAPIDSai
发布 11月10日
一个 ML 系统线上部署以及实战操作部分的工具栈,有模型存储, Data Pipeline,ETL,特征工程,以及各种性能优化,很多工程角度实用的工具收集。 link: https://github.com/EthicalML/awesome-machine-learning-operations 作者也在 EuroScipy 2018上给了一个比较简短的 talk: https://axsauze.github.io/scalable-data-science/#/
发布 11月10日
flexdashboard,可以在 RStudio 里面做交互的可视化插件。如果用 RStudio 的话可以一试,用 Jupyter 似乎不是太需要了。https://blog.rstudio.com/2016/05/17/flexdashboard-easy-interactive-dashboards-for-r/
发布 11月10日
一个用 R 做 EDA 的例子,作者来自UChicago。https://angela-li.github.io/slides/2018-11-08/dc-r-presentation#1
发布 11月10日
一个 ML 扩展包,配合scikit-learn 一起食用还是很不错的,以前用过,主要优势在于 ensemble 和各种常用应用层面的封装,毕竟scikit-learn 里面不常用的方法还是有点多。 link: http://rasbt.github.io/mlxtend/ 作者是威斯康辛麦迪逊的统计系老师,也是这本《Python Machine Learning》的作者。 书:https://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130
发布 11月10日
介绍 QTE/ATE,以及 Local ATE,来自 Uber Eng,有不少产品角度的数据科学思考。 link: https://eng.uber.com/analyzing-experiment-outcomes/ 顺带找到一个知乎上关于 Local ATE 的介绍:https://www.zhihu.com/question/32199571/answer/55792738