Data Science Archive

@DataScienceArchive

小熊猫的个人工具收纳箱，还包括一些零碎的笔记，大概会有这些： * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理，计算机视觉，语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊，搜索和个性化推荐算法产品的工程化 * 统计学习，矩阵计算，贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具希望我收集的信息也可以帮到你，如果有其他建议，或者寻找工作机会，都可以给我发邮件： [email protected]

Subscribers1,720频道当前订阅规模

Tracked posts118频道帖子计数

Recent reach10,524最近帖子视图总和

最近帖子

第 7/10 页 · 共 118 条

发布 11月14日

查看

massive GPU cluster 上训练技巧，看起来是对 mini-batch size 有一个比较好的 control，以及 2D-Torus all-reduce 来做各个 GPU 梯度更新同步问题。刚刚提交到 arxiv，来自 SONY 团队。paper 题目也很有意思：ImageNet/ResNet-50 Training in 224 Seconds. This work Tesla V100 x1088, Infiniband EDR x2, 91.62% GPU scaling efficiency https://arxiv.org/abs/1811.05233

1,000 views

发布 11月14日

查看

一个 loss monitor：https://www.wandb.com/blog/monitor-your-pytorch-models-with-five-extra-lines-of-code 可能比自己用 Visdom/TensorBoard 什么的简单一点。

995 views

发布 11月14日

查看

一个用 ULMFiT 做 fine-tune 的 slides 分享，尚不清楚作者背景，发的时候 at 了 Jeremy Howard… https://docs.google.com/presentation/d/1eqFVk0OaYTcXOfcBtcBRyuPDPmX9_GsMxRzo-HxsvC0/edit#slide=id.p1

930 views

发布 11月13日

查看

TF Hub 上的一个 BigGAN 的 demo，BigGAN 上个月觉得特别好玩的东西，只是感觉风头好像最近被 BERT 盖过去了… https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb

927 views

发布 11月12日

查看

HuggingFace 实现的 PyTorch BERT 项目里增加了 FP16，还有更多 feature，multi-GPU，distributed training 之类的。 link: https://github.com/huggingface/pytorch-pretrained-BERT

906 views

发布 11月12日

查看

芝加哥艺术学院 release 了一些非常高质量的画作，without restriction，Creative Commons Zero License. 质量确实超级高，没找到打包下载的，点进每张画之后，点右下角的下载按钮就可以了。做neural transfer，GAN 或者其他什么好玩的实验应该还是不错的。数量也很大，按照 kottle 的说法应该是有50k张。 link: https://kottke.org/18/11/the-art-institute-of-chicago-has-put-50000-high-res-images-from-their-collection-online link: https://www.artic.edu/collection?is_public_domain=1

946 views

发布 11月12日

查看

一本模型黑盒解释的小书，质量蛮不错的，早上读了一下 Feature Interaction 和 Importance 部分，写得非常系统，有一些统计角度的未曾想过的解释，挺到位。值得精读。 link: https://christophm.github.io/interpretable-ml-book/

878 views

发布 11月12日

查看

Andrew 和 Richard Sutton 的 RL 圣经第二版，暂时没有太多时间研究 RL，需要的时候翻翻好了。去年（前年？）好像有 draft 版本，不过我也没读过… link: https://drive.google.com/file/d/1opPSz5AZ_kVa1uWOdOiveNiBFiEOHjkG/view

810 views

发布 11月12日

查看

PyCM: 一个 multi-class 混淆矩阵分析的工具，对于特定的分类问题的结果评估也许可以用得上，不过我先前用 scikit-learn 自带的 https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html 就基本满足了。看了一下，这个支持的存储类型更为丰富，统计标准也更多。 link: http://www.shaghighi.ir/pycm/ github: https://github.com/sepandhaghighi/pycm

801 views

发布 11月12日

查看

一个自动画网络结构图的 Python 脚本，除了常见格式，竟然还有 pptx。卷积反卷积，max/ave/global pooling/dense 这些常见的 layer 都能支持。 link: https://github.com/yu4u/convnet-drawer 也是draw_convnet 的姊妹项目。 link: https://github.com/gwding/draw_convnet

787 views

发布 11月11日

查看

PCam 一个组织病理学图像的 dataset，量不大，单卡可以用来跑一些 benchmark。似乎这种纹理图片做起来和其他分类可能还是有一些区别，还可以参考一下最近 Kaggle 上的找盐的那场比赛。 link: http://basveeling.nl/posts/pcam/ github: https://github.com/basveeling/pcam

781 views

发布 11月11日

查看

一键打开 Colab 的Chrome扩展…https://chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo/related

763 views

1 2•••5 678 9 10