TGINSIGHT CHAT
Data Science Archive
@DataScienceArchive
科技小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些: * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理,计算机视觉,语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊,搜索和个性化推荐算法产品的工程化 * 统计学习,矩阵计算,贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具 希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: [email protected]
最近帖子
第 7/10 页 · 共 118 条
发布 11月14日
massive GPU cluster 上训练技巧,看起来是对 mini-batch size 有一个比较好的 control,以及 2D-Torus all-reduce 来做各个 GPU 梯度更新同步问题。刚刚提交到 arxiv,来自 SONY 团队。paper 题目也很有意思:ImageNet/ResNet-50 Training in 224 Seconds. This work Tesla V100 x1088, Infiniband EDR x2, 91.62% GPU scaling efficiency https://arxiv.org/abs/1811.05233
发布 11月14日
一个 loss monitor:https://www.wandb.com/blog/monitor-your-pytorch-models-with-five-extra-lines-of-code 可能比自己用 Visdom/TensorBoard 什么的简单一点。
发布 11月14日
一个用 ULMFiT 做 fine-tune 的 slides 分享,尚不清楚作者背景,发的时候 at 了 Jeremy Howard… https://docs.google.com/presentation/d/1eqFVk0OaYTcXOfcBtcBRyuPDPmX9_GsMxRzo-HxsvC0/edit#slide=id.p1
发布 11月13日
TF Hub 上的一个 BigGAN 的 demo,BigGAN 上个月觉得特别好玩的东西,只是感觉风头好像最近被 BERT 盖过去了… https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb
发布 11月12日
HuggingFace 实现的 PyTorch BERT 项目里增加了 FP16,还有更多 feature,multi-GPU,distributed training 之类的。 link: https://github.com/huggingface/pytorch-pretrained-BERT
发布 11月12日
芝加哥艺术学院 release 了一些非常高质量的画作,without restriction,Creative Commons Zero License. 质量确实超级高,没找到打包下载的,点进每张画之后,点右下角的下载按钮就可以了。做neural transfer,GAN 或者其他什么好玩的实验应该还是不错的。数量也很大,按照 kottle 的说法应该是有50k张。 link: https://kottke.org/18/11/the-art-institute-of-chicago-has-put-50000-high-res-images-from-their-collection-online link: https://www.artic.edu/collection?is_public_domain=1
发布 11月12日
一本模型黑盒解释的小书,质量蛮不错的,早上读了一下 Feature Interaction 和 Importance 部分,写得非常系统,有一些统计角度的未曾想过的解释,挺到位。值得精读。 link: https://christophm.github.io/interpretable-ml-book/
发布 11月12日
Andrew 和 Richard Sutton 的 RL 圣经第二版,暂时没有太多时间研究 RL,需要的时候翻翻好了。去年(前年?)好像有 draft 版本,不过我也没读过… link: https://drive.google.com/file/d/1opPSz5AZ_kVa1uWOdOiveNiBFiEOHjkG/view
发布 11月12日
PyCM: 一个 multi-class 混淆矩阵分析的工具,对于特定的分类问题的结果评估也许可以用得上,不过我先前用 scikit-learn 自带的 https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html 就基本满足了。看了一下,这个支持的存储类型更为丰富,统计标准也更多。 link: http://www.shaghighi.ir/pycm/ github: https://github.com/sepandhaghighi/pycm
发布 11月12日
一个自动画网络结构图的 Python 脚本,除了常见格式,竟然还有 pptx。卷积反卷积,max/ave/global pooling/dense 这些常见的 layer 都能支持。 link: https://github.com/yu4u/convnet-drawer 也是draw_convnet 的姊妹项目。 link: https://github.com/gwding/draw_convnet
发布 11月11日
PCam 一个组织病理学图像的 dataset,量不大,单卡可以用来跑一些 benchmark。似乎这种纹理图片做起来和其他分类可能还是有一些区别,还可以参考一下最近 Kaggle 上的找盐的那场比赛。 link: http://basveeling.nl/posts/pcam/ github: https://github.com/basveeling/pcam
发布 11月11日
一键打开 Colab 的Chrome扩展…https://chrome.google.com/webstore/detail/open-in-colab/iogfkhleblhcpcekbiedikdehleodpjo/related