TGINSIGHT CHAT
Data Science Archive
@DataScienceArchive
科技小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些: * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理,计算机视觉,语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊,搜索和个性化推荐算法产品的工程化 * 统计学习,矩阵计算,贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具 希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: [email protected]
最近帖子
第 6/10 页 · 共 118 条
发布 11月26日
MedicalTorch 升级到了v0.2,这是一个在 PyTorch 上专门用作医学图像的框架,没有仔细研究过,可能是医学图像和其他领域的图像处理有所不同。粗略看了一下代码里的 Model,提到了 segmentation using deep dilated convolutions link: https://www.nature.com/articles/s41598-018-24304-3 transforms 里的函数有好多特殊的,像是一个高质量的项目,有待研究。 link:https://medicaltorch.readthedocs.io/en/stable/
发布 11月26日
《Do Better ImageNet Models Transfer Better?》的第二版。 In v1, we used public checkpoints where the ResNet models were trained without regularizers, which is why they performed best in the fixed feature setting. In v2, we retrained everything. Surprisingly, for ImageNet training, the same hyperparameters work well for all models. In v2, we show that regularization settings for ImageNet training matter a lot for transfer learning on fixed features. ImageNet accuracy now correlates with transfer acc in all settings. https://arxiv.org/abs/1805.08974
发布 11月26日
基于 PyTorch 的high-level lib,很早以前看过,没注意已经是 PyTorch 官方 team 的 repo,可以关注一下。 https://github.com/pytorch/ignite
发布 11月26日
对推荐系统中 MF的一些概览,初次接触 RecSys 可以看看。https://towardsdatascience.com/paper-summary-matrix-factorization-techniques-for-recommender-systems-82d1a7ace74
发布 11月20日
提交到 ICLR 2019的一篇不错的小文,比较pre-trained sentence-level language model,下面作者的 response 也挺不错。 https://openreview.net/forum?id=Bkl87h09FX
发布 11月20日
一份在PyData Warsaw2018上的 slides,分享NLP Summarization. https://ghostweather.slides.com/lynncherny/tl-dr-summarization#/6 进到页面后作者还有一些不错的 slides,包括 Google 那篇the stories we tell,写得都挺不错,适合快速 recap。
发布 11月17日
huggingface 这些人把包打进pypi了,懒人模式可以开启了…… link: https://github.com/huggingface/pytorch-pretrained-BERT
发布 11月16日
一个对 GCN 训练和评估各种 trick 和 pitfalls 的 recap,简单看了一下有很多训练细节的描述和提及,还有 GCN 网络构建的很多关键部分。 先前试过朴素的 GCN 做文本分类:https://arxiv.org/abs/1809.05679 自己也造了一个轮子,GCN 做文本分类确实可行,而且相对 TextCNN 这些方法速度快很多。 link:https://arxiv.org/abs/1811.05868
发布 11月16日
一个在 spaCy 上做ULMiT/BERT/Elmo 做 pre-training 的实验记录。 https://github.com/explosion/spaCy/pull/2931
发布 11月16日
一个EMNLP 2018的 recap,看着挺好,配合 paper 食用更佳。博客也不错。 link: https://supernlp.github.io/2018/11/10/emnlp-2018/
发布 11月16日
Gael Varoquaux 在euroSciPy 上做的关于interprete model 的 tutorial,他的博客里面干货一向很多,周末好好研究一下,就是有时候文章里面法语单词会混在里面,不太影响理解,习惯就好…… link: http://gael-varoquaux.info/interpreting_ml_tuto/#
发布 11月14日
NIPS 2018 creativity workshop 上一篇关于歌词生成的 paper。对于生成模型来说,特别是需要一些创造力的问题,传统的 NLU 的 metrics (比如翻译常用的 BLEU)不是很好用,得到分数很高的未必会让人感觉好。 先前自己做对联机的时候也有这样的感觉,有的模型虽然 BLEU,Perplexity 都很低,但反倒直观上看起来并不怎么样。 文章中对生成歌词这个问题同时分别在歌词和书籍语料上生成了两个language model,同时让歌词拥有歌词的特点(看起来是捕捉韵脚,对仗,重复加重情感),也具有书籍的特点(词汇量丰富,表达多样性)。 参考意义应该还是挺大,尤其是对于需要创造力的生成问题,利用多个不同的 multi language model 来进行 ensemble 的思想尤为值得借鉴。 这个 workshop 也是NIPS 中一直比较关注的,经常有很多很有意思的 paper。 作者来自Google Brain。 workshop homepage: https://nips2018creativity.github.io/ paper: https://arxiv.org/abs/1811.04651