TGTGInsighttelegram intelligenceLIVE / telegram public index
返回频道列表
Data Science Archive avatar

TGINSIGHT CHAT

Data Science Archive

@DataScienceArchive

科技

小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些: * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理,计算机视觉,语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊,搜索和个性化推荐算法产品的工程化 * 统计学习,矩阵计算,贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具 希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: [email protected]

Subscribers1,720频道当前订阅规模
Tracked posts118频道帖子计数
Recent reach30,063最近帖子视图总和
Recent posts

最近帖子

第 4/10 页 · 共 118 条

发布 7月24日

Chip Huyen是我非常喜欢的一个越南裔斯坦福的老师,产出博客和课程质量非常高,项目也都挺有趣。这是她的博客:https://huyenchip.com/ 不过这次想分享的是她在推上写的关于ML eng/Data Scientist面试的一些琐碎,信息量很大,这条推看起来会一直更新下去,直到整理成书籍:https://twitter.com/chipro/status/1152077188985835521 以及每条推的评论部分也很值得一读

3,650 views

发布 7月21日

今天在推上被一位朋友问到AutoML的入门资料,我想了一下之前看过第四范式的这篇Survey,他们一直在KDD Cup/NIPS上承办AutoML Challenge。这篇入门survey也是我看过的写得最好的,2018年11月提交,2019年1月最后一次revised,内容够新够全。https://arxiv.org/abs/1810.13306 AutoML的很多工作都是集中于超参数调节,虽然我觉得它很多时候没有CV/NLP方向那么生动,却还是有自己很独特的魅力,落地价值也很强。

3,400 views

发布 7月10日

一份Data Visualization Style Guidelines的资源列表,作者收集挺精心的。https://medium.com/data-visualization-society/style-guidelines-92ebe166addc 这份excel里面有非常多的细节,包括如何选择合适的chart,style,甚至有的里面还有每一种颜色的使用场景,还是蛮有意思的。 https://docs.google.com/spreadsheets/d/1F1gm5QLXh3USC8ZFx_M9TXYxmD-X5JLDD0oJATRTuIE/edit#gid=1679646668

3,840 views

发布 7月10日

Voila是一个新的Jupyter做可视化的插件,可以把notebook直接转换成standalone的web app。试了一下还是不错的,数据量大的情况有点卡。不过我自己现在都是更喜欢用plotly的Dash,更漂亮点,生成的HTML也更方便嵌入其他的文档说明页 like Python Sphinx。不过也算是多一个选择:https://blog.jupyter.org/a-gallery-of-voil%C3%A0-examples-a2ce7ef99130

2,580 views

发布 7月8日

最近在看一些NLP项目corpus的序列化部分,http://matthewrocklin.com/blog/work/2015/03/16/Fast-Serialization 文章有点老,实验部分尚可一看。

2,300 views

发布 6月7日

https://github.com/PacktPublishing/Hands-On-Data-Structures-and-Algorithms-with-Rust 使用Rust入手数据结构和算法 数据结构和算法是每种计算机语言都要面对的基础知识,而Rust由于独特的所有权问题,在实现数据结构和算法时需要一定技巧,也更能体会语言的独特性。这个repo保存了书里所有例子代码,可以用来入门,也可以用来查阅具体算法的写法。

473 views

发布 6月6日

如何管理ML实验结果和模型其实是一个老生常谈的问题,reddit这个帖子总结的一些工具还是不错的,下面的评论不少也值得一看。 https://old.reddit.com/r/MachineLearning/comments/bx0apm/d_how_do_you_manage_your_machine_learning/

2,570 views

发布 5月18日

Catalyst 19.06rc2 把 TensorFlow 的依赖全去掉了,完全使用 PyTorch。新版本还没试用,不过把tf去掉倒是一个好消息。 link:https://catalyst-team.github.io/catalyst/index.html Sergey的介绍:https://docs.google.com/presentation/d/1NQGWb53Kqm-f3hZ2JIoHjX-he3C39eOcSszZzp5o07U/edit#slide=id.p

2,600 views

发布 5月17日

BAMBI 是一个在PyMC3上的Python高级api,如果你经常用Bayesian statistical model的话,可以一试。我只用过PyMC3,打算试试这个BAMBI,希望好用。https://github.com/bambinos/bambi

2,390 views

发布 5月16日

Sequence-Aware Recommender Systems 的一份Tutorial,之前在做实验的时候也发现Session Based 的RNN做推荐效果是相当好的,尤其是在典型的存在序列Session的场景,例如YouTube连续剧,短视频流等等。https://github.com/mquad/sars_tutorial

2,180 views

发布 5月16日

一些生成模型的collections,TF2+Keras,货都在colab上。https://github.com/timsainb/tensorflow2-generative-models/

2,090 views

发布 5月16日

Foundations of Data Science,一份来自MSR India的资料,作者是MSR India的DataScience Lead。看一眼,书质量非常高。https://www.cs.cornell.edu/jeh/book.pdf

1,990 views