TGTGInsighttelegram intelligenceLIVE / telegram public index
返回频道列表
Data Science Archive avatar

TGINSIGHT CHAT

Data Science Archive

@DataScienceArchive

科技

小熊猫的个人工具收纳箱,还包括一些零碎的笔记,大概会有这些: * 有趣/有价值/SOTA的会议论文和代码分享 * 自然语言处理,计算机视觉,语音信号领域进展 * Kaggle 和其他算法竞赛经验 * 反作弊,搜索和个性化推荐算法产品的工程化 * 统计学习,矩阵计算,贝叶斯相关的工具 * 可视化、算法服务相关的存储、并行和分布式计算工具 希望我收集的信息也可以帮到你,如果有其他建议,或者寻找工作机会,都可以给我发邮件: [email protected]

Subscribers1,720频道当前订阅规模
Tracked posts118频道帖子计数
Recent reach74,908最近帖子视图总和
Recent posts

最近帖子

第 2/10 页 · 共 118 条

发布 1月25日

推荐一篇博客,作者介绍在 DS 项目中写测试。毕竟 ML 的项目测试起来和传统的程序不是太一样,除了最基础的 assert, pytest 这些之外对数据的分布和数据一些统计指标也需要做测试。文中提到的几个工具 Hypothesis 和 Pandera 我都是用过的,Pandera 很好用,也可以原生集成给 Pandas/Koalas(Koalas 也是我配合 PySpark 最常用的 DataFrame 工具)。https://www.peterbaumgartner.com/blog/testing-for-data-science/

1,920 views

发布 1月24日

FB 最近的 ConvNeXt 看起来满强的,实验结果能打 ViT/SwinTransfomer,纯ConvNet 结构,在 MLP-Mixer 之后我越来越觉得在经历一段军备竞赛之后终于回到似乎是回到对结构探索的正确道路上。从算力有限时代的 MLP 到快速又符合直觉的ConvNet滤波计算,出现瓶颈并拥有更多的算力后再去看曾经的结构总是有不一样的启发。不知道下一次能看到像 ResNet 一样留下普世启发的结构是什么时候。https://github.com/facebookresearch/ConvNeXt

2,009 views

发布 1月18日

Deepchecks 是目前我发现关于模型的离线检查和生产环境监控最好的工具,尤其是项目给出的 Suite 和 Condition 的概念。目前只能在 notebook 里面用,暂时还不支持 HTML 或者 pdf。项目很新,值得关注。https://github.com/deepchecks/deepchecks

2,600 views

发布 1月18日

AlibiExplain 应该是这几年看到的在机器学习模型可解释性上做得最系统的工具,堪称知识库型文档,毕竟不能只了解一点 SHAP。https://docs.seldon.io/projects/alibi/en/latest/index.html

5,620 views

发布 1月18日

最近在做简单地离线 demo 的时候开始使用 https://streamlit.io ,在这之前我大概用了一两年的 Dash,就目前的感觉比 Dash 的准备时间少了不止一半。在 2022 年,我想如果不出意外的话,有交互的将会锁定使用 streamlit.io,静态的使用 http://datapane.com

2,410 views

发布 8月12日

最近在上线前彻查API,不少收获来自内部也是开放的指南。https://github.com/microsoft/api-guidelines/blob/vNext/Guidelines.md

8,109 views

发布 4月14日

意外发现一篇特别好的频率派和贝叶斯派的博文:http://jakevdp.github.io/blog/2014/03/11/frequentism-and-bayesianism-a-practical-intro/

11,300 views

发布 3月31日

最近针对时间序列拆解重新理解的时候发现对 additive model 理解仍然有一些偏差。发现通用解法中用b-样条基函数的有点绕,终于在看了pyGAM这个包的源码和文档中完全搞懂,不过平滑约束的程度很难有点难顶就是了。https://github.com/dswah/pyGAM

11,500 views

发布 3月23日

最近重新开始接触时间序列,找到一个蛮不错的基础教材,准备开始恶补。http://www.math.pku.edu.cn/teachers/lidf/course/atsa/atsanotes/html/_atsanotes/index.html

8,260 views

发布 3月7日

本来以为是个水货,结果刚点进去就发现了Pharebank 这个好东西,强烈推荐给有协作需求的在读 PhD。https://www.annaclemens.com/blog/16-free-tools-scientists-write-better-more-productively

7,900 views

发布 2月29日

关于 Tabular dataset 中 GBM 的一些意见,虽说是目前为止(或者未来的一段时间)应该还将继续是 STOA,但是或多或少会有一些用浅层 NN 融合的方案来继续提升性能,比较重要的一份参考是两年前的 https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629 来源一条CPMP 的推文以及讨论:https://twitter.com/JFPuget/status/1233379034425384960

7,200 views

发布 2月26日

CUDA 层面重新实现的几种 RNN,自带Zoneout 和DropConnect,试用了一下 Py 和 C++的 API,确实是快非常多,API 可设定的参数还不是太多。https://github.com/lmnt-com/haste

6,080 views
1234•••910