TGTGInsighttelegram intelligenceLIVE / telegram public index
Post content
Post content
顺带宣布一下我们对 ChinaXiv.org 的存档项目。存档项目名定为: ChinaXivXiv 或 ChinaXiv Mirror Project > ChinaXiv 是中科院维护的一个类似 arXiv 的预印本平台(当然规模小很多)。 为啥存它: - 开放获取,根据其 license,只要署源留链即可任意再分发。 - 目前网上没有看到别的地方有它的内容镜像。 - 近几年的新 paper 实际上没有镀 DOI ,显示的 DOI 是假的。 - 声明“永久访问”,实际上他们会删历史版本文件。(我们边爬,他们边删;是否会删论文还不确定,需要长期观察) - 网站极其不稳定。 目前已完成 27k 个有效版本id(一篇论文一般有1~2个版本)的元数据爬取和文件下载。数据量特小,只有~50G。 之后会将文件和元数据都完整的论文传 IA (少部分我们爬取流程还没跑完,ChinaXiv 就把东西删了) (另外还发现有几百篇实际存在的 paper 的详情页根本就打不开,会循环 302 到详情页自身) <项目群>