Post content
WARCs all the way going forward my friends! -- Zeno developer STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的祥子了。 在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。 特性: - 由 IA 维护 - 除了 IA,没人用 - MyGo 写的 - 并发 bug 很多 - 有代码,没文档 - 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。只要支持 zstd,我们什么都愿意做的.jpg - 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio) - 可随机使用 IP 出口 - 即将支持 DNS archiving 在过去一周的高密度 PR 的☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在差不多算是生产爆炸就绪了。 我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。 hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But it's MyGo!!! 所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。 #STWP#WARC#Zeno