Post #64

@saveweb

Save The Web Project

Views961Post view count

PostedOct 2510/25/2022, 03:44 PM

Post content

猜测国家图书馆的网页快照存档项目的规模与速度。图1，2020年09月的论文中提到的 2018 年的数据——保存的数据量 210 TB。 ——《国家图书馆网络资源采集与保存平台的技术实现》图2，2021年03月的论文中提到的最新数据（2021年3月）——300TB。 ——《国家图书馆网络信息资源采集与保存平台关键技术实现》按照论文里的说法，这个新(?)系统是 2018 年研制（基于 IIPC 的一整套轮子魔改）完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右，且政府网站占其存档的比例约为 70% 。如果每天抓取量在 90 GiB 左右的话，我们会得到一个很可笑的结论：国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布，并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》（它的存档系统有去重和压缩，但是这个存档效率真的……感觉一点都不“国家图书馆”）（哪天有钱了，咋们也整个 heritrix 玩玩）当然，也许是我们对网页的“大小”预估太大了，或许大部分网页的单页体积其实很小？抑或许是政府网站的变动率小，所以易于增量存档？但 10 mbps 的有效信息采集速度实在是太慢啦！（而且其论文里提到他们是 html、css、js、图片都会全部采集的。）