TGTGInsighttelegram intelligenceLIVE / telegram public index
← Save The Web Project
Save The Web Project avatar

TGINSIGHT POST

Post #64

@saveweb

Save The Web Project

Views961Post view count
PostedOct 2510/25/2022, 03:44 PM
Post content

Post content

猜测国家图书馆的网页快照存档项目的规模与速度。 图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。 ——《国家图书馆网络资源采集与保存平台的技术实现》 图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。 ——《国家图书馆网络信息资源采集与保存平台关键技术实现》 按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。 如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论: 国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。 它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》 (它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”) (哪天有钱了,咋们也整个 heritrix 玩玩) 当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小? 抑或许是政府网站的变动率小,所以易于增量存档? 但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)