TGTGInsighttelegram intelligenceLIVE / telegram public index
Back to channels
Save The Web Project avatar

TGINSIGHT CHAT

Save The Web Project

@saveweb

Technologies

This channel can’t be displayed because it violated Telegram's Terms of Service.

Subscribers1,440Current channel subscribers
Tracked posts430Indexed post count
Recent reach13,375Sum of recent post views
Recent posts

Recent posts

Page 33 of 36 · 430 posts

Posted Nov 12

译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。

1,420 views

Posted Nov 8

已开 Matrix 群组,并和 TG 群互通,欢迎加入: https://matrix.to/#/#saveweb_chat:matrix.org

1,310 views

Posted Nov 8

「搜狗科学百科」将于 11 月 11 日关站。 注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆。 搜狗科学百科自己的介绍条目:「搜狗科学百科」(链接关站后失效) 此百科的亮点: - 各条目的分类依靠学科树 (链接关站后失效) - 对编辑者有专业要求 - 有同行评审 - 尝试建立自治社区 - 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权 截至目前,共积累了 849(?) 篇条目。 —— 我们正在存档此站。

1,190 views

Posted Nov 8

「搜狗科学百科」将于 11 月 11 日关站。 注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆。 搜狗科学百科自己的介绍条目:「搜狗科学百科」(链接关站后失效) 此百科的亮点: - 各条目的分类依靠学科树(链接关站后失效) - 对编辑者有专业要求 - 有同行评审 - 尝试建立自治社区 - 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权 截至目前,共积累了 849(?) 篇条目。 —— 我们正在存档此站。

1,050 views

Posted Nov 4

#Z-Library #话题讨论 Z-Library 常见域名现已被美国国土安全调查局的美国移民及海关执法局以版权法取缔,Tor 站点目前还能访问。 —— 评论区任意讨论,可张贴与此相关的链接。

999 views

Posted Oct 30

# 语雀公开知识库紧急存档行动 语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。 因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。 发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档) 我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代…

1,560 views

Posted Oct 29

# 语雀公开知识库紧急存档行动 语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。 因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。 发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档) 我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。) 由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。 或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。

1,440 views

Posted Oct 25

这个更是重量级,4.2TB/11150个URL=394MiB/每个URL。 单个 URL 就有近 400 MiB 数据量,B站 1080p 的视频平均都没这么大。国家图书馆,这是在存 Steam 吧???

1,040 views

Posted Oct 25

猜测国家图书馆的网页快照存档项目的规模与速度。 图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。 ——《国家图书馆网络资源采集与保存平台的技术实现》 图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。 ——《国家图书馆网络信息资源采集与保存平台关键技术实现》 按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。 如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论: 国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。 它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》 (它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”) (哪天有钱了,咋们也整个 heritrix 玩玩) 当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小? 抑或许是政府网站的变动率小,所以易于增量存档? 但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)

961 views

Posted Oct 21

# 大家一起收集整理老光盘、老软件(Link) QQ群号:854318908 Telegram: https://t.me/+gTUsMX3n_g8yNzc1 - 已分享内容列表 - 已分享内容检索系统 (支持搜索光盘内部的文件) 欢迎伸手党,本倡议的目的就是为了让老光盘不消失,让大家尽量容易地得到老光盘中的内容,如果你只为下载,没有光盘可分享,可以不用加群,群里分享的光盘已全部包含在上述汇总文档中了。 当然了,也更加欢迎加群分享您手上的光盘。 就像老电脑正在消失一样,老的软件和光盘也正在消失,希…

813 views

Posted Oct 21

# 科学网博客平台存档计划 科学网的博客平台( https://blog.sciencenet.cn )是国内少有的能存活到现在的博客平台(2007~)。 > 「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。) 其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!) 因此我们发…

767 views

Posted Sep 10

许久不见,中秋节快乐🌕 相信已经很多朋友已经获知,我们近期在 Telegram 上打造了一个专门存储游戏方面书籍的频道——『游戏书籍 Hub』 以尽可能在稳定保存的环境下,以供大家未来阅读、怀念、和研究游戏发展史。 现在,大部分书籍已正式整理完毕,欢迎查阅。 我们得到了来自五湖四海的帮助,并尽最大可能收集、上传了目前能收集到的游戏书籍。 许多曾经出版、曾辉煌一时,但如今已难以查找的游戏书籍得以获得了整理和保存,感谢大家。 最后,我们发现即便是 http://archive.org ,这方面的资源仍然相对空白。我们手上有着许多上面没有,但出版社已经倒闭多年的书籍。 因此,我们也安排了人员将上面没有的书籍进行上传,以获得更专业和长久的保存。 感谢各位帮忙,并祝中秋快乐。 作者 @nt_cubic #游戏书籍#NY2164

825 views
12•••10•••20•••30313233343536