TGINSIGHT CHAT
Save The Web Project
@saveweb
TechnologiesThis channel can’t be displayed because it violated Telegram's Terms of Service.
Recent posts
Tag: #stwp · 4 posts
Posted Oct 30
STWP 2024 第 43 周周报 周报迟到,因为本周确实无事。 STWP 本周进展: - 某项目:完成阶段目标。 - 某项目: @Ovler 在写克隆 API,然后大家发现 @oveRidea_China 6月份搓的代码貌似改改还能用,于是捡起来……? 才怪! 没用!全新手搓了! 逻辑和依赖全部重做! 本周疑问: - JavaScript 中生成 RSS/ATOM 什么库好用? #STWP
Hashtags
Posted Oct 19
STWP 2024 第 42 周周报 本周新闻: - IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」 - WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出? STWP 本周进展: - 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly - 天涯小筑:打好了 warc ,等待上传。 @yzqzss - 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss - 某项目:新适配了一个目标网站。 @Ovler STWP 基建: - 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。 - 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。 本周趣闻: - 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。 - 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter] - 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。 - Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。 - 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry 。 - @rowink:matrix.org 觉得 search.saveweb.org “有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。 - 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。 #STWP
Hashtags
Posted Aug 7
WARCs all the way going forward my friends! -- Zeno developer STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的祥子了。 在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。 特性: - 由 IA 维护 - 除了 IA,没人用 - MyGo 写的 - 并发 bug 很多 - 有代码,没文档 - 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。只要支持 zstd,我们什么都愿意做的.jpg - 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio) - 可随机使用 IP 出口 - 即将支持 DNS archiving 在过去一周的高密度 PR 的☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在差不多算是生产爆炸就绪了。 我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。 hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But it's MyGo!!! 所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。 #STWP#WARC#Zeno
Posted Jun 28
一年过去了,STWP 的鸽子们的第零期播客终于剪好了…… 录音录制于 2022-06-23 ,所以请忽略我们在谈些一年前的旧闻。都是在乱聊。 口误更正: “不可见的空格”为“零宽字符” 事实更正: Internet Archive 是单冗余。 #STWP#Podcast