TGINSIGHT CHAT
Save The Web Project
@saveweb
TechnologiesThis channel can’t be displayed because it violated Telegram's Terms of Service.
Recent posts
Page 30 of 36 · 430 posts
Posted Apr 23
# 第 15 周项目摘要 * 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。 * 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。 * 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。 * 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。 * 继续 写/修 播客存档工具。 *…
Posted Apr 16
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
Posted Apr 16
DokuWiki 存档讨论群已开,欢迎加入:https://t.me/saveweb_projects/120 教程还在写。 与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。 另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。…
Posted Apr 12
我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8…
Posted Apr 10
我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8 如果您有兴趣参与,请在评论区回复“1”登记。
Posted Apr 10
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
Posted Apr 10
## 起因 WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在 {{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。 此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个 [[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。 ## 所以 我们写了个新 bot [[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来。 ## 作用 这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。 ## 源代码 https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码) * wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
Posted Apr 9
Posted Apr 9
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
Posted Apr 9
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts 20230408: * 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模) * 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。 * 抓包,探索了国内知名播客应用「小宇宙」的API。 20230409: * wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。 于是写了个新 bot ,尝试复活它。 https://github.com/saveweb/wikiapiary-wikiteam-bot 正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚 --- 近日讨论摘要: 1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置…… 2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。 3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。 4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。 5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。 --- 接下来的工作/待办事项: 1. 需要继续维护 rss-list ,缺人。 2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。 3. mediawiki 存档相关: 3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。 3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。 3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。 3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456) 4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。 5. @jsun969 写博客搜索引擎的前端。 6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入) 7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。 8. 继续探索:播客存档的方法。 --- 咕咕咕(停摆)的项目: 1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
Posted Mar 25
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏 任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku https://www.vgtime.com/topic/1188062.jhtml
Posted Mar 6
今天测试了 https://github.com/saveweb/review-2021 的 197 篇文章,统计出了中文博客的“文章URL腐烂率”,以下是结果: 总计:196篇 404:13 托管服务未续费:1 域名无解析/域名过期/ping不通:10 ssl过期:1 其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。 计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。