TGTGInsighttelegram intelligenceLIVE / telegram public index
Back to channels
Save The Web Project avatar

TGINSIGHT CHAT

Save The Web Project

@saveweb

Technologies

This channel can’t be displayed because it violated Telegram's Terms of Service.

Subscribers1,440Current channel subscribers
Tracked posts430Indexed post count
Recent reach9,708Sum of recent post views
Recent posts

Recent posts

Page 30 of 36 · 430 posts

Posted Apr 23

# 第 15 周项目摘要 * 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。 * 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。 * 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。 * 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。 * 继续 写/修 播客存档工具。 *…

776 views

Posted Apr 16

为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…

927 views

Posted Apr 16

DokuWiki 存档讨论群已开,欢迎加入:https://t.me/saveweb_projects/120 教程还在写。 与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。 另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。…

793 views

Posted Apr 12

我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8…

891 views

Posted Apr 10

我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8 如果您有兴趣参与,请在评论区回复“1”登记。

1,160 views

Posted Apr 10

为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…

679 views

Posted Apr 10

## 起因 WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在 {{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。 此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个 [[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。 ## 所以 我们写了个新 bot [[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来。 ## 作用 这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。 ## 源代码 https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码) * wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。

711 views

Posted Apr 9

683 views

Posted Apr 9

为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…

594 views

Posted Apr 9

为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts 20230408: * 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模) * 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。 * 抓包,探索了国内知名播客应用「小宇宙」的API。 20230409: * wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。 于是写了个新 bot ,尝试复活它。 https://github.com/saveweb/wikiapiary-wikiteam-bot 正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚 --- 近日讨论摘要: 1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置…… 2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。 3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。 4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。 5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。 --- 接下来的工作/待办事项: 1. 需要继续维护 rss-list ,缺人。 2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。 3. mediawiki 存档相关: 3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。 3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。 3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。 3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456) 4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。 5. @jsun969 写博客搜索引擎的前端。 6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入) 7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。 8. 继续探索:播客存档的方法。 --- 咕咕咕(停摆)的项目: 1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)

677 views

Posted Mar 25

与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏 任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku https://www.vgtime.com/topic/1188062.jhtml

883 views

Posted Mar 6

今天测试了 https://github.com/saveweb/review-2021 的 197 篇文章,统计出了中文博客的“文章URL腐烂率”,以下是结果: 总计:196篇 404:13 托管服务未续费:1 域名无解析/域名过期/ping不通:10 ssl过期:1 其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。 计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。

934 views
12•••10•••20•••2829303132•••3536