TGINSIGHT CHAT
Save The Web Project
@saveweb
TechnologiesThis channel can’t be displayed because it violated Telegram's Terms of Service.
Recent posts
Page 14 of 36 · 430 posts
Posted Sep 25
Google 兑现了承诺:Google 搜索已在“关于此结果”中添加了指向 Wayback Machine 快照的链接。 https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/ 似乎这个功能还没广泛铺开,很多搜索结果并没有到 WBM 的外链。 update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。 目前 cache:…
Posted Sep 11
Google 兑现了承诺:Google 搜索已在“关于此结果”中添加了指向 Wayback Machine 快照的链接。 https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/ 似乎这个功能还没广泛铺开,很多搜索结果并没有到 WBM 的外链。 update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。 目前 cache: 运算符依然有效。 #Google#Wayback
Posted Sep 9
hedgedoc 的 demo 实例 2024 年 06 月左右由于被滥用,停止了服务并将旧有数据存档到了 https://demo-archive.hedgedoc.org (存档站预计将在 2025年初关闭)。 https://community.hedgedoc.org/t/status-of-the-demo-instance/1634 如果你在 demo 实例上存有笔记,记得在关存档前导出。 #迟到的消息
Hashtags
Posted Aug 15
MFM-HD 512K SSD
Posted Aug 15
Live stream finished (1 hour)
Posted Aug 15
Live stream started
Posted Aug 7
WARCs all the way going forward my friends! -- Zeno developer STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的祥子了。 在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。 特性: - 由 IA 维护 - 除了 IA,没人用 - MyGo 写的 - 并发 bug 很多 - 有代码,没文档 - 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。只要支持 zstd,我们什么都愿意做的.jpg - 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio) - 可随机使用 IP 出口 - 即将支持 DNS archiving 在过去一周的高密度 PR 的☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在差不多算是生产爆炸就绪了。 我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。 hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But it's MyGo!!! 所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。 #STWP#WARC#Zeno
Posted Jul 26
不要使用 b23.tv 短链,b23.tv 短链只有超短的一年有效期。 很明显我们没有在谈论 b23.tv/[av|BV] 。 然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
Posted Jul 25
大家帮个忙,献祭下自己 Google 账号这个月的 Google BigQuery 的 1TiB 免费查询配额,帮我们把 GitHub 上杂七杂八的地方出现的 goo.gl 链接提出来。 1. 登录 https://console.developers.google.com/ 2. 创建一个项目 https://developers.google.com/console/help/#creatingdeletingprojects 3. 激活 BigQuery https://developer…
Posted Jul 24
大家帮个忙,献祭下自己 Google 账号这个月的 Google BigQuery 的 1TiB 免费查询配额,帮我们把 GitHub 上杂七杂八的地方出现的 goo.gl 链接提出来。 1. 登录 https://console.developers.google.com/ 2. 创建一个项目 https://developers.google.com/console/help/#creatingdeletingprojects 3. 激活 BigQuery https://developers.google.com/console/help/#activatingapis 4. 看协作文档 https://pad.notkiska.pw/p/bigquerygoogl ,挑个还没查的日期范围。 5. 执行下面的 SQL 查询,并导出 JSON,然后把 JSON 文件名适当重命名后发到群里。然后打叉表示处理完了。 查整年(以 2011 年为例): SELECT URL FROM ( SELECT REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS FROM `githubarchive.year.2011` ), UNNEST(URLS) AS URL WHERE ARRAY_LENGTH(URLS)!=0 查某年的月份区间(以 2019 年 01 月到 06 月为例) SELECT URL FROM ( SELECT REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS FROM `githubarchive.month.2019*` WHERE _TABLE_SUFFIX BETWEEN '01' AND '06' ), UNNEST(URLS) AS URL WHERE ARRAY_LENGTH(URLS)!=0 协作: https://pad.notkiska.pw/p/bigquerygoogl
Posted Jul 24
我们将开启一个爬取 GitHub 上全部仓库中包含的 goo.gl 链接的项目。 在这些链接失效前收集好,便于后人找到原链。 注:到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。 url shortening was a fucking awful idea #linkrotkiller
Posted Jul 19
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews