TGINSIGHT CHAT
Save The Web Project
@saveweb
TechnologiesThis channel can’t be displayed because it violated Telegram's Terms of Service.
Recent posts
Page 10 of 36 · 430 posts
Posted Mar 15
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
Posted Mar 8
STWP 2025 第 9 周周报 - 存 zhubai @yzqzss - biliarchiver 加了个 clean 子命令 @Ovler STWP 2025 第 10 周周报 - day1: 写了个能将就工作的 CrawlHQ 实现 https://github.com/saveweb/altcrawlhq_server - day2: 部分梳理了 Zeno v2 的框架设计 - day3: 开始给 Zeno V2 写 local queue - day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243 - day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。 发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。 看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。 src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function ) url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。 然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。 综上,用简单的正则提取 css 里的外链可能不太合适。 但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。 那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。 - day6: 一点微调,PR 合进去了。 - day7: 无。
Posted Feb 28
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
Hashtags
Posted Feb 21
STWP 2025 第 7 周周报 - 无事。摸鱼。天稍稍凉矣。 STWP 2025 第 8 周周报 - 摸鱼。
Posted Feb 17
https://tracker.archiveteam.org/goo-gl/ AT 开始跑 goo.gl 了,欢迎大家去帮忙。 git clone https://github.com/ArchiveTeam/goo-gl-grab.git cd goo-gl-grab docker build -t archiveteam/goo-gl-grab . docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community ^^^ 可以把 saveweb_community 改成你自己的 id ,单 ip 并发目前不建议 20+ 。 * 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
Posted Feb 12
https://saveweb.github.io/88x31-Museum/ 最后更新于两年前,一直没发。
Posted Feb 9
STWP 2025 第 6 周周报 - 摸鱼
Posted Feb 7
画吧是于 2013 年成立的绘画 APP。其特色功能是用户上传作品到社区时,APP 会同时上传工程文件。浏览者可以播放工程文件,看到每一笔一画的作画过程(100%没有 AIGC)。 其已于 2024-02-09 00:36 关站。 说起来挺赶巧, 在 2023 年 11 月,@yzqzss 去海鲜市场捡了台红米6来插多余的两张电信卡开 WiFi 热点。 心血来潮把小米自带应用市场的“社交”排行榜里的 APP (不包含约会婚恋类)从上到下全安装体验了一下。 然后发现了画吧这个奇葩。API 竟然木有鉴权,登录获取…
Posted Feb 4
姐妹们!我又来啦!上次给大家安利的宝藏搜索引擎「丑搜」竟然又双叒叕更新啦!速度也太快了吧!简直是光速迭代! >>> https://search.save-web.org/ <<< 之前就超爱用「丑搜」翻看各种小众又宝藏的博客文章,这次更新更是让我直呼OMG! 它收录了十几万篇中文独立博客文章,1.7k+独立博客(还有少量播客哦!),简直是内容爱好者的天堂! 这次v3版本简直是史诗级更新! 让我来给姐妹们划重点: - 博客数量up up! 之前就有一千多个博客了,这次直接飙升到1.7k+博客、17…
Posted Feb 3
STWP 2025 第 5 周周报 - NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+ - c2025-1: 100% - 一封画吧备份找回请求。
Posted Jan 25
STWP 2025 第 4 周周报 - NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。 - c2025-1: 进度 90% - 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。 - 响应了博客/文章收录删除请求。
Posted Jan 23
box.、丑搜、rss-list、year-review 项目的变动: - 今日起,box. 和丑搜关闭全文输出。(更新) - review-2024、review-2023 项目将删掉所有非主动提交的与 [此处删除] 相关博客的文章收录,同时删除掉 box、search、rss-list 的收录。对于不在此类的博客且没有发过通知告知的,会补发通知。2021/2022 年的项目不做删除。 - 与中文独立博客有关的所有项目之后如何进行/是否继续,再议。