TGTGInsighttelegram intelligenceLIVE / telegram public index
Back to channels
Save The Web Project avatar

TGINSIGHT CHAT

Save The Web Project

@saveweb

Technologies

This channel can’t be displayed because it violated Telegram's Terms of Service.

Subscribers1,440Current channel subscribers
Tracked posts430Indexed post count
Recent reach16,160Sum of recent post views
Recent posts

Recent posts

Page 10 of 36 · 430 posts

Posted Mar 15

前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help

1,220 views

Posted Mar 8

STWP 2025 第 9 周周报 - 存 zhubai @yzqzss - biliarchiver 加了个 clean 子命令 @Ovler STWP 2025 第 10 周周报 - day1: 写了个能将就工作的 CrawlHQ 实现 https://github.com/saveweb/altcrawlhq_server - day2: 部分梳理了 Zeno v2 的框架设计 - day3: 开始给 Zeno V2 写 local queue - day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243 - day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。 发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。 看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。 src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function ) url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。 然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。 综上,用简单的正则提取 css 里的外链可能不太合适。 但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。 那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。 - day6: 一点微调,PR 合进去了。 - day7: 无。

1,080 views

Posted Feb 28

前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help

1,110 views

Hashtags

Posted Feb 21

STWP 2025 第 7 周周报 - 无事。摸鱼。天稍稍凉矣。 STWP 2025 第 8 周周报 - 摸鱼。

1,190 views

Posted Feb 17

https://tracker.archiveteam.org/goo-gl/ AT 开始跑 goo.gl 了,欢迎大家去帮忙。 git clone https://github.com/ArchiveTeam/goo-gl-grab.git cd goo-gl-grab docker build -t archiveteam/goo-gl-grab . docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community ^^^ 可以把 saveweb_community 改成你自己的 id ,单 ip 并发目前不建议 20+ 。 * 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!

1,340 views

Posted Feb 12

https://saveweb.github.io/88x31-Museum/ 最后更新于两年前,一直没发。

1,380 views

Posted Feb 9

STWP 2025 第 6 周周报 - 摸鱼

1,330 views

Posted Feb 7

画吧是于 2013 年成立的绘画 APP。其特色功能是用户上传作品到社区时,APP 会同时上传工程文件。浏览者可以播放工程文件,看到每一笔一画的作画过程(100%没有 AIGC)。 其已于 2024-02-09 00:36 关站。 说起来挺赶巧, 在 2023 年 11 月,@yzqzss 去海鲜市场捡了台红米6来插多余的两张电信卡开 WiFi 热点。 心血来潮把小米自带应用市场的“社交”排行榜里的 APP (不包含约会婚恋类)从上到下全安装体验了一下。 然后发现了画吧这个奇葩。API 竟然木有鉴权,登录获取…

1,470 views

Posted Feb 4

姐妹们!我又来啦!上次给大家安利的宝藏搜索引擎「丑搜」竟然又双叒叕更新啦!速度也太快了吧!简直是光速迭代! >>> https://search.save-web.org/ <<< 之前就超爱用「丑搜」翻看各种小众又宝藏的博客文章,这次更新更是让我直呼OMG! 它收录了十几万篇中文独立博客文章,1.7k+独立博客(还有少量播客哦!),简直是内容爱好者的天堂! 这次v3版本简直是史诗级更新! 让我来给姐妹们划重点: - 博客数量up up! 之前就有一千多个博客了,这次直接飙升到1.7k+博客、17…

1,560 views

Posted Feb 3

STWP 2025 第 5 周周报 - NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+ - c2025-1: 100% - 一封画吧备份找回请求。

1,170 views

Posted Jan 25

STWP 2025 第 4 周周报 - NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。 - c2025-1: 进度 90% - 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。 - 响应了博客/文章收录删除请求。

1,480 views

Posted Jan 23

box.、丑搜、rss-list、year-review 项目的变动: - 今日起,box. 和丑搜关闭全文输出。(更新) - review-2024、review-2023 项目将删掉所有非主动提交的与 [此处删除] 相关博客的文章收录,同时删除掉 box、search、rss-list 的收录。对于不在此类的博客且没有发过通知告知的,会补发通知。2021/2022 年的项目不做删除。 - 与中文独立博客有关的所有项目之后如何进行/是否继续,再议。

1,830 views
12•••89101112•••20•••30•••3536