@repo_science · Post #4071 · 19.03.2024 г., 15:19
#webScraping#Python 🕷 Web Scraping with Python: Data Extraction from the Modern Web, 3rd Edition ✏️Ryan Mitchell ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
Hashtags
TGINSIGHT SIMILAR POSTS
Изходен канал @clockstackwheels · Post #983 · 11.05
Художник Gudim написал у себя в Телеграме пост о том, что главная проблема соцсетей — умные ленты. В более-менее продвинутой среде и правда принято хейтить умные ленты, включать, где возможно, хронологические, юзать альтернативные клиенты и вообще ругать корпорации за то, что они делают плохо и пользователям и авторам контента одновременно. Вездесущие умные ленты — действительно часть процесса оговнения, но дело не только в нём. Gudim сделал отсылку к классике в шутку, но на самом деле угадал: главная проблема соцсетей ровно такая же, как и главная проблема музыки — это ты. Давайте разберёмся. В теории ты подписываешься на авторов контента в соцсети, они публикуют свои посты по мере желания и готовности, посты выстраиваются в ленту, и ты от новых к старым их читаешь, подобно свежей газете или сводке новостей. Звучит хорошо до того момента, пока ты не подпишешься на условный паблик с приколами. Паблик с приколами ведут 10 человек, а сами приколы они тащат с Реддита и 9гаг, поэтому публикация занимает 5 минут. При этом от пользователей они получают охваты, которые конвертируются в деньги с рекламы. Больше охватов — больше денег. Очень быстро система приходит к тому, что им выгодно постить так часто, как они вообще способны. В идеале они хотят, чтобы вся лента каждого юзера состояла только из паблика с приколами, потому что тогда они заработают ещё больше. Вообще я лично видел рекомендации от СММщиков для пабликов ВК постить 3-5 записей в день. Каждый день. А теперь вспомните, как часто постят ваши друзья или, например, независимые авторы, которые контент не где-то берут, а создают. И вот 2-3 таких подписки, и ваша лента — неюзабельный мусор. Не обязательно паблик с приколами: спамить мотивирован вообще любой автор, потому что его доля присутствия в вашей ленте равна его заработку. Но хороший контент делается долго, на это нужно время, так что в реальности особенно удаётся спамить как раз плохому и дешёвому контенту. Как это решить: 1. "Не подписывайтесь на мусор", "Человек сам виноват, что он подписался на спам-паблик!". Да, а ещё человек совершенно добровольно решает начать курить или, скажем, принимать наркотики, но эти области всё равно в разной степени контролируются извне. Потому что авторы спам-паблика (как и наркоторговцы) ОЧЕНЬ мотивированы затянуть новых людей в свою схему заработка, и они будут использовать для этого множество разных средств, на которые неминуемо попадётся значимое число клиентов. То есть в масштабах одного конкретного человека с железной дисциплиной этот подход работает, но в масштабах системы из множества произвольных людей — нет, не работает совсем. 2. Остаётся только одно — каким-то образом фильтровать мусор. Тут возникает сразу много других проблем: начиная с того, что для разных людей понятие мусора разное, и заканчивая тем, что, да, в какой-то момент появляются ещё и интересы площадки. Площадка хочет не давать людям приятный и интересный контент, а давать людям то, что увеличивает таймспент и заработок с рекламы. И внезапно получается так, что таймспент растёт не от качества контента, кто бы мог подумать. Самые популярные в мире соцсети (Инста и Тикток) — целиком основаны на алгоритмической подаче информации. И эта информация очень "жвачкообразная" — короткая, клиповая, с быстрым захватом внимания. Так что да, если ругаете умные ленты, то просто поругайте какого-от своего друга, который пользуется Инстой, потому что именно поведение юзеров и отсутствие дисциплины у них делает такие ленты выгодными для корпораций. #web
Hashtags
Търсене: #webscraping
@repo_science · Post #4071 · 19.03.2024 г., 15:19
#webScraping#Python 🕷 Web Scraping with Python: Data Extraction from the Modern Web, 3rd Edition ✏️Ryan Mitchell ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
Hashtags
@repo_science · Post #3543 · 29.08.2023 г., 02:03
#Python#webscraping 😎 Automate the Boring Stuff with Python Programming Automate the Boring Stuff with Python was written for people who want to get up to speed writing small programs that do practical tasks as soon as possible. You don’t need to know sorting algorithms or object-oriented programming, so this course skips all the computer science and concentrates on writing code that gets stuff done. - Web scraping - Parsing PDFs and Excel spreadsheets - Automating the keyboard and mouse - Sending emails and texts - And several other practical topics ⚖️10.5 GB 🔗Link ----- Main channel:@repo_science Coupons: @freecoupons_reposcience -----
Hashtags
@repo_science · Post #3215 · 22.05.2023 г., 15:31
#python#webScraping 🐍 Scrapy masterclass: Python web scraping and data pipelines Work on 7 real-world web-scraping projects using Scrapy, Splash, and Selenium. Build data pipelines locally and on AWS 🔗Link ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
Hashtags
@repo_science · Post #3207 · 21.05.2023 г., 02:35
#python#webScraping 🐍 Curso de Python desde ceroorientado a web Scraping 📢#youtube ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
Hashtags
@repo_science · Post #3217 · 23.05.2023 г., 15:49
#webScraping El #UserAgent, o Agente de Usuario en español, es una cadena de texto que identifica el navegador web o la aplicación que se utiliza para acceder a un sitio web. Esta cadena se envía al servidor web en cada solicitud y puede contener información sobre el sistema operativo, el navegador web, la versión del navegador y los complementos utilizados. La información obtenida también puede utilizarse para optimizar la experiencia del usuario, por ejemplo, sirviendo contenido diseñado para funcionar mejor en un dispositivo móvil en lugar de una computadora portátil. Por otro lado, los webmasters pueden usar la información del user agent para verificar el reconocimiento de bots, para bloquear bots no deseados, o para algo como un análisis cruzado de usuarios o un análisis de la audiencia del sitio web. A continuación les dejamos una listado extenso de users-agents👇 🔗Lista de users-agents ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
Hashtags
@repo_science · Post #3180 · 12.05.2023 г., 19:53
#webScraping#Python#Scrapy 🐍 Scrapy course - Python web scraping for beginners The Scrapy #Beginners Course will teach you everything you need to learn to start scraping websites at scale using #Python Scrapy. Topics - Creating your first #Scrapy spider - #Crawling through websites & scraping data from each page - Cleaning data with Items & Item Pipelines - Saving data to CSV files, #MySQL & #Postgres#databases - Using fake #user-agents & headers to avoid getting blocked - Using #proxies to scale up your web scraping without getting banned - Deploying your #scraper to the cloud & scheduling it to run periodically 🗣️ Joe Kearney. 🔗Link 📢#youtube ⭐️ Resources ⭐️ Course Resources - Scrapy Docs - Course Guide - Course Github - The Python Scrapy Playbook ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
@githubtrending · Post #15520 · 24.02.2026 г., 14:30
#python#ai#ai_scraping#automation#crawler#crawling#crawling_python#data#data_extraction#mcp#mcp_server#playwright#python#scraping#selectors#stealth#web_scraper#web_scraping#web_scraping_python#webscraping#xpath Scrapling is a fast Python web scraping tool that fetches pages, bypasses anti-bot blocks like Cloudflare, and adapts to site changes by auto-finding elements. Use simple CSS/XPath selectors, spiders for big crawls with pause/resume, proxy rotation, and CLI—no code needed sometimes. Install via pip; it's memory-light and beats others in speed. You save time fixing broken scrapers, scrape reliably at scale, cut costs with AI tools, and focus on using data for leads, prices, or research. https://github.com/D4Vinci/Scrapling