TGTGInsightаналитика telegramLIVE / telegram public index
← Ассоциация участников рынка данных
Ассоциация участников рынка данных avatar

TGINSIGHT POST

Post #59

@aurdata

Ассоциация участников рынка данных

Просмотры7Количество просмотров
Опубликован17 мая17.05.2019, 12:20
Содержимое поста

Содержимое

22 мая приглашаем на третью дата-среду из цикла «Большие данные в экономике». Тема встречи — «Сбор данных и методы обхода защиты сайтов от парсинга». Проведет дата-среду Сергей Бершадский, ведущий backend-разработчик и системный архитектор, работал с различными проектами, среди которых медицинский портал ЕМИАС.инфо, Play2Live, toptal.com и др. Эксперт расскажет об особенностях извлечения данных из сайтов, их очистки и структуризации. Во время встречи будет рассмотрен весь процесс извлечения данных: веб-скрейпинг, обработка данных, очистка данных, а также способы break-the-wall на примере Yandex и Google. Предложенные кейсы основаны на использовании библиотек python scrapy, beautiful soup, asyncio. Будут рассмотрены подходы, позволяющие имитировать браузер, автоматическое использование имеющегося браузера, а также использование headless-браузеров (например, PhantomJS). Для участия необходимо зарегистрироваться: http://datasreda.ru.