Работа с регулярными выражениями используя re
Регулярные выражения (регулярки) являются инструментом для работы с текстовой информацией. Они позволяют осуществлять поиск, извлечение и модификацию текста, используя гибкие шаблоны. Сегодня, мы рассмотрим, как работать с регулярками в Python используя модуль re.
Что такое модуль re?
Модуль re в Python предоставляет функционал для работы с регулярными выражениями. Регулярные выражения (regex) - это шаблоны, описывающие набор символов с определенными свойствами.
В данном примере мы использовали функцию re.search для поиска подстроки в тексте. Параметр re.IGNORECASE делает поиск регистронезависимым.
Модуль re также предоставляет возможности для более сложных операций, таких как замена текста по шаблону, разделение строк на подстроки и многое другое.
Для более подробной информации рекомендуется изучить официальную документацию
#python#regex
Новогодняя статистика🎄
До Нового года остается меньше недели! Пока праздничная суета не захватила всех полностью, делюсь результатами анализа данных о поздравительных текстах и открытках. Всего получилось собрать 10,8 тыс. новогодних постов из 39 тематических групп «ВКонтакте» за 2009–2023 годы✨
Основой проекта стали данные, которые я собирала в 2022 году для исследования ТАСС. Для новых карточек обновила статистику, местами переписала и оптимизировала код и доработала анализ цветов. Также сделала обобщающие карточки с типичными и нетипичными пожеланиями🤓
Какое поздравление вам нравится больше?
🎅 — типичное
🤪 — нетипичное
P.S. В процессе с ностальгией вспоминала рабочий проект. Благодарна Сабине Вахитовой, которая тогда руководила инфографикой ТАСС. Она поверила в мои силы и поддержала все идеи. Благодаря ее доверию я впервые притронулась к анализу изображений и цветов в python❤️
#датавиз#личное#python
Не зеленая "Матрица"
31 марта 25 лет назад в массовый прокат вышла первая часть трилогии "Матрица".
К этой дате решила использовать относительно недавно освоенный алгоритм анализа цвета видео в python и составила палитры трех фильмов (про алгоритм расскажу в отдельной серии постов).
Такие визуализации уже делали (например, тут и тут), но мне хотелось дополнительно выделить основные цвета и интересные акценты.
"Матрица" в первую очередь ассоциируется с зелеными оттенками, но цветокоррекция кадра во всех частях меняется в зависимости от локаций и основных сущностей.
P.S. За помощь по вопросам дизайна спасибо Антону💚
P.P.S. С коллегами в ТАСС к дате сделали постер с Нео и шуточное бинго😎
#датавиз#личное#python
Визуализация палитры изображений🎨
Сегодня мы выпустили проект про революционные "Окна сатиры РОСТА". 105 лет назад, осенью 1919 года в Москве вышел первый плакат.
Для этого проекта я проанализировала данные об "Окнах", созданных московской редакцией, из собрания Госархива РФ. Поэт В.В. Маяковский написал тексты более половины сохранившихся "Окон" и нарисовал более трети сюжетов.
Вкладу Маяковского в создание плакатов посвящено несколько визуализаций: с анализом текстов его авторства и цветовой палитрой плакатов, нарисованных им же.
Палитра, на мой взгляд, — самая интересная инфографика проекта. Похожий график я уже делала раньше про ленинградские "Окна ТАСС" (писала о нем и его создании в посте и статье).
В этот раз удалось переосмыслить концепцию прошлого графика и более детально показать историю с образами — цвета в больших группах "коммунизм" и "империализм" повторяются, но связаны с разными персонажами и идеями. В визуализации "Окон ТАСС" такого подхода нет, но зато отражены реальные соотношения сторон плакатов. Для новой палитры подобных данных не было (что, кстати, позволило выстроить более аккуратную композицию).
P.S. Процесс создания графика покажу в отдельном посте👀
#датавиз#рабочее#python
Написала статью для нашего редакционного канала про создание графика "Пересечение цветов "Окон ТАСС" по образам". Он показывает, какие оттенки преобладают в палитре ленинградских плакатов времен Великой Отечественной войны, изображающих врага, Красную армию, тыл и Родину.
В основе — диаграмма Венна, которая является одним из классических способов визуализации пересечения множеств (подробнее про него и другие визы множеств рассказывала тут)🤓
Для анализа цвета использовала python, а для автоматического создания элементов визуализации с сохранением пропорций плакатов — плагин Generator для графического редактора Figma. Самой сложной, как ни странно, оказалась не техническая часть, а расположение элементов по цветам😵💫
P.S. Другие визуализации, посвященные ленинградским "Окнам ТАСС", — в проекте.
#датавиз#рабочее#python