Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🎤✨Kpop Demon Hunters, but make it Soda style!
Если бы наши героини выбирали косметику для своих боевых (и сценических 😏) образов, вот что бы оказалось у них в косметичке:
📌Румяна прессованные #rosycheeks, № 103
📌Подводка маркер с кисточкой S-CLASS #overpowered, 201 regressor
📌Жидкие тени для век Solaria #magicalpower. Коллекция Winx, 003 Crown Princess
📌 Chan Палетка теней World Is Yours #softdivalution
Немного фиолетового, капелька блёсток — и ты уже готова спасать мир (или хотя бы танцпол).
Собери свой demon-hunter look ⚡️
#sodainspiration
Образ, пропитанный ветром с вересковых холмов.
Нежность и буря, утончённость и страсть — макияж, вдохновлённый новой ролью Марго Робби в предстоящем фильме «Грозовой перевал». 🤩
🤩Карандаш для губ SWEET TREAT #cherryontop, №101 Cupcake — мягкий контур, как утренний румянец на холодном ветру.
🤩Хайлайтер MAGELLANIC CLOUD #billionstars — свет звёзд, будто отражение луны над пустошью.
🤩Помада Double Tornado #magicalpower (коллекция Winx, 003 Fearsome) — выразительный акцент, соединяющий силу и женственность.
🤩Румяна #rosycheeks, №101 Cherry Cake — лёгкий румянец жизни в холодных тонах Йоркшира.
Создай свой собственный шторм чувств вместе с soda🤩
Уже ждёте выход фильма?
#sodainspiration
⭐️Назад в 2006!
⭐️
Глянцевые веки, драматичные ресницы и контур губ, который виден издалека — мейкап в стиле нулевых снова в тренде, и мы знаем, как его повторить.
❤️ Тебе понадобятся:
Палетка Soda Chan Electro World #softdivalution — для серебристого сияния на веках
🌟Румяна #rosycheeks, № 103 Perfect Peach — лёгкий розовый для свежести
🌟Хайлайтер Soda Role Model #softdivalution — сияй, как айпод на солнечном свету
🌟 Карандаш для губ SWEET TREAT #cherryontop, № 104 Taiyaki и бальзам для губ Dark Chaos #magicalpower из коллекции Winx, 302 Hypnosis — для ярких губ
🌟Подводка #eyeloveunicorns КАРАНДАШ ДЛЯ ГЛАЗ, 001 BLACK HEART и накладные ресницы Soda Chan Hypnotic Look #softdivalution — эффект кукольного взгляда
🎞️Немного ностальгии, немного драмы — и ты снова на школьной дискотеке 2006 года, только в 2025.
Макияж какого года разобрать следующим ?
☺️
#sodainspiration
А вот и 2013! 🐈
Эра Instagram-бровей, идеального тона и нюдовой глянцевой помады официально вернулась. В центре внимания — выверенная симметрия, подсвеченное лицо и ультрачёткий макияж глаз. Это был год, когда каждый бьюти-лук сопровождался хэштегом #MOTD.
💎Что тебе нужно для образа в духе 2013?
✅Палетка теней #mangaeyes STYLISH — для мягкой растушёвки в коричнево-бежевой гамме и капельки блеска в уголках
✅Кремовые румяна в стикe #rosycheeks 103 Perfect Peach — натуральный румянец без перегруза
✅Блеск для губ CHU ME A FAVOUR #bittersweetkiss, № 203 Love triangle — сияние, будто ты только что вышла из глянцевой обложки
✅Стойкий карандаш для глаз Never Let Go #eyeminlove, № 001 Agust D — чтобы нарисовать фирменные стрелки с "хвостиком вверх"
✅Карандаш для бровей Flat Brow Liner — потому что в 2013 брови были королевами
✅Накладные ресницы с кристалликами — кукольный объём, как у всех тогдашних beauty-гуру
✅Жидкие тени для век Supernova #softdivalution, 001 "spotlight"— сияние, которое видно из космоса
🌸Добавь немного контуринга и эффект «загара с YouTube», и ты готова к новому дню… или селфи в Instagram с фильтром Valencia.
В комментах выбираем следующий год 😍
#sodainspiration