Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🇬🇧Une manifestation contre l'inaction du gouvernement britannique face à la flambée des prix du carburant s'est déroulée dans le centre de Londres, rapporte un correspondant de TASS.
Le rassemblement, organisé par le parti populiste de droite Reform UK, en tête des sondages, s'est tenu devant le ministère des Finances du Royaume-Uni. Des dizaines d'agriculteurs, de chauffeurs poids-lourds et de militants du parti y ont participé.
Les députés de Reform UK à la Chambre des communes, Robert Jenrick, Richard Tice et Sarah Pochin, le député de l'Assemblée de Londres Alex Wilson et la conseillère municipale Laila Cunningham, qui représentera le parti aux élections municipales de 2028 à Londres ont également été aperçus.
Le prix de l'essence au Royaume-Uni a augmenté de près de 25% depuis le début de la guerre en Iran, atteignant 1,57 livre (1,81 euro) le litre. Le diesel a quant à lui bondi de 49%, à 1,89 livre (2,18 euros) le litre.
#londres#manifestation#prix
🇺🇸 Le prix moyen de l'essence aux États-Unis a franchi la barre des 4 dollars le gallon (3,79 litres) pour la première fois depuis août 2022, selon les données du site GasBuddy.
#étatsunis#essence#prix
🇮🇱 Le prix de l’essence en Israël a augmenté de 14,7% (1,03 shekel) le 1er avril 2026, passant de 7,02 shekels (2,22 dollars) à 8,05 shekels (2,55 dollars) le litre, rapporte le correspondant de TASS.
#israël#essence#prix
🇪🇺🇺🇸🇩🇪L'édition européenne de Politico a établi une liste des moments les plus amusants survenus lors de la Conférence de Munich sur la sécurité. Parmi eux figure la réaction de la chef de la diplomatie de l'UE, Kaja Kallas, au discours de Mike Waltz, représentant permanent américain auprès de l'ONU.
Kaja Kallas n'a pas pu contenir son scepticisme lorsque Mike Waltz a évoqué les efforts de Washington pour mettre fin à de nombreuses guerres.
Lèvres pincées, joues gonflées - la réaction de Kallas est rapidement devenue virale [sur internet] et s'est transformée en symbole de l'irritation européenne envers les Américains,
écrit Politico, décernant à la chef de la diplomatie de l'UE le prix du "pire visage impassible".
#ue#munich#prix