Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🎄✨ Celebrate the joy of the season with Loot Baba [Official]!🎉
Wishing you a magical Merry Christmas 2025🎅 and a prosperous New Year ahead! ⭐️💎
Let’s welcome the future with endless opportunities and happiness! 🎁🔥
#merrychristmas@LootBaba_Officiall
Wishing all Nigerians a healthy and joyful Christmas! 🎄
May the spirit of the season bring happiness and well-being to your homes.
Stay safe, cherish moments, and embrace the gift of good health.
#MerryChristmas!🎄🎄
🇮🇩 Public Holidays in Bali
🎅 December 25 and 26 are official public holidays across Indonesia.
On these days, government institutions will be closed (including banks, tax offices, municipal offices, and other public services).
#MerryChristmas@BaliNews
¡Ay papá! Se acerca el #24Dic y lo que viene es rumba. Salí con Cilita a dar un recorrido por las calles de Caracas, vimos las fiestas navideñas; nuestro Pueblo está ejerciendo el derecho más bonito que tiene: el de la felicidad, vivir en Paz y disfrutar de este tiempo de unión. “¡No War!” #MerryChristmas
«Эта ночь принадлежит кроткому, посему пусть каждый отложит ярость и суровость, – принадлежит смиренному, пусть каждый обуздает свою гордость и смирит свое высокомерие. Ныне воссиял день милости, да не преследует же никто мщением нанесенной ему обиды; настал день радости, да не будет же никто виною печали и скорби для другого». (Ефрем Сирин. Слово на Рождество Христово). #καλαχριστουγεννα#merrychristmas
🎄✨ Merry Christmas from SingSing! 🎄✨
As the year comes to a close, we want to take a moment to express our heartfelt gratitude to our incredible SingSing community. 💖 Your unwavering support, enthusiasm, and passion have been the driving force behind everything we’ve accomplished together this year.
From building a thriving ecosystem to launching exciting games and features, none of this would have been possible without YOU. 🌟
🎁 This holiday season, we wish you and your loved ones endless joy, peace, and togetherness. May your days be filled with laughter, love, and the magic of Christmas. 🎅
Here’s to an even brighter and more exciting year ahead! Together, we’ll continue to grow, achieve, and make SingSing the #1 platform for all. 🚀
With love and gratitude,
The SingSing Team 💎
#SingSing#MerryChristmas#HappyHolidays
🎅Дорогие подписчики Легкого Неба!
🎉От лица руководства канала мы поздравляем вас с 2026 годом, желаем вам счастья, здоровья и главное - чистого и Лёгкого неба над головой!
🎅Надеемся, совсем скоро дед Мороз прилетит по Лёгкому небу к вам!
❄️Happy New Year!
Команда Легкое Небо
#merrychristmas#newyear#happy