Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🙈 After the ban on accepting organic waste, Bali authorities faced an unexpected consequence: residents began massively burning trash right in their own yards
ℹ️ The decision to restrict organic waste intake was made to accelerate the transition to village-level waste processing systems. Now the island’s largest landfill only accepts non-organic and residual waste. The reason is critical overload: up to 65% of Bali’s waste is organic with high moisture content, leading to methane emissions, unpleasant odors, and rapid overfilling of the site.
🔥 However, in practice, the ban has triggered a wave of uncontrolled waste burning. Lacking sufficient recycling infrastructure, local residents have resorted to the simplest method of disposal – fire.
#rules@BaliNews
🌱 Bali’s main landfill stopped taking organic waste (April 2026) and will fully close by August
👮♀️ Police are monitoring the site, but short-term issues like illegal dumping and river pollution may increase during the transition.
🚮 Tourists: you might notice more trash in some areas – travel responsibly.
#rules@BaliNews
🪧Bali installs signs with rules of behavior on the island
📰 The Department of Tourism of Bali province is concerned about the number of violations of the rules of behavior on the island by tourists. Now it is intensifying the installation of information signs with infographics explaining the rules of behavior on the island – Do's and Don'ts.
📍 The plan is to install these signs at 10 key locations in Kuta, Changgu, Seminyak, Uluwatu, Tanah Lote and Bedugul where the chance of reading the rules will be high.
🤞 This is expected to reduce the number of violations so often committed by foreign tourists.
What Do's should be followed first of all?
@BaliNews
#tourism#rules
👮♂️Governor to take firm and tough action against foreign tourists who behave badly while in Bali
📰 The statements come after an American national was arrested and deported after going on a rampage in a hospital on the island under the influence of drugs.
🇺🇸 The 27-year-old US citizen, known by his initials MM, tested positive for drugs, though was deported from Indonesia without criminal prosecution as ‘no evidence’ was found to charge him with drug possession.
❌ He has been added to the blacklist and will be denied entry to Indonesia in the future.
@BaliNews
#rules#goodnews