Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
News: Demonstration held in #Kobo town, #Amhara region, supporting House of Federation decision; IDPs allege pressure to participate
A public demonstration was held on Saturday in Kobo town, #North_Wollo Zone of the Amhara Region, in support of a decision by the House of #Federation and the National Election Board of #Ethiopia allowing elections to be conducted in disputed areas of the Raya zone outside the administration of the Tigray Region.
However, internally displaced people (#IDPs) and residents who participated in the gathering told Addis Standard they were warned that failure to take part could affect their access to humanitarian assistance.
On 23 February 2026, it was reported that Ethiopia’s House of Federation had ordered the upcoming federal parliamentary elections in five electoral districts previously under the Tigray regional state to be conducted outside the Tigray administration’s oversight until the “ownership claim is resolved.”..........
Read more: https://addisstandard.com/?p=55671
#Ethiopia: Over 1,000 teachers resign in #Amhara region, many reportedly migrating to Arab states – Report
Around 1,020 teachers in three zones of the Amhara Region resigned during the 2025/26 academic year, with officials and educators attributing much of the exodus to migration to #Arab_states in search of better pay and living conditions, according to a report by Deutsche Welle (DW).
The departures were recorded in #South_Wollo, #North_Wollo, and the #Oromo Special Zone, where local education authorities say the trend is worsening existing challenges in the education sector.
Teachers interviewed by DW cited the rising cost of living and salaries that no longer match market realities as key factors behind their decisions to leave.
In districts such as #Kobo and #Habru in North Wollo, as well as #Bati woreda in the Oromo Special Zone, including Saint, Wagdi and Albko woredas, teachers have increasingly resigned to pursue opportunities abroad, the report....
Read more: https://addisstandard.com/?p=55405
News: Flights to #Tigray remain suspended, affecting even Interim Administration president’s scheduled Addis visit
The continued suspension of #Ethiopian Airlines flights to Tigray has disrupted official travel, with Tigray Interim Administration President Tadesse Worede confirming that his planned visit to #Addis_Abeba did not take place due to the flight cancellations.
Asked by Addis Standard whether his visit was hindered by the suspension of flights, President Tadesse responded, “Yes.”
Flights to airports in Tigray, including #Mekelle, #Axum, #Shire, and #Humera, remained suspended on Friday, with Ethiopian Airlines yet to provide an official explanation for the disruption.
An Addis Standard reporter on the ground confirmed airline ticket office, however, remained open...
Meanwhile, road transportation in parts of Southern Tigray has also been disrupted. Transport movement along the #Woldiya–#Kobo–#Alamata corridor remains limited, while displacement
Read more: https://addisstandard.com/?p=54856