Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Systematic expulsion of #Alawites from north Hama countryside by Sharaa government. Reallocation of #Syria land.
Excellent Report By Bashir Ghadir
1. 12 Alawite Villages near Hama, Syria have been emptied of their inhabitants.
2. HTS expelled the villagers and offered their lands to investors through a corporation connected to the governorate. The investors get 40% of the profits. The state gets 60%.
3. Alawites tried to come back to their land, but the local authorities told them they could not guaranty their safety. The Alawite farmers were informed that their lands had been appropriated by the `Iktifa' corporation.
4. The same thing is happening in the countryside of Latakia and Homs.
https://youtu.be/5BX7OgmDsmA?si=ZNJeTxDPv0hEJjqG via
@YouTube
Exactly a year ago, this is how easy it was for them to kill old men just for being #Alawites. This is the result of more than a decade of incitement against our sect mainly by Qatar and their Muslim brotherhood.
Why? Because it's too hard for their Islam to accept another faith. Until this very day, the media calls Alawites the #Assad sect whenever a massacre is being mentioned. Assad and his majority Sunni army fled or joined the new terrorist regime long ago, while civilian Alawites are still being oppressed with media cover up.
In #Jolani's textbook, you disperse peaceful protesters by bringing FUCKING TANKS.
@TheAlawiteEcho
Tens of thousands of #Alawites are protesting in the city of #Latakia and all around the Syrian coast, rejecting the Jihadist regime of #Jolani, calling for federalism.
The Alawite community has lost thousands of civilians throughout the last year, with thousands more detained. https://t.co/SV7Sb1byDR
View tweet
"Syria Al-Julani regime released kidnapped Druze kids after months of detention
The Jolani regime has released two Druze brothers, Yanal Bashar al-Haddad (15) and Qais Bashar al-Haddad (13), who had been detained at Adra Prison in #Damascus since their arrest during the attack on #Suwayda on July 15, 2025.
Its worth noting that terriost regime kidnapped and killed a lot of Druze and Alawites kids and women (see links on X post)
❗️ Note that the terrorist regime refuse to hold accountable the militants who committed massacres against the #Alawites or #Druze, and label them as “mojahdin” =jihadists, because fighting against “infidel” minorities is considered a heroic act in their eyes."
https://x.com/SyJusticeArc/status/2006461460713488503
Thousands of #Alawites take to the streets in unprecedented protests across #Syria, sparked by allegations of a shrine attack and escalating violence. Clashes, a fatality, and curfews mark the country’s most significant unrest in years.
#Syria2024#MiddleEast#SyriaProtests
"A new massacre against the #Alawites in the city of #Latakia, in the #Dattour neighborhood, al-Mazar junction.
I beg all segments of the Syrian people, especially the #Druze, #Kurds, and any remaining members of the #Sunni community who still have a little humanity left in their hearts, to take to the streets in protest to stop these massacres against the innocent. These #massacres are not from yesterday, they are happening today, and as of moments ago, they are still being carried out by Syrian members of Hay’at Tahrir al-Sham #HTS, wearing their official uniforms.
Please, save those who remain."
https://t.me/CoastSyrian24/771