Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Mikadra to Wollega: The Atrocities the West Refuses to Confront. Read more.
https://borkena.com/2025/11/28/ethiopia-mikadra-to-wollega-the-atrocities-the-west-refuses-to-confront/#Ethiopia#humanrights#TPLF#OLF#Amhara
News: OLF-OLA joins #Fano in criticizing #Ethiopia’s upcoming election, calls it a ‘hollow ritual’
A week after the #Amhara Fano National Movement issued warnings over participation, the Oromo Liberation Front–Oromo Liberation Army (#OLF-#OLA) has also dismissed Ethiopia’s upcoming national election as lacking credibility, claiming that much of the country remains beyond the reach of a meaningful electoral process.
In a press release issued on March 23, the group said the election has been reduced to “a performance staged for foreign consumption,” with over seventy percent of the country inaccessible for credible voting.
According to the statement, major opposition parties have either withdrawn or are participating solely to avoid deregistration or to expose what it described as flaws in the process. “All remaining parties in the process are either created by or colluding with the regime,” the group added.
Last week, Addis Standard reported, citing the…..
Read more: https://addisstandard.com/?p=56026
News: #PM_Abiy lays foundation for #Africa’s largest Airport; #OLF describes project as extension of 2014 “Master Plan,” demands equity
Prime Minister Abiy Ahmed on Saturday laid the foundation stone for the #Bishoftu International Airport, poised to become Africa’s largest aviation hub, while the Oromo Liberation Front (OLF) condemned the project as involving “forced displacement,” alleging that thousands of residents are being uprooted and demanding ownership stakes for affected farmers.
The ceremony in Abbuu Seeraa, Bishoftu, was attended by Deputy Prime Minister Temesgen Tiruneh, #Oromia Regional President Shimelis Abdisa, & Ethiopian Airlines Group CEO Mesfin Tasew.
Speaking at the event, Prime Minister Abiy described the airport as a “mega station” central to Ethiopia’s long-term aviation and industrial strategy, with the capacity to handle up to 110 million passengers.
The OLF described the project as a humanitarian crisis, alleging that it extends
Read more: https://addisstandard.com/?p=54477
#Premiering_now: Two Years Without Justice: Remembering the BrutalAssassination of Bate Urgessa
April 9, 2024, a night that ended in a brutal execution a husband, a father of five, an intellectual and a peaceful politician.
Two years later, the questions remain.
Click here to watch: https://youtu.be/gAXvr9JN3Y8?si=q7C8otTOvcTw_fZ5
In this commemorative episode of The Standard Signal, host Tsedale Lemma discusses with Prof. Ezekiel Gebissa to revisit the life, final hours, and aftermath of Bate Urgessa’s brutal assassination by government forces, and examine what has (and hasn’t) changed since.
#BateUrgessa#Ethiopia#JusticeDelayed#HumanRights#Oromo#OLF#PoliticalViolence#Accountability#AfricaNews#HornOfAfrica#TheStandardSignal#NeverForget
The Standard Signal Ep 16| Two Years Without Justice: Remembering the Brutal Assassination of Bate Urgessa
On April 9, 2024, Bate Urgessa was brutally assassinated by government forces.
This special episode revisits the timeline, and what it reveals about justice and political space in Ethiopia today.
#TsedaleLemma in conversation with #EzekielGebissa
Premiers tonight at 7:30 PM EAT
Subscribe to watch: https://youtube.com/@addisstandard
#BateUrgessa#Ethiopia#Anniversary#JusticeDelayed#HumanRights#PoliticalViolence#Oromo#OLF#Accountability#HornOfAfrica#TheStandardSignal