Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
News: Over 529,000 refugees return to #Sudan in two years, UN says
More than 529,000 refugees have returned to Sudan from neighbouring countries over the past two years, according to the International Organization for Migration (#IOM).
In a report released on Sunday, the agency said it had registered 529,661 people who crossed back into Sudan between January 2024 and December 2025.
Sudan has been gripped by conflict since April 2023, when fighting erupted between the Sudanese army and the Rapid Support Forces (RSF) over the integration of the paramilitary group into the armed forces. The war has triggered what the United Nations describes as one of the world’s worst humanitarian crises, with tens of thousands reported killed and around 13 million people displaced.
Approximately 4.5 million people fled to neighbouring countries during the conflict and are considered refugees, according to recent UN ....
https://www.middleeastmonitor.com/20260216-over-529000-refugees-return-to-sudan-in-two-years-un-says/
News: One-Third of #Sudan’s population displaced in 1,000 days of conflict, #IOM says
Nearly one in three people in Sudan has been displaced internally or across borders over the past 1,000 days of conflict, marking the largest displacement crisis in the world, according to the International Organization for Migration (IOM).
In a statement, IOM said an average of five displacement-triggering events occurred each week since fighting erupted on 15 April 2023, devastating communities and uprooting millions.
The organization reported that 743 incidents have triggered displacement, including 524 conflict-related events and 219 natural hazards such as floods and fires.
IOM data show that more than 15 million people have been forced from their homes, with 11.58 million displaced inside Sudan and around four million fleeing across borders at the peak of the crisis.
The conflict has ...
https://web.facebook.com/AddisstandardEng/posts/pfbid024AJ4oLUYMTu3M13vCpNyUwTBCKqwaRquc8JCJcxXiGr7to3Zh4ChVSp32zrDRW2el
27–28 октября 2022 г., Алматы, Казахстан
Данное мероприятие проводится в рамках регионального проекта Международной организации по миграции «Защита уязвимых мигрантов с особым акцентом на расширение прав и возможностей женщин в контексте миграции в Центральной Азии»
#iom#nihol#узбекистан#ташкент
Визит делегации Узбекистана в Казахстан
Проведение обучения на местах и анализа выполнения межправительственных соглашений в области трудовой миграции.
#iom#nihol#узбекистан#ташкент
News: #Ethiopia migration surges 18% in 2025 as economic hardship, smuggling shifts drive flows; Eastern Route turns deadliest on record
Outgoing #migration from Ethiopia along the #Eastern Route rose sharply in 2025, with total tracked movements increasing by 18% to more than half a million, underscoring growing economic pressures and evolving smuggling dynamics, the International Organization for Migration (#IOM) said.
Read more: https://addisstandard.com/?p=56046
Международный форум на тему " Новые тенденции миграции в условиях пандемий, управление миграцией и защита мигрантов"
https://fb.watch/2vUtaB3Pm_/
#мыпротивнасилия#насилие#стопнасилию#iom#nihol#узбекистан#ташкент
News: Nine dead, dozens missing in #Djibouti shipwreck as #Ethiopian migrants dominate risky route
Nine migrants have died and 45 others remain missing after a boat sank off the coast of Djibouti this week, according to the International Organization for Migration(#IOM), in the latest tragedy along a route heavily used by Ethiopian migrants, AFP reported.
The #UN migration agency said the incident occurred overnight on 24 March near the northern town of #Obock, with 320 people believed to have been on board at the time of the shipwreck. Rescue efforts are ongoing as dozens remain unaccounted for.
The disaster underscores the continued risks faced by Ethiopian migrants, who make up the majority of those traveling along the Eastern Route, a perilous journey from the Horn of Africa across the Red Sea toward #Yemen and onward to #Gulf_states in search of work.
Read more: https://addisstandard.com/?p=56116
Мулоқоти вазир бо роҳбари Дафтари минтақавии Созмони байналмилалии муҳоҷират (IOM) барои Аврупо ва Осиёи Марказӣ
5 августи соли 2025 вазири корҳои хориҷии Ҷумҳурии Тоҷикистон Сироҷиддин Муҳриддин бо роҳбари Дафтари минтақавии Созмони байналмилалии муҳоҷират барои Аврупо ва Осиёи Марказӣ Артур Эркен дар ҳошияи Конфронси сеюми Созмони Милали Муттаҳид оид ба Гурӯҳи кишварҳои рӯ ба тараққии маҳсур ба хушкӣ дар шаҳри Авазаи Туркманистон мулоқот анҷом дод.
#Тоҷикистон#Муҳоҷират#Ҳамкорӣ#СММ#Аваза2025
Встреча Министра с Региональным Директором Офиса Международной организации по миграции (IOM) для Европы и Центральной Азии
5 августа 2025 года Министр иностранных дел Республики Таджикистан Сироджиддин Мухриддин встретился с Главой регионального Офиса Международной организации по миграции (IOM) Артуром Эркеном на полях Третьей Конференции ООН по развивающимся странам, не имеющим выхода к морю, в городе Аваза, Туркменистан.
#Таджикистан#Миграция#Сотрудничество#ООН#Аваза2025
Meeting of the Minister with the Regional Director of IOM Office for Europe and Central Asia
On August 5, 2025, Sirojiddin Muhriddin, Minister of Foreign Affairs of the Republic of Tajikistan, met with Arthur Erken, Regional Director of the IOM Office for Europe and Central Asia, on the margins of the Third United Nations Conference on Landlocked Developing Countries (LLDC3) in the city of Avaza, Turkmenistan.
#Tajikistan#IOM#Cooperation#UN#Avaza2025
@mfa_tj