Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Change in West Bengal Govt also means projects stuck now can be implemented
🔸Varanasi - Kolkata Expressway
🔸Gorakhpur - Siliguri Expressway
🔸Extension of Eastern Dedicated Freight Corridor from Bihar to Bengal
🔸Varanasi - Siliguri High Speed Rail Corridor will also see timely execution
#Infra
India's toll plazas gets a serious upgrade.
The Multi-Lane Free Flow (MLFF) system is now live and aim is to eventually transition to no boom barriers, no queues, no stopping with FASTag deducted automatically.
108 toll plazas across major national highways, with full rollout targeting all four-lane+ corridors by 2029. The end goal is to eliminate human intervention, no revenue leakage, no fuel wasted idling at barriers.
#Infra
Mumbai-Ahmedabad Bullet Train Project: Assembly of India's largest-ever Tunnel Boring Machine (TBM), with a diameter of 13.56 meters, progressing at Shaft 2 in Vikhroli, Mumbai. Drilling is expected to begin in July 2026. #Infra
PM Modi to inaugurate the 594 km long Ganga Expressway on April 29
India's longest expressway, linking Meerut-Prayagraj via 12 districts, cutting travel time by ~50% and boosting connectivity & trade
#Infra
Not just sea bridges, coastal roads, tunnels, and metros. In housing too, Mumbai is being rebuilt from the ground up.
Dharavi: 641 acres, ₹95,700 crore.
Motilal Nagar in Goregaon: 143 acres, up to ₹1,00,000 crore.
BDD Chawls in Worli: 87 acres with Tata, Capacit'e and CITIC group.
Bhendi Bazaar
Kamathipura
5 landmark redevelopment projects with Adani, Tata, and marquee developers. Combined investment crossing ₹2,00,000 crore.
The city that powers India's economy is finally getting the urban infrastructure its ambition always deserved #Infra
Zoji La Tunnel Nears a Major Breakthrough
India’s strategic Zoji La tunnel connecting Kashmir to Ladakh is on the brink of a breakthrough, with the final blast expected by end of May 2026. Only 300 meters remain of the 13.1 km tunnel, with work progressing from both Sonamarg and Minamarg ends. #Infra
Infrastructure spending in India has grown six-fold to more than ₹12 lakh crore a year since 2014, compared with less than ₹2 lakh crore before 2014, Prime Minister Narendra Modi said on Tuesday. #Infra
Bogibeel Bridge (4.94 km) built on the mighty Brahmaputra river cuts Dibrugarh–Itanagar road distance by 150 km and rail by 705 km. Project cost revised to ₹4,857 crore from ₹3,230 crore; inaugurated in 2018 after 2002 start. Double-line rail + 3-lane road link boosts connectivity across Assam–Arunachal. #Infra