Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
💥Ofertas para Bucarest💥
🔘1: 🛫 Santa Cruz de Tenerife - 🛬 Bucarest (Rumanía) por 152€: del 03 al 10 de abril (PVP medio: 406.12 €)
🔘2: 🛫 Madrid - 🛬 Bucarest (Rumanía) por 45€: del 28 de abril al 09 de mayo (PVP medio: 120.16 €)
Vuelos con salida desde #Santa Cruz de Tenerife y #Madrid
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Burdeos💥
🔘1: 🛫 Santa Cruz de Tenerife - 🛬 Burdeos (Francia) por 42€: del 15 al 21 de marzo (PVP medio: 134.34 €)
🔘2: 🛫 Valencia - 🛬 Burdeos (Francia) por 26€: del 02 al 06 de marzo (PVP medio: 73.76 €)
Vuelos con salida desde #Santa Cruz de Tenerife y #Valencia
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Oporto💥
🔘1: 🛫 Madrid - 🛬 Oporto (Portugal) por 18€: del 28 de julio al 04 de agosto (PVP medio: 77.0 €)
🔘2: 🛫 Barcelona - 🛬 Oporto (Portugal) por 23€: del 27 de julio al 03 de agosto (PVP medio: 84.1 €)
🔘3: 🛫 Santa Cruz de Tenerife - 🛬 Oporto (Portugal) por 71€: del 25 de julio al 08 de agosto (PVP medio: 170.68 €)
Vuelos con salida desde #Madrid, #Barcelona y #Santa Cruz de Tenerife
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Varsovia💥
🔘1: 🛫 Santa Cruz de Tenerife - 🛬 Varsovia (Polonia) por 44€: del 23 al 26 de mayo (PVP medio: 169.42 €)
🔘2: 🛫 Madrid - 🛬 Varsovia (Polonia) por 27€: del 24 al 29 de mayo (PVP medio: 102.62 €)
🔘3: 🛫 Alicante - 🛬 Varsovia (Polonia) por 39€: del 09 al 16 de mayo (PVP medio: 102.24 €)
Vuelos con salida desde #Santa Cruz de Tenerife, #Madrid y #Alicante
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Oporto💥
🔘1: 🛫 Santa Cruz de Tenerife - 🛬 Oporto (Portugal) por 75€: del 19 de abril al 03 de mayo (PVP medio: 197.3 €)
🔘2: 🛫 Palma de Mallorca - 🛬 Oporto (Portugal) por 40€: del 01 al 02 de abril (PVP medio: 97.64 €)
Vuelos con salida desde #Santa Cruz de Tenerife y #Palma de Mallorca
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Budapest💥
🔘1: 🛫 Santa Cruz de Tenerife - 🛬 Budapest (Hungría) por 126€: del 27 de abril al 01 de mayo (PVP medio: 384.52 €)
🔘2: 🛫 Málaga - 🛬 Budapest (Hungría) por 55€: del 07 al 21 de abril (PVP medio: 151.14 €)
🔘3: 🛫 Madrid - 🛬 Budapest (Hungría) por 44€: del 28 de abril al 12 de mayo (PVP medio: 110.32 €)
Vuelos con salida desde #Santa Cruz de Tenerife, #Málaga y #Madrid
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Varsovia💥
🔘1: 🛫 Madrid - 🛬 Varsovia (Polonia) por 28€: del 20 al 27 de mayo (PVP medio: 120.7 €)
🔘2: 🛫 Alicante - 🛬 Varsovia (Polonia) por 40€: del 09 al 16 de mayo (PVP medio: 122.0 €)
🔘3: 🛫 Barcelona - 🛬 Varsovia (Polonia) por 45€: del 07 al 11 de mayo (PVP medio: 132.64 €)
🔘4: 🛫 Santa Cruz de Tenerife - 🛬 Varsovia (Polonia) por 80€: del 23 al 30 de mayo (PVP medio: 192.86 €)
Vuelos con salida desde #Madrid, #Alicante, #Barcelona y #Santa Cruz de Tenerife
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫
💥Ofertas para Burdeos💥
🔘1: 🛫 Palma de Mallorca - 🛬 Burdeos (Francia) por 27€: del 03 al 06 de abril (PVP medio: 84.0 €)
🔘2: 🛫 Barcelona - 🛬 Burdeos (Francia) por 36€: del 11 al 15 de abril (PVP medio: 96.14 €)
🔘3: 🛫 Santa Cruz de Tenerife - 🛬 Burdeos (Francia) por 60€: del 19 al 26 de abril (PVP medio: 144.52 €)
Vuelos con salida desde #Palma de Mallorca, #Barcelona y #Santa Cruz de Tenerife
Más en:https://t.me/chollosdevuelos✅
El que no corre 🏃 vuela 🛫