Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Informa nuestra periodista Mavel Ponce de León que, en #Holguín, la sucursal de #Palmares ofertará cenas para consumir en el lugar y llevar, por el #FinDeAño desde sus instituciones gastronómicas.
Entre las opciones que puede disfrutarse en casa se incluyen la carne de cerdo (sin cocción), frutas, vegetales y cerveza.
Mientras que, el Salón 1720 propone tables para dos personas, a base de pollo, langosta, cerdo; con dos bebidas a escoger, viandas, arroz, café... por un costo entre los dos mil y tres mil pesos la reservación.
En el restaurante El Ancla, en Guardalavaca, ofertarán mariscos y pescados, como es tradición de este.
A través de las agencias de viaje, entre las que se encuentra Havanatur, se puede reservar para las cenas.
El pago se efectúa en moneda nacional, según precisiones a Radio Holguín Gretel Ramírez, directora de Operaciones de Palmares.
#Cuba
Lanzan desde Holguín 14 edición del Festival Internacional Varadero Gourmet
La décimo cuarta edición del Festival Internacional Varadero Gourmet sesionará entre los días 11 y 13 de septiembre próximos en el mayor balneario del país.
La cadena extrahotelera #Palmares convocó a una conferencia de prensa para ofrecer detalles de su participación en el evento,
dedicado a la evolución y sostenibilidad de la cocina tradicional cubana.
Conferencias, exposiciones, concursos y otros eventos contarán con la participación holguinera en uno de los eventos más importante del #turismo en #Cuba.
Desde la Bodeguita del Medio en #Holguín trascendió que han confirmado su presencia varios expositores extranjeros y participantes procedentes de más de una decena de países.
Holguín apostará por mostrar su talento en los eventos competitivos en cocina y cantina, a partir del encadenamiento productivo con formas de gestión no estatal.
Una decena de ponencias se presentarán durante el evento, que contará con actividades colaterales en el balneario de #Varadero.
📸 Odalys Martínez Oliva