Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🔥 En las profundidades de las aguas de las Maldivas, un buzo se encuentra con la ballena azul, la criatura viva más grande de la Tierra.
No, no es IA.
Increíble no ?
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
Un tipo quería adoptar un gato, pero no se iba de al lado de su hermano, así que tuvo que llevarse a los dos.
Increíble no ?
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
Este mono, el langur dorado de Gee, trabaja duro para evitar el contacto con humanos, por lo que es súper difícil observarlo en estado salvaje.
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
Este primate rarísimo “escucha” insectos dentro de los árboles antes de cazarlos.
Da miedo el HDP no les parece ?
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
Un pez “estargazer” del Pacífico, enterrado en el fondo marino del Indo-Pacífico, al acecho para sorprender a su presa, con lo único que queda expuesto siendo los ojos y la boca
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
¡La araña pavo real macho hace una de las exhibiciones de cortejo más complejas del reino animal!
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
Jerboas cruzan las arenas del desierto sobre patas traseras enormes, diseñadas para saltar, capaces de brincar casi tres pies en una sola zancada, sin necesidad de tomar agua porque le sacan toda la humedad a su comida. Sus orejas gigantes ayudan a soltar el calor y a detectar depredadores durante la inmensidad y silencio de la noche en el desierto.
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈
El 25 de abril se celebró el Día de Concienciación por los Pingüinos, una fecha que, junto a la otra que se celebra el 20 de enero, busca aumentar la conciencia sobre la preservación, protección y cuidado de estos increíbles animales.
Y es que de las 18 especies que existen, al menos casi la mitad se encuentran vulnerables o en peligro de extinción. Entre ellas cabe destacar las que se encuentran en mayor peligro que son el Pingüino de las Antípodas, el pingüino de las Galápagos, el pingüino saltarrocas monteño y el pingüino africano. La principal razón que todos comparten es la pérdida y contaminación de sus hábitats.
Una curiosidad de estos animales es que suelen tener una única pareja durante la época de apareamiento, con la que luego tienen sus crías (aunque puede variar según la especie). También cuentan con una glándula encima del ojo que les permite filtrar el agua salada en todo su sistema sanguíneo.
#animales
Síguenos para más curiosidades
👉@laneuronacuriosa👈