Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#España paraíso de las #cosaschulísimas
https://elpais.com/economia/2024-01-24/mi-jefe-manipula-el-registro-de-jornada-coleccion-de-trampas-empresariales-en-el-control-del-tiempo-de-trabajo.html
#España#Cosaschulísimas del mercado de trabajo por encima de los cincuenta
https://elpais.com/economia/2024-01-18/trabajo-considera-diabolica-la-situacion-en-la-que-se-encuentran-los-parados-mayores-de-52-anos-que-cobran-el-subsidio-por-desempleo.html
#España y las #cosaschulísimas de su legislación laboral
https://elpais.com/economia/negocios/2023-12-31/asi-funciona-el-fraude-de-los-periodos-de-prueba-para-que-las-empresas-ahorren-en-indemnizaciones.html
#España. #CosasChulísimas de las relaciones laborales: los camioneros asalariados.
https://www.diariodetransporte.com/articulo/mercancias/hacen-falta-camioneros-que-quieren-son-esclavos-carne-opinion/20231216130606088995.html
#España. Previendo ya las #cosaschulísimas de #2024
https://www.eleconomista.es/legal/noticias/12570535/12/23/los-despachos-de-abogados-anticipan-una-oleada-de-eres-y-despidos-individuales-en-2024.html
#España y las #CosasChulísimas de las relaciones laborales abusivas
https://www.elperiodico.com/es/economia/20231127/salud-laboral-muertes-trabajar-mas-55-horas-diarias-oit-informe-95168559
#España#CosasChulísimas de la ley rider
https://www.xataka.com/empresas-y-economia/dos-anos-tarde-ley-rider-no-consigue-atajar-problema-repartidores-siguen-siendo-falsos-autonomos
#España. #cosaschulísimas
«La reforma laboral ha reducido los contratos temporales, pero estos siguen suponiendo seis de cada diez y su duración se ha recortado. Además, diversos indicadores como las bajas por no superar el periodo de prueba o el pase a la inactividad de los fijos discontinuos, alimentan la sospecha de que muchas empresas están tratando a los indefinidos (incluso los que tienen contratos fijos ordinarios) como eventuales.»
«El propio hecho de que la tasa de vacantes no haya mejorado pese a la reforma laboral (lleva años enquistada en el 0,9) mientras en otros países se ha disparado tras la pandemia apunta a que el peso de estos puestos de 'usar y tirar', que no se declaran en la Encuesta Trimestral de Costes laborales, ni tampoco, por supuesto, a los servicios públicos de empleo, no se ha reducido. Y esto influye en la 'opacidad' de las colocaciones.»
https://www.eleconomista.es/economia/noticias/12461223/09/23/la-oferta-oculta-genera-nueve-de-cada-diez-empleos-en-espana.html