Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Союз танцевального спорта России стал членом WDSF
Это лето богато на политические новости в танцевальном мире. Сначала стало известно о вступлении ФТСАРР в WDC, а теперь - о вступлении СТСР в WDSF.
Вы можете ознакомиться с текстом на официальном сайте WDSF, а также с русскоязычной версией заявления.
WDSF объявила о единогласном решении своего Президиума по данному вопросу - предоставить временное членство СТСР, который теперь признан единственным национальным представителем WDSF на территории России. Все вопросы, связывающие WDSF с Россией, теперь должны решаться исключительно Союзом танцевального спорта России. WDSF также подтверждает свою неизменную приверженность рекомендациям МОК об участии нейтральных спортсменов и подчеркивает, что действующие правила, касающиеся допуска спортсменов, признания их титулов и участия в мероприятиях, санкционированных WDSF, остаются в полной мере в силе.
Краткая история вопроса
СТСР - Союз танцевального спорта России, президент - Денис Кузнецов, вице-президенты - Александр Мельников и Анастасия Титкова. До ФТСАРР именно СТСР являлся аккредитованной Министерством спорта РФ федерацией по виду спорта "танцевальный спорт" и входил в WDSF. По сути - СТСР был после ФТСР и до ФТСАРР.
В 2016-м СТСР был исключен из WDSF, а в 2017-м ФТСАРР получила аккредитацию Министерства спорта РФ, а затем вошла в WDSF. C 2022 года пары России не могли принимать участие в турнирах WDSF. А в конце 2024-го ФТСАРР вышла из состава WDSF и через полгода вступила в WDC. В сообщении WDSF говорится, что ФТСАРР попыталась отозвать свой выход в конце января, но WDSF поддержала первоначально принятое решение.
#dancesport#wdsf#стср
К посту Выше ⬆️
Нужен ли тренеру ТРЕНЕР?!
Однозначно, да!
Заряд новой информации, энергии и, иногда, полезный пинок, чтобы не стоять на месте 🔥
На видео один дядя Серёжа тренит с другим дядей Серёжей ✌️
Рубрика - дети ушли, а тренеры остались.
#студиятанцевклин#детитанцуют#бальныетанцы#бальники#танцыклин#спортивнобальныетанцы#самба#ballroomdance#ballroom#samba#danceflow#wdsf#wdc#dancers
Праздники праздниками, но тренировки никто не отменял 😏
▪️
Чистим новые элементы с Елизаветой, готовимся к скорым соревнованиям 🔥
А как Вы провели свои выходные?)
#студиятанцевклин#детитанцуют#бальныетанцы#бальники#танцыклин#спортивнобальныетанцы#детивтанцах#чачача#ballroom#chachacha#ballroomdance#wdsf#wdc#dancers
Воскресенье начинается не с кофе 😎
Елизавета передаёт всем доброго утра 😅🫶
#студиятанцевклин#детитанцуют#бальныетанцы#бальники#танцыклин#спортивнобальныетанцы#детивтанцах#ballroomdance#wdsf#danceflow#ballroom#slowwaltz#waltz#samba#sambaslow#самба