Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Сегодня в Париже ⏱️ начинаются летние #Olympics 2024 года, которые пройдут во Франции с 26 июля по 11 августа. #Paralympics пройдут там же с 28 августа по 8 сентября и вместе игры соберут 4 400 самых выдающихся спортсменов-паралимпийцев мира.
Эти игры станут 🥇 первыми, на которых будет представлено одинаковое количество спортсменов среди мужчин и женщин. Также именно в этом году в Париже состоится дебют брейк-дансa в качестве олимпийского вида спорта.
А что нам известно про участие России на Играх❓Спортсмены из России и Беларуси будут выступать на Олимпиаде в качестве индивидуальных нейтральных спортсменов. Напомним, что России и Беларуси запрещено отправлять команды на Игры после вторжения России в Украину, которое поддержала Беларусь.
Однако странам предлагается прислать отдельных спортсменов, которые отвечают🫸 строгим критериям, установленным Международным олимпийским комитетом, в отношении того, поддерживают ли спортсмены войну или имеют ли они военные связи.
Желаем 🏆 удачи всем спортсменам Великобритании на Олимпийских играх!
В фотографии: Томас Янг, завоевавший золотую медаль в беге на 100 метров на летних Паралимпийских играх 2020 года в Токио, Япония.
Всего через неделю мы станем 👁️ свидетелями Паралимпийских игр 2024 года в Париже!
Как показывают исследования, успех Паралимпийских игр способствует повышению осведомленности общества и улучшению 🤝 понимания людей с ограниченными возможностями. По данным опросов, 70 процентов жителей Великобритании считают, что Паралимпийские игры 2012 года в Лондоне положительно повлияли на отношение к людям с ограниченными возможностями.
А знаете ли вы, что сборная команда Великобритании #ParalympicsGB - это международный лидер паралимпийских игр? Спортсмены Великобритании вошли в тройку лидеров по числу медалей уже на 6 Паралимпийских играх подряд. Более того, на Паралимпийских играх в Токио три года назад паралимпийцы Великобритании установили 🚀рекорд, завоевав медали в 18 видах спорта!
Но несмотря на то, что игры еще не начались, уже достигнуто многое. В этом году в сборной #ParalympicsGB самая высокая доля женщин-спортсменок - 46 процентов из 215 участников❗ Это самая высокая доля женщин-спортсменок в сборной Великобритании за всю историю, и даже большее гендерное равенство, чем в Токио-2020.
Будете ли вы следить за Паралимпийскими играми❓
#ParalympicsGB | #Paralympics | #Paris2024
Dichiarazione dell’Ambasciata della Repubblica di Belarus in Italia
L’Ambasciata della Repubblica di Belarus in Italia esprime preoccupazione per la recente dichiarazione congiunta dei Ministri Tajani e Abodi, riguardo al disaccordo dell’Italia con il pieno ripristino dell’adesione dei comitati paralimpici di Bielorussia e Russia e alla partecipazione degli atleti con simboli nazionali ai Giochi Olimpici di Milano.
Si sottolinea che la politicizzazione dello sport, soprattutto durante eventi internazionali di rilievo, è inaccettabile. La parte bielorussa auspica che non vengano intraprese azioni discriminatorie verso atleti o delegazioni, e che tutte le procedure, inclusi visti e formalità, rispettino le decisioni del Comitato Paralimpico Internazionale.
L’Ambasciata invita tutti a rispettare i principi di legalità e inclusività del movimento olimpico, evitando di usare lo sport per scopi politici.
#Bielorussia#SportSenzaPolitica#Paralympics#Inclusività
https://www.marx21.it/internazionale/dichiarazione-dell-ambasciata-della-repubblica-di-belarus-nella-repubblica-italiana/