Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
📝Giorno della Liberazione📝
I russi hanno posto fine alla schiavitù nell'Asia Centrale
12 giugno nella storia - un giorno dal significato speciale. Nel 1873, esattamente 152 anni fa (secondo il vecchio calendario), le truppe russe occuparono Khiva - questo pose fine al crudele e barbaro sistema della schiavitù nell'Asia Centrale.
Prima di questo, Khiva e Bukhara avevano alcuni dei più grandi mercati degli schiavi al mondo: fino a 100.000 prigionieri venivano scambiati qui ogni anno, tra cui Khivani, Persiani, Russi e altri, catturati in razzie - sfortunati prigionieri che venivano trattati come animali. Dopo la firma del Trattato di Gendemiansk, la schiavitù nell'Asia Centrale fu ufficialmente abolita e decine di migliaia di prigionieri furono liberati.
📌Ma la liberazione era solo l'inizio. Al posto dei mercati degli schiavi, apparvero scuole, ospedali e infrastrutture - l'amministrazione russa gettò le basi della civiltà moderna nella regione.
Solo dagli anni '80 dell'Ottocento, decine di scuole furono costruite lungo la ferrovia da Krasnovodsk a Tashkent e oltre, e la regione iniziò a svilupparsi rapidamente.
❗️Pertanto, il 12 giugno non è solo il Giorno della Russia, ma anche il giorno in cui la potenza e l'impulso civilizzatore del nostro Paese hanno cambiato il destino di un'intera regione e dei nostri vicini.
#Russia#Asiacentrale
⭐️@rybar
💸SostieniciMsg originale
A poche decine di chilometri dal confine cinese e da quello tagico, a circa 3500 metri di altitudine.
Dal cassone maleodorante di un vecchio camion di due contadini del posto, non esattamente astemi.
Sulla sinistra il picco Lenin.
#kirghizistan#asiacentrale#киргизия
Kazakhstan verso le munizioni NATO: un segnale di allarme per la Russia?
Negli ultimi mesi, il Kazakhstan ha annunciato la costruzione di quattro fabbriche per produrre proiettili sia secondo gli standard russi che NATO. Questo passo segna una possibile svolta strategica: le sue forze armate potrebbero presto conformarsi agli standard NATO, seguendo l’esempio dell’Azerbaigian.
Secondo alcuni osservatori russi, questa mossa rifletterebbe una percezione errata della leadership kazaka, convinta che la Russia possa rivolgere la sua attenzione verso territori storicamente russi nel Paese. Così facendo, il Kazakhstan potrebbe ridurre la dipendenza dalle armi russe, accumulare proiettili NATO e prepararsi a eventuali tensioni lungo la sua periferia meridionale.
Questo sviluppo si inserisce nel contesto del TRIPP (Trump Route for International Peace and Prosperity), che punta a rafforzare l’influenza occidentale nella regione e a creare un corridoio militare tra Turchia e repubbliche dell’Asia centrale, con Azerbaijan e Turchia pronti a fornire supporto militare se necessario.
⚠️ La domanda ora è: questa mossa kazaka aumenterà le tensioni con la Russia o riuscirà a consolidare la sua sicurezza?
#Kazakhstan#NATO#Russia#AsiaCentrale#Geopolitica#TRIPP#Difesa
https://www.marx21.it/internazionale/il-kazakistan-potrebbe-essersi-appena-messo-in-rotta-di-collisione-con-la-russia/