Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#Italia#Giustizia#CdS
Il Consiglio di Stato, in un ricorso presentato dalla ONG Medici Senza Frontiere, collegata alla nave battente bandiera neerlandese Geo Barents, ha stabilito definitivamente la legittimità del c.d. "codice di condotta delle ONG", limitatamente alla parte in cui affida al Ministero dell'Interno l'onere di individuare un porto sicuro (o port of safety, abbreviato in pos, ndr) per le navi di soccorso umanitario marittimo.
La sentenza dei massimi giudici amministrativi riporta quanto segue:
"La gestione di un evento di salvataggio assume una connotazione complessa, rappresentando la sintesi di una pluralità di valutazioni che investono, ad un tempo, aspetti operativi e tecnico nautici - connessi alla gestione della prima fase dell’evento di soccorso - ed aspetti più prettamente afferenti alla gestione delle persone tratte in salvo, non limitati all’assistenza logistico-sanitaria dei naufraghi, ma estesi alle peculiari condizioni personali ed allo status dei soccorsi, nonché alla tenuta e sicurezza del sistema terrestre di accoglienza.
L’arrivo in massa di migranti è idoneo a creare rilevanti problematiche di ordine e sicurezza pubblica. Il coinvolgimento del ministero dell’Interno nella catena di comando cui spetta la gestione dell’evento Sar (ricerca e soccorso, dall'inglese searche and rescue, ndr) debba ritenersi conforme al quadro delle competenze restituito dalla normativa nazionale di rango primario e secondario; in tale cornice si iscrivono organicamente anche le ’standard operative procedure’ (sop) del 2015, dirette a compendiare, in occasione di eventi Sar connessi a flussi migratori, le esigenze di carattere nautico con quelle afferenti alla sicurezza pubblica.
Quello del Ministero dell'Interno deve essere considerato un coinvolgimento funzionale necessario, che non esautora l’Imrcc (e quindi il ministero dei Trasporti) dalla sua competenza nell’individuazione del pos. Il suo intervento nelle operazioni di soccorso e l’individuazione del punto di sbarco non rappresenta un’indebita ingerenza nelle competenze del Ministero dei Trasporti e delle Capitanerie di Porto, quanto piuttosto una necessaria e logica forma di cooperazione istituzionale tra le autorità preposte nella gestione del fenomeno delle migrazioni di massa. È dunque corretto ritenere che l’individuazione del pos non possa avvenire in astratto, equiparandolo sic et simpliciter (dal latino semplicemente) con il porto geograficamente più vicino all’intervento di salvataggio, dipendendo la sua individuazione da una molteplicità di fattori legati al caso concreto, quali lo status delle persone tratte in salvo (richiedenti asilo, rifugiati, ecc), il numero di naufraghi, la situazione a bordo, le condizioni di salute dei soccorsi, le condizioni metereologiche, la presenza di persone fragili o di minori tra i soccorsi".
@OsservatorioItaliano
💥💥💥 BREAST BUTCHERS: Thousands of Women Mutilated by Fake Cancer Diagnoses!
“The problem with a biopsy is if there's a tumor growing, the body has a fibrin sheath around it that's doing many things it can do to contain it and the minute you break that sheath and you break, it's like you broke the seal. Now it spreads all over the place. So you do spread it. I had a ballerina from New York City right after I moved to Arizona. She was with the New York Ballet and she called me from there and she said, I just had a biopsy around where they biopsied all these little tumors now. And that's what happens, so you unleash it.”
Continue watching: https://jiii.io/1kn2wl
#cds#redlighttherapy
https://t.me/hiddeninplainsight1
¡Importante! 🤚🏻🚨
🔴#RubénRocha y 9 funcionarios más están en la mira de #EU por presuntamente conspirar con el #CDS para traficar droga 📄🔍
https://sinlineamx.com/eu-acusa-ruben-rocha-moya-vinculos-cds/
¡Atención! 🤚🏻🚨
🔴#MarcoRubio aseguró que estas medidas también afectan a familiares y cercanos de individuos involucrados al #CDS❌✈️🇺🇸
https://revistaelpolitico.com/internacional/eu-anuncia-restriccion-visas-75-personas-ligadas-cds/
Así llegaban los suministros a los "cocineros" ‼️
🔴 El Tesoro de# EU detalló cómo operaba la red de producción de #fentanilo para al #CDS⚠️🚨🇺🇸
https://revistaelpolitico.com/internacional/tesoro-de-eu-sanciona-23-personas-y-empresas-ligadas-cds/
"Espero tu respuesta" 📨
🔴#CeciFlores aseguró que #ElChapo tiene conocimiento de muchos casos de personas desaparecidas por el #CDS⚠️🔍
https://sinlineamx.com/ceci-flores-envia-carta-el-chapo-para-encontrar-hijo/