Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
❗️🇪🇺🇮🇹#Europee2024 — Record storico dell'astensione: per la prima volta, meno di un italiano su due è andato a votare per le Europee. L'affluenza definitiva è del 49,69%
@UltimoraPolitics
❗️🇪🇺🇮🇹#Europee2024 — Stop alla campagna elettorale in Italia, al via il silenzio elettorale. Da domani pomeriggio chiamati al voto oltre 51 milioni di italiani.
@UltimoraPolitics
🇪🇺🇳🇱#Europee2024 — Urne aperte nei Paesi Bassi, ufficialmente al via le elezioni europee. Sarà possibile votare fino alle 21, I risultati saranno divulgati solamente domenica notte, dopo la chiusura delle urne in Italia.
@UltimoraPolitics
🇪🇺#Europee2024 — Voto anticipato in Scandinavia e nei Baltici, 2.27 milioni di europei hanno già espresso il loro voto, pari allo 0.63% degli elettori europei. Domani al via con gli election day, inizieranno i Paesi Bassi
@UltimoraPolitics
#Europee2024 - Il direttore del Tg La7 Enrico Mentana rende noto che sulla rete si terranno due confronti televisivi tra i leader delle liste. I confronti avranno luogo mercoledì 5 e giovedì 6 giugno alle 21.20, il 6 giugno saranno presenti i rappresentanti delle liste maggiori basandosi sull’ultimo sondaggio divulgato da Swg.
Mentana ha fatto sapere di essere in attesa di risposta dai partecipanti invitati.
@UltimoraPolitics
🇪🇺#Europee2024 — domani, 5 maggio è il termine ultimo per presentare la richiesta di voto fuori sede da parte degli studenti universitari che desiderano votare alle prossime elezioni del 8-9 giugno. È necessario fornire (fisicamente, per via telematica o per delega) all’ufficio elettorale del proprio comune di residenza:
📌copia del documento di identità
📌copia della tessera elettorale
📌copia di un documento che attesti l’iscrizione all’università
📌l’apposito modulo compilato, disponibile al seguente link (https://www.interno.gov.it/sites/default/files/2024-04/circ-dait-027-servelet-05-04-2024-all1.pdf)
Il comune di domicilio rilascerà, entro il 4 giugno 2024, un'attestazione di ammissione al voto con l'indicazione del numero e dell'indirizzo della sezione presso cui votare. Bisognerà portare la tessera elettorale cartacea. ❗️
⚪️Se il comune di domicilio è nella stessa circoscrizione del comune di residenza, si vota direttamente nel comune di temporaneo domicilio
⚪️Se il comune di domicilio è in una circoscrizione diversa diversa da quella a cui appartiene il comune di residenza, si vota presso sezioni speciali istituite presso il comune capoluogo della regione alla quale appartiene il comune di temporaneo domicilio.
🇪🇺 #Europee2024 — Stati Uniti d'Europa: Renzi firma l'accordo con la Nuova Democrazia Cristiana. La neoformazione di Renzi e Bonino accoglie Cuffaro e Francesca Donato @UltimoraPolitics
🇪🇺#Europee2024 — Stati Uniti d'Europa: Renzi firma l'accordo con la Nuova Democrazia Cristiana. La neoformazione di Renzi e Bonino accoglie Cuffaro e Francesca Donato
@UltimoraPolitics
🇪🇺#Europee2024 — Quasi fatta per la lista Stati Uniti d'Europa, verso l'accordo Renzi-Bonino. Dentro la lista anche i LibDem di Marucci
@UltimoraPolitics