Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Un prete, colombiano di 45 anni, è stato accoltellato in centro a #Modena questa mattina, in via Castelmaraldo. Sull'episodio sono in corso le indagini dei carabinieri, che procedono per tentato omicidio. Il sacerdote, raggiunto da un fendente alla gola, dopo i primi soccorsi da parte dei passanti, è stato portato in ospedale dal 118 dove èstato sottoposto a intervento chirurgico. Non sarebbe in pericolo di vita. L'aggressore è in fuga e i militari dell'arma sono al lavoro per rintracciarlo. Sconosciuti al momento i motivi del gesto.
Dopo 555 anni, la #Bibbia di Borso d'Este torna in Vaticano. A conclusione della mostra ospitata dalla Biblioteca del #Senato e prima di tornare a #Modena, il "libro più bello del mondo" ha effettuato oggi una breve tappa nel Palazzo Apostolico, accompagnato dal Presidente del Senato Ignazio La Russa che, con il Segretario generale Federico Toniato e il direttore delle Gallerie Estensi Alessandra Necci, ha così voluto ringraziare personalmente Papa #LeoneXIV per la visita in Senato del 18 dicembre scorso.
Dopo Paolo II, Pio IX e Giovanni Paolo II, Papa Leone XIV è così il quarto Pontefice ad aver avuto nelle proprie mani l'originale. Ma è anche il primo Papa a riceverlo in Vaticano dopo 555 anni. L'opera fu infatti realizzata su commissione di Borso d'Este e da questi portata a Papa Paolo II nel 1471 in occasione del conferimento del titolo di Duca.
Il manoscritto è considerato il capolavoro assoluto dell'arte della miniatura. La realizzazione inizia nel 1455, proprio nell'anno in cui Gutenberg finisce di stampare le copie della sua Bibbia.
La mostra in Biblioteca era stata inaugurata il 14 novembre, organizzata in occasione del #Giubileo 2025 grazie alla collaborazione tra Senato della Repubblica, Presidenza del Consiglio dei Ministri, Ministero della Cultura, Gallerie Estensi, Commissario Straordinario di Governo per il Giubileo, Istituto dell'Enciclopedia Treccani e Dicastero per l'Evangelizzazione della Santa Sede.
La chiusura, inizialmente prevista per il 16 gennaio, era stata poi prorogata al 4 febbraio a seguito del grande interesse manifestato dai visitatori. La Bibbia di Borso d'Este torna ora alle Gallerie Estensi di Modena dove sarà eccezionalmente esposta al pubblico dal 7 al 9 febbraio, nella Sala Campori della Biblioteca Estense Universitaria, sua sede storica.