Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Attilio #Fontana: “Sì, nel Villaggio Olimpico forniamo gratuitamente profilattici agli atleti.
Se a qualcuno sembra strano, non è consapevole della prassi olimpica consolidata. Iniziò a Seul 1988 per sensibilizzare atleti e giovani nella prevenzione verso le malattie sessualmente trasmissibili – un tema che non deve creare imbarazzo.
Dal punto di vista sanitario, Regione Lombardia è in campo a 360° per garantire ad atleti e team internazionali la massima assistenza in queste settimane, una azione che fa parte dell’organizzazione olimpica, grazie alle quali abbiamo realizzato diverse opere dal Niguarda di Milano alla Valtellina, che restano ai lombardi dopo il grande evento che stiamo ospitando.
La salute prima di tutto: prevenzione concreta e buon senso.”
@UltimoraPolitics24
Lorenzo #Fontana ha espresso solidarietà alle forze dell'ordine e alla troupe Rai aggredita a Torino e ha condannato le violenze: "Rivolgo la mia solidarietà alle forze dell'ordine impegnate nel corso del corteo, a Torino, e alla troupe Rai aggredita. Esprimo la più ferma condanna delle violenze di alcuni manifestanti. Gli attacchi, gli scontri provocati e i danni causati sono atti gravi e non possono essere giustificati in alcun modo".
@UltimoraPolitics24
Attilio #Fontana: "Vannacci? Il mio primo pensiero è che è una anomalia. È un anomalo all'interno del nostro movimento". Fontana ha aggiunto che differenze interne "possono essere motivo di arricchimento", ma "creare circoli, fare manifestazioni al di fuori del partito, presentare e depositare un nuovo logo, fare un nuovo sito è un'anomalia". "È una anomalia, poi queste sono valutazioni che farà il segretario", ha concluso.
@UltimoraPolitics24
Attilio #Fontana: “L’Ice sarà qui soltanto per controllare il vicepresidente americano Vance e il segretario di Stato Rubio, quindi sarà soltanto in misura difensiva ma io sono convinto che non succederà niente”. @UltimoraPolitics24
Attilio #Fontana: “L’Ice sarà qui soltanto per controllare il vicepresidente americano Vance e il segretario di Stato Rubio, quindi sarà soltanto in misura difensiva ma io sono convinto che non succederà niente”.
@UltimoraPolitics24
Lorenzo #Fontana (#Lega): "Il sabato nero del ghetto di Roma deve rappresentare memoria indelebile affinché simili orrori non si ripetano. Dovere delle Istituzioni mantenere vivo il ricordo per contrastare qualsiasi forma di razzismo e antisemitismo.'
@UltimoraPolitics
Attilio #Fontana (#Lega) al CdS: "L'autonomia è solo il primo passo, il nodo di fondo è che bisogna cambiare in modo netto la forma delo Stato in senso federale Questo è l'unico modo per valorizzare le diverse identità del Paese e ler permettere a ciascuno di dare il meglio"
@UltimoraPolitics24
Attilio #Fontana (#Lega) al CdS: "Bisogna trovare il modo di capire come si possa mettere il Nord, che è la parte sana e produttiva del Paese, di competere con le regioni europee più avanzate"
@UltimoraPolitics24