Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🔻 Tonight the Jewish people begin celebrating the Festival of Lights. Heidi and I wish everyone throughout Texas, America, Israel, and around the world a very Happy #Hanukkah. https://t.co/ba7VgOQ7c4
November 28, 2021 at 10:50PM
via Twitter
@SenTedCruz
“Amiamo i nostri vicini e amici ebrei e dobbiamo fare tutto il possibile per proteggerli. La comunità cattolica raddoppierà i suoi sforzi per combattere l’#antisemitismo attraverso l’istruzione e la predicazione. Abbiamo offerto i nostri servizi educativi e di consulenza ai nostri vicini ebrei mentre le loro funzioni religiose sono bloccate o sovraffollate. Celebreremo numerose funzioni religiose per i morti, i feriti e i traumatizzati”.
È l’appello lanciato dall’Arcivescovo cattolico di #Sydney, mons. Anthony Fisher, dopo l’#attentato alla spiaggia di #BondiBeach, a Sydney, che ha preso di mira gli ebrei australiani mentre centinaia di persone si riunivano per celebrare il primo giorno di #Hanukkah. Una delle vittime era un sopravvissuto all’Olocausto, morto mentre proteggeva la moglie dai proiettili. Il bilancio, ancora provvisorio, è di almeno 16 vittime, mentre 38 persone sono in ospedale per le ferite. Tra loro anche un passante ripreso dalle telecamere mentre affrontava l’aggressore armato.
“Siamo tutti profondamente addolorati e giustamente arrabbiati per l’attacco terroristico a Bondi Beach. Il fatto che la celebrazione della festa ebraica di Hanukkah possa concludersi con almeno 16 morti, tra cui un bambino, e molti altri feriti, inorridisce gli australiani” scrive l’arcivescovo sul settimanale dell’arcidiocesi, “The Catholic weekly”, che ribadisce: “Il disprezzo sfacciato e spietato per la vita umana e l’odio di alcune persone verso tutti gli ebrei sono un male indicibile che deve essere ripudiato da ogni australiano. Qualsiasi attacco contro singoli ebrei – rimarca il presule – è un attacco all’intera comunità ebraica, e qualsiasi attacco contro la comunità ebraica è un affronto al nostro stile di vita di australiani. Deve essere condannato inequivocabilmente e giustizia per le vittime deve essere fatta rapidamente”.
Mons. Fisher denuncia che “per oltre due anni, si è inasprito un clima di antisemitismo pubblico che ha portato a intimidazioni, divisioni e alla normalizzazione di un linguaggio incendiario. Di fronte alla mia cattedrale a Hyde Park si sono tenute manifestazioni settimanali in cui sono stati regolarmente pronunciati messaggi provocatori, che non hanno avuto altro esito che far ‘alzare la temperatura’ e forse contribuire alla radicalizzazione. Questo deve finire”.
Mons. Fisher, inoltre, ricordando le origini ebraiche della sua bisnonna ribadisce che “Mia bisnonna era ebrea e quindi ho origini ebraiche nella mia famiglia. Gesù era ebreo, nato da madre ebrea, nato sotto la Legge ebraica. Maria e Giuseppe erano ebrei. Così come nostro padre Abramo e tutti i profeti, così come tutti i 12 apostoli. I cristiani sono figli di ebrei. E quindi, un attacco agli ebrei è un attacco a tutti noi”. E tuttavia, “anche in mezzo a un male così oscuro, ieri si sono manifestate tracce di bontà: nello straordinario coraggio della polizia, degli operatori delle ambulanze e dei soccorritori, così come dei passanti; e nella generosità di coloro che offrono aiuto alle vittime”.
L’arcivescovo conclude porgendo le condoglianze “ai nostri fratelli e sorelle ebrei. Vi assicuriamo le nostre preghiere e la nostra vicinanza in questo momento a tutte le vittime di questo attacco, alle loro famiglie e all’intera comunità. Hanukkah e Natale si verificano più o meno nello stesso periodo come feste della fede e della famiglia, dei doni e soprattutto della luce. Preghiamo che il Dio della luce conceda saggezza ai nostri leader e riversi guarigione e speranza sulla nostra comunità in questo momento”.