Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
💥PLAYMOBIL Asterix Barco Pirata
Aventuras en alta mar con Astérix y Obélix
✅OFERTA: 40.0€
❌ Antes: 59.99€
💰Ahorras un 33%🔥
Diversión garantizada para niños y niñas a partir de 5 años
👉 Hazte con él y vive emocionantes batallas navales
#playmobil#asterix#barcopirata#juguete#aventura#ninos#rebajas#descuentos
🛰️Oferta publicada en Cultura y Ocio
🤟Давно у нас не было тематических дней...
🆒 Встречаем Астерикса и Обеликса
🗣Олдскулы свело
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
🇬🇧Asterix and the Chieftain's Daughter #01
🇷🇺Астерикс и Дочь Верцингеторикса #01
В сопровождении двух вождей, таинственная девочка-подросток прибыла в деревню. Говорят, что её отцом был Верцингеторикс, храбрый вождь, потерпевший поражение в битве с римлянами. И теперь Цезарь хочет схватить её любой ценой. За дерзкой дочерью вождя присматривают Астерикс и Обеликс, но у неё другие планы, она сбегает от своих новых опекунов. Начинается погоня, девочку нужно разыскать до того, как это сделают римляне. Успеют ли наши неукротимые герои спасти её?
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское
🇬🇧Asterix and the Black Gold #01
🇷🇺Астерикс и чёрное золото #01
Финикийский купец Эпидермис забыл о том, что друид Панорамикс заказал горное масло — важный ингредиент волшебного зелья. Астерикс и Обеликс отправляются на Ближний Восток в поисках чёрного золота. А также смогут ли они перехитрить римского секретного агента Двануляшестикса и его невероятную складную колесницу, оснащенную по последнему слову шпионской техники?
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское
🇬🇧Asterix and the Picts #01
🇷🇺Астерикс и Пикты #01
После того как Астерикс и Обеликс спасают таинственного Пикта по имени Макарун, они отправляются в Каледонию, ныне Шотландию, чтобы вернуть его возлюбленной Камомилле, приёмной дочери старого короля. Однако коварный вождь Макабей планирует жениться на ней и захватить трон с помощью Римлян! Смогут ли Галла пройдя через метание брёвен, волынки, хмельную воду и гигантскую выдру в озере лох, воссоединить Макаруна и Камомиллу и задать трёпку Римлянам?
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское
🇬🇧Asterix and Obelix All at Sea #01
🇷🇺Астерикс и Галера Обеликса #01
Рабы восстали... и украли собственную галеру Юлия Цезаря. Надеясь укрыться в маленькой галльской деревушке, они понимают, что не всё так гладко. Обеликс испытал ужасные последствия передозировки волшебного зелья друида. Смогут ли друзья исцелить его с помощью Морсикуиса, верховного жреца Атлантиды? Вас ждёт накал страстей и захватывающие морские сражения с римским флотом!
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское
🇬🇧Asterix and the Great Divide #01
🇷🇺Астерикс и Большой Ров #01
Деревня в Галлии политически и физически разделена глубоким рвом из-за спора о лидерстве между соперничающими вождями Клевердиксом и Маджестиксом. Попытки преодолеть свои разногласия, сначала через диалог, а затем через битву, только увеличивают раскол.
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское
🇬🇧Asterix and the Mansions of the Gods #01
🇷🇺Астерикс и Обитель богов #01
Почему бы не оккупировать галльскую деревню, построив вокруг современный жилой комплекс? Такой план придумал модным римским архитектором Англаигус, чтобы помочь Цезарю сокрушить неукротимых галлов.
Соблазнит ли жителей деревни возможность заработать денег на новых римских соседях? Поможет ли секретного оружия галлов? И справится ли Астерикс с точечной застройкой.
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское
🇬🇧Asterix and the Roman Agent #01
🇷🇺Астерикс и Раздор #01
Юлий Цезарь затеял психологическую войну... Туллий Детригнус — римский агент который гарантированно сеет вражду, зависть и раздор где угодно. Сможет ли он заставить галлов подозревать друг друга в предательстве? Неужели Астерикс действительно продаст Риму секрет волшебного зелья? И смогут ли Астерикс, Обеликс и Панорамикс перехитрить коварного Детригнуса и вернуть мир в деревню?
#астериксиобеликс#asterixandobelix#астерикс#asterix#обеликс#obelix
#авторское