Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
⠀
Девчонки! Вчера радости моей не было предела! Сейчас расскажу…
⠀
Я так старалась, преодолевая себя, участвовала в беговом челлендже в приложении #бегаешькакдевчонка
⠀
На второй день челленджа я поняла, что в тройку лидеров точно не зайду. Девчонки быстро вырвались вперед…Тогда я нацелилась войти хотя бы в десятку лидеров. Это был спортивный интерес! Азарт мной руководил)
⠀
В итоге я заняла 16 место из 1468 участниц!🔥Представляете?! Ну огонь же!
⠀
Так рада, что взяла такую планку!
А вчера получила письмо от организаторов, что я победила в беговом челлендже! Представляете?! То есть, помимо первых трёх призовых, ещё было 9 победителей, я в том числе! (получу небольшой подарок от брендов #Hitrospletenia X #Phenomenon )
⠀
Вчера я радовалась, как ребенок, потому что прошла небольшой путь преодоления: каждое утро, в течение челленджа я бегала по 5 км в любую погоду, днём и вечером активно ходила, гуляла, чтобы шаги росли)
В итоге 16 место из 1468 участниц!
⠀
Интересно посмотреть результаты в целом за октябрь! Поделюсь с вами!
В общем, горжусь собой!
⠀
Этот замечательный день сложился в пазл благодаря #MOOZI (бренд полезных продуктов и аксессуаров для здорового образа жизни) в прекрасной локации, в глэмпинге #WeRestDome
⠀
Соединил всех #Vegetarian (медиа о здоровом образе жизни и мысли, wellness, экологии, вегетарианства, веганства и осознанности)
в лице удивительной Расы Неаполитанской (управляющая Vegetarian, организатор мероприятий, преподаватель йоги и медитаций, эксперт по ЗОЖ, соуправляющая «Джаганнат»)
⠀
Ведь день радовали нас #Phenomenon (премиальный российский бренд косметики с комплексом функциональных грибов для ухода за волосами и телом)
⠀
#АТМАН (семейное производство масла ГХИ и других полезных продуктов из Чувашской республики)
⠀
Надежда Глушко, ресторанный критик, (участница шок «Адская кухня», победительница шоу «Битва шефов», шеф повар «Tomorrow», рекорд России за самую большую паэлью) готовила три вида вафель
⠀
#Hitrospletenia , бренд дизайнерских украшений с авторским подходом, внесли креативную, творческую нотку, обаяли красотой 💓
⠀
Хэдлайнер #WeRestDay Мария Самарина (основатель крупнейшей школы осознанности в РФ, со-основатель бренда «Влюбленная Маруся», в прошлом технологический предприниматель в Кремниевой Долине, ментор предпринимателей, выпускница Stanford Continuing Education, мама 4 детей) поделилась своими откровениями
⠀
Угощали и одаривали любимые #TRAWA –(бренд сыродавленных масел собственного производства методом «старинного отжима» в дубовых бочках
⠀
#SHROOM_SHROOM (лаборатория функциональных напитков с добавлением в кофе, какао и протеин экстрактов грибов и аюрведических трав)
⠀
#MANTRA Foods (шоколад со смыслом, премиальный состав без рафинированного сахара и глютена)
⠀
Прекрасная Диана Джалалова (общественный деятель, лидер проекта «Женский дом», создатель школы Сакрального танца, 14 лет в духовных практиках, тревел-ведущая, спикер МГУ, 1 канала и других федеральных СМИ) заряжала всех своей красотой, гармонией, внутренней целостностью и ценностью тела.
⠀
Это был потрясающий день, где дождь и солнце, где улыбки, созерцание, внимание к себе и другим, где вкусная и здоровая еда, где подарки, где забота, где Любовь! Всё было прожито в тот августовский день!
Благодарю всех 💚💚💚