Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
💫Исследуем стрит-арт на Хлебозаводе#places
Мы собрали для вас список объектов, которые находятся в разных частях городского пространства Хлебозавод. Тут можно найти как крупные инсталляции, так и небольшие работы известных и начинающих художников.
Подробнее о каждой из них — в наших карточках 🤍
ART FLASH
💫Локация недели: бар Nightcall. Смелая концепция и диалог с историей#places
Новое пространство расположилось во флигеле городской усадьбы Закревского-Савина XVIII века. Концепция интерьера Nightcall основана на синтезе эстетики классических клубов и современного дизайна. Первый этаж бара выполнен в духе бистро как более подвижная, шумная и проходная зона. Второй представляет собой камерный лаунж с вельветовыми диванами и стульями с подлокотниками.
Проект бара реализован архитектурным бюро .dpt (department), основанным Ксенией Караваевой и Муратом Гукетловым. С 2020 года команда занимается проектами различных типологий и масштабов: от мебельных предметов до выставочных пространств и крупных объектов и территорий.
📌 Москва, Спартаковская улица, дом 3с3
ART FLASH
💫Столешники Хаус — место, где хочется работать и творить#places
Начать день в одном конце Москвы, закончить в другом, на ходу отвечать на сообщения в рабочих чатах — знакомый ритм большого города. А что, если бы деловая встреча перетекала в рабочую сессию в коворкинге, обед — в нетворкинг в переговорной, а вечер — в кинопросмотр или разговор об искусстве, без спешки и бесконечных перемещений?
Такое место создала команда Столешники Хаус. В историческом особняке по адресу Столешников переулок, 11 появилось многофункциональное пространство с гастрономическим кластером, премиальным коворкингом и внутренним двором-оазисом. Приглашаем прогуляться по пространству с руководителем проекта Еленой Бубновой и бренд‑директором Альбиной Ахмятжановой — и представить жизнь без суеты.
Полный материал можно прочитать на нашем сайте🤍
ART FLASH
Помните тут показывала в подборке штанцы-парашюты из аутлета Цумоского, заказала себе тоже, пришли, не нарадуюсь! Очень воздушные и легкие.
Заказала Ню Балансы 725 заодно - блин, тоже улет 😱 я давно кроссовки не носила.
Финальный абзац про еду - мы подсели на китайскую кухню, Юра готовит шиитаки как не в себя с лапшой. Вообще, Юра очень вкусно готовит, можно любые ингредиенты дать и он сделает шедевр. Поэтому в кафе с тостом авокадо мы особо и не ходим, только когда шик или я говорю, что надо уыпить вина культурно, с сырком вонючкиным козьим🐑. В общем-то, такие новости к этому часу. Лапшу съели, сфоткать забыла.
Постскриптум: звонит курьер из Цума, обычно приезжает дядя, я ему сырники всегда предлагаю пока ждет, а тут прям теть Люба такая, забористая на слово, как в моем детстве.
Говорю:
- Оставьте под дверью. (думала, Озон)
А она так с нахрапом:
- Дащщщщас, а деньги кто платить будет😱
💡Магазинчик Китайских продуктов: «Китайские продукты» пр-т Мира, 12, стр.1, (Москва)
Если поедете, заложите минут 30 на «покопаться»))
#places