Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
💀WallHack SP-005 Carnage Sora ограниченный выпуск💀
🔴Арт сделан японским художником 𝙍𝙤𝙡𝙪𝙖 и нанесен на лучшее стекло от WallHack.
🔴Ковер имеет очень ограниченное количество экземпляров в размере 1.800 единиц. Всего несколько из которых достались нам.
— Дизайн коврика отсылает к сюжету последнего выпуска комиксов от WallHack: Когда мы видели Сору в последний раз, она вознеслась, её способности наконец-то пробудились, став безграничными. Но у этого возвышения была своя цена. Та самая сила, что вознесла её, теперь обратилась вспять, поглощая её изнутри. Мощь, лишенная контроля. Душа, пожирающая саму себя.
🆘Предзаказ на ReShip.pro
САЙТ • МЕНЕДЖЕР • #WALLHACK
🌑Открыт предзаказ на лимитированное издание WALLHACK x EVANGELION, в исполнении модели SP-005.
*️⃣Размер увеличен до 510x440 миллиметров
*️⃣Толщина стекла снижена до 2.5 миллиметра
*️⃣Формовая, силиконовая подложка
*️⃣Обработанные краев на станке
*️⃣Надежный защитный кейс
*️⃣Глайды Wallhack в комплекте
— Доступно всего несколько единиц, лучше не откладывать на потом.
Цена: 23.990₽ - предзаказ тут*
САЙТ • МЕНЕДЖЕР • #WALLHACK
🏃Wallhack SP004A — та же модель, но меньшего размера и по более низкой цене.
➡️Быстрое покрытие
➡️Размер 390 на 450 мм
➡️Толщина 4 мм
➡️Силиконовая кастомная подложка
💳Цена: 14.390₽ — в наличии, ReShip.pro
САЙТ • МЕНЕДЖЕР • #WALLHACK
🏴☠️Новый WALLHACK VA005 в наличии в Москве!
⚫️Размер увеличен до 510x440 миллиметров
⚫️Толщина снижена до 3 миллиметров
⚫️Улучшенная силиконовая подложка
⚫️Инновационно обработанные края на станке
⚫️И надежный защитный кейс
🖱Цена: 19.990₽ — на ReShip.pro*
КАТАЛОГ • МЕНЕДЖЕР • #WALLHACK
😐Мы этого дождались..
Новый стеклопад от WALLHACK - VA-005, по слухам самый быстрый на рынке
💎Размер увеличен до 510x440 миллиметров
💎Толщина снижена до 3 миллиметров
💎Улучшенная силиконовая подложка
💎Инновационно обработанные края на станке
💎И надежный защитный кейс
— Уже в пути к нам! Теперь ожидаем выход CR-005
⏳
💳Цена: 19.990₽ — уже на ReShip.pro
КАТАЛОГ • МЕНЕДЖЕР • #WALLHACK
🌸WALLHACK SP-004 в коллаборации с HATSUNE MIKU - летняя версия
💕Улучшенная быстрая поверхность
💕Размер 43 на 49 см
💕Толщина 3.9 мм
💕Силиконовая подложка
— В наличии всего 5 шт - Успевайте!
💸 Цена: 19.990₽
КАТАЛОГ • МЕНЕДЖЕР • #WALLHACK
⭐️Что такое стеклопады и почему их используют?
🔎Разберемся в этом на примере самого популярного стеклопада WALLHACK SP-004
🔎Характеристики SP-004
- Быстрая поверхность
- Силиконовая подложка благодаря которой коврик не прогибается и уверенно лежит на столе
🔎Преимущества стеклопадов
- Легкий уход
- Стабильная скорость
- Долговечность
Интересны стеклопады? - ❤️
ОФОРМИТЬ ЗАКАЗ • КАТАЛОГ • #WALLHACK
🔖WALLHACK представили свой новый сезонный стеклопад SP-004 в расцветке DRIFT SORA (Серия Y2K)
И нам удалось достать для вас несколько экземпляров, которые уже доступны к заказу
🔔Поспешите, ведь количество ограничено!
ОФОРМИТЬ ЗАКАЗ • КАТАЛОГ • #WALLHACK
‼️Мало кто знает что у WALLHACK есть тканевые ковры, так еще и в лимитированной расцветке ARCADE
🚨MO-001
Разработан для скорости и точности
🚨SY-001
Разработан для контроля и комфорта
Общие характеристики:
- Подложка из японского порона, твердость SOFT
- Размер 49см х 43см х 0,4см
- Уникальный оверлок с новой технологией, совершенно не ощущающийся рукой
W дизайн? 🔥
ОФОРМИТЬ ЗАКАЗ • КАТАЛОГ • #WALLHACK