Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
‼️ВНИМАНИЕ КОНКУРС‼️
Дорогие друзья, с 10 февраля начинается прием заявок на МЕЖДУНАРОДНЫЙ КОНКУРС «АРТЕК – СТОЛИЦА ДЕТСТВА» 🌍
на участие в образовательной программе 8 смены 2024 года в ФГБОУ «МДЦ «Артек» 🔥
Целью проведения Международного конкурса «АРТЕК – СТОЛИЦА ДЕТСТВА» является выявление и поддержка наиболее достойных иностранных школьников и юных соотечественников, проживающих за рубежом, мотивированных на изучение и популяризацию русского языка и российской культуры, историю Артека в мире и успешно выполнившие конкурсные задания ⭐️🏆
К участию в Конкурсе приглашаются организованные группы детей (делегации!) из стран ближнего и дальнего зарубежья 👬👫🌍 Количественный состав интернациональной делегации от 5 до 10 человек, для зарубежных профессиональных творческих коллективов количество участников может быть увеличено до 20 человек! 💃🕺
‼️ВНИМАНИЕ: для участия в конкурсе приглашаются дети – граждане зарубежных стран, имеющие отличное от РФ гражданство ‼️
В Артеке представители зарубежных делегаций продемонстрируют свой национальный колорит, традиции, обычаи в формате подлинного диалога культур, когда все его участники активны, самобытны и равноправны 🧕👳♀️👳♂️👩⚕️🙋♂️🙋♀️
Для участия в Программе необходимо пройти конкурсный отбор ПОЛОЖЕНИЕ О КОНКУРСНОМ ОТБОРЕ прилагается 👇
#содружество#фондсодружество#druzhbafond#артек#artek
Дорогие друзья, 🥰 в 2024 году в конкурсе «Артек – столица детства» и «Наш дом - Земля» приняли участие более 70 групп, делегаций и коллективов, в состав которых входят дети из более 60 стран мира
👏ПОЗДРАВЛЯЕМ победителей конкурсного отбора
на участие в тематической общеразвивающей программе
«МЕЖДУНАРОДНЫЙ ФЕСТИВАЛЬ «НАШ ДОМ - ЗЕМЛЯ»», и победителей Международного конкурса «Артек – столица детства», награждённых бесплатной путёвкой в «МДЦ» Артек» на 8-ю Международную смену 2024 года
‼️ТОРЖЕСТВЕННЫЙ МОМЕНТ!!! 🪩 ОБЪЯВЛЯЕМ ИМЕНА ПОБЕДИТЕЛЕЙ 📣:
👏«Аль-Фауз», Джалал-Абадская область, Кыргызстан
👏«КиноЛагерь Калгари», г. Калгари, Канада
👏«Ливанский кедр», г. Бейрут, Ливан
👏Делегация «Марокканская мозаика», гг. Агадир, Рабат, Касабланка, Королевство Марокко
👏«Солнечная Монголия», г. Улан-Батор, Монголия
👏«Турецкие артековцы», гг. Стамбул, Анкара, Турция
👏Ансамбль танца «Гранд Жэтэ», Москва, Россия
👏Ансамбль народного танца «КАРУНАЧКИ», г. Жабинка, Беларусь
👏Делегация «Акуна Матата», г. Найроби, Кения
👏Делегация «Бойчечак», г. Худжанд, Согдийская область, Таджикистан
👏Делегация «Вкус жизни», г. Мармарис, Турция
👏Делегация «Гаврош», гг. Париж, Страсбург, Лион, Марсель, Ницца, Франция
👏Делегация «Дети Нила» г. Каир, Египет
👏Делегация «Достояние Таджикистана», г. Худжанд, Республика Таджикистан (Команда учащихся 8-х классов «РТ ГБОУ «СОШ в г. Худжанд имени А.П. Чехова»)
👏Делегация «Жемчужины Нила», г. Хургада, Египет
👏Делегация «Калейдоскоп», г. Ирбид, Иордания
👏Делегация «Тутанхамоны», г. Шарм эль Шейх, г. Каир, Египет
👏Международный клуб «ПЕРЕКРЕСТОК» (Сборная более 20 стран)
👏Сборная команда Нидерландов, Нидерланды
👏Студия бального танца «Фламинго», г. Нарва, Эстония
👏Хореографическая студия «Жемчужина», г. Ташкент, Узбекистан
✨В ближайшее время в Телеграмм будет создана группа, куда мы пригласим руководителей делегаций, где будут обсуждаться организационные вопросы подготовки к смене в Артеке
#содружество#фондсодружество#druzhbafond#нашдомземля#артек#artek