Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🎦Подключайтесь к трансляции PHDays 2025
Начинаем прямой эфир пленарной дискуссии на киберфоруме Positive Hack Days. Лидеры отрасли, представители российских и зарубежных государственных структур обсудят, что в современном мире значит цифровой суверенитет и как его достичь.
Участники
➖ глава Минцифры России Максут Шадаев
➖ глава Минэнерго России Сергей Цивилев
➖ директор личного офиса Шейха Сухейма бин Ахмеда Аль-Тани (Катар), инвестиционный директор Al Adid Business Ахмед Мустафа Аль-Иссави
➖ генеральный директор Positive Technologies Денис Баранов
➖ посол Мексики в России Эдуардо Вильегас Мехиас
➖ сооснователь Cyberus и Positive Technologies Юрий Максимов
Модератором встречи выступит главный редактор журнала «Россия в глобальной политике» Фёдор Лукьянов.
▶️ Смотрите трансляцию в нашем канале
@mintsifry#PHDays
🎉 «Газинформсервис» — технологический партнер киберфестиваля Positive Hack Days!
В своем видеоприглашении Роман Пустарнаков, заместитель генерального директора компании, рассказал, что «Газинформсервис» представит на киберфестивале, какие активности они подготовили для участников и что можно будет посмотреть на их стенде.
До встречи на PHDays Fest 22–24 мая в «Лужниках»!
#PHDays
🎓 Экспертиза UserGate уже давно вышла за рамки NGFW: появляются новые продукты и услуги, которые входят в экосистему UserGate SUMMA и позволяют решать проблемы не только сетевой безопасности, но и любые задачи, стоящие перед CISO.
Возможность использования различных продуктов и решений, входящих в экосистему – серьезное преимущество и удобство для заказчика.
Александр Луганский рассказал о том, как интеграция UserGate WAF, SIEM, SOC позволяет построить единую систему обмена информацией об атаках и инцидентах и обеспечить защиту цифровой инфраструктуры предприятия.
➡️Смотрите
#PHDays
🔥 PHDAYS завершился — было круто!🔥
Три дня мощных инсайтов, новых знакомств и кибербезопасности на максимум!
🌍 Познакомились с международными партнёрами — обсудили тренды и перспективы коллабораций.
🤝 Укрепили связи с российскими коллегами — вместе мы сильнее!
🛡️ Провели 5 квизов по инфобезопасности — и каждый раз был АНШЛАГ!
🙌🏻Спасибо всем, кто был с нами. Мы классно провели время вместе!
#PHDAYS#Кибербезопасность
🔹 Какие функции UserGate NGFW наиболее востребованы клиентами и почему?
🔹 Как наш ПАК справляется с задачей обеспечения высокой производительности и необходимой стабильности?
🔹 Как мы тестируем наш NGFW и устраняем баги?
🔹 Как планируем удерживать клиентов на растущем рынке?
🔹 По каким критериям выбирать, сравнивать и покупать #NGFW решения?
На эти вопросы ответил Иван Чернов (@chernov_usergate), менеджер по развитию UserGate, в ходе #PHDays.
Спасибо коллегам из CISOCLUB за интересное интервью! 😉
6/7 Дорогим консультантам с #BiZone отдельный привет. Ваш софт бесполезен, ваши безопасникипраздно шатаются на конференции #PHdays. Хэд Марэ любит тех, кто доверился Вам!
#PHDays Fest 2 По многочисленным просьбам (не шутка) выкладываю writeup, райтап, он же описание прохождение квеста SEQuest.
Спасибо парням из @By3side за организацию (и лично @Bam_hack). Будет круто, если #СИ станет постоянной дисциплиной на PHD.
https://telegra.ph/PHDays-Fest-2-Prohozhdenie-SEQuest-06-23
Конечное устройство пользователя по-прежнему является одним из самых слабых звеньев в системе информационной безопасности, и, по статистике, именно на него направлено большинство атак.
Обеспечить надежную защиту цифровой инфраструктуры предприятий и организаций позволяет сочетание экосистемного подхода и концепции нулевого доверия в сети (#ZTNA). Именно экосистема обеспечивает связанность всех защитных компонент, возможность полноценного обмена информацией между ними, удобство единого управления и технической поддержки.
О защите конечных устройств, будущем EDR и XDR-решений и практических преимуществах их применения в интервью CISOCLUB (https://t.me/cisoclub) на #PHDays рассказал Виталий Даровских, менеджер по развитию продукта UserGate Client.
➡️ Более подробную информацию про экосистему UserGate SUMMA можно посмотреть тут.