Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#Lazarus Group’s Famous Chollima uses GitHub spam, fake recruiters, and AI interview tools to slip into finance, crypto, and healthcare companies as “IT workers”.
👨💻 Get a rare inside view of how these operatives work, communicate, and attempt to maintain access.
https://any.run/cybersecurity-blog/lazarus-group-it-workers-investigation/
¿Y de qué se trata #Lazarus?
Corre el año 2052 y en todo el planeta reina una era de paz y prosperidad sin precedentes. La razón: la humanidad se ha librado de la enfermedade y el dolor. El Dr. Skinner, neurocientífico galardonado con el Premio Nobel, ha desarrollado un medicamento milagroso que lo cura todo, sin inconvenientes aparentes, llamado Hapuna. Hapuna pronto se convierte en omnipresente y esencial. Sin embargo, poco después de la introducción oficial de Hapuna, el Dr. Skinner desaparece.
Tres años después, el mundo ha seguido adelante. Pero el Dr. Skinner ha regresado, esta vez como presagio de catástrofe. Skinner anuncia que Hapuna tiene una vida media corta. Todos los que la hayan tomado morirán aproximadamente tres años después. La muerte se acerca a este mundo pecaminoso, y pronto.
Como respuesta a esta amenaza, se reúne a un grupo especial de 5 agentes de todo el mundo para salvar a la humanidad del plan de Skinner. Este grupo se llama "Lazarus".
Así será #Lazarus, el anime de MAPPA que unirá a los directores de Cowboy Bebop y John Wick
Coincidiendo con la celebración de la San Diego Comic-Con de 2023, el medio Variety desveló los primeros detalles de Lazarus, el próximo gran anime de ciencia-ficción de Adult Swim
Esta serie estará dirigida por el legendario Shinichiro Watanabe (Cowboy Bebop, Samurai Champloo)
El director de la saga de película John Wick, Chad Stehelski, también participó en el proyecto al diseñar numerosas secuencias de acción
Топ-3 самых востребованных IT сотрудника по кибер безопасности.
Вот мне не понятно, почему эти самые гениальные ребята живут и работают в Северной Корее, где заблокирован доступ к интернету. Давно бы уже получили визу талантов в США с таким послужным списком.
И самое любопытное, что практически все украденные миллиарды лежат там, где и лежали в моменты хаков. Они их просто не трогают, следовательно кто вечно разгоняет байки про финансирование чего то там в СК))
#Lazarus
👨💻🪙Lazarus похитили на выходных свыше 290 млн долларов крипты
❗По информации специализированного ресурса TechCrunch, в минувшую субботу хакеры украли у Kelp DAO более 290 млн долларов в криптовалюте, использовав уязвимости в инфраструктуре этой организации.
🇰🇵Согласно предварительным данным, за этой операцией стоит обладающий высокими компетенциями и уровнем поддержки субъект. В качестве наиболее вероятного кандидата называется северокорейская группировка Lazarus или её подразделение TraderTraitor.
📆Кроме того, в текущем месяце произошла ещё одна хакерская атака на децентрализованную платформу торговли криптой, в которой также обвинили северян. Размер похищенного – 285 млн долларов.
🧮По оценкам Chainalysis, с 2016 по 2025 гг. аффилированные с КНДР группы хакеров украли в общей сложности 6,75 млрд долларов в криптовалюте.
#Новости#Корея#Политика#Экономика#КНДР#Крипта#Хакеры#Lazarus
🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤🔤
⭐️ Обновление:
👉Моя геройская академия: Вне закона
Добавлено +5 стикеров
👉Девушки-пони: Серая Золушка
Добавлено +9 стикеров
👉Пламенная бригада пожарных третий сезон
Добавлено +3 стикера
👉Лазарь
Добавлено +10 стикеров
👉Слегка настойчивая тёмная эльфийка последовала за мной из другого мира
Добавлено +7 стикеров
👉Прячься, Макина!
Добавлено +2 стикера
📝#update#MyHeroAcademia#UmaMusume#Fire_Force#Lazarus#YandereDarkElf#MakinaSansALoveBot
👉Anime Arts
❤️Поддержать канал бустом
❤️Заказать стикеры