Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
«Я в основном играю таких суровых парней в боевиках. Может быть, это потому, что я в жизни нежный и романтичный. Я не люблю драться, не люблю влипать в неприятности, и поэтому мне интересно играть свою противоположность в кино».
Сегодня Дольфу Лундгрену исполнилось 68 лет.
#ВИДЕОТЕКА
#DolphLundgren
#RockyIV
#ThePunisher
#ShowdownInLittleTokyo
#UniversalSoldier
#MenOfWar
#JohnnyMnemonic
#Blackjack
#TheExpendables2
#Creed2
#Aquaman
«Ледяной драйв 2: Возмездие» (2025). Режиссер — Джонатан Хенсли.
Лиам Нисон впервые со времен «Заложницы» снялся в продолжении своего же фильма. Конечно, лет 30 назад наши пираты запросто могли бы все его боевички объединить в несуществующую франшизу, как это уже было со Стивеном Сигалом и его «Нико». Но на самом деле сиквелы его картины получают не так уж и часто. Первый «Ледяной драйв» оказался вполне себе симпатичным приключенческим триллером в духе классической «Платы за страх», и даже стал некой отдушиной в нашем постковидном прокате лета-2021. Так что вторую часть ожидал с интересом.
К сожалению, сиквел является еще одним типичным боевичком с Лиамом Нисоном последних лет — весьма скромным по качеству. Той самой атмосферы оригинала здесь практически нет, зато добавили побольше невыразительных перестрелок с нарисованными при помощи CGI выстрелами. Скучно, пусто, одноразово. И даже дуэт Нисона и Фань Бинбин это унылое зрелище никак не спасает. Но хотя бы обошлись без постельных сцен в семейных трусах — и на том спасибо.
«Крайне опасен» («Разыскиваемый») (2024). Режиссер — Дольф Лундгрен.
А вот эта режиссерская работа от легендарного шведа приятно удивила. Вы не ошиблись, это боевик категории Б, где Лундгрен снимается уже давно, но старательный и крепко сбитый. Как известно, последние несколько лет Дольф сражался с раком, и здесь он как нельзя кстати подошел на роль потрепанного жизнью возрастного полицейского, которому пришлось защищать свидетельницу от картеля и коррумпированных коллег. Историю компактно уложили в полтора часа без каких-то серьезных косяков, а разыграть ее помогли еще один ветеран «бэшек» Майкл Паре и Келси Грэммер собственной персоной. Вот уж кого неожиданно было увидеть в таком образе и такой роли. В общем, получилось вполне смотрибельно.
«Каратэ-пацан: Легенды» (2025). Режиссер — Джонатан Энтвистл.
Этот фильм я ждал. Идея продолжить одновременно и ремейк, и оригинал (и, соответственно, недавно завершившийся сериал «Кобра Кай») показалась мне как минимум любопытной. И посмотрел его уж точно не зря. Ну да, рассказ получился, может быть, слишком клиповым и скомканным, но как легкий молодёжный фильм о боевых искусствах с правильной мотивацией кино вполне сгодится. Героя Джеки Чана в оригинальную историю о Мияги и ЛаРуссо встроили органично, да и просто видеть его вместе с Ральфом Маччио было приятно. Продолжение я бы посмотрел, тем более, что кассовые сборы на это вроде бы рассчитывать позволяют.
#ВИДЕОТЕКА
#ВИДЕОТЕКАДайджест
#ЛедянойДрайвВозмездие
#LiamNeeson
#ЛиамНисон
#ДольфЛундгрен
#КрайнеОпасен
#DolphLundgren
#KelseyGrammer
#КелсиГрэммер
#КаратэПацанЛегенды
#JackieChan
#ДжекиЧан
#РальфМаччио