Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🔥AMV Time
👈 انیمه هایی که در ساخت این AMV استفاده شده است:
Demon slayer
Naruto shippuden
Bungou Stray Dogs
One Piece
Jujutsu Kaisen
Boruto
Sword art online
Attack on Titan
Seraph of the end
Scissors seven
Fog hill of five elements
Akame ga kill
Fate zero
Fate Grand order- Saber war
Fate/stay night Heavens Feel
👈آهنگ استفاده شده در این AMV :
Fall Out Boy - Light 'Em Up
🔐Credit: Devpa (YouTube)
#AMV
🆔@AWrecommend
🔥AMV Time
🎬 انیمه هایی که در ساخت این AMV استفاده شده است:
▪️ Komi Can't Communicate▪️ Charlotte ▪️ Darling In The Franxx ▪️ Kimi no Nawa ▪️ 5 Centimeter Per Second ▪️ The Anthem of The Heart ▪️ Tokyo Ghoul ▪️ A Silent Voice ▪️ Kyoukai no Kanata ▪️ Your Lie In April ▪️ Rascal Does not Dream of Bunny Girl Senpai ▪️ Hibike Euphonium ▪️ Akebi's Sailor Uniform ▪️ To All You I Love ▪️ Wonder Egg Priority ▪️ Super Cub ▪️ I Want to Eat Your Pancreas
🎼آهنگ استفاده شده در این AMV :
Rosa Linn - Snap
🔓Credit: Lun4ki (YouTube)
🔥#AMV
✈️@AWrecommend
Подростком я посмотрел фильм "Воскрешая мертвецов" режиссера Мартина Скорсезе с Кейджем в главной роли, и он настолько меня "пропер" (Ой, да будто здесь кому это неизвестно), что я создал единственный в своей жизни #AMV, выложил разок в вк и про него забыл, а сегодня он мне его подкинул.
#скораяпомощь#фильмы#ночь
БИТВА ЗА ДОНБАСС(до 24.02.2022)
(ПОЛИНА ГАГАРИНА - "КУКУШКА") (реж. АЛЕКСЕЙ КОРАБЛИН)
Съёмка 2015-2016-го года. О том, что реально происходило в ДНР и ЛНР. О наших территориях, которые стучались уже с 11-го мая 2014-го года, к нам, домой. В Россию.
Покажите это тем, кто говорит, что русских на Донбассе защищать не надо было, покажите это тем, кто предлагал отказаться от русских людей на Донбассе.
Покажите это тем, кто спрашивает, зачем нужно было СВО.
#История#Русская_История
#Не_забудем_не_простим
#Мы_помним#Русские_люди
#AMV#Донбасс#Русская_Весна
Архив Мысли | РН
(8 октября 2022 года)