Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
❗️❗️❗️❗️❗️❗️❗️❗️#Imagine
🔥Crea imágenes gratis con la nueva inteligencia artificial que está revolucionando el panorama en Telegram.
Inicia nuestro bot @CleopatraAIBot👑
🥇Únete a la comunidadde Cleopatra AI y vive una experiencia única⤵️
✨Suscríbete al canal en @Cleopatra_AI (Galería de arte de la comunidad y centro de información, novedades y actualizaciones de bot.)
👍Participa en el chat de la comunidad https://t.me/+gIAwZUUtBhxhNjdk
🎉¡Empieza ahora, es gratis!🎉
❗️❗️❗️❗️❗️❗️❗️❗️#Imagine
🔥Crea imágenes gratis con la nueva inteligencia artificial que está revolucionando el panorama en Telegram.
Inicia nuestro bot @CleopatraAIBot👑
🥇Únete a la comunidadde Cleopatra AI y vive una experiencia única⤵️
✨Suscríbete al canal en @Cleopatra_AI (Galería de arte de la comunidad y centro de información, novedades y actualizaciones de bot.)
👍Participa en el chat de la comunidad https://t.me/+gIAwZUUtBhxhNjdk
🎉¡Empieza ahora, es gratis!🎉
#imagine
Generate Black and white Zentangle patterns an exquisite ink drawing of a Zentangle patterns on face full body dark-haired 25-year-old girl A negative of a white wall like a sheet of paper imagine the black decorated Zentangle patterns silhouette of a dots woman with very long, intricate hair with a long braid op-art A visually captivating minimalist artwork featuring the mesmerizing sharp view of a lady with long flowing hair representing graceful romanticismHer Face like an x-ray of a skull of her face, her hair plain flowing long 'hair is Brunette, and oil paint In the style of Low angle, from below view, expressive, vibrant, 3d render, cinematic, photo, painting
@ai_artz🌿
#imagine
Мартин Макдона «Палачи» (Издательства Яромира Хладика, 2020, перевод с английского Павла Шишина)
Удивительное дело, в самом центре Москвы в опальном Гоголь-Центре при полном зале идет спектакль «Палачи» по пьесе Мартина Макдоны (режиссёр и сценарист «Трёх билбордов…», «Залечь на дно в Брюгге», «7 психопатов»). Премьера состоялась в 2019, но в марте этого года пьеса звучит со сцены еще более зловеще. Особенно когда в конце персонажи говорят, что скучают по давним временам.
#imagine
Здорово и неожиданно — в издательстве Livebook выходит книга «Гипербола с половиной» Элли Брош. Книга написана в 2014 году, и казалось, что никто из наших издателей не осмелится (блогер? комиксы? в пейнте? да ладно). Но это не очередной прикольный блог, упакованный в книгу (сколько там подписчиков? авось продадим). Истории Элли Брош больше, чем просто забавные скетчи из жизни и радость узнавания себя в них. В этой книге смех — катарсическое явление.
Через воспоминания персонаж Брош изучает себя: почему я такой хрупкий человек, почему мне страшно, неловко и некомфортно, что со мной не так. В общем, смешно и экзистенциально.
Писала небольшую заметку про эту книгу на Дзене больше года назад: https://zen.yandex.ru/media/abiblio/haos-i-prochie-nepriiatnosti-5d03afc98440a20dc8702b6a.
#imagine
«Нормальные люди» Салли Руни (2018, Синдбад, перевод Александры Глебовской)
Какое-то удивительное количество текстов вокруг этой книги. Мало того, что во всех изданиях и у всех блогеров, так еще я вижу многочисленные отзывы у друзей. Общая культурная повестка — это здорово, нечасто вне книжной тусовки можно найти общую тему, давно такого не было. Да еще сериал вышел и вот новая волна обсуждений (кстати, порекомендую подкаст Кинопоиска «В предыдущих сериях»).
#imagine
«Мортал Комбат и другие 90-е», Евгения Овчинникова (КомпасГид, 2018)
Небольшой сборник трогательных, смешных и точных рассказов про детство в постсоветском Казахстане, объединенных историей возращения в родной Кокчетав. В центре внимания не проблемы взрослых — зарплата пластмассовыми тазами, постоянное отключение газа и электричества, ссоры родителей, а серьезные проблемы детей — как достать последний для коллекции вкладыш Турбо? К другу из какого района пойти, чтобы посмотреть «Мортал Комбат» (электричество отключают по районам)? Как взять автограф у кумира из местного драмтеатра?
Мне очень симпатична героиня книги — деловая, целеустремленная, без соплей и щемящих подробностей. Надо продать ёлочки в мороз значит будем петь песни и продавать ёлочки. Прям как взрослая Евгения в последнем рассказе. Да и в жизни, чего уж там.
#imagine
Мишель Уэльбек «Серотонин» (2019, Corpus, перевод Марии Зониной)
Краткий пересказ: чиновник-агроном бросает свою подружку-японку-извращенку, колесит по Франции, вспоминает женщин, чью жизнь разрушил, наблюдает за катастрофой французских фермеров, за угасанием друга-аристократа и за отпуском немца-педофила. Состояние героя — отсутствие серотонина, в общем, ангедония.
#imagine
Кристен Рупеньян «Ты знаешь, что хочешь этого» М.: Эксмо, 2019. Перевод Е. Ракитиной
Вангую, что с такой обложкой электронных копий должно быть продано больше бумажных.
#imagine
Алексей Сальников «Опосредованно» (АСТ. Редакция Елены Шубиной, 2019)
«Так у литературы эстетическая задача, история какая-то. А у тебя пробирает, – сказал Дмитрий. – Если и относятся к литературе стишки, то разве что опосредованно».
В романе Сальникова поэзия (стишки) — вид наркотиков, за хранение и распространение можно сесть, а поставщики нового товара в почете. Это фон, на котором разворачивается семейно-бытовая драма промышляющей стишками Елены.
Проблема в том, что материализация метафоры стишков на фоне гиперреализма бытовой истории персонажей выглядит особенно синтетично. А главная героиня, которая должна сочетать в себе воплощение обыденности и холодок стишков, выглядит постоянно отстраненной.