Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
«Все мужчины одинаковые»: что такое гетеропессимизм
Вы наверняка замечали тренд последних лет — растущую популярность высказываний о «проблемах гетеросексуальности». От мемов «гетеросексуальность — это тюрьма» до движения #boysober в TikTok, где женщины объявляют о «трезвости от мужчин», фокусируясь на саморазвитии. Это явление получило название «гетеропессимизм» — перформативное выражение разочарования в гетеросексуальных отношениях без реального отказа от них
Женщины публично жалуются на отношения с мужчинами, описывая их как безнадежные, но при этом продолжают их поддерживать. Мужчины тоже участвуют в этом дискурсе, создавая свои версии гетеропессимизма, иногда доходящие до крайностей вроде движения MGTOW (Men Going Their Own Way), где провозглашается полный отказ от отношений с женщинами
Однако за шутками и мемами скрывается проблема. Гетеропессимизм часто выглядит как прогрессивная позиция, но на деле может служить просто способом избежать ответственности. Объявляя гетеросексуальность «безнадежной», мы отказываемся от возможности её изменить, превращая структурную проблему в индивидуальную жалобу. Вместо коллективных действий по трансформации гетеросексуальной культуры мы получаем анестезию — временное облегчение от дискомфорта без реального решения
Тем временем до выхода нового выпуска про любовь остался один день, а пока — можете посмотреть наш ролик про дейтинги и как они развязали войну полов 💙
а что вы думали, админка без итогов года обойдется? не обойдется
че получилось
— мне было очень сложно на работе — на грани выгорания в ноль — но я наконец-то освоилась, выдохнула и успокоилась
— текст про феномен «Типичной анорексички» — мой магнум опус, лучше я уже не напишу, только если не нашумевший рейтинг киножурналов
— полноценно камбекнулась с видосами в тиктоке и инсте — преодолеть перфекционизм и тревогу было непросто, но я рада, что поставила это на рельсы. кандибобер кст 10 лямов набрал
— тележку тоже стала регулярно вести, и вас тут теперь больше в 3 раза. прикиньте?
— ну и конечно, биггест флекс — видеоподкаст на Кинопоиске. из всей оравы талантливых интернет-ребят взяли именно меня, и это ахуй
😱
— переехала
что не получилось
— не занялась здоровьем (игнорирую врачей как явление)
— спортом тоже не занялась: 2 (два) раза летом покаталась на велике, неделю поделала с утра зарядку, да и все на этом. жопа выросла на +5 кг, че с этим делать, я пока не ебу
— так и не вернулась в терапию, хотя мне прям очень жестко пора))))))
— очень много идей для ебких текстов / видосов так и осталось нереализованными по причине пунктом выше
— толстую кожу тоже пока не отрастила: все гадости в интернете про себя читаю по сто раз и по сто раз о них потом думаю и расстраиваюсь. еще люди в интернете тупые и злые — это тоже расстраивает.
поинты, к которым я не знаю, как относиться
— романтические отношения сильно подупали в рейтинге приоритетов: мне чет страшно все надоели, дейтинги кринж, ну я и забила и стала заниматься своими делами. никто не умер + отпало желание от тоски бросаться на всякую падаль. #femcel#boysober#winterarc🙏🏻😟🥀
— вкатилась в кризис четверти жизни
— пока не могу до конца сформулировать, кто я, про что я и какие смыслы хочу нести общественности, но тут тоже пока забила. план фигачить, че нравится, до тех пор, пока не разонравится
спасибо, что читаете, ставите классы, комментируете и не срете почем зря 💘 жестко довольна, какая у меня думающая 😬 аудитория тут собирается, вот бы весь интернет такой был….
с наступающим всех!!!!