Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
⚫️ У правящей партии мысль об европейской интеграции переводится просто: униря. Ткачук рассказал о "проевпропейскости" PAS и Ивана Чебана.
◻️ О PAS:
"Я не верю в проевропейскость правящей партии, потому что это чистая геополитика. ... У нас же теперь всё про геополитику. При этом мы существуем в условиях чрезвычайного положения, в условиях внесудебных санкций и решений, причём секретных, в условиях цензуры. Мы существуем в условиях, когда над Конституцией издеваются, как хотят. Мы существуем в условиях, когда спецслужбам предоставляются права Третьего жандармского управления времён Николая II..."
◻️ О Чебане:
"Его европейская интеграция видна. При всём том, что Чебану иногда хочется бежать впереди паровоза и биться головой об пол, и кричать: "Я свой, я буржуинский!" При этом мы видим определённые проекты, форумы, мероприятия..."
#гражданскийконгресс#congresulcivic
✅Перед выборами Санду обещала лично договариваться о газе.
👉Из предвыборной программы кандидата в президенты Майи Санду:
"Проведу переговоры с Россией с целью разрешения проблем, связанных с поставкой природного газа по конкурентоспособным ценам».
✅Провела? Нет, Санду заявила, что это не её дело, а договариваться должны хозяйствующие субъекты.
🟥Результат известен: за её нарушенное предвыборное обещание и за её геополитические комплексы платим все мы, причём, ежемесячно.
#гражданскийконгресс#congresulcivic
❗️Михаил Полянский, член Исполкома Гражданского конгресса, отмечает, что в Молдове ввели ЧП не из-за долгов, а из-за некомпетентности высшего руководства страны: «Потому что тема аванса, частичной предоплаты за потреблённый газ – это не нововведение».
«Власти просто забыли про условия договора. И если у экономического агента нет денег, то правительство должно вмешаться. Иначе пострадают граждане страны. И тут следует понимать, что государство может сделать всё что угодно (соблюдая законную процедуру): и дать денег экономическому агенту, и одолжить... Только решать вопрос надо вовремя, а не когда сотрудники «Газпрома» уже подошли к вентилю газовой трубы», - пишет Полянский.
▫️Он подчеркнул, что за жизнь и здоровье граждан отвечает не хозяйствующий субъект, а государство.
"Если страна погружается в хаос, то спрашивать, по-моему, нужно именно с властей. Особенно в ситуации, когда по их вине, из-за отсутствия логики в действиях, происходит этот цирк», - подчеркнул он.
#гражданскийконгресс#congresulcivic
💬«Важно понимать, что не существует просто приднестровской проблемы между Кишиневом и Тирасполем, есть вопрос сохранения молдавской государственности и ее независимости.
Для кого это не пустые слова — приднестровский вопрос является принципиальным. Для тех, кому независимость не нужна, Приднестровье — чемодан без ручки, от которого надо избавиться и провести границу по Днестру», - отметил Марк Ткачук, комментируя для Коммерсанта, назначение Олега Серебряна на должность вице-премьера по реинтеграции.
#гражданскийконгресс#congresulcivic
⚡️ «Совершенно не ясно, как долго будет тепло в домах и не окажемся ли мы в условиях двойного чрезвычайного положения. И по газу, и по пандемии.
Так что десяткам тысяч наших граждан, судя по всему, лечить пневмонии придётся в холодных домах и в неотапливаемых больницах. Это фиаско»,
- Михаил Полянский, представителель Исполкома Гражданского конгресса.
#гражданскийконгресс#congresulcivic
◽️ Политическая партия «Гражданский конгресс», которая пытается исповедовать подход нового типа (коллективное действие) после полугодового перерыва оправилась от поражения на выборах и собрала не только представительное мероприятие, но и мириады откликов на него в прессе, передает eNews.
#congresulcivic#гражданскийконгресс
❗️Igor Boțan a participat, la finele anului trecut, la ședința deschisă a plenului Partidului Acțiunii Comune „Congresul Civic”.
Comentând alocuțiunea lui Mark Tkaciuk, el a declarat că „Congresul”, potrivit observațiilor sale, pledează pentru trei importante transformări ale societății moldovenești. Prima dintre ele: cetățenii trebuie să înceapă a administra viața politică, relateaza Tribuna.
#congresulcivic#гражданскийконгресс
🤟"Давайте вместе откажем каким-то людям в возможности жить за наш счёт! То есть, быть каннибалами в социальном смысле! Давайте учиться проявлять солидарность не только по политическому признаку"
#congresulcivic#гражданскийконгресс
👉Результат «Гражданского конгресса» на парламентских выборах Иван Грек объяснил тем, что «наш избиратель, давно расфасованный по геополитическим корзинам, никак не может быстро и решительно обратить свой взор на тех, кто предлагает ему взглянуть на самих себя, на свое государство, на его и свое будущее».
#гражданскийконгресс#congresulcivic
⚡️Гражданский Конгресс заявляет: больше человеческих жертвоприношений быть не должно. Мы считаем, что мы – граждане Молдовы – приносим эти жертвы не от того, что мы бедные.
А мы бедные от того, что готовы всякий раз поступиться самым дорогим, чем нас наградила природа и история – жизнью и социальной свободой.
#congresulcivic#гражданскийконгресс