Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🇫🇷🇺🇸Вот и шпионский скандал намечается. Как раз на фоне разлада в отношениях Франции и США
Wikileaks сообщает: с 2002 года разведсообщество Соединённых Штатов добывало информацию об экономической деятельности французских компаний, а также об экономической политике и решениях французского правительства.
В частности, Вашингтон интересовало все, что связано с экономическими взаимоотношениями Франции с США, с другими странами и международными организациями, а также аспекты финансовой и торговой политики Франции и ее взгляды на повестки дня G-8 и G-20.
Как говорится, Perfect Timing by Wikileaks
#США#Франция#Wikileaks
@subjective_object - субъективно об объективном.
Enfin ! Une tribune des 5 médias internationaux qui ont publié les révélations de #WikiLeaks pour demander la libération d'#Assange.
Mais dans leur texte, il y a deux phrases qui mettent ENCORE en doute la déontologie de JA.
Mon commentaire en vidéo : https://www.youtube.com/watch?v=SadZVRpNyjM
Voici le lien du communiqué d'Assange dont je parle dans ma vidéo : https://www.wikileaks.org/Guardian-journalist-negligently.html
После пяти лет тюрьмы Джулиан Ассанж наконец вышел на свободу
Высокий суд Лондона освободил под залог основателя WikiLeaks, после чего он направился в Австралию.
Ассанж провел в тюрьме 1901 день, ожидая экстрадиции в США по обвинению в шпионаже, грозившему ему 175 годами тюрьмы. Его освобождение произошло в рамках сделки с Минюстом США, включавшей частичное признание вины.
#ДжулианАссанж#WikiLeaks
СТОП! СЛИТО.💦
Человеку чести, борцу за правду Джулиану Ассанжу грозит в прямом смысле слова смертельная опасность.
Британский суд отказался отложить до следующего года рассмотрение дела об его экстрадиции. В случае принятия судом решения об экстрадиции в США Ассанжу грозит 175 лет тюрьмы.
Запрос о переносе слушаний направили адвокаты основателя #WikiLeaks
«Слушания по делу об экстрадиции Ассанжа возобновили накануне в Лондоне. Они должны были начаться еще в мае, но из-за коронавируса COVID-19 заседания пришлось перенести. Австралиец впервые за последние месяцы присутствовал на слушаниях лично.
Напомним, американский минюст обвиняет Джулиана Ассанжа в шпионаже и раскрытии секретной информации.
#FreeAssange
Сын спрашивает у отца:
- Папа, что такое глобализация?
- Это когда австралийский журналист на деньги и по заданию израильской разведки открывает на американской платформе сайт для легализации оперативных данных "Моссад".
Его обвиняют в изнасиловании кубинка и шведка, после чего он арестован британцами по запросу из Швеции.
Также он прячется в посольстве Эквадора, опасаясь выдачи британцам и экстрадиции в США.
Но его всё равно выдают и сажают в тюрьму. В конце концов его освобождают из тюрьмы, а больше всего этому радуются в России. #Ассандж#WikiLeaks
A chorus of voices from Latin America warmly welcomed the news of Wikileaks founder Julian Assange’s release from jail. His work exposing US war crimes and meddling in countries' political affairs saw him earn support from progressive leaders.
Full story: https://venezuelanalysis.com/news/justice-will-always-prevail-venezuelas-maduro-celebrates-assange-freedom/
#Assange#Wikileaks#PressFreedom#LatinAmerica
☄️Телеграмм. Франция. Дуров
WTF?!?
Ну что тут сказать?!
🗣Мы говорим, что в нашей стране много чего нельзя, долго обсуждаем признание BRIEF иноагентом, различные центры признаются экстримистскими, но...
⚖️...в России, после введения закона об иноагентах, ими признаны 569 организаций или физических лиц. В Великобритании только в 2024 году — 440!
Почувствуй разницу, что называется.
‼️Что же касается ареста Павла Дурова, как гражданина России и гражданина мира — то это беззаконие с моральной точки зрения, но вполне укладывается в правовую систему любого государства. Такое же, как и с Джулианом Ассанжем! Вопрос только как себя государство — поборник справедливости, демократии и свободы слова позиционирует.
Пятая Республика 🇫🇷 не перестает удивлять!
🚫Свобода слова в мире, как и само понятие демократия давно уже перестали соответствовать своим значениям!
...Я чувствую: не принимает тебя чужая земля
— В.В. Жириновский
#лдпр
#FreeDurov
#FREEPAPA
#жириновский
#ввж
#телеграм
#telegram
#BRIEF
#WikiLeaks
Александр Фомин – подписаться