Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Zinaida Greceanîi candidează pentru un nou mandat în Parlament
📍 RISE Moldova a documentat conexiunile din familia Greceanîi: interese personale, afaceri și funcții publice.
🏠 A făcut schimb de case de milioane cu fiul, în suburbia Chișinăului.
🏦 Soțul - implicat în scandalul cu credite de la Banca de Economii, printr-o firmă care n-a mai returnat banii.
🇷🇺 Iar fiica - fostă angajată la stat, dar cu pașaport rusesc obținut în timp ce lucra la Ministerul de Externe.
👉 Citește profilul complet al candidatei
____________
#verificatdeRISE#parlamentare2025
📍 Igor Dodon vrea din nou în Parlament.
În octombrie 2021, Dodon a renunțat la mandatul de deputat. La scurt timp, a fost reținut de procurorii anticorupție, plasat în arest la domiciliu și obligat să nu părăsească țara până în vara lui 2023.
Acum, liderul Partidului Socialiștilor este judecat în trei dosare penale:
⚖️ Dosarul „Kuliok”
Acuzat că a pretins și primit între 600.000 și 1 milion de dolari pentru salarii în partid. Tot atunci, ca președinte, negocia o coaliție PSRM–PDM cu emisari de la Moscova.
⚡ Dosarul Energocom
În 2008, din funcția de ministru al Economiei, a semnat un aviz care a dus la pierderi de aproape 12 milioane de dolari pentru stat. Banii ar fi ajuns pe conturi offshore.
📄 Dosarul documentului fals
Dodon, soția lui și un medic sunt acuzați că au falsificat și folosit un document oficial.
👉 Citește aici profilul integral al lui Igor Dodon: https://profiles.rise.md/profile.php?id=190127114043
____________
#verificatdeRISE#parlamentare2025
💼 𝗔𝗽𝗮𝗿𝘁𝗮𝗺𝗲𝗻𝘁𝗲 𝗽𝗿𝗶𝗺𝗶𝘁𝗲 𝗽𝗿𝗶𝗻 𝗱𝗼𝗻𝗮𝘁̦𝗶𝗶
Irina Vlah, candidata Blocului Patriotic, a fost inclusă recent pe lista de sancțiuni a Canadei pentru interferență malignă a Rusiei în Moldova. Ulterior, autoritățile i-au blocat conturile bancare. 🚫💰
🏠 Fiica sa, 👤 Anna Vainșencher, a primit un apartament cu 3 camere în Chișinău, chiar în anul în care Vlah câștigase al doilea mandat de bașcană a Găgăuziei. Imobilul a venit din partea unchiului, un om de afaceri cu datorii de milioane.
🏠 La rândul ei, 👤 Irina Vlah a primit un apartament cu trei camere în același cartier, donat de mama sa.
Vlah promovează deschis agenda Kremlinului. În 2015 ea declara: „Chemăm toți locuitorii din Găgăuzia, toți patrioții autonomiei noastre, să susțină echipa noastră și să voteze pentru un viitor demn alături de Rusia”.
👉 Profilul complet al candidatei pe People of Interest, o platformă interactivă dezvoltată de RISE Moldova.
#verificatdeRISE#parlamentare2025
📍 Vladimir Voronin vrea un nou mandat de deputat la 84 de ani.
🕵️Din actualul fotoliul de deputat, a criticat introducerea în Constituție a sintagmei „limba română” în locul „limbii moldovenești”.
⛔ În toamna anului 2024, a declarat că Partidul Comuniștilor va vota „împotrivă” la referendumul privind integrarea europeană.
🗳️ La alegerile prezidențiale din octombrie 2024, Voronin și PCRM l-au susținut pe Vasile Tarlev.
Citiți mai multe despre candidatul la funcția de deputat: https://profiles.rise.md/profile.php?id=190203105605...
_____________
#verificatdeRISE#parlamentare2024