Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Tech quiz master
#phone
ℹ️ Ham IT ni ham ingliz tilini o'rganaman deganlar uchun mobil dastur (android). Ancha vaqtlar bu dastur pullik edi, bugun bepul turibdi!
✅ Ushbu dasturda turli darajalarda IT va kompyuter sohasiga oid testlarni ishlaysiz. Faktlar bo'limida esa faktlarni ko'rishingiz mumkin.
⬇️Play Marketdan yuklash
💻 Kompyuterni birga o'rganamiz ⤵️
🛫Telegram I 📺YouTube
Red
Redirect outgoing calls to Signal/Telegram/Threema.
Tiny app to redirect outgoing calls to Signal/Telegram/Threema if available.
You can cancel redirection by clicking on "Redirecting to.." popup.
Download - https://github.com/x13a/Red/releases
https://github.com/x13a/Red
#new#phone
@foss_Android
UNIWA X28 Old Man Flip #Mobile#Phone GSM Senior Big Push-Button Flip Phone Dual Sim FM Radio
Price 24€
Place your order
https://s.click.aliexpress.com/e/_EwCPskl
#bootloader unlock wall of shame
https://github.com/melontini/bootloader-unlock-wall-of-shame
updated guide, check it before buying a #phone
Over the past few years, a suspicious number of companies have started to "take care of your data", aka block/strictly limit your ability to unlock the bootloader on your own devices.
While this may not affect you directly, it sets a bad precedent. You never know what will get the axe next: Shizuku? ADB? Sideloading? I thought it might be a good idea to keep track of bad companies and workarounds.
#android
🪫🔋RealMe presented the world's fastest charger. Charge up to 26% in 1 minute. Full charge up to 100% in 4 minutes and 30 seconds.
#Realme#Charger#Phone
MARKHEMIST
#phone#art
#wallpaper#wallpapers
Wallpaper
https://t.me/Wallpaper
HD-4K-8K-3D
https://t.me/wallpapers
wallpapers
https://t.me/EZwalls
Mobile phone
https://t.me/Wallpapers_Phone_HD_4k_3D_Mobile
smart paper art
https://t.me/swadt
Residents report #phone, #internet#outages in #North_Shewa Zone, leaving families struggling to stay connected
Residents in several districts of North Shewa Zone of the #Oromia region say recent disruptions to mobile phone and internet services have left families unable to communicate, heightening concerns among civilians and students struggling to reach relatives in affected areas.
Residents who spoke to Addis Standard said the communication disruption began weeks ago and has made it difficult to obtain information about the safety and well-being of family members.
This is not the first time communication blackouts have affected the North Shewa Zone. In 2024, residents also reported data outages and network disruptions across parts of the zone in the Oromia region, with some saying the communication blackout persisted for nearly two months amid ongoing insurgency-related security concerns.
https://addisstandard.com/?p=55093