Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🟢 Razer o‘zining ilk afsonaviy o‘yin sichqonchasi Boomslang’ni qayta chiqaradi — yangilangan ichki texnologiyalar va cheklangan sonli kolleksion nashrda
📅 2005-yilda taqdim etilgan BoomslangPC-gaming uchun maxsus yaratilgan dunyodagi birinchi sichqoncha bo‘lib, o‘yin periferiyasining butun bir sanoatini boshlab bergan edi. Endi kompaniya uning 20 yilligiga bag‘ishlab Razer Boomslang 20th Anniversary Edition'ni taqdim qildi.
✅ Tashqi ko‘rinishi deyarli o‘sha klassik shaklda qolgan, ammo ichki qismi to‘liq zamonaviylashtirilgan: Focus Pro 45K Gen-2 sensor, Gen-4 optik tugmalar, 45 000 DPI gacha qo‘llab-quvvatlash, HyperSpeed wireless, 8000 Hz polling rate va zaryadlovchi dok-stansiya. Korpus yarim shaffof, 9 zonali RGB yoritishga ega, istalgancha qo‘shiladigan shisha oyoqchalar bilan.
🖱 Vazni va narxi hozircha oshkor qilinmagan. Ma’lum bo‘lgan yagona narsa — Razer atigi 1337 dona chiqaradi va har bir sichqoncha o‘ziga xos raqamga ega bo‘ladi.
➡️#razer | Birinchi IT-Blog
🔥 Geymerlar uchun yangi kreslo chiqadi
ℹ️Trashbox.ru xabariga ko‘ra, Razer kompaniyasi ichki qizdirish va sovutish texnologiyasiga ega bo‘lgan kresloni tayyorlamoqda. Bu texnologiya haroratni foydalanuvchiga mos ravishda nazorat qiladi.
🌡 Qurilma iqlim sharoitiga qarab avtomatik ravishda qizitish yoki sovutish funksiyalarini ishga tushiradi. Bir nechta rejim orqali foydalanuvchi o‘ziga mos haroratni tanlashi mumkin. Smart monitoring texnologiyasi esa atrof-muhit sharoitini tahlil qilib, qulaylikni maksimal darajada saqlab turadi.
💸 Narxi $1500-2000 bo'larmish.
➡️#razer | Birinchi raqamli IT-Blog
Top Tech Announcements from CES 2025
🔍CES 2025 Highlights:
1. Roborock & Dreame: New vacuum robots with robotic arms, lifting items up to 500g.
2. Lenovo: Introduced ThinkBook Plus Gen 6 with expandable OLED display, from 14 to 16.7 inches.
3. Nvidia: Launched RTX 50 series, featuring DLSS 4 for significant performance boosts.
4. SwitchBot: Unveils modular robot K20 Plus Pro, combines various home tasks.
5. Razer: Debuted Project Ava, a real-time gaming assistant chat-bot.
6. Dell: Introduced a 32-inch QD-OLED monitor that adapts sound to user's head position.
7. TCL: Showcases Ai Me, a companion robot with interactive features.
8. Based Hardware: Reveals Omi, a wearable device with a neuro-helper powered by GPT-4.
9. Withings: Presents the Omnia smart mirror, integrating health data from wearables.
10. Halliday: Launches smart glasses with real-time translation capabilities.
#CES2025#TechAnnouncements#Robots#AI#Nvidia#Gaming#Wearables#SmartHome#Lenovo#Roborock#Dreame#Razer#Dell#TCL#SmartGlasses#HealthTech#Innovations#Gadgets#VR#ComputerHardware#VC