Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
✅✅ MacBook ekraniga jonli oboy qo‘ymoqchimisiz?
😌 Endi bu oson. Mac uchun animatsion fonlarni o‘rnatadigan zo‘r dastur topib qo'ydim — va eng muhimi, kompyuter ishlashini deyarli pasaytirmaydi.
🔢 Dastur Swift’da yozilgan, shu sabab haqiqiy native ilovadek ishlaydi: hammasi silliq va muammolarsiz.
🆓 Dastur to'liq bepul, ro‘yxatdan o‘tish ham shart emas, reklama ham yo‘q. Hatto bir nechta monitor ulasangiz ham, animatsiya barcha ekranlarda ishlaydi.
Va uni ish stoli foniga ham, lock screen’ga ham qo‘yish mumkin.
⬇️Yuklab olish
📊Bizning barcha loyihalar | #macbook
消息称平价版苹果 MacBook 笔记本不会采用塑料外壳,有望下月上市
苹果将推出平价版 MacBook,外观更活泼,吸引年轻用户。该产品将采用浅黄色、浅绿色等颜色。苹果希望这款产品能吸引学生群体,培养更多年轻的 Mac 用户。
标签:#MacBook
Created by RocM
官方频道:@rocCHL
官方群组:@roctech
官方合作:@rocmmbot
消息称苹果低价版MacBook屏幕尺寸小于13.6英寸,有望2026年第一季度上市
苹果有望在2026年第一季度推出屏幕小于13.6英寸的低价版MacBook。该产品预计会搭载A18 Pro芯片(性能略优于M1),成为数字款iPad的升级替代,适用于网页浏览、文档处理、编辑、剪辑等工作。外观预计类似现款iMac,有银色、蓝色、粉色和黄色可选。售价将远低于1000美元,部分组件配置比其他Mac产品较为落后,屏幕尺寸小于现有MacBook Air
还记得12英尺的MacBook吗,卡到姥姥家了……
标签:#MacBook
Created by RocM
官方频道:@rocCHL
官方群组:@roctech
官方合作:@rocmmbot