Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#release v12.6.4 a13c5e1229 r1128
Added:
- Marquee in Momo settings for long option texts
- Optionally confirm secret chat when there's a new incoming request
Fixed:
- Some real "GIF" being not playable
- Spoilers not applied on blocked users
Note. This will be the last build using the package name nekox.messenger.broken
#release v12.6.4 006a5be2b4 r1127
Added:
- Extend original force old topic view to default, force classic view and force tab view
- Switch between accounts from chat list menu
Fixed:
- Follow server behavior for vote count preview (no more count before actual vote, you can thank Durov's pets for that)
- [COT] thinking process in TranslateAlert3 not trimmed
- zh_cn strings used when zh_tw is selected
#release v12.5.1 adb88e8006 r1123
- Fixed a minor UI issue
- Switch to MapLibre for map views
- Update Cloudflare token length check to support new token (Thanks MrKristofere@GitHub)
#release v12.4.1 a3fd6d67a5 r1121
Added:
- Partial support for preserve link entities for translated messages (results may vary between languages and translate services used)
Fixed:
- Bottom padding for undo view in chat list
PS. I recently lost my job, so any financial support is appreciated. If you can't donate, starring the repository or contributing improvements is also greatly appreciated.
🎧Погружение в историю Башкирии через джаз-рок
Исполнитель
«Фирма Мелодия» переиздает пластинку, впервые вышедшую во времена позднего СССР, в 1990-м году. Альбом «Ансамбль “Орлан”» стал дебютной и самой известной записью уфимского коллектива под управлением Олега Киреева.
История «Орлана» связана с разными периодами в жизни страны. После ограничений для джазовых музыкантов в середине XX века последовали осторожные разрешения на исполнения и фестивали. По словам историка джаза Алексея Баташёва, коллективы почти принуждали работать с народными мелодиями и вплетать их в произведения. Как только контроль ослаб, многие ансамбли избавились от этого приема, а джаз, смешанный с народными мотивами, двинулся из центральных городов на восток. Где, например, в Уфе и появился ансамбль «Орлан».
Музыка
Олег Киреев, не чувствовал давления и свободно экспериментировал: «Джаз – ближайший родственник фольклора, а потому нас интересуют народные традиции, то, что живо вокруг нас, хотя и от джазовой классики мы ни в коем случае не отрекаемся». Свой основной инструмент, саксофон, Киреев обрел почти случайно: в предперестроечные годы в музыкальном училище был высокий конкурс на все специальности, кроме саксофона. Первый собственный коллектив Киреев собрал в 1984-м, а сделавший его известным в СССР и за его пределами «Орлан» – в 1986-м.
Мысль остановиться на джаз-фьюжне, пропитанном национальными мелодиями, пришла сама собой. «На праздниках была традиция, которой сейчас уже нет: родственники […] начинали петь – башкирские, татарские, русские песни, всё вперемешку. Народная музыка окружала нас повсюду», – позже говорил музыкант.
Мнение
«Башкирские легенды», родившиеся из одноименной концертной программы, не только звучат непривычно – тут есть, например, микс горлового пения и саксофона, – но и имеют небанальную историю. «Легенды» ездили по фестивалям, и в Днепропетровске ансамбль познакомился с Алексеем Баташёвым, историком и популяризатором джаза. Тот позвал музыкантов в Москву, где они записали весь материал всего за два дня в студии «Мелодии». Киреев называл процесс «мини-спектаклем, погружением в историю Башкирии через джаз-рок» и считал, что на записи им «каким-то чудом удалось воссоздать атмосферу, которая была на концертах». Эта запись стала их единственной студийной работой.
Денис Бояринов
Спустя почти 35 лет «Мелодия» вновь издает «Башкирские легенды» на виниле.
→ Слушать
#release
#release v12.3.1 3abc7c7194 r1117
- Force padding for unrounded floating button in chat
- View message history from member list of chats with admin privileges