Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#Jpop
About a month ago we announced that we're looking to expand our moderation team. A big thank you to everyone who responded and offered their services!
The search is now over! Please welcome our three new victims moderators that will keep this place in order, so that everyone can easily find the torrents they need and marvel at how pretty everything is. And these people are:
Y***
A***
S*******
xvlse0l.jpg
Yaaaaay!
雞泡泡
大約一個月前,我們宣布我們正在尋求擴大我們的審核團隊。 非常感謝所有回复並提供服務的人!
搜索結束了! 請歡迎我們的三位新受害者主持人,他們將把這個地方整理好,這樣每個人都可以輕鬆找到他們需要的種子,並驚嘆於一切都很美。 這些人是:
Y ***
一個***
小號*******
xvlse0l.jpg
Yaaaaay!
名称:URU THE BEST 2020 - 2024 FLAC 16bit 44kHz
描述:《URU THE BEST 2020–2024》是日本歌手URU官方数字精选辑,收录2020–2024年代表作22首。她以空灵嗓音、诗意编曲和极低曝光度闻名,音乐以钢琴为骨架,融合环境音效,风格温柔治愈。专辑不只是商业精选,更是封存情感的时间胶囊,2023年与Ayase合作的《Saikai》助其破圈,被乐评称作“2020年代最安静的杰作合集”。
链接:https://pan.quark.cn/s/8404dc7b0485
📁 大小:649MB
🏷 标签:#无损音乐#音乐#jpop