Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🟢¡ESTOS INVITADOS SI LE DAN PESO AL TORNEO!👀🔥
A través de sus redes sociales, la organización de FISSURE anunció a 9 de los 11 equipos invitados directos para la 🏆FISSURE PLAYGROUND 2 🤯
🔹Estos equipos son:
-🇯🇴FALCONS
-🇸🇪TEAM LIQUID
-🇪🇺TUNDRA
-🇱🇧NIGMA GALAXY
-🇧🇷HEROIC🇵🇪
-🇷🇺PARIVISION
-🇷🇺TEAM SPIRIT
-🇷🇺AURORA
-🇷🇺BB TEAM
🔸Aún falta conocer a 2 invitados directos.
-Las clasificatorias para este torneo están en curso.
-Para las clasificatorias, SA y NA es una sola región al igual que SEA y CN. 🫡
#Tinbet#esports#dota2#FISSURE#Playground
@Info_Dota2
🟢 ¡QUÉ TAL VOLTISH! 🤯🔥
🏆FISSURE PLAYGROUND - GRAN FINAL
-🇪🇺Tundra es el campeón de la FISSURE PLAYGROUND #1, remontando un 2 a 0 a favor de Falcons. 🥳 Madachyo ha demostrado que no era el problema. 😎
#dota2#esports#tinbet#fissure#playground
@Info_Dota2
🟢 ¡¿ESTA DESPERTANDO EL PRIME DE MADARACHYO?! 👀🔥
🏆FISSURE PLAYGROUND - Playoffs
-El 🇪🇺Tundra de Dyrachyo no mostró piedad alguna contra el 🇷🇺Team Spirit de Yatoro y aseguró el TOP 3 en el primer torneo internacional del año 😮
🔹TUNDRA avanza a la final de Upper Bracket.
-Team Spirit cae a la lower bracket.
Ahora se viene una partidaza por cierto. 🫢
⚔️SIGUE:
-🇷🇺BB Team vs 🇯🇴Falcons // Bo3
#esports#dota2#FISSURE#playground#Tinbet
@Info_Dota2
🟢¡SEA SE AFERRA A EL SUEÑO DORADO! 🤯🔥
🏆FISSURE PLAYGROUND - Swiss Stage
-🇵🇭Talon Esports logró voltearle la serie a la escuadra de 🇪🇺AVULUS y se convierte en el sexto clasificado a los PLAYOFFS de esta FISSURE 👀
🔹El AVULUS de Sonneiko queda eliminado del torneo.
#esports#dota2#FISSURE#playground#Tinbet
@Info_Dota2
Multipurpose Court Project
Bishoftu,Ethiopia
Construction on the new basketball court at Hibret (Tokuma) Elementary School is progressing smoothly and is nearly halfway complete. We're excited about the progress and are on track to achieve our goal.
Your support is crucial to ensure the project's successful completion.
Our goal is to create a vibrant playground for the children of Hibret School.
Play is not a privilege; it's a life skill. Every child deserves a place to play!
To contribute and support us please contact us at:
[email protected]
#Playground#AllDeserveToPlay
#Rotaract_Kuriftu
#Rotary
#100yearsofserviceinafrica
#Rotaract
#District9212
#RotaractEthiopia
Follow Us:
Facebook | Twitter | Instagram | Telegram | LinkedIn
#typescript#aurelia#cross_platform#csharp#database#desktop#dotnet#editor#electron#ide#linux#macos#playground#roslyn#tauri#windows
NetPad is a tool that lets you write and run C# code easily without creating projects. It helps you prototype, test code, visualize data, and query databases. You can use it to learn C# or experiment with new features. NetPad is available on Windows, macOS, and Linux, making it useful for developers across different platforms. It offers features like code completion, syntax highlighting, and the ability to add NuGet packages, making coding more efficient and accessible.
https://github.com/tareqimbasher/NetPad