Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🐶Lost Dogs:The Way👣
Today we need to choose the “average” card. Will Rex go on the expedition?
1. Expedition is On🧗♂️
2. Expedition is Off🚫
3. He Went Alone🌲
I think He Went Alone🌲 will be the average choice.
👉Let’s join the next battle!
Share your thoughts in the comments!
➖
📣Stay tuned! Subscribe!
➖
#lostdogs#crypto#cryptogame
🐶Lost Dogs: The Way 👣
Today we need to choose the “average” card. How will the dogs deal with the infected?
1. Quarantine 🧪
2. Do Nothing 🛑
3. Kill the Infected ⚔️
I think Quarantine 🧪will be the average choice.
👉Let’s join the next battle!
Share your thoughts in the comments!
➖
📣Stay tuned! Subscribe!
➖
#lostdogs#crypto#cryptogame
➖
🐶Lost Dogs:The Way -
🏆Last Round’s Winner: Survival Kit🧰
📝New Challenge: What will the Cat do next?
(Find the unpopular card)
1. To Wash 🧼
2. Track Down Gavkus 🐾
3. Summon Darkness 🌑
🔍 Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
🐶Lost Dogsis officially out!
This is not just another slipper. This is a community driven story where you can mine the new $WOOF token.
The season will last only 6 weeks!
🤪Join our clan, as usual we will try to rise to the top and earn more $NOT
The team has released a useful guide, thanks to which you can understand the game and its interesting plot, which you control yourself!
Play here @lost_dogs_bot
#Notcoin#GameFi#LostDogs#TON#NOT
🐶Lost Dogs:The Way -
🏆Last Round’s Winner: Fireworks🎆
📝New Challenge:
Which tactic to choose? (Find an average card)
1. Surround 🌀
2. Frontal Attack 🚀
3. Fake Retreat 🎭
🔍Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶Lost Dogs:The Way -
🏆 Last Round’s Winner: Decryption Machine
📜New Challenge:
How to handle the new information? (Find the average card)
1. Tell Everyone 📢
2. Hide the Truth 🔥
3. Defuse 🛡️
🔍Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶Lost Dogs:The Way -
🥇 Last Round’s Winner:
The winning card in the last game was Go Underground🌿
🚀New Challenge:
What truth will the Resistance reveal? (Find the average card)
1. Greed of the Cult 🪙
2. About Religious Lies 📖
3. How to Resist 🛠
🔍Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶Lost Dogs:The Way -
🥇 Last Round’s Winner:
The winning card in the last game was Kidnap🐾
🚀New Challenge:
How can Resistance continue the fight? (Find the unpopular card)
1. Invite Newcomers 👥
2. Go Underground 🌿
3. Pirate Radio 🎙
🔍Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶Lost Dogs:The Way -
🏆 Last Round’s Winner: The winning card in the last game was Fend Off in Battle! 🛡️
🚀New Challenge:
How should the Resistance Dogs handle the newly born mutant messiah? (Find the average card) 👣
1. Kidnap 🐾
2. Kill ⚔️
3. Unveil the Origin 🔍
Analyze carefully before making your choice!🧐
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶Lost Dogs:The Way -
🏆 Last Round’s Winner: The winning card in the last game was Wisdom! 👣
🚀New Challenge:
How will they rescue Genghis Gaf, and will they?
1. Fend Off in Battle🔥
2. Stay Low 🏠
3. Rescue Secretly 🤘
Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶🐶Lost Dogs: The Way - 🏆Last Round’s Winner: The winning card in the last game was Fight Back!👣
🚀New Challenge:
What are the dogs expecting from their beloved wizard's performance?
1. Underground Firework 🎆
2. New Day 🌅
3. Existence’s Purpose 🔮
Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming
🐶Lost Dogs: The Way -
🏆Last Round’s Winner: The winning card in the last game was Secret Comlink! 👣
🚀New Challenge:
What should the dogs do during the raid?
1. Fight Back🥊
2.Run Away🏃♂️
3.Negotiate🤝
Analyze carefully before making your choice!
🔔Subscribe👉Join Lost Dogs
—————————————————
#lostdogs#crypto#dogs
#cryptogame#nftgaming