Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
💳Cool HASHKEY airdrop from DejenDog!
With an interesting interface and a fixed supply of 1 billion tokens (whitepaper here), ...of which 👀300 million👀 will be distributed through the tap-to-earn airdrop game.
🔔Register here:
https://t.me/DejenDogBot?start=d5fe615a
🥊Pssst. There’s a little ha¢k: Register and immediately click the "Harvest All $HIT" button. Complete a simple social task, earn over a million, and then go to the "Prize" button. Level up your dog by clicking "Lv up max," and jump straight to Level 11. Repeat this 4 times in a row, and you'll reach Level 41 with a leveled-up dog. Congratulations, you're just a step away from Level 50, where you can start earning $HSK Boxes. You can reach it on your own by tapping coins with your already leveled-up Level 41 dog, plus inviting an unlimited number of friends and earning 10,000 $HIT for each one!
#Crypto#Blockchain#Notcoin#Blum#PlayToEarn#web3#TapToEarn . . .
🚩🚩🚩🚩🚩🚩🚩🚩🚩🚩🚩
🔔Easy busy- With us, you'll be the first to know about the best airdrops, giveaways, and projects.
What do you think about this?
😌
🌺Did you know that BOSSES have appeared in BLUM? I'm shocked too😊
💣Easy busy- With us, you'll be the first to know about the best airdrops, giveaways, and projects.
#blum#taptoearn#not#notcoin#hamster#hamstercombat#gametoearn#bitcoin#ShowUsHowUBlum
What do you think about this?👍
#TapToEarn#Notcoin#HamsterKombat#Blum#MemeFi#ZAVOD
Что такое Tap-To-Earn?
Tap-To-Earn - новое явление в мире Web3. С начала 2024 года игры в мессенджере Telegram, получившие название «кликеры» или «тапалки», стали настоящим трендом. Простейшая механика «майнинга» внутриигровой валюты за простые действия и возможность в перспективе продать ее 🤑 после листинга на криптобиржах быстро привлекла огромную аудиторию.
Дебют токена #NOT игры #Notcoin дал пользователям реализовать "заработанные" токены, а игрокам таких приложений ещё большую мотивацию ✌️.
🐹 Это безусловно отразилось на популярности игры #HamsterKombat и приложения криптобиржи #Blum, в которую аудитория привлекается через простую внутреннюю игру. В канале @hamster_kombat в Telegram более 37 млн подписчиков, в канале @blumcrypto — более 12 млн. Оба входят в топ-5 крупнейших Telegram-каналов в мире ❗️.
✔️Преимущества
• Простота: Легко начать без специальных знаний.
• Доступность: Подходит для всех.
• Увлекательность: Превращает заработок в игру.
❌Риски
• Низкий доход: Заработки могут быть минимальными.
• Время и усилия: Выполнение задач занимает много времени.
• Мошенничество: Риск наткнуться на недобросовестные проекты.
• Колебания рынка: Ценность заработанной криптовалюты может сильно меняться.
🔥Перспективные проекты
#Blum - это гибридная биржа в Telegram. Фарм токенов и игра, в которой токены можно «ловить».
#MemeFiCoin - интересный и понятный кликер, в котором можно фармить токены MEMEFI без усилий.
#HamsterKombat - нашумевшая игра, классическая «тапалка» (25к бонусов аккаунтам с Telegram Premium, 2к без).
#ZAVOD - свежий проект, на который уже возлагают немало надежд инфлюенсеры из криптоиндустрии. Приятный интерфейс, понятная механика.
@MirraChannel😎
😎Майнинг в MirraCoin Wallet - зарабатывай каждый день и участвуй в розыгрыше!
В экосистеме MirraCoin Wallet уже активно работает Mining Tap - простой способ зарабатывать MIRRC прямо в кошельке @MirraCoin_Wallet_bot
⚡️ Как это работает?
Вы выполняете простые действия, нажимая на монетку 😎, накапливаете MIRRC и выводите всё прямо на свой кошелёк.
⚡️Используйте криптовалюту MIRRC в экосистеме MirraCoin
И это ещё не всё!
С 21.01.2026 уже идёт Розыгрыш в @MirraCoin_Wallet_bot
Начните прямо сейчас.
Чем раньше подключитесь, тем больше возможностей получить ЦенныеПризы!
Заходите в MirraCoin Wallet, запускайте майнинг, используйте бусты и улучшения - и будьте в игре! @MirraCoin_Wallet_bot
MirraCoin - когда майнинг становится доступным каждому💸
❓По всем вопросам Вам поможет наша техподдержка:
📩 [email protected]
📱@Mirracoin_help
Подписывайтесь на канал @MirraChannel
Следите за новостями и не пропускайте важные обновления!
#MirraCoin#MirraCoinWallet#Майнинг#taptoearn#mining#Blockchain#Web3#Криптокошелёк#криптовалюта#Розыгрыш#MIRRC#сделановроссии
@MirraChannel😎