Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🎧⤴
TON Blockchain Faces Heat: 500,000 New Wallets Created, But DOGS Token Causes Chaos!
The TON blockchain recently experienced a significant disruption following the airdrop of the DOGS memecoin, which led to the creation of over 500,000 new wallets. Despite this surge, the price of Toncoin (TON) remained stable, although the network faced a three-hour outage due to unprecedented congestion. The TON Foundation quickly addressed the issue, ensuring no loss of user funds, and the network has since recovered. The DOGS token has become a top gainer, with a 21.80% increase in value, highlighting its rising popularity despite the technical hiccups.
Verse 1:
TON got hit with a storm, no block, just pause,
500K new wallets, but they ain't break no laws,
DOGS dropped hard, crashed the chain with a cause,
Validators lost the rhythm, but we back with no loss.
Chorus:
DOGS on the rise, TON had to pay,
But no coin lost, we still in the game,
From Paris to the chain, Durov's fight ain’t lame,
Network's back strong, ain't nobody to blame.
Verse 2:
From Binance to Bybit, exchanges felt the strain,
Suspended withdrawals, but TON ain't in vain,
67K per second, transactions hit the lane,
Yet Toncoin stands tall, pushing through the pain.
Chorus:
DOGS on the rise, TON had to pay,
But no coin lost, we still in the game,
From Paris to the chain, Durov's fight ain’t lame,
Network's back strong, ain't nobody to blame.
Bridge:
DOGS flying high, memecoin of the day,
TON's resilience showed, come what may,
Validators sync up, no more delay,
Crypto's wild ride, just another day.
Verse 3:
TON shook but didn’t fall, learned from the past,
500K wallets, this storm won’t last,
DOGS might bark loud, but TON's built to blast,
New blocks, new hopes, we rising fast.
Chorus:
DOGS on the rise, TON had to pay,
But no coin lost, we still in the game,
From Paris to the chain, Durov's fight ain’t lame,
Network's back strong, ain't nobody to blame.
#TONwallet
#DOGS
#Ton
🎧@toncoin_rap
🚀Обновление экосистемы MirraCoin: новые возможности на DigitalExchange.art и в Mirra Wallet😎
Экосистема MirraCoin продолжает активно развиваться. Мы внедрили ряд важных обновлений и улучшений на платформе DigitalExchange.art и в Mirra Wallet, направленных на удобство, безопасность и расширение функционала для пользователей.
🖼 Обновления на DigitalExchange.art
🔂 Повышена безопасность - поддержка Google Authenticator для 2FA и возможность включить проверку при отправке транзакций.
🔂 Расширена загрузка изображений - теперь при добавлении товара можно прикрепить до 20 изображений вместо прежних 5.
🔂 NFT-копии - добавлено пояснение через информационную кнопку, чтобы пользователи лучше понимали назначение этого инструмента.
🔂 Новая система верификации пользователей - реализована двухуровневая логика выбора:
• Верификация продавца (18+)
• «Благотворительность – дети» благотворительное направление для детей с разделением по возрасту.
🔂 Реализована система поддержки всех продавцов, через пожертвования в криптовалюте: 1 ❤️ => 1 😎
🔂 Обновлена система уведомлений - уведомления теперь приходят как внутри платформы, так и на email пользователя.
🔂 Обновлена главная страница - добавлены новости, раздел "Маркетплейс", отображение балансов.
🔂 Добавлены кошельки - теперь пользователь видит свой баланс в MIRRC, в ₽, в USDT, BTC. Скоро будет добавлен кошелек в EUR и USD.
🔂 Доработан интерфейс - обновлён дизайн и добавлены информационные подсказки для более удобной навигации.
🆕Обновление Mirra Wallet
🔂
Подключение TON Wallet - мы интегрировали возможность прямой конвертации TON=>MIRRC, а также возможность прямой оплаты товаров и пакетов MIRRC за TON.
🔂
Добавили в раздел "Магазин" вкладку "Маркетплейс" - теперь попасть из приложения
Mirra Wallet
на
DigitalExchange.art
возможно в один клик.
🔂
Добавили в раздел "Майнинг" новый буст 500 MIRRC за 1 TON.
🌳 Экосистема MirraCoin продолжает развивать инфраструктуру Web3 и создавать удобные инструменты для пользователей
👉Переходите на платформу, изучайте новые функции и пользуетесь обновлёнными возможностями экосистемы.
👉Подписывайтесь на канал, присоединяйтесь и станьте частью экосистемы MirraCoin, следите за новостями, скоро мы опубликуем о новых разработках и обновлениях.
#MirraCoin#MIRRC#DigitalExchangeArt#MirraWallet#Web3#Blockchain#NFT#Crypto#TonWallet#интеграция#Обновление#Экосистема#Сделано_в_России
@MirraChannel😎