Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
#Grayscale has identified 20 projects with the best potential in the next quarter
New assets were added to the list ($SUI, $TO, $OP, $HET, $CELO and $UMA), but $RENDER, $MNT, $RUNE, $PENDLE, $HILL and $RAY were removed.
🟢شرکت Grayscale Research بیست دارایی رمزنگاری برتر خود را برای سه ماهه اول 2025 به روز می کند و $HYPE ، $ENA ، $VIRTUAL ، $JUP ، $JTO و $GRASS را به لیست خود اضافه می کند.
#Grayscale
@ScorpionX_Co☑️
😎Do not forget to keep an eye on the sponsors of the current bull cycle — #Blackrock.
Blackrock surpassed Grayscale in terms of the number of available $BTC.
"We tokenize and digitize everything that is possible and impossible, then we will tell you why!"
#BlackRock already has 284.525 BTC ($19.1 billion) on its balance sheet – Ishares
The inflow of funds into spot Bitcoin ETFs in 9 days of trading = $1.75 billion.
Larry Fink, CEO of Blackrock says:
IBIT is the fastest growing ETF in the history of all ETFs. I am very optimistic about the long-term viability of Bitcoin.
I even wonder how "deep" Blackrock will get into the ETF-ETH... and who besides #Grayscale will be able to impose competition on them 🤔
💰 The first 7 days of #Bitcoin-ETF
✅#ETFs bought 112,000 $BTC
✅#Grayscale sold 67,000 $BTC
✅ 27,000 $BTC is mined per month
✅ 13,500 $BTC per month will be mined after halving (after 85 days)
#BlackRock alone bought as many coins in 7 days of trading as it produces in 1 month ⚡️
💡Grayscale за год приобрела более 560 000 LTC
➖ Институциональные инвесторы продолжают наращивать вложения в криптовалюты, ожидая их легализации в США. После запуска биткоин-ETF и эфир-ETF аналитики заговорили о возможном спотовом фонде на Litecoin.
➖ Canary Capital уже подала заявку в SEC на запуск Litecoin-ETF, но пока он не одобрен, крупные игроки используют другие инструменты. Grayscale за год приобрела 560 000 LTC, что составляет почти половину всех добытых монет.
➖ Параллельно сеть Litecoin усиливает свои мощности. Хешрейт LTC установил новый рекорд – 2,24 Ph/s. За четыре месяца он вырос почти вдвое, что говорит о подготовке майнеров к притоку институционального капитала.
➖ Еще один важный фактор — криптоматы. Litecoin обогнал эфир по количеству терминалов, поддерживающих операции с альтом: LTC – 17 909, ETH – 17 525. Лидерами остаются USDT (38 128) и BTC (38 117).
#Litecoin#Grayscale#Криптоинвестиции