Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Bitcoin mining firm Mara deposit 298 $BTC worth $20.57M into #Cumberland
https://intel.arkm.com/explorer/entity/mara-pool
https://x.com/OnchainLens/status/2031173483968057378
Follow @onchainlens for more onchain updates
🚨 $APE surged by ~11% in the last 8 hours!
Multisign whale 0xb4e accumulated 3M $APE ($5.31M) from exchanges via #GSRMarkets and #Cumberland.
In total, the whale has accumulated 6.02M $APE ($10.3M, avg price: $1.72) in the past 8 days.
Estimated profit: $626K (+6.06%) (all unrealized).
👉 More details: https://platform.spotonchain.ai/signal-details/whale-accumulated-ape-as-price-surged-12648
A whale/institution withdrew 20,000 $ETH ($62.3M) from #Galaxy, #Coinbase, #FalconX, and #Cumberland in the past 12 hours.
Address: 0x363adf8182fd0fcd0f43d1c904809f85d6f24f7a
https://x.com/OnchainLens/status/2007384937343943021
Follow @onchainlens for more onchain updates
#Elezioni#RegnoUnito#Amministrative
Consiglio di #Cumberland, risultati definitivi:
#LAB|S&D: 30 seggi
#CON|ECR: 7
#LDEM|RE: 4
Indipendenti: 3
#Greens|G/EFA: 2
I LAB conquistano il controllo del nuovo Consiglio di Cumberland.
@UltimoraPolitics
🚨 Early buyer 0x808 deposited 30K $AAVE ($3.08M) to #Coinbase and #OKX via #Cumberland at $102.7 ~4hrs ago.
Notably, the whale used only 500K $USDC to buy 12.5M #LEND (later converted to 125K $AAVE) at $0.04 back in May 2020.
And has only sold 30.9K $AAVE ($3.15M) via DEX, Coinbase, and OKX at $101.7 on avg so far.
Current holding: 100K $AAVE ($10.2M). Estimated total profit: $12.85M!
👉 More details: https://platform.spotonchain.ai/en/signal-details/early-buyer-deposited-aave-to-exchanges-14545
In the past hour, the German government transferred another 5,853 $BTC ($344M) to #B2C2 Group, #FlowTraders, #Kraken, #Coinbase, and #Cumberland.
In the past 24 hours, the German government might have sold up to $544M worth of BTC, including:
• moving out 12,160 $BTC ($706M) at an average price of $58,064.
• receiving back 2,810 $BTC ($162M) at an average price of $57,541.
Currently, the German government still holds 18,110 $BTC ($1.06B) across 6 addresses.
More details about their latest transfers can be found at https://platform.spotonchain.ai/en/signal-details/german-government-bka-transferred-5853-btc-344m-away-142259
Wallet 0x1db (likely #Cumberland) transferred 270M $USDT from the #TetherTreasury to CEXs in the past 24 hours as the market rebounded!
After the market dipped on Aug 5, this wallet received 660M $USDT from the Tether and then injected 607.3M $USDT to various exchanges, including:
• $333M to #Coinbase
• $118.5M to #Kraken
• $72.4M to #Binance
• $51.5M to #OKX
• $32M to #Bullish
It seems like institutions are still buying?
Follow @spotonchain and check out the Cumberland’s address via https://platform.spotonchain.ai/en/profile?address=0x1dbbbc3fdb2c4fabd28fd9b84ed99ceb84bfbec5
The #TetherTreasury minted 1B $USDT on #Ethereum and transferred 183.2M $USDT to #Cumberland for CEX deposits in the past 16 hours!
Overall, since the crash on Aug 5 (9 days ago), Cumberland has
• received 953M $USDT from Tether on Ethereum
• then injected 906.7M $USDT into various exchanges, including #Coinbase, #Kraken, #OKX, #Binance, and #Bullish.com.
Follow @spotnchain and check out the Cumberland’s address via https://platform.spotonchain.ai/en/profile?address=0x1dbbbc3fdb2c4fabd28fd9b84ed99ceb84bfbec5