Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
📢 PORTFOLIO UPDATE
Congrats to our portfolio company, Meria Finance, on the launch of its app on the Apple Store and Google Play 👏
The team has worked hard to develop an intuitive one-stop platform to easily buy, exchange, withdraw, stake, and lend #cryptocurrencies.
Download the app: ➡️here
BIT x DWF Labs
Crypto Snapshot [23 Dec] 📰
Highlights:
🔸Whales accumulate $726 Million In #Bitcoin
🔸Bank of International Settlements allow banks to hold 2% in #cryptocurrencies
🔸High net-worth investors continue to seek access to #crypto
Full read here.
👀 India, Indonesia and Mexico are the most promising countries for cryptocurrency adoption. This conclusion was made by researchers at the venture capital firm Jump Capital based on the following factors:
▫️ the risk of high inflation / currency instability;
▫️ large flows of remittances;
▫️ immature financial infrastructure / lack of trust in banks;
▫️population;
▫️ the ratio of GDP / national wealth;
▫️ gold reserves;
▫️regulatory and banking environment;
▫️ a tendency to speculation (exchange trading, gambling, etc.).
#cryptocurrencies#research
💰Cryptocurrencies: Last Week Tonight with John Oliver
Another take on #Bitcoin, other #CryptoCurrencies & #Blockchain. A must-watch.
🚀@PerspectiveIX
🌀 http://prs.pctvix.co/TelegramIX
🔗 What is #Blockchain?
A technology that underpins #cryptocurrencies like #Bitcoin and presents new opportunities for how we share data.
🚀@PerspectiveIX
🌀 http://prs.pctvix.co/TelegramIX
Haveno
https://github.com/haveno-dex/haveno
Private and decentralized way to #exchange#Monero for national currencies or other #cryptocurrencies. Haveno uses peer-to-peer networking and multi-signature escrow to facilitate trading without a trusted third party custodian. Disputes can be resolved using non-custodial arbitration. Everything is built around Monero and Tor.
Haveno is the Esperanto word for "Harbor". The project is stewarded by a core Team, currently formed by 2 people: ErCiccione and Woodser. See the FAQ in the wiki for more information about the project
https://github.com/haveno-dex/haveno/wiki/FAQ
Haveno is still work in progress. There are no binaries available at this stage. If you want to test Haveno you have to compile it first (see https://github.com/haveno-dex/haveno/blob/master/docs/installing.md).
Status of the project
At the moment Haveno is only a Proof of Concept. It's already possible to initiate crypto <-> XMR and fiat <-> XMR trades, but the platform still needs a lot of work before being available for public use.
💰📊In the past 24 hours, Ethereum whales have purchased more than 110,000 ETH valued at $341 million!💵😮
#Cryptoenthusiast
#Cryptocurrencies
#Cryptowallet
💰📊In the past 24 hours, Ethereum whales have purchased more than 110,000 ETH valued at $341 million!💵😮
#Cryptoenthusiast
#Cryptocurrencies
#Cryptowallet
Group: ZombieSquad Community
Members: ~14.09K
💢 Username: @zombiesquadhq
Description:
🔥 Come play the game and earn sunlight, with a chance to score some airdrop rewards!
🏷 Tags: #airdrop
#cryptocurrencies#aichatbot#airdrop#crypto
https://lve.to/k1gt8zxptq
⚠️#Google here gave the holder of #cryptocurrencies a dose of anxiety with the news that quantum computers will be able to hack the military-technical cooperation network much earlier than current forecasts.
⚠️ To #crack RSA encryption, you need 20 times less resources than expected (less than 1 million qubits). Modern quantum computers are much weaker, but their power is constantly progressing. According to various forecasts, it will be possible to cross the 1 million cubic meter mark after 2030.👀
💰The Top Ten Cryptocurrencies
1. Bitcoin
2. Ethereum
3. Ripple
Bitcoin jumped back up over the $8,000 dollar mark on 13 April 2018. As this infographic shows, while #Bitcoin is by no means alone in the world of #CryptoCurrencies, it is by far the most valuable #CryptoCurrency, with a total market cap of over $133 billion.
According to figures from CoinMarketCap, #Ethereum is the closest alternative, but with only $49 billion.
🚀@PerspectiveIX
🌀 http://prs.pctvix.co/TelegramIX
❓ Do you own any cryptocurrency?
👍🏻 Yes
🤔 Not yet, but thinking about buying some
👎🏻 No, and I'm not interested at all