Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Oil Market Balance May Return by April
An increase in traffic through the Strait of Hormuz by 5–6 tankers daily could restore market balance. Despite the London insurance market halt, up to 42% of the fleet under Liberia, Marshall Islands, Malta, and Bahamas flags are shifting to Chinese and Indian state guarantees. Panama and Singapore’s flexible fleets adapt faster, while Iran and Hong Kong’s “shadow fleet” bypass sanctions and remain active.
#oil#market#sanctions#Russia#maritimetraffic
The main news of Russia and the world ishere.
🚀 Increase in Ship Traffic Through Strait of Hormuz Observed
On April 10, the number of ships passing through the Strait of Hormuz increased to nine, according to data from shipping intelligence company Kpler. According to BlockBeats, this marks a rise from the previous day's count of five vessels, although it remains below the broader normalized levels.
#Shipping#StraitOfHormuz#MaritimeTraffic#Kpler#BlockBeats
🚀 Strait of Hormuz Traffic Halts Following U.S. Maritime Blockade
All maritime traffic through the Strait of Hormuz has reportedly ceased after U.S. President Donald Trump declared a maritime blockade via social media. According to NS3.AI, information from British sources, as reported by CCTV News, indicated that the blockade had been in place for several hours. While traffic was still feasible on the 12th, at least two vessels attempting to exit the strait reversed course. Tanker traffic had seen a slight uptick on the 11th before declining on the 12th.
#StraitOfHormuz#MaritimeBlockade#USPresident#DonaldTrump#TankerTraffic#CCTVNews#NS3AI#MaritimeTraffic
🚀 Iran Considers Bitcoin Toll for Ships in Strait of Hormuz
Iran is contemplating a new toll system for ships passing through the Strait of Hormuz, potentially requiring a $1-per-barrel fee payable in Bitcoin. According to NS3.AI, Hamid Hosseini, spokesperson for Iran’s Oil, Gas, and Petrochemical Products Exporters’ Union, indicated that this move could significantly impact maritime traffic. Arkham, a maritime analytics firm, estimates that a typical cargo ship carrying around 3 million barrels would face a payment of approximately $3 million in Bitcoin. Martin Kelly, head of advisory at maritime intelligence group EOS Risk, noted that this regulation could reduce the number of ships allowed to pass through the strait to 10–15 per day, a sharp decrease from the current average of about 135 ships.
#Iran#Bitcoin#Toll#StraitOfHormuz#Shipping#MaritimeTraffic#Oil#Cryptocurrency#Petrochemical#MaritimeRegulation#BTC
🚀 WTI Crude Oil Rises 10% Amid U.S.-Iran Peace Talks Stalemate
WTI crude oil experienced a significant intraday increase of 10%, reaching $105.33 per barrel, following the conclusion of the initial round of U.S.-Iran peace talks in Islamabad, which ended without an agreement. According to NS3.AI, the U.S. Central Command announced plans to block all maritime traffic to and from Iranian ports starting at 2:00 p.m. UTC on April 13. The U.S. military clarified that vessels traveling through the Strait of Hormuz to non-Iranian ports will not encounter any restrictions.
#WTI#CrudeOil#USIranPeaceTalks#MaritimeTraffic#Iran#StraitOfHormuz#USTechnology#NS3AI#CentralCommand#OilPrices