Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🎉 Get Goated S2 이벤트 진행 중!
💡IoTeX란?
IoTeX는 스마트 기기와 실제 데이터를 블록체인과 연결하는 DePIN 플랫폼
!총 100M $IOTX(약 62억 원)의 보상이 걸린 초대형 이벤트에 지금 참여하세요!
기간: 10월 29일부터 약 3개월간 진행
참여 방법
1️⃣ 이벤트 사이트에서 미션 수행 (스테이킹, 유동성 공급 등)
2️⃣ 다양한 프로토콜(Bedrock, iZUMi 등)과 상호작용
3️⃣ BinoBits 포인트 적립
4️⃣ 텔레그램 미니앱(@Goat_Earn_Bot)에서 데일리 체크인
포인트 랭킹에 따라 보상이 지급됩니다!
🔥 현재까지 결과
- 참가자 수: 117,140명
- 누적 포인트: 181,958,191 BinoBits
유저가이드 | 이벤트 사이트
#IoTeX
#CyberCharge, the world's first Web3 smart charger presale event with @iotex_io, is coming soon!🚀
Play games, earn tokens, and grab airdrops—each mystery box brings exciting surprises! 🎁
🔥$IOTX Tokens
⚡️Web3 Smart Charger Set
Follow, 🔄, 👍, and comment for a chance to win a presale WL spot (10 spots) - FCFS!
#IoTeX#Web3#DePIN
Like👍, Retweet🔵, Comment
Link to the Tweet!
🔋#CyberCharge Debuts at #Token2049 Singapore!
We were a proud sponsor at one of the world’s most influential blockchain events!
👉Dive into the details:
link.medium.com/CPkTunaP2Mb
From showcasing future DePIN products to collaborating with global leaders like #Solana & #IoTeX, CyberCharge is driving Web3 into the real world.
Like👍, Retweet🔵, Comment
Link to Tweet
🤖Join Bot🐣X (Twitter)✉️Chat
Today at #R3alWorld, we had a great time connecting with the #IoTeX team, Raullen Chai, CEO of @iotex_io.
We exchanged valuable insights and ideas on DePIN devices and their innovative applications.
#Token2049singapore
Like👍, Retweet🔵, Comment
Link to Tweet
🎁Join our Airdrop Event
Link to MiniApp
CyberCharge showcased exciting content at the #R3alWorld DePIN Summit 2024 Workshop! 🎉
Our BD, Goran, shared CyberCharge's innovative Proof of Charge mechanism and seamless Web2 integration, bringing new energy to the future of #DePIN and charging experiences⚡️
#CyberCharge#IoTeX
Like👍, Retweet🔵, Comment
Link to Tweet
🎁Join our Airdrop Event
Link to MiniApp
🚀We’re excited to be a part of the R3alWorld DePIN Summit!
⚡️Join us at this groundbreaking event, hosted by @iotex_io and Co-Hosted by @MessariCrypto, where CyberCharge will showcase its innovations alongside other industry leaders.
🗓Sept 16th-17th
📍Amara Singapore
🔌Let’s power the future together!
#DePIN#CyberCharge#IoTeX#Messari#Token2049
Like👍, Retweet🔵, Comment
Link to the Tweet!
🔗Tweet From IoTeX: https://x.com/iotex_io/status/1829239846008934586?s=46