Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
🏆🙌
🍀❤️🥰⚠️💥🛒
🎊🏷️🪢✏️
Si tu respuesta es SÍ, ÚNETE a este grupo
https://t.me/craftingtools que mañana damos inicio a diciembre con esta
✏️
✏️
✏️
✏️
🍀🙌🎰🎰🎰
🏆 1 Premio por valor superior a 40 MLC:
💙Set de cortadores de acero inoxidable
💙Set de mini cúter
💙4 cortadores de flor con sistema de expulsión
💙3 cortadores de estrellas
💙3 cortadores (oso, corazón y rosa)
💙200 cascabeles
💙Molde de silicona
💙100 Bases para aretes y 100 cierres de acero inoxidable
💙Set de 11 felpitas
💙1 tira de figuras de fomi
🏆🙌
🍀❤️🥰⚠️💥🛒
🎊🏷️🖇️🧿
#grupos
‼️ Atención‼️
NUEVA 🅞🅕🅔🅡🅣🅐 de compra, esta vez en 𝐀𝐧𝐢𝐦𝐚𝐥𝐞𝐬 𝐒𝐚𝐥𝐮𝐝𝐚𝐛𝐥𝐞𝐬, para los peludos de casa, escamosos y plumíferos también 🐶🐱🐹🐟🦜
Compras por encargo del catálogo SheIn. Use este enlace para unirse👇
https://t.me/animalessaludables
https://chat.whatsapp.com/DQf3jDayREZFmsgQe5fvJZ
#grupos
¿Que puede hacer este bot?
@GroupsMusicBot
Este bot te permite reproducir música en tus grupos a través de los nuevos chats de voz introducidos recientemente por Telegram.
¡Simplemente agregue el bot en su grupo y lea la lista de comandos para descubrir cómo usarlo!
Idioma: inglés
(Visto en @botsgram_cu)
#música#grupos
¿Que puede hacer este bot?
@GooofyBot
Este bot elimina todas las fotos de desnudos para que Telegram no prohíba tus grupos.
Idiomas: inglés árabe
(Visto en @botsgram_cu)
#grupos#herramientas
¿Que puede hacer este bot?
@famigliacounterbot
Family Counter es el bot que puedes usar para contar los mensajes de tu grupo y competir con otros.
¡Agrégalo a tu grupo para que entre en acción de inmediato!
Idioma: italiano
(Visto en @botsgram_cu)
#grupos#herramientas
¿Que puede hacer este bot?
@matanet_bot
Bot para cualquier chat. Elimina mensajes que contienen obscenidades, dejando un mensaje en el chat en el que educadamente pide no jurar.
Agrega el bot a tu chat y dale permiso para eliminar mensajes. No se requieren ajustes adicionales.
Idioma: ruso
(Visto en @botsgram_cu)
#herramientas#grupos
Como cada miércoles... Llega un
👆This or That👇
Este no es la excepción y viene con una sorpresa 😍👉entérate de los detalles aquí 👈 y únete a nuestro canal de importaciones 🛍️Accesorios BiA con ropita bonita🛒
#grupos#encuesta#bia_recomienda
¿Que puede hacer este bot?
@asamsgbot
Este bot le permite enviar mensajes privados en chats públicos, los mensajes solo son visibles para el destinatario y el remitente.
Sólo funciona de forma inline.
Idiomas: español, inglés, italiano
(Visto en @botsgram_cu)
#mensajes#grupos
¿Que puede hacer este bot?
@ThankStickerBot
Envía una calcomanía de agradecimiento al grupo cuando alcanza "x" cantidad de miembros.
Idioma: inglés
(Visto en @botsgram_cu)
#stickers#grupos
¿Que puede hacer este bot?
@KattoRobot
Bot de entretenimiento para grupos con comandos, tablas de clasificación y un sistema de puntos para mantener activo a tu grupo.
Idiomas: italiano
(Visto en @botsgram_cu)
#entretenimiento#grupos
¿Que puede hacer este bot?
@Membership_admin_bot
Este bot te ayudará a monetizar tus grupos de telegram, crear grupos privados pagados y vender productos
💵 Puede aceptar pagos
📆 Crear suscripciones
🌐 Dale a tus clientes enlaces de invitación
📌 Enviar recordatorios
⛔️ Prohibir a los que no pagan
🛍Vender Productos
Idioma inglés
(Visto en @botsgram_cu)
#membresía#grupos
¿Que puede hacer este bot?
@FeaturesBugsBot
Este bot le permite enviar nuevas Funciones e informar Errores de los usuarios del grupo. Los diversos informes se recibirán en un canal de registro.
Idiomas: inglés, español, italiano, indonesio, árabe
(Visto en @botsgram_cu)
#herramientas#grupos#canales