TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 20 слични објави

Пребарај: #noticia

当前筛选 #noticia清除筛选
Football Time

@FootballTimeall · Post #15251 · 28.12.2021 г., 00:54

📝#NOTICIA Benzema y Courtois no asistirán a la gala de premios Globbe Soccer. 📍Los dos jugadores se encuentran actualmente de vacaciones en Dubai pero no asistirán a la gala. @FootballTimeall

Hashtags

EmbajadaRusaVen

@embajadarusaven · Post #1986 · 08.11.2024 г., 01:02

https://www.threads.net/@presidencialve/post/DCFyG4SSPy9?xmt=AQGzWwSWvBaorQdubhKuy4iKyZf-F-SizD0QjNYlvnVQtw #Noticia📰 Rusia y Venezuela sellan el camino de unión y cooperación con XVIII reunión de la CIAN Leer más ➡️https://shorturl.at/BdPmd

Hashtags

producTICvidad® 📲📈

@producTICvidad · Post #682 · 05.02.2022 г., 01:01

#Noticia 🇺🇸En las calles de Wall Street: Luego de la venta masiva de acciones de tecnología que se dio el jueves, tras los decepcionantes resultados de Meta (FB), matriz de Facebook, la acción de Amazon (AMZN)salió al rescate e impulsó el comportamiento de las bolsas de Estados Unidos. La compañía que fundó Jeff Bezos reportó ayer en la tarde ganancias que superaron las expectativas, ayudadas por la división de computación en la nube. Las ventas del cuarto trimestre aumentaron un 9,4%, hasta los US$137.400 millones, según informó la empresa con sede en Seattle. Durante la sesión del viernes, Amazon sumó US$191.000 millones en valor de mercado, un récord histórico en EE.UU. El S&P 500 (SPX) ganó un 0,52%, mientras que el Dow Jones Industrial (INDU) cayó levemente un 0,06%. El Nasdaq Composite (CCMPDL) avanzó un 1,58%. Fuente: Bloomber en Línea

Hashtags

RedOtaku

@RedOtaku · Post #129 · 31.01.2018 г., 16:16

❤️#Noticia TEKKEN™ Ya a salido el el nuevo Tekken oficial para dispositivos moviles. Por el momento no se si esta para Iphone pero ustedes revisen. Genero: Peleas.

Hashtags

12
ПретходнаСтраница 1 од 2Следна