TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 4 слични објави

Пребарај: #tiananmen

当前筛选 #tiananmen清除筛选
Piyano's Blog

@Piyano_blog · Post #247 · 03.06.2023 г., 05:50

不要将任何制度或意识形态看得高于它所声称为之服务的人民​​,不要将任何理论看得高于这个世界上的真实事物。 忠于真实的人类(以及动物和生态系统),为自己而战,并肩作战,而不是出于任何“责任”、“原因” 或其他无形的概念。 不要强制按照等级顺序排列你的欲望和经历,而是承认并拥抱所有这一切,接受你自己。 不要试图强迫自己遵守任何外在的法则,不要试图将你的情绪限制在“明智的”、“实际的” 或 “政治的” 范围内;不要把你的本能和激情塞进笼子里:因为没有任何笼子能足够大到可以容纳人类灵魂的所有飞行,所有的高度和深度。 寻求一种生活方式,在不断挑战和改变它们的过程中,让所有相互冲突的倾向得到自由发挥。 不要把生命中的任何一个时刻凌驾于其他时刻之上 —— 不要在怀念过去的美好时光中萎靡不振,不要等待明天 —— 不要等待 “革命”! 就现在。只有现在。 拒绝将自己的生活的责任交给其他任何人,无论是父母、爱人、雇主还是社会本身。这意味着将追求生活中的意义和快乐的责任放在自己的肩上。 意识到生活的未来取决于你现在的一举一动。它会。 授予自己生的许可,将所有那些束缚撕成碎片:创造动力! 每一年都会有这一天。每一个今年都应该看到比每一个去年更进步的 “我们”。 Memory is a weapon - 6/4, 2023 #insurrectionary#Anarchism#Revolution#Tiananmen#China

Hong Kong Democracy Movement

@hkdmovement · Post #7471 · 04.06.2024 г., 11:56

1989年6月3日晚上無線特別新聞報告 大台特別新聞報告,接通身處北京的記者唐德全,長途電話報道北京。 唐德全:「剛收到消息,大約有一萬軍隊從人民大會堂走出嚟,相信佢地嘗試採取清理天安門廣場行動。不過,响天安門廣場聚集的幾萬群眾,宜家相信增加到十幾萬,大部份群眾都走上前,堵截軍隊,勸佢地唔好上前。雙方宜家仲响度對峙緊,氣氛相當緊張。」 #六四#八九民運#天安門事件#六四屠城#Tiananmen#TiananmenMassacre#june4th

📣文宣中国📣

@VoiceofCN · Post #9532 · 30.05.2023 г., 04:40

抗议中共抹杀史实就像隐瞒疫情用自己的方式撑抗争,中共掩盖六四镇压就像其隐瞒中共病毒来源一样和一些90后00后聊天竟然不知道八九六四,为了让更多的人参与纪念“六四”让知道这一历史事件的真相 #六四镇压#Reykjavík #冰岛#六四集會 #八九民運#六四屠城#天安門事件#薪火相傳#Tiananmen#monumentsource