TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 89 слични објави

Пребарај: #indieblog

当前筛选 #indieblog清除筛选
椒盐豆豉剪报

@mtfront · Post #4252 · 09.03.2026 г., 07:26

rexarski 这个 now 页面的按周分隔的热力图或许才是适合大多数博客的热力图形式,毕竟绝大多数人一年中大多数时间是不更博客的,传统的 github 形式的按天分布的热力图零零星星没什么意思。按周看则即能纵观历史又能信息密度大一些,感觉更实用。有点想抄 #indieblog

Hashtags

椒盐豆豉剪报

@mtfront · Post #4155 · 24.11.2025 г., 19:25

Easier Done Than You Think 作者记录了在中国起诉克扣押金的无良房东的经历。尤其喜欢这个标题,生活中好多地方确实就是在坑在麻烦心理。真的去做了反而发现最大的困难是自己的想象。 #indieblog

Hashtags

椒盐豆豉剪报

@mtfront · Post #4101 · 01.11.2025 г., 18:07

中超打工记 博主在加拿大两家中国超市(大统华、元初)的打工经历,可以了解一些超市/中超背后运行的机制,挺有意思的。(以及,看到大统华积分这么难用我就放弃了下载的念头哈哈哈) #indieblog

Hashtags

椒盐豆豉剪报

@mtfront · Post #4001 · 29.08.2025 г., 21:30

纳米比亚(Namibia)·志愿者手记 作者岛是一个厌倦了无聊办公室生活的社畜,脑子一热决定独自飞往纳米比亚(非洲南部一个国家,毗邻南非)做野生动物志愿者的经历。连载中 看得还挺热血沸腾的脑子一热甚至也想去做志愿者,一秒钟之后想起去年去肯尼亚旅游(按说已经吃住的是比志愿者和本地人条件好无数倍的本地标准来看天价酒店了)十几天下来都格外怀念习以为常的“现代社会”便利(洁净饮用水,稳定热水和互联网,空调),人真是容易娇生惯养啊……(或许哪天存在主义危机加重了就又想去了) #indieblog

Hashtags

椒盐豆豉剪报

@mtfront · Post #3373 · 11.07.2024 г., 15:56

为什么小白更该使用静态博客。闲逛看到的一篇博文,结论太认同了。 动态,代表着运行时无穷无尽的变化与未知,任何一个节点出现问题,都可能牵一发而动全身,机器与机器、线路与线路、程序与程序、库与库、表与表之间的关联关系错综复杂,相互协作。 技术小白是缺少对于变化、异常情况的掌控能力的,而这种变化又可能在任何时刻发生,你也不想每时每刻都担心对嘛。 静态,代表着第一次会复杂一点,但在后续你的使用、博客的运行时,将稳如泰山。 所以,我更推荐技术小白使用静态,就像你第一次学骑车🚴🏻,刚起步会有点难度,但骑了几次后,你甚至从未再忧虑过该怎么起步、怎么前进、怎么保持平衡。 什么???你说静态博客出问题会不会更难解决? 不,静态博客不会出问题,如果出问题,那就是你的问题,hhhh. 之前从 WordPress 迁移到 hugo 的时候也大致讲过之前运行博客的一些痛点,基本跟博主说的是相通的,但博主说得更好。 #indieblog

Hashtags

123•••78
ПретходнаСтраница 1 од 8Следна