TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 1 слични објави

Пребарај: #songbird

当前筛选 #songbird清除筛选
Block Daily Dance & Podcast/Space List

@blockdancenews · Post #145 · 25.01.2022 г., 12:52

🔦 Block Daily Dance (1月25日): We are Information Aggregator of BlockChain & Web3.0, running by DAO. 我们是由社区驱动的区块链 & Web3 信息聚合平台。 ✈️Telegram Channel:https://t.me/blockdancenews 📒Notion:https://bit.ly/3pUF7dd 🖼️NFT: 热门NFT项目横向点评 https://twitter.com/BTCdayu/status/1485878208822013954 📡 Web3: Web3 可以边学习边赚钱? https://twitter.com/BanklessCN/status/1485935538079428612 从WEB2到WEB3,NFT如何成为WEB3社交的基础? https://twitter.com/TechFlowPost/status/1485887373112004610 👾 Gamefi/元宇宙: 凡尔赛!我靠 Move2Earn 完成一天的消费闭环 https://mirror.xyz/snapfingers.eth/Qr0_07WGHZe1GOGM6PKSV8K-mJLQY_z2ckZy_dFtIY4 🌊Dao: 在seedclub下一期候选里发现了几个好玩的项目 https://twitter.com/cwweb3/status/1485795602403409922 🛰️多链/跨链: 伟大的重命名:Eth2 发生了什么? https://twitter.com/nake13/status/1485891483953930242 浅谈以太坊二层网络 Arbitrum 生态 https://twitter.com/Foresight_News/status/1485888370572414977 Flare/#Songbird 生态项目一览 https://twitter.com/FinanceYF3/status/1485884032197922816 Kava 生态项目一览 https://twitter.com/FinanceYF3/status/1485879059041058821 🔍链上数据/行情分析: BTC & #ETH 新低后再次迎来资金支持 交易所存量资金持续增加 — 2022.1.25 https://twitter.com/Phyrex_Ni/status/1485821841532874752 BTC数据日报-2022年01月24日 https://twitter.com/Pro_0xBi/status/1485791798014656514 🎙播客/AMA/会议: 26号晚上9点,DeFieye会举行“DAO实践和未来”Panel,邀请了华语圈有影响力的DAO和研究者来分享讨论 https://twitter.com/defieye_io/status/1485818680621805569 Crypto 在发展,#VC、#DAO、币圈公司的用人标准也在不断发展。我们有幸邀请到来自不同事业阶段的嘉宾,同时从Manager和Intern的角度和大家唠唠,Crypto圈子的大家都如何招人?1月28日(周四)20:30 https://twitter.com/CipholioCN/status/1485919160924311555 🧰综合: Mirror第14周周报 https://twitter.com/0xmcdao/status/1485853270661042178 空投交互密码,大家都知道以太坊黑客松,今天发现了元宇宙黑客松 @MetaAlliance_ https://twitter.com/Calman16910515/status/1485476268443328512 回顾我的 #ETH 持仓史 以及之所以到现在都没有离场的原因 https://twitter.com/Phyrex_Ni/status/1485822805975265282 未来1-2年是“慢熊”?前Coinbase联合创始人这份穿越牛熊心得请收好 https://twitter.com/PANewsCN/status/1485810271050694658 2021年度投资总结与2022展望 https://twitter.com/crypto_bei/status/1485617589045063685