Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример).
Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать?
В Django по умолчанию есть готовая функция slugify для таких случаев.
Но я её никогда не использую. Почему? Потому что её недостаточно!
Приведём пример
>>> from django.utils.text import slugify
>>> slugify('This is a Title')
'this-is-a-title'
Пока всё отлично
>>> slugify('This is a "Title!"')
'this-is-a-title'
Спец символы удалились, всё хорошо.
>>> slugify('Это заголовок статьи')
''
Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить
>>> slugify('Это заголовок статьи', allow_unicode=True)
'это-заголовок-статьи'
Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте.
Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою.
Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку:
🔸1. Исходный текст:
>>> text = 'Мой заголовок №10 😁!'
Взял специально посложней со специальными символами.
🔸2. Транслит
Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги.
from unidecode import unidecode
>>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山")
'N S (r) u P 1/4 Yue Shan'
Очень крутая библиотека, советую👍
В нашем случае получаем такое преобразование:
>>> text = unidecode(text)
>>> print(text)
'Moi zagolovok No. 10 !'
Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы.
А еще наш код уже поддерживает любой язык, будь то хинди или корейский.
🔸4. Фильтр символов
Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона.
>>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text)
>>> print(text)
'Moi_zagolovok_No_10_'
Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_".
🔸5. Slugify
Осталось удалить лишние символы по краям и сделать нижний регистр
>>> text = text.strip('_').lower()
>>> print(text)
'moi_zagolovok_no_10'
Получаем отличный slug! 😎
🌎 Полный код в виде функции.
______________
PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию.
#libs#tricks#django
Up-to-date article about data-stream processing: Apache Kafka, microservices, JVM to GoLang migrations, ES & Cassandra. What they did when they got 6x traffic increasing in 6 month
#design#cases#microservices#scalability
https://medium.com/@magicpineng/in-depth-look-at-a-scalable-robust-data-stream-processing-pipeline-using-golang-processing-500k-9e68310a0675
Paradigm Pushes for Rapid Ethereum Upgrades
Venture capital firm Paradigm urges for faster Ethereum development, suggesting multiple major upgrades yearly. They emphasize prioritizing non-controversial improvements like scalability, user experience, and Rollups tech, opposing delays for decentralization. Read more here.
#Ethereum#VC#Crypto#Scalability#UserExperience#Rollups
🚀 StarkWare Researcher Proposes Complex Bitcoin Transaction Scheme
StarkWare researcher Avihu Mordechai Levy has introduced a Bitcoin transaction scheme that aims to circumvent the need for a protocol change. According to NS3.AI, the proposed method involves solving a pre-broadcast puzzle, which would necessitate approximately 70 trillion attempts. Levy characterized this design as a last-resort solution due to its significant computational demands, large transaction size, and potential relay-policy challenges, all of which could hinder scalability.
#StarkWare#Bitcoin#transaction#AvihuMordechaiLevy#protocol#computationaldemands#scalability#relaypolicy#BTC
#java#awesome#backend#computer_science#distributed_systems#high_level_design#hld#interview#interview_questions#scalability#system_design
You can learn important system design concepts for free, covering topics like scalability, availability, CAP theorem, caching, databases, APIs, microservices, and distributed systems. This resource offers clear explanations, interview preparation guides, and practical design problems from easy to hard, helping you understand how to build reliable, scalable software systems. It also provides links to courses, books, newsletters, and videos to deepen your knowledge. Using these materials can improve your skills for system design interviews and real-world software architecture, making you more confident and effective in designing complex systems.
https://github.com/ashishps1/awesome-system-design-resources
🚀 Zcash Open Development Lab Unveils Strategic Direction Focused on Post-Quantum Security
On April 13, Zcash Open Development Lab (ZODL) founder Josh Swihart announced the latest developments for Zcash, emphasizing a strategic direction centered on post-quantum security, scalability, and user experience. According to BlockBeats, Swihart likened the initiative to the Artemis II lunar mission, highlighting the pursuit of seemingly impossible goals through technological breakthroughs. The ZODL team revealed that Zcash is entering the 'Zcash IV' phase, aiming to build infrastructure akin to a 'lunar base' to support the protocol and applications' secure expansion to billions of users, while advancing the vision of privacy transactions without large-scale financial surveillance.
On the product and technology front, ZODL continues to iterate, with its 3.3.x version now available on iOS and Android, featuring new hardware wallet connection management, SDK upgrades, and multiple user experience enhancements. Key developments include advancing Keystone wallet functionality and upgrading the address system (ZIP 316, UIVK/UFVK). Meanwhile, the Zcash core team has addressed several system issues and is progressing with the Zallet alpha version development, strengthening unified address standards and wallet interaction experience to lay the foundation for future scalability and performance improvements.
Additionally, ZODL disclosed ongoing growth in application data and participation in a stablecoin privacy summit to enhance industry collaboration. However, due to increased regulatory and network restrictions, ZODL has temporarily removed its app from Russian app stores. The team emphasized that privacy is not optional but a fundamental need in the digital age, and they will continue to accelerate delivery pace to promote ZEC adoption and ecosystem development.
The core of Zcash Open Development Lab is to develop an open, self-custodial private financial platform, aiming to expand ecosystem interoperability through collaboration and bring protected ZEC transactions to the global mainstream market.
#Zcash#ZODL#PostQuantumSecurity#Cryptocurrency#Privacy#Blockchain#Scalability#UserExperience#KeystoneWallet#Zallet#Stablecoin#FinancialPrivacy#EcosystemDevelopment#DigitalPrivacy#OpenDevelopment#ZEC
Bitcoin Gains Ground as Fiat Weakens
🇺🇸 Vivek Ramaswamy discusses why Bitcoin surpasses fiat. New investors hold 50.2% of Bitcoin wealth, lower than past ATHs: 85% in 2018 and 74% in 2021. Tether integrates USDt into Bitcoin's ecosystem with new Lightning Network support, enhancing speed and decentralization. ApeChain joins Humanity Protocol's zkProofer network to improve digital identity. USDC Treasury burns 90 million USDC. SEC approves Bitwise Spot Bitcoin and Ethereum ETF.
#Bitcoin#Tether#LightningNetwork#DeFi#USDC#ETFs#Crypto#Investment#DigitalIdentity#SEC#VivekRamaswamy#AdinRoss#WealthDistribution#Taproot#Security#Scalability#Finance#Treasury#USDT#ApeChain#zkProofer
AI Startup Anthropic Expands Features
🚀 Anthropic to launch a two-way voice mode for Claude chatbot and enhance memory features for better user interaction, announced CEO Dario Amodei. Google has invested an additional $1 billion, totaling $3 billion, to support the company's operations.
📈 Expect smarter models in the coming months as Anthropic scales up to meet growing AI demand.
🔗 Read more: Forklog
#AI#Investments#Google#Tech#Startup#Claude#VoiceTechnology#MachineLearning#Innovation#Funding#Chatbots#DarioAmodei#AIModels#Scalability#UserExperience#NeuralNetworks#Computing#AIIndustry#AIExpansion#FutureTech#VC