TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 3 слични објави

Пребарај: #ukpolicy

当前筛选 #ukpolicy清除筛选
AI & Law

@ai_and_law · Post #472 · 25.12.2024 г., 08:04

UK's AI Copyright Debate: Balancing Innovation and Creative Rights The UK government has launched a consultation exploring legal frameworks for AI training on copyrighted material, proposing four policy options with significant implications for AI and creative industries. 1️⃣Controversial Proposal: One option would allow AI firms to use copyrighted works without rights holders’ permission, even for commercial purposes, with minimal restrictions. This has sparked concerns among creatives about irreversible harm to their industries. 2️⃣Alternative Frameworks: Other proposals include opt-out systems for copyright holders or stricter licensing requirements, but creatives argue these approaches lack enforcement and transparency, leaving copyright holders vulnerable. With feedback open until February 25, 2025, this consultation is a critical moment for shaping the intersection of AI innovation and intellectual property rights in the UK. #AIRegulation#Copyright#AIEthics#UKPolicy

AI & Law

@ai_and_law · Post #794 · 27.03.2026 г., 08:04

🇬🇧UK Reconsiders AI Copyright Exception After Industry Backlash The UK government has stepped back from plans to allow AI companies to freely use copyrighted material for training by default. The proposal would have permitted data scraping unless rights holders explicitly opted out. The reversal follows objections from prominent figures in the creative industries, including Paul McCartney, Elton John, Coldplay, Richard Curtis, Antony Gormley, and Ian McKellen. Science minister Liz Kendall stated that consultations with stakeholders — including creatives, AI firms, unions, and academics — led the government to abandon a preferred policy option. #AIRegulation#Copyright#AIethics#UKpolicy#IntellectualProperty

AI & Law

@ai_and_law · Post #812 · 23.04.2026 г., 07:04

🇬🇧UK DSIT Warns Businesses on AI Cybersecurity Risks The UK Department for Science, Innovation and Technology (DSIT) issued an open letter warning businesses about the growing availability of AI models with cybersecurity vulnerability detection capabilities. The department stated that such systems create new risk exposures for organizations as these tools become more accessible. DSIT referenced releases by Anthropic and OpenAI, as well as subsequent reviews by the AI Security Institute. The department noted that the UK “is not standing still in response to this threat,” but emphasized that government action alone will be insufficient. Business leaders were urged to adopt preventive measures to stay ahead of emerging model capabilities. #AIRegulation#Cybersecurity#AISafety#UKpolicy#RiskManagement