Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Hashtags

#libs #tricks #django

Резултати

Пронајдени 3 слични објави

Пребарај: #aicontent

当前筛选 #aicontent清除筛选

AI & Law

@ai_and_law · Post #256 · 07.03.2024 г., 08:04

Најди слично Погледај

Mozilla Foundation Study Raises Concerns on Watermarking AI Content Hello everyone! In a study released by the Mozilla Foundation, the challenges of identifying synthetic content online have been brought to light. Titled "In Transparency We Trust? Evaluating Watermarking and Labeling AI-Generated Content," the study delves into the effectiveness of various methods, including watermarking and labeling, in differentiating between synthetic and authentic content. The study, which conducted a comprehensive assessment of seven methods, both machine-readable and human-facing, revealed alarming findings: none of the methods were rated as "good," indicating significant hurdles in accurately identifying synthetic content. Despite efforts to implement watermarking and labeling, the study underscores the persistent difficulties faced in combatting the proliferation of AI-generated content. #MozillaFoundation#AIContent#Watermarking

Hashtags

#mozillafoundation #aicontent #watermarking

ВЕРШИНИН

@neuro_ver · Post #121 · 17.12.2024 г., 04:53

Најди слично Погледај

Меньше недели я потратил на изучение генеративных моделей, и вот что уже получается. Задумка, усидчивость и терпение, конечно, важны. Результат может быть невероятным. #AIVideo#GenerativeAI#RunwayML#AIContent#PikaLabs#CreativeAI#ContentCreation#TechInnovation#DigitalArt#FutureOfContent

Hashtags

#aivideo #generativeai #runwayml #aicontent #pikalabs #creativeai #contentcreation #techinnovation #digitalart #futureofcontent

Crypto M - Crypto News

@CryptoM · Post #64833 · 10.04.2026 г., 03:04

Најди слично Погледај

🚀 WeChat Updates Guidelines to Prohibit Automated Content Creation WeChat has updated its 'Public Account Behavior Guidelines' to include a new rule prohibiting non-human automated content creation. According to Foresight News, the new guideline, Article 3.27, specifically bans the use of artificial intelligence for generating, rewriting, splicing, or transporting content, as well as the bulk or continuous publication of content through scripts or program hosting. It also prohibits the dissemination of tutorials, methods, or services related to non-human automated creation. WeChat clarified that AI can be used as an auxiliary tool for tasks such as sentence refinement, error correction, icon generation, and information retrieval. However, the final content must reflect the style, stance, and judgment of a real creator. Violations of these guidelines may result in traffic restrictions, content deletion, or account suspension. A significant number of accounts have already been deleted or banned due to bulk AI-generated content. Previously, on March 10, Xiaohongshu announced measures to combat AI-managed accounts. #WeChat#AIContent#ContentGuidelines#AutomatedContent#AccountSuspension#AIRegulation#SocialMediaPolicy#ContentModeration#DigitalCompliance#Xiaohongshu

Hashtags

#wechat #aicontent #contentguidelines #automatedcontent #accountsuspension #airegulation #socialmediapolicy #contentmoderation #digitalcompliance #xiaohongshu