TGTGInsighttelegram intelligenceLIVE / telegram public index
← Python Заметки

TGINSIGHT SIMILAR POSTS

Најди сличен содржај

Изворен канал @pythonotes · Post #121 · 20 јул.

Регулярно требуется преобразовать какой-либо текст в максимально совместимый текст для URL, имени файла, имени объекта в каком-то софте и тд. Требования совместимости простые: в тексте должны быть только допустимые символы. Обычно это a-z, 0-9 и "_" или "-". То есть, только прописные буквы латинского алфавита и цифры (как пример). Допустим, нам нужно название статьи в блоге преобразовать в slug для добавления его в URL этой статьи. Как это лучше всего сделать? В Django по умолчанию есть готовая функция slugify для таких случаев. Но я её никогда не использую. Почему? Потому что её недостаточно! Приведём пример >>> from django.utils.text import slugify >>> slugify('This is a Title') 'this-is-a-title' Пока всё отлично >>> slugify('This is a "Title!"') 'this-is-a-title' Спец символы удалились, всё хорошо. >>> slugify('Это заголовок статьи') '' Вот и приехали 😢. Если текст не английский то буквы просто игнорируются. Можно это поправить >>> slugify('Это заголовок статьи', allow_unicode=True) 'это-заголовок-статьи' Но тогда мы не вписываемся в условие. У нас появилась кириллица в тексте. Так как я часто пишу сайты для русскоязычных пользователей эта проблема весьма актуальна. Я не использую стандартную функцию и всегда пишу свою. Оригинал я не беру в расчёт и пишу полностью свою функцию. И так, по порядку: 🔸1. Исходный текст: >>> text = 'Мой заголовок №10 😁!' Взял специально посложней со специальными символами. 🔸2. Транслит Необходимо сделать транслит всех символов в латиницу. Здесь очень выручает библиотека unidecode. Помимо простого транслита кириллицы в латиницу она умеет преобразовывать спец символы и иероглифы в текстовые аналоги. from unidecode import unidecode >>> unidecode("Ñ Σ ® µ ¶ ¼ 月 山") 'N S (r) u P 1/4 Yue Shan' Очень крутая библиотека, советую👍 В нашем случае получаем такое преобразование: >>> text = unidecode(text) >>> print(text) 'Moi zagolovok No. 10 !' Отличный транслит. Смайл просто удалился, хотя я ждал что-то вроде :). Ну и ладно, всë равно невалидные символы. А еще наш код уже поддерживает любой язык, будь то хинди или корейский. 🔸4. Фильтр символов Unidecode не занимается фильтрацией по недопустимым символам. Это мы делаем в следующем шаге через regex. Просто заменим все символы на "_" если они вне указанного диапазона. >>> text = re.sub(r'[^a-zA-Z0-9]+', '_', text) >>> print(text) 'Moi_zagolovok_No_10_' Символ "+" в паттерне выручает когда несколько недопустимых символов идут рядом. Все они заменяются на один символ "_". 🔸5. Slugify Осталось удалить лишние символы по краям и сделать нижний регистр >>> text = text.strip('_').lower() >>> print(text) 'moi_zagolovok_no_10' Получаем отличный slug! 😎 🌎 Полный код в виде функции. ______________ PS. Проверку что в строке остался хоть один допустимый символ я бы вынес в отдельную функцию. #libs#tricks#django

Резултати

Пронајдени 3 слични објави

Пребарај: #copyrightprotection

当前筛选 #copyrightprotection清除筛选
AI & Law

@ai_and_law · Post #77 · 07.08.2023 г., 07:04

Copyright in the Age of AI: Artists Take a Stand Hey there, AI & Law community! Have you ever wondered about the complex interplay between art and artificial intelligence? A recent legal battle is shedding light on how AI-generated content intersects with copyright law. Imagine discovering that your artwork has been used to train an AI system without your consent. That's exactly what happened to Kelly McKernan, a talented watercolor and acrylic illustrator. She found her creations uploaded to the LAION dataset, fueling AI image generators. This revelation transformed her relationship with her art, raising concerns about her career and the rights of countless creators. Kelly McKernan isn't alone in her struggle. Alongside cartoonist Sarah Anderson and illustrator Karla Ortiz, she's taking a stand against AI firm Stability AI, the company behind Stable Diffusion, Midjourney, and DeviantArt. These artists are filing a lawsuit, questioning the use of their work to train AI systems. This legal challenge adds to a growing list of cases that highlight the copyright complexities brought about by AI. Artists worldwide are coming together to address the concerns surrounding AI's impact on their creations. The European Guild of Artificial Intelligence Regulation is a prime example, aiming to create legislation that safeguards artists from predatory AI practices. The lack of protective measures and the potential for AI-generated art to replace human creativity is a pressing issue that demands attention. The case brings to the forefront the need for updated copyright laws in the face of AI advancements. The current framework often falls short in addressing the challenges posed by generative AI. #AIandArt#CopyrightProtection#ArtificialIntelligence#AIinLaw

AI & Law

@ai_and_law · Post #87 · 18.08.2023 г., 07:04

US: News Outlets Call for Transparency in AI Data Usage Hello everyone! A collective of news organizations has issued an open letter advocating for stricter regulations to safeguard copyright and ensure transparency in the use of training data for generative AI models. The open letter urges global lawmakers to enforce rules demanding data transparency, rights holders' consent for training data usage, and provisions for media companies to negotiate with AI model operators. It also calls for AI firms to tackle bias and misinformation and identify AI-generated content. Signatories include Agence France-Presse, Getty Images, The Associated Press, and more. They argue that foundation models using media content without proper consideration undermine media diversity and financial viability. The call comes in light of Google's AI news writing tool and concerns over AI training on copyrighted content. The US Senate and legal cases have addressed these issues, emphasizing the need to protect creators' rights. #AIandMedia#AIRegulation#DataTransparency#CopyrightProtection

AI & Law

@ai_and_law · Post #27 · 14.06.2023 г., 07:04

Balancing AI regulation and copyright protection: lessons from China's Generative AI Law Kris Shrishak, Senior Fellow at the Irish Council for Civil Liberties, urges the EU to take inspiration from China's draft law on generative AI. Shrishak highlights the EU's progress in regulating AI while underscoring its oversight in addressing the use of copyrighted material. China's draft law stands out for its explicit prohibition of unconsented use of copyright-protected content and personal data for training AI models. Shrishak points out that while the EU has taken steps to address AI risks, it primarily relies on self-assessments by AI developers rather than robust third-party assessments. This approach could potentially lead to enforcement challenges, as seen with the General Data Protection Regulation (GDPR). Learning from China's draft law, the EU can enhance its AI Act by incorporating stricter provisions against unconsented use of copyrighted content and personal data. Implementing third-party assessments and robust enforcement mechanisms will bolster intellectual property rights and privacy protection. #AIRegulation#CopyrightProtection#GenerativeAI#EU#China#DataProtection#Ethics#AIAct#Enforcement#PrivacyProtection