Meta accused of using pirated data for AI development
The case of Kadrey et al. vs. Meta reveals troubling allegations about how Meta developed its AI models, including the use of pirated datasets from the shadow library LibGen. Plaintiffs accuse Meta of torrenting copyrighted works, stripping copyright management information, and using these datasets to train its Llama models—all with alleged approval from senior leadership, including CEO Mark Zuckerberg.
Internal documents presented to the court show debates within Meta about the ethical and legal implications of these practices. Engineers expressed discomfort about torrenting pirated data on corporate laptops, while scripts were allegedly used to systematically remove copyright indicators to obscure the origins of the data.
This case is part of a broader global reckoning about the role of copyrighted data in training generative AI. With courts in the US and beyond considering landmark cases, the legal and ethical framework surrounding AI development could change significantly. For Meta, the allegations pose not only legal risks but also reputational challenges as the company seeks to position itself as a leader in AI innovation.
#AI#Copyright#EthicsInAI#AIRegulation
📄Кейс: адаптирование чужого проекта под свои задачи
На GitHub нашёлся проект, который стоит взять на заметку. PhD-исследователь собрал команду из 8 AI-агентов для управления персональным хранилищем знаний в Obsidian. Один собирает заметки, другой раскладывает по категориям, третий строит связи между темами, четвёртый ищет, пятый следит за качеством. Больше 400 звёзд за несколько дней.
Проект заточен под личные заметки, но идея зацепила. А что если вместо заметок взять реальные данные?
У бота «Детокс контента» в базе лежат почти 4 000 постов из 108 AI-каналов за один месяц. Подписчики сами накидали эти каналы, чтобы получать дайджесты. Генерация видео, промптинг, новые модели, агенты, робототехника и тд, и тд... Всё это просто копилось.
Взяли архитектуру из GitHub-проекта, адаптировали под свои данные и оставили только трёх Claude-агентов поверх существующей базы.
🔵Синтезатор пишет аналитические статьи из десятков постов по теме.
🔵Коннектор строит связи между направлениями.
🔵Библиотекарь следит за качеством и убирает дубли.
Claude Code собрал проект за три часа на двух пятичасовых лимитах подписки. Дополнительных расходов: ноль.
✅ Результат можно посмотреть тут detoxoff.ru/kb/ Получилась настоящая народная база знаний со ссылками на авторов.
Подробный разбор кейса на Дзене “Шашков & Головко • AI в решениях”
Добавляйте свои проверенные каналы из ТГ и ВК в бота, и он будет выжимать лучшее. Как думаете, получится собрать базу знаний по AI с помощью AI?
#ИИ#AI#Нейросети
———
#Кейсы#Агенты
✍️ Подписывайтесь: @aiforproduct
#typescript#agent#agents#ai#background_agents
Open Agents is an open-source tool that lets you build AI coding agents running on Vercel. It separates the agent logic from the sandbox environment, meaning the AI runs outside the virtual machine and controls it through commands like file edits and shell operations. This architecture gives you flexibility—the agent isn't tied to a single request, sandboxes can pause and resume independently, and you can swap AI models or sandbox implementations without rebuilding everything. You get chat-driven coding with file tools, durable multi-step execution, isolated sandboxes, GitHub integration for cloning and creating pull requests, and optional voice input. The benefit is a scalable, modular system you can fork and customize for your own background coding agent needs without managing your laptop.
https://github.com/vercel-labs/open-agents