📖Copyright Risk in Production LLMs: New Evidence of Text Extraction
A new paper, “Extracting books from production language models,” examines whether copyrighted training data can be extracted from closed, production-grade LLMs despite deployed safety measures. The authors test a two-phase method: an initial feasibility probe (sometimes using Best-of-N jailbreaks) followed by iterative continuation prompts, on Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro, and Grok 3. Extraction success is measured using an nv-recall metric based on longest common substrings.
The study finds that extraction remains possible. For Gemini 2.5 Pro and Grok 3, no jailbreak was required to extract substantial portions of "Harry Potter and the Sorcerer’s Stone" (nv-recall 76.8% and 70.3%). Claude 3.7 Sonnet and GPT-4.1 required jailbreaks; in some cases, jailbroken Claude produced near-verbatim outputs of entire books (nv-recall 95.8%). GPT-4.1 showed lower extraction success and eventually refused to continue after many attempts.
The authors conclude that memorization and extractability of in-copyright text persist as risks in production LLMs, even with model- and system-level safeguards, keeping unresolved copyright and compliance questions squarely in scope.
#AI#Copyright#LLMs#AIRegulation#GenerativeAI#IP
Вайбкодинг на Тувинском? Оказывается, Claude MacOS могёт! 🧬🏔️
Решил потестить новый Claude в связке с мобильными проектами. Попросил его добавить кнопку «Заново» (Restart) в хедер приложения. Но решил не упрощать задачу и написал запрос на Тувинском языке.
И что вы думаете? Claude не просто понял задачу, а:
✅ Самостоятельно нашел нужный компонент.
✅ Добавил кнопку в правую часть рядом с индикатором баллов.
✅ Прописал логику события ResetExam и оверлей «Начать».
✅ И самое крутое: ответил мне на чистом Тувинском, расписав по пунктам всё, что сделал!
Это и есть тот самый «агентный подход» из документации: когда инструмент не просто чатится, а лезет в код, правит файлы и понимает тебя с полуслова (на любом языке, почти...).
Вайб кодинга на родном языке — просто 10/10 🚀🚀🚀. Будущее наступило там, где мы его не ждали (наши проекты по цифровизации Тыва дыл дают большие плоды).
#ClaudeCode#ТываДыл#VibeCoding#AI#Anthropic
Spanish Data Protection Agency highlights accuracy principle in AI processing under GDPR
In recent news from Spain, the Agencia Española de Protección de Datos (AEPD), the country's data protection agency, has released guidance emphasizing the significance of the accuracy principle outlined in the EU General Data Protection Regulation (GDPR) for artificial intelligence (AI) processing activities.
The AEPD stresses the importance of integrating "by design" suitable safeguards to prevent inaccuracies and protect against the impact of flawed input data during AI implementation. Furthermore, the agency underscores the need for regular review and updates of these safeguards to ensure ongoing accuracy.
The guidance places a spotlight on the accuracy principle's pivotal role in AI systems, emphasizing the responsibility of organizations to maintain data accuracy throughout the AI lifecycle. By acknowledging that inaccurate data can lead to biased outcomes and privacy risks, the AEPD encourages a proactive approach to data accuracy in AI processing.
#artificialintelligence#AI#Law#privacy#dataprivacy#gdpr
🌟HY-Embodied-0.5: компактная модель для роботов на Mixture-of-Transformers.
Tencent Robotics X и Hunyuan Vision выложили веса HY-Embodied-0.5 MoT-2B — младшей модели нового семейства HY-Embodied-0.5 для воплощённого интеллекта.
Семейство позиционируется как когнитивное ядро для VLA-пайплайнов: модель должна выполнять роль «мозга», который принимает кадры с камер робота, рассуждает о трехмерной сцене и выдает план действий исполнительному модулю.
Формально MoT-2B содержит 4 млрд параметров, но на инференсе активируется только 2,2 млрд, что дает скорость плотной 2B-модели при качестве восприятия, сопоставимом с тяжёлыми VLM.
В основе лежит архитектура Mixture-of-Transformers с латентными токенами и модально-специфичными вычислениями для зрительного тракта.
Суть MoT: перед мультимодальным обучением Tencent дублирует FFN- и QKV-блоки языковой модели и инициализирует копию её же весами - визуальные токены прогоняются через визуальную ветку, текстовые через языковую.
Помимо разделения FFN и QKV, разведены и механизмы внимания: для визуальных токенов используется двунаправленное полное внимание, для языковых - causal-внимание.
Связующим звеном служат обучаемые visual latent tokens, которые приписываются в конец каждого визуального элемента (кадра или изображения) и переносят визуальную семантику в языковой контекст.
В семействе будет старший вариант - HY-Embodied-0.5 MoE-A32B на 32 млрд активных параметров. Он построен уже на MoE и, по словам создателей, выходит на уровень Gemini 3.0 Pro.
Веса флагмана не опубликованы, но именно эта модель выступает учителем в дистилляции, передавая навыки рассуждения младшей MoT-2B.
🟡Результаты на бенчмарках
🟢MoT-2B обходит Qwen3-VL 2B/4B, RoboBrain 2.5 4B и MiMo-Embodied 7B в большинстве из 22 тестов на визуальное восприятие и пространственное мышление: 89,2 на CV-Bench, 92,3 на DA-2K, 54,5 на ERQA и 66,3 на MindCube, где ближайший конкурент отстаёт почти вдвое.
🟠На задачах планирования (RoboBench-Planning, Ego-Plan2, RefSpatial-Bench) лидерство остаётся за RoboBrain и MiMo-Embodied, здесь Tencent пока догоняет.
Для инференса рекомендуется GPU с минимум 16 ГБ VRAM.
В планах - интеграция с vLLM и Gradio-демо.
📌Лицензирование: Tencent HY Community License
🟡Модель
🟡Arxiv
🟡Техотчет
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#Embodied#Robotics#Tencent#Hunyuan
Metaguest Secures $170K Funding
Metaguest has successfully raised $170.26K in funding, with the closing date set for December 19, 2024. For more information, visit Metaguest.
#Funding#Metaguest#Investment#AI#Tech#Business#Startup
🎥 Новинка от ByteDance: модель Video-As-Prompt Wan2.1-14B
ByteDance выпустила модель Wan2.1-14B, специализирующуюся на задаче *video-as-prompt*, то есть использование видео или комбинации изображений и текста как входных данных для генерации нового видео.
- Работает в режимах «видео → видео» или «изображения/текст → видео».
- 14 млрд параметров — высокая детализация, плавная динамика, реалистичные движения.
- Использует исходное видео как шаблон стиля и композиции.
⚠️ Что стоит учитывать
- Модель требует мощных GPU и большого объёма памяти.
- Качество результата зависит от сложности запроса и длины видео.
🟠Github: https://github.com/bytedance/Video-As-Prompt
🟠HF: https://huggingface.co/ByteDance/Video-As-Prompt-Wan2.1-14B
@ai_machinelearning_big_data
#AI#VideoGeneration#ByteDance#Wan2#HuggingFace
Clearview AI Agrees to Conditional Settlement in Privacy Lawsuit
Clearview AI has reached a unique settlement agreement in a privacy lawsuit involving its data-scraping facial recognition technology. Unable to afford immediate compensation, Clearview AI will establish a fund representing 23% of the company's value as of last September. This fund will only be activated if the company undergoes an IPO or a significant event like a merger or asset sale. Based on Clearview's current valuation, this fund could be worth up to $51.7 million.
The settlement, awaiting final court approval, also includes appointing a special master to demand cash from Clearview or sell settlement rights to third parties, with proceeds going to class members.
Clearview AI has faced multiple lawsuits accusing it of privacy violations, leading to this creative resolution. The company, burdened by mounting legal costs, agreed to this settlement to avoid bankruptcy and provide potential relief to affected individuals.
#Privacy#AI#ClearviewAI#FacialRecognition#LegalTech
UK Publishing Industry Urges IP Protection in AI Era
Hello AI & Law enthusiasts!
The UK Publishers Association (PA) sent a letter to the Prime Minister, emphasizing the need to uphold UK intellectual property law when AI systems access and use content. This call comes before a government-hosted AI Safety Summit in November, which has raised concerns about the fate of creative industries.
PA's Chief Executive, Dan Conway, urges the UK to lead in safe, transparent, and ethical AI. He's asking for business conditions that promote AI development while respecting creators' consent and fair compensation.
The House of Commons committee also agrees, pressing the government to prevent AI developers from using copyrighted works without permission. Copyright violations have already been spotted in AI training data.
In an Aug. 30 report, the Culture, Media and Sport Committee warned the government’s original plan to exempt text and data mining by AI from copyright protections “risks reducing arts and cultural production to mere ‘inputs’ in AI development,” and shows a “clear lack of understanding” for the needs of the United Kingdom’s creators.
#AILaw#IPRights#AIEthics#UK#AI