浮光絮语:
Name: 得到AI学习圈-快刀广播站2026年(含2024+2025年度特辑)
Size: 3.9GB
AI领域的重要事件,包括技术发布、企业动态和行业趋势。AI在各行业的加速应用及其商业化挑战。AI技术的发展、应用和未来潜力。
Link: 👉Press me and click START to get the hidden link
#得到#AI学习圈#快刀广播站#学习#AI#人工智能#quark#求转存
♾@gdsharing♾资源分享不易:欢迎点赞支持分享者
#Snapdat#AI#Event#Lead#Capture
Join the Snapdat AI Event Lead Capture beta on ✈️#TestFlight
🔗 Link: https://testflight.apple.com/join/Pm5z6DbJ
Shared by Dimitri
👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.
Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.
Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.
Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.
Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.
Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.
В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.
По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.
Теперь модель может отслеживать до 16 объектов за один проход.
С multiplexing все объекты обрабатываются одновременно:
• меньше лишних вычислений
• нет узких мест по памяти
Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!
На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.
https://github.com/facebookresearch/sam3
@ai_machinelearning_big_data
#ai#ml#llm#cv#python
🌟LLM Council: на ваши запросы отвечает совет из языковых моделей.
Андрей Карпаты опять выходит на связь опубликовал очередной vibecode проект.
Его идея в том, что вместо того, чтобы задавать вопрос одной LLM, вы можете объединить их в «Совет моделей».
LLM Council - это простое локальное веб-приложение, с интерфейсом как у ChatGPT, но с той разницей, что запрос отправляется через Openrouter нескольким LLM. Полученные ответы перекрестно оцениваются и ранжируются, и, наконец, «модель-председатель совета» формирует окончательный ответ.
Более подробно процесс выглядит так:
🟢Этап 1: Сбор мнений.
Запрос отправляется всем моделям по отдельности, и их ответы собираются. Ответы каждой модели отображаются в отдельной вкладке, чтобы можно было их посмотреть вручную.
🟢Этап 2: Рецензирование.
Каждая модель получает ответы других моделей. При этом идентификаторы анонимизированы, чтобы исключить «игру в любимчиков» при оценке чужих результатов. На этом этапе ответы ранжируются их по точности и глубине анализа.
🟢Этап 3: Итоговый ответ.
Модель-председатель принимает все ответы моделей и компилирует их в единый окончательный ответ.
⚠️ Для использования нужен API-ключ OpenRouter. На платформе есть бесплатные модели
🖥Github
@ai_machinelearning_big_data
#AI#ML#LLMCouncil#Github
🗣️Voxtral: возвращение голоса как интерфейса
Голос был первым пользовательским интерфейсом — задолго до письма или клавиатуры. Сегодня, когда технологии всё ближе к человеку, он снова становится ключевым способом взаимодействия. Но существующие голосовые решения либо закрыты и дорогие, либо недостаточно точны и гибки.
Команда Voxtral представила открытые модели понимания речи, призванные закрыть этот разрыв.
🧠Что такое Voxtral:
• Две модели: 24B (для продакшена) и 3B (для локальных и edge-сценариев)
• Открытая лицензия Apache 2.0
• Доступ через API и оптимизированный endpoint для транскрипции
• Разработка на основе Mistral Small 3.1
📌Возможности моделей:
• Распознавание аудио до 30–40 минут (32k токенов контекста)
• Встроенные вопросы и ответы, суммирование, мультиязычность
• Автоматический вызов функций из голоса — API, скрипты, бэкенды
• Высокая точность понимания текста и смысла
• Поддержка языков: английский, испанский, французский, немецкий, хинди, итальянский, португальский и др.
🧩Идеально подходит для:
- Голосовых ассистентов
- Поддержки клиентов
- Звонков и интервью
- Автоматизации рабочих процессов по голосу
🔗https://voxtral.ai
@ai_machinelearning_big_data
#ml#ai#voxtral#mistral
US Copyright Office reports ‘urgent need’ for protection from deepfakes
The U.S. Copyright Office has issued a compelling report highlighting the urgent need for new legislation to address the rise of digital replicas, commonly known as deepfakes. Released on July 31, the report underscores the profound risks posed by AI-generated digital replicas, not only in entertainment and politics but also for private individuals. The office calls for a law that is distinct from existing copyright infringement statutes, aimed specifically at mitigating the unique threats of deepfakes.
Shira Perlmutter, Register of Copyrights and Director of the US Copyright Office, emphasized the gravity of the situation: “The distribution of unauthorized digital replicas poses a serious threat not only in the entertainment and political arenas but also for private citizens. We believe there is an urgent need for effective nationwide protection against the harms that can be caused to reputations and livelihoods.”
The proposed law would focus on the distribution and availability of unauthorized digital replicas rather than the act of creation alone, acknowledging the nuanced nature of creative processes. This proactive approach aims to protect individuals and businesses from financial, reputational, and personal harm, setting a foundation for robust national safeguards.
#Deepfakes#CopyrightLaw#AIandLaw#AI
Сакура распускается, даже если её создали алгоритмы. Где граница между искусственными и настоящими кадрами? Может, её больше нет?
#нейро#видеограф#нейросеть#AI#filmmaker#art#tech#digitalArt