TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват123,399Просмотры последних постов
Последние посты

Последние посты

Тег: #nlp · 4 постов

当前筛选 #nlp清除筛选

Опубликован 15 апр.

📌Массовое использование чат-ботов унифицирует то, как люди пишут и рассуждают Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении. Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани. Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи. По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей». Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением. Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии. В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ. Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону. 🟡Рекомендация авторов При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению. 🟡Дисклеймер Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу. Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными. Работа выполнена при поддержке Управления научных исследований Минобороны США. @ai_machinelearning_big_data #AI#ML#LLM#Research#Cognitive#NLP

20,300 views

Опубликован 17 сент.

⚡️Qwen-ASR Toolkit — мощный Python CLI для быстрой транскрипции длинных аудио и видео Эта утилита снимает ограничение API Qwen-ASR (бывший Qwen3-ASR-Flash) в 3 минуты и позволяет расшифровывать часы контента. Достигается это за счёт умного разбиения записи и параллельной обработки. Основные возможности: - Снятие лимита в 3 минуты - транскрибируй файлы любой длины - Умное разбиение (VAD - это технология, которая определяет, где в аудио есть речь, а где — пауза или шум.) - деление по естественным паузам, без - Высокая скорость - многопоточность и параллельные запросы к API - Автоматический ресемплинг — конвертация в нужный формат 16kHz mono - Поддержка любых форматов — MP4, MOV, MKV, MP3, WAV, M4A и др. - Простота - запуск одной командой через CLI 🟢Установка: pip install qwen3-asr-toolkit 🔗 GitHub: https://github.com/QwenLM/Qwen3-ASR-Toolkit @ai_machinelearning_big_data #asr#speech2text#qwen#opensource#nlp#toolki

29,600 views

Опубликован 4 сент.

🚀 Google выпустила EmbeddingGemma: лёгкую open-source модель для текстовых эмбеддингов. Модельку можно запускать прямо на телефоне или ноутбуке, без интернета и с сохранением приватности. EmbeddingGemma - новый лидер среди открытых многоязычных моделей <500M на MTEB 🟢Что внутри: • 308M параметров, но по качеству обгоняет все модели до 500M (по MTEB) • Работает очень быстро: менее 15 мс на EdgeTPU (256 токенов) • Понимает 100+ языков • Размер эмбеддингов можно уменьшать (768 → 128) без потери качества • Контекст до 2000 токенов • Уже доступна в Sentence-Transformers, LangChain, llama.cpp, transformers.js, Weaviate и др. 🟠Blog: https://developers.googleblog.com/en/introducing-embeddinggemma/ 🟠Models: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4 @ai_machinelearning_big_data #AI#Google#Gemma#EmbeddingGemma#ML#DeepLearning#LLM#NLP

32,299 views

Опубликован 1 сент.

⚡️ Tencent дропнули Hunyuan-MT — мощные open-source модели для перевода Что внутри: - Доступны модели Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B - Поддержка 33 языков - Chimera-7B — это первая в индустрии откртытая ансамблевая модель 🏆 Результаты: - 1-е место в 30 из 31 категорий на международном конкурсе WMT25 (Workshop on Machine Translation 2025, крупнейшая в мире конференция-соревнование по машинному переводу) - Hunyuan-MT-7B лидирует среди моделей своего размера 🟠Модели: https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597 🟠Репозиторий: https://github.com/Tencent-Hunyuan/Hunyuan-MT Demo: https://hunyuan.tencent.com/modelSquare/home/list @ai_machinelearning_big_data #AI#NLP#Translation#Tencent

41,200 views