TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #983 · 11.05

Художник Gudim написал у себя в Телеграме пост о том, что главная проблема соцсетей — умные ленты. В более-менее продвинутой среде и правда принято хейтить умные ленты, включать, где возможно, хронологические, юзать альтернативные клиенты и вообще ругать корпорации за то, что они делают плохо и пользователям и авторам контента одновременно. Вездесущие умные ленты — действительно часть процесса оговнения, но дело не только в нём. Gudim сделал отсылку к классике в шутку, но на самом деле угадал: главная проблема соцсетей ровно такая же, как и главная проблема музыки — это ты. Давайте разберёмся. В теории ты подписываешься на авторов контента в соцсети, они публикуют свои посты по мере желания и готовности, посты выстраиваются в ленту, и ты от новых к старым их читаешь, подобно свежей газете или сводке новостей. Звучит хорошо до того момента, пока ты не подпишешься на условный паблик с приколами. Паблик с приколами ведут 10 человек, а сами приколы они тащат с Реддита и 9гаг, поэтому публикация занимает 5 минут. При этом от пользователей они получают охваты, которые конвертируются в деньги с рекламы. Больше охватов — больше денег. Очень быстро система приходит к тому, что им выгодно постить так часто, как они вообще способны. В идеале они хотят, чтобы вся лента каждого юзера состояла только из паблика с приколами, потому что тогда они заработают ещё больше. Вообще я лично видел рекомендации от СММщиков для пабликов ВК постить 3-5 записей в день. Каждый день. А теперь вспомните, как часто постят ваши друзья или, например, независимые авторы, которые контент не где-то берут, а создают. И вот 2-3 таких подписки, и ваша лента — неюзабельный мусор. Не обязательно паблик с приколами: спамить мотивирован вообще любой автор, потому что его доля присутствия в вашей ленте равна его заработку. Но хороший контент делается долго, на это нужно время, так что в реальности особенно удаётся спамить как раз плохому и дешёвому контенту. Как это решить: 1. "Не подписывайтесь на мусор", "Человек сам виноват, что он подписался на спам-паблик!". Да, а ещё человек совершенно добровольно решает начать курить или, скажем, принимать наркотики, но эти области всё равно в разной степени контролируются извне. Потому что авторы спам-паблика (как и наркоторговцы) ОЧЕНЬ мотивированы затянуть новых людей в свою схему заработка, и они будут использовать для этого множество разных средств, на которые неминуемо попадётся значимое число клиентов. То есть в масштабах одного конкретного человека с железной дисциплиной этот подход работает, но в масштабах системы из множества произвольных людей — нет, не работает совсем. 2. Остаётся только одно — каким-то образом фильтровать мусор. Тут возникает сразу много других проблем: начиная с того, что для разных людей понятие мусора разное, и заканчивая тем, что, да, в какой-то момент появляются ещё и интересы площадки. Площадка хочет не давать людям приятный и интересный контент, а давать людям то, что увеличивает таймспент и заработок с рекламы. И внезапно получается так, что таймспент растёт не от качества контента, кто бы мог подумать. Самые популярные в мире соцсети (Инста и Тикток) — целиком основаны на алгоритмической подаче информации. И эта информация очень "жвачкообразная" — короткая, клиповая, с быстрым захватом внимания. Так что да, если ругаете умные ленты, то просто поругайте какого-от своего друга, который пользуется Инстой, потому что именно поведение юзеров и отсутствие дисциплины у них делает такие ленты выгодными для корпораций. #web

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #roberta

当前筛选 #roberta清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8817 · 20.10.2025 г., 20:41

⚡️BERT is just a Single Text Diffusion Step Любопытны пост, где автор объяснил на примере очень простую и очевидную, но мощную идею. Он заметил, что то, что мы называем диффузией текста, на самом деле - это просто обобщённая версия классического обучения BERT. Как работаетBERT? В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты. В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст. То есть BERT делает один шаг очистки - угадывает замаскированные слова. А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст. Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор. В примере: - Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText. - На каждом шаге часть токенов заменяется на <MASK>, модель восстанавливает их, потом снова маскирует — и так несколько раз. - После нескольких итераций модель способна генерировать связный текст, даже без автогенеративного декодера (как у GPT). 📈Результаты - Модель генерирует осмысленный текст, хотя и не идеально связный. - Качество улучшалось по мере добавления шагов диффузии. - По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only. Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами. Главная мысль: BERT можно считать одноступенчатой версией текстовой диффузии. Если добавить больше шагов, то vs получаем диффузионный генератор текста. Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе. https://nathan.rs/posts/roberta-diffusion/ @ai_machinelearning_big_data #AI#Diffusion#RoBERTa#BERT#LanguageModel#MLM#Research