Вчера была новость о желании Яндекса продать «Новости» и «Дзен», и о том, что на них претендует VK.
Про новости говорить нечего, с ними всё более менее понятно. Куда интереснее Дзен. Изначально он создавался с благой целью — дать Рунету недостающую площадку для длинных текстов и авторских статей. Но, как это нередко бывает, его сгубила жадность. Трэш и мусор давали лучшие метрики и лучшие доходы с рекламы. Из-за этого и на самом Дзене появилась рекомендация «Пишите как можно чаще» и читатель там установился соответствующий.
С невероятной скоростью Дзен превратился в помойку из неадаптированных ссылок на внешние сайты вперемешку со статьями в духе «Десять самых крутых супергероев марвел» в разделе про кино. Содержание и форма соответствующие: неграмотные тексты от школьников, бестолковые бессодержательные комментарии от домохозяек.
Его, конечно, пытались из этого болота вытянуть, а сейчас вообще стали превращать в русскую альтернативу Ютубу, но, кажется, то ли слишком поздно, то ли никаких ресурсов уже не хватает.
Непонятно только, что с ним будет делать VK. Собственную текстовую платформу VK убивает уже не первый год. Даже если не брать в расчёт общую негативную репутацию соцсети — алгоритмическая лента, которая скорее вам покажет мем с котиком, чем хорошую статью, не оставляет авторам здесь особого пространства для развития. Ну и какие-нибудь совершенно дебильные «Клипы» для не слишком развитых детей делают персональной кнопкой на главном экране приложения, а тексты и статьи не делают — акцент площадки вполне ясен.
Моя гипотеза: VK окончательно добьёт текстовую часть Дзена, сделав её UI/UX ещё более невыносимым, чем сейчас. И на этих костях построит себе свой Ютуб. Возможно даже в будущем этот видеодзен заменит встроенный раздел с видео тут. И может даже Клипы схлопнут с дзеновским аналогом коротких видео.
#web
Поэтому вести борьбу с купцами счастья нужно неустанно и постоянно, как за зарплаты и нормальные условия труда. Победа на этом фронте сулит значительные успехи и на остальных.
Не слушайте игры нарядных дудочников. Думайте. Боритесь. @profcen_bot
#инсайд#мошенничество#mlm#сетевоймаркетинг
⚡️BERT is just a Single Text Diffusion Step
Любопытны пост, где автор объяснил на примере очень простую и очевидную, но мощную идею.
Он заметил, что то, что мы называем диффузией текста, на самом деле - это просто обобщённая версия классического обучения BERT.
Как работаетBERT?
В BERT модель берёт текст и маскирует часть слов, а потом учится угадывать, какие слова были скрыты.
В диффузии происходит почти то же самое, только шагов больше: на каждом шаге модель немного «портит» текст (добавляет шум), а затем восстанавливает его, всё меньше и меньше теряя смысл, пока не соберёт финальный чистый текст.
То есть BERT делает один шаг очистки - угадывает замаскированные слова.
А диффузионная модель делает много таких шагов подряд, постепенно превращая случайный набор токенов в осмысленный текст.
Барри дообучил RoBERTa, чтобы показать это на практике - и получил настоящий текстовый диффузионный генератор.
В примере:
- Используется RoBER (улучшенная версия модели BERT,) и датасет WikiText.
- На каждом шаге часть токенов заменяется на <MASK>,
модель восстанавливает их, потом снова маскирует — и так несколько раз.
- После нескольких итераций модель способна генерировать связный текст,
даже без автогенеративного декодера (как у GPT).
📈Результаты
- Модель генерирует осмысленный текст, хотя и не идеально связный.
- Качество улучшалось по мере добавления шагов диффузии.
- По времени генерации RoBERTa Diffusion была немного медленнее, чем GPT-2 (~13 сек против 9 сек), но архитектура осталась полностью encoder-only.
Автор упоминает, что позже наткнулся на работу DiffusionBERT, где идею реализовали глубже и подтвердили результатами.
Главная мысль:
BERT можно считать одноступенчатой версией текстовой диффузии.
Если добавить больше шагов, то vs получаем диффузионный генератор текста.
Если BERT - это один шаг диффузии, то будущее может принадлежать моделям, совмещающим "понимание" и "генерацию" текста в одном процессе.
https://nathan.rs/posts/roberta-diffusion/
@ai_machinelearning_big_data
#AI#Diffusion#RoBERTa#BERT#LanguageModel#MLM#Research