TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #430 · 8.07

Воттоваара — хорошее место для первой в вашей жизни горной экскурсии. Там всего по чуть-чуть: чуть-чуть подъёма (максимальный уклон градусов 60 от горизонта), чуть-чуть горной тропы (длина пути до верха около 2км), чуть-чуть высоты (417 метров). Хардкорные трекеры и хайкеры преодолевают такие участки одной ногой, не прекращая завтрак. Но неподготовленный человек сможет понять, есть ли для него смысл пытаться идти в какие-то более сложные горы. Даже "заброс" на гору есть. Но если в больших горах это вертолёт или вездеход по болоту, то здесь вас около часа везут на внедорожнике через камни и лужи метровой глубины. Да, обычный автомобиль (даже кроссовер) там не пройдёт совершенно никак, нужен высокий, полноприводный и обязательно со шнорхелем. Но это всё равно более доступная территория, чем какое-нибудь Плато Путорана, куда вообще не рекомендуют соваться туристам без хорошего опыта пеших походов. Впрочем, тут ироничный момент. База отдыха на подъезде живёт исключительно на туристах, которые хотят посетить Воттоваару. Теоретически она могла бы проспонсировать если не асфальтирование, то хотя бы проход грейдера по "дороге" и присыпку грунтом: это существенно уменьшило бы степень опасности для людей и степень износа техники, а также значительно подняло бы удобство и скорость доставки. Но тогда люди могли бы добраться на своих машинах и не брать на базе дорогой трансфер. Думаю, в какой-то момент и внедорожники потеряют способность проезжать там, нужен будет гусеничный вездеход. Прикольно, что, чем выше идёшь, тем ниже деревья. Гора как бы награждает тебя за усилия всё более красивыми и просторными видами. В целом территория будто бы инопланетная. Очень странно себя там чувствуешь — ты словно и не на Земле уже, и вообще не в реальности, а внутри какого-то странного рисунка. #travel

Hashtags

Резултати

Намерени 1 подобни публикации

Търсене: #flextok

当前筛选 #flextok清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #7942 · 02.07.2025 г., 09:01

🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple. FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины. Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации. В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями . FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания: ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров . Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000. На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям. Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов. Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление. Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения. FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео. ▶️Набор токенизаторов: 🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K; 🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K; 🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K; 🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN. ▶️VAE: 🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8; 🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8; 🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8. 🟡Страница проекта 🟡Набор на HF 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#Tokenizer#Flextok#Apple