Мастерская 3/4. Кассетницы — моё спасение.
Много лет назад купил на Али простенькие модульные кассетницы с ящичками разных размеров. Сразу знал, что под электронные компоненты, но концепция их хранения менялась с тех пор неоднократно. Наконец, добрался, отсортировал всё, что было, сделал этикетки. Не сказать, чтоб много, но и свободных ячеек почти половина: можно докупать и заполнять.
А под крепеж и всякие бытовые мелочи купил серию от российской фирмы "Стелла-техник" и напечатал в них вертикальные вставки-перегородки. Что удобно, так это возможность полностью вытащить любой ящичек и взять с собой.
В целом такая система нужна чаще, чем кажется. И применяется в двух сценариях. Первый самый понятный: вам нужен, условно, винт М3 (саморез, дюбель, конфирмат итд), вы совершенно точно знаете, где его брать.
Но второй сценарий не менее важен. Вы купили шкаф, после сборки остались стяжки (наклейки, гвозди, шканты). И у вас есть совершенно определенные места, куда вы сразу же это всё складываете. Никакого захламления.
Я очень доволен. Теперь найти бы время попаять что-нибудь.
#diy#life#окр
🌟OLMo Hybrid: RNN плюс трансформер в одной модели.
Институт Аллена опубликовал OLMo Hybrid 7B - модель, которая построена на чередовании слоев Gated DeltaNet и стандартного внимания в соотношении 3:1. Такая архитектура решает больше подзадач из обучающих данных за меньшее число токенов, что напрямую снижает потребность в данных при обучении.
Gated DeltaNet - это RNN с расширением в виде отрицательных значений матрицы переходов. Это небольшое изменение в правиле обновления внутреннего состояния позволяет слоям Gated DeltaNet реализовывать динамику попарной перестановки элементов и за счет этого решать задачи отслеживания состояния, недоступные чистым трансформерам.
В OLMo Hybrid Ai2 показали, что гибридные модели выразительнее суммы своих частей. Существует класс задач (назовем их отслеживание состояния с обращением к памяти), которые не решают ни чистые трансформеры, ни чистые RNN, но гибрид справляется с ними уже при одинарном чередовании типов слоев.
Абляционные эксперименты от 60M до 1B параметров показали, что GDN стабильно лучше Mamba2 как в чистом, так и в гибридном варианте, равномерное чередование слоев лучше концентрации внимания в середине сети, а соотношение 3:1 - оптимальный баланс между качеством и вычислительной стоимостью на средних и крупных масштабах.
🟡Тесты
🟢На MMLU OLMo Hybrid достигает той же точности, что OLMo 3 7B, используя на 49% меньше токенов; на срезе Common Crawl - на 35% меньше.
🟢Коэффициент эффективности использования данных у гибрида равен 83,7 против 94,9 у трансформера.
🟢Экономия данных растет с размером модели: примерно в 1,3 раза на 1B параметров и в 1,9 раза на 70B.
После дообучения и адаптации к длинному контексту OLMo Hybrid обходит OLMo 3 во всех категориях оценки. На RULER при 64k токенах - 85,0 против 70,9 у базовой модели.
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Техотчет
@ai_machinelearning_big_data
#AI#ML#LLM#OLMoHybrid#Ai2
⚡️OLMoASR: открытые ASR-модели от AI2.
Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
▶️Линейка моделей:
🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
📌Лицензирование: Apache 2.0 License.
🟡Статья
🟡Набор моделей
🟡Техотчет
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#ASR#OLMoASR#AI2
🌟WildDet3D: открытая модель монокулярной 3D-детекции по одному снимку.
Институт Аллена представил модель WildDet3D, которая по одному изображению строит 3D-рамки объектов: оценивает их положение, размер и ориентацию в метрических координатах.
Модель принимает сразу несколько типов промптов: текстовый запрос, клик по точке или готовый 2D-бокс от внешнего детектора.
🟡Архитектура состоит из 3 блоков
2D-детектор построен на SAM3 и обрабатывает все типы запросов.
Геометрическая ветка использует энкодер DINOv2 с обучаемым декодером глубины, учитывающим геометрию обзора: направления лучей камеры зашиваются через сферические гармоники, что снимает необходимость в отдельной калибровке.
Третий компонент, 3D-head, объединяет через кросс-внимание 2D-детекции с признаками глубины и поднимает их в полноценные 3D-боксы.
Если на инференсе доступны данные с LiDAR, ToF или стереокамеры, они подмешиваются в ту же геометрическую ветку без переобучения.
🟡Тесты
На бенчмарке Omni3D модель показывает 34,2 AP с текстовыми промптами (это +5,8 пункта к прежнему лидеру 3D-MOOD).
На zero-shot переносе на Argoverse 2 WildDet3D практически удваивает прежний результат: 40,3 ODS против 23,8.
На редких категориях из собственного бенчмарка WildDet3D-Bench успехи, разумеется, еще лучше - 47,4 AP против 2,4 у 3D-MOOD.
🟡Вместе с моделью вышло демо-приложение для iOS.
Оно использует видеопоток с камеры iPhone и данные LiDAR-сенсора, чтобы в реальном времени отрисовывать 3D-боксы поверх сцены как AR-оверлей.
Это наглядная демонстрация того, как монокулярная модель усиливается, когда устройство умеет отдавать дополнительный сигнал глубины.
🟡Третья часть релиза - датасет WildDet3D-Data.
Более 1 млн. изображений и 3,7 млн. верифицированных 3D-аннотаций, охватывающих свыше 13 тыс. категорий объектов. По сценам распределение получилось такое: 52% помещений, 32% городской среды и 15% природы.
Он собран на основе 2D-наборов (COCO, LVIS, Objects365, V3Det): кандидаты в 3D-боксы генерировались 5 независимыми методами оценки геометрии, затем фильтровались, проверялись VLM и дополнительно отбирались людьми.
🟡Статья
🟡Модель
🟡Техотчет
🟡Demo
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#CV#Detection#WildDet3D#Ai2