В Linux стандартными средствами можно использовать часть оперативной памяти как диск. Для этого требуется указать тип монтирования tmpfs в команде mount
mount -t tmpfs -o size=5G tmpfs /mnt/ram
Теперь путь /mnt/ram можно использовать как обычный каталог. Для чего это может быть нужно?
▫️ Скорость работы с таким каталогом выше чем многие SSD и тем более HDD.
▫️ Если у вас очень быстрый SSD на NVMe M.2 то такой способ особо не прибавит вам скорости, но поможет сохранить ресурс SSD когда требуется обрабатывать очень много мелких файлов и оперативка позволяет выделить нужный объем.
▫️ Оперативка это энергозависимая память, поэтому выключении питания все файлы безвозвратно теряются. Такой "non persistent" каталог гарантирует удаление временных файлов.
Я написал небольшой скрипт для условного теста и сравнения скорости копирования файлов между SSD и RAM.
Вот мои результаты:
Single File Size: 30.0Gb
ssd > ssd: 0:00:12.850 / 2.3Gb/s
sdd > ram: 0:00:06.453 / 4.6Gb/s
ram > ram: 0:00:06.995 / 4.3Gb/s
ram > sdd: 0:00:06.217 / 4.8Gb/s
Dir size: 32.7Gb, File count: 11127
ssd > ssd: 0:00:15.063 / 2.2Gb/s
sdd > ram: 0:00:08.486 / 3.9Gb/s
ram > ram: 0:00:08.032 / 4.1Gb/s
ram > sdd: 0:00:07.026 / 4.7Gb/s
Скрипт для теста ↗️
На моём железе прирост скорости ~2x. Плюс экономия ресурса SSD.
В Windows такой фишки по умолчанию нет, но обязательно найдутся аналогичные решения
#linux#triks
🎉 Нашу статью приняли на EMNLP 2025 в Main Track.
💪 Выводим распознавание жестовых языков на новый качественный уровень. В статье достигаем state-of-the-art🌿 на жестовых языках разных стран, включая в первую очередь русский жестовый язык (РЖЯ). Показываем, что качественный претрейн и предобработка — залог успеха.
Спасибо авторам: @your_petros@ilyaovodov@nagadit@hukenovs@karinakvanchiani
📝Жестовый язык: похожее в непохожем и наоборот
📖Logos as a Well-Tempered Pre-train for Sign Language Recognition
До встречи на конференции!
#research#rsl#emnlp
BORSch покорил наши сердца
Сегодня русскоязычное сообщество на EMNLP обсуждает работу BORSch, в которой авторы исследуют особенности знания мультимодальных моделей кухни постсоветского пространства. С этой целью они собрали мультимодальный датасет BORSch, включающий 1147 русскоязычных и 823 украиноязычных блюда, относящихся к странам постсоветского региона.
Например:
Откуда блюдо кывырма? + фото кывырмы
Gold answer: Gagauzia (🇲🇩 Moldova)
На примере BORSch авторы показывают, что даже передовые модели испытывают трудности при определении происхождения блюд из постсоветских стран — как в текстовой, так и в мультимодальной задаче Question Answering (QA): вместо правильного ответа они чаще отдают предпочтение стране, на языке которой был написан промпт.
Вывод (ИМХО): когда используете LLM для личных целей, не забывайте включать функцию Search (искать в сети). Не мучайте моделей кывырмой и эчпочмаками, Гугл — наше всё. Хотя, подозреваю, что с происхождением блюд на разных языках тоже может возникать диссонанс.
А работа и правда стоящая, особенно здорово, что с акцентом на постсовесткие языки.
@mashkka_ds
#llm#emnlp#новостисполей#трудовыебудни