Post #573

@saintbyte_channel

SaintBytеChannel

Просмотры459Количество просмотров

Опубликован12 сент.12.09.2025, 19:05

Содержимое поста

Содержимое

Если уж заниматься чем-то, сидя дома, то, конечно, модной штукой вроде ИИ. С видеокартами от NVIDIA у меня всё плохо — среди хлама нашёл карту лишь пятнадцатилетней давности (ещё даже без CUDA-ядер, но с гигабайтом памяти). Комп с Линуксом у меня есть (я на нём режу иногда видео и смотрю фотки), но там из вычислительной мощности всего 16 ядер процессора. Нет мощностей — значит, программно компенсируем, следовательно — никакого Python'а (только не надо рассказывать мне про оптимизацию NumPy). Покопался я значит в интернете и нашёл идеальную вещь под такое вычислительное чудо: llama.cpp. Во-первых, бинарник, во-вторых, веса и слои принимает одним файлом в формате GGUF. Для тех, кто боится, что ЦРУ и ФСБ во главе с рептилоидами хотят подсунуть вирус, можно собрать из 👩‍💻исходников. Но я лентяй использую порт менеджера пакетов с макоси ( родной apt на убунте не находит пакет с llama.cpp) . Ставиться homebrew просто , но надо иметь возможность сделать sudo: sudo adduser linuxbrew /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" По окончанию установки внимательно читает как сделать так что brew работал из консоли без полного пути. Затем ставим llama.cpp: brew install llama.cpp brew подтянет все зависимости сам. Модели. Во первых GPT-OSS - халява от OpenAI . Импортозамещение представляено GigaChat. Я не стал выпендриваться и попробовал модели размером 20b 1. gpt-oss-20b 2. GigaChat-20B-A3B-Instruct Запускается это так: llama-server -m [gguf файл с моделью] и затем браузером идем на 👩‍💻http://127.0.0.1:8080 - там уже все готово для чата с моделью. Количество мозгов и производительность у моделей GPT-OSS на тему медицины врет совсем как если бы я начитался умных слов и мне срочно надо было бы сдать экзамен, может неправильно ставить окончания. Выдает 2.8 токена в секунду на моем железе, получается читать быстрее чем модель выдает результат. GigaChat 20B в версии Q5-O уже приличнее , на вопрос отвечает почти правильно - но тоже сочиняет. Но по мне мне после беглого чтения википедии ответ сошел за истину. Думает уже 1.8 токена в секунду.