TGTGInsightтелеграм анализLIVE / telegram public index
← шиза от вадима🍎
шиза от вадима🍎 avatar

TGINSIGHT POST

Post #166

@vadimfedenko

шиза от вадима🍎

Прегледи189Брой прегледи
Публикувано23.0323.03.2026 г., 06:46
Съдържание на публикацията

Съдържание

Небольшая заметка про худшую нейросеть В этом месяце вышла ИИ-модель Evo2. Статья в Nature Исследователи собрали всю живую ДНК и обучили на ней ИИ с контекстом в миллион токенов (где 1 токен=1 нуклеотид). У модели нет разметки того, что именно кодируют гены. Ей просто показывали генетические последовательности без дополнительного контекста. Как оказалось, применение у этого всё равно есть. Модель точно оценивает, принадлежит ли геном чему-то жизнеспособному. Если дать гены раковых клеток, модель определит это как неправильную ДНК. Более любопытно то, что модель может продлевать геном, если дать ей его начало. Авторы сгенерировали геномы митохондрий и дрожжей, скормив модели начало их последовательностей. Но я соврал, сказав, что модель обучили на всём живом! Кое-что исследователи пропустили: опасные вирусы в датасет они не добавили, чтобы модель не могла их генерировать. Ирония в том, что саму модель они опубликовали в открытый доступ и весит она всего 80 ГБ без квантизации (40 млрд параметров). Вы можете дообучить её прямо сейчас на датасетах вирусов и начать генерировать новые геномы неизвестных людям патогенов. Стоит это практически бесплатно (аренда H100 обойдётся в несколько долларов). Единственная загвоздка сейчас — синтез секвенции. В среднем стоимость синтеза составляет 0,10–0,30 доллара за пару оснований. Синтез всей ДНК и упаковка в небольшой вирус обойдутся в несколько тысяч долларов. Сделать новый штамм коронавируса выйдет где-то в $5к. Сейчас нужно слёзно просить лаборатории, чтоб они сделали вам синтез ДНК и упаковку в вирус. Красноречиво описать, почему ваш проектик с патогенами — очень хорошая идея. Но процесс демократизируется, и скоро мы попадём в мир, где создание смертельных патогенов станет домашним и тривиальным. Что меня ещё зацепило — название Evo2. То есть до этого была Evo1. Оказывается, принципы тут те же, что у обычных LLM: глубина понимания растёт с линейным наращиванием параметров. Скажем, я на компьютере запускал модели с 122b параметров, а вот оказывается, модель на 40b может генерировать организм типа дрожжей. Взгляните на график из вики (картинку приложил выше). По размеру генома дрожжи — это что-то около 1,2x10^7 пар нуклеотидов. Если подняться на два порядка — получается геном человека. ИИ-модели крупных компаний уже сейчас на 2 порядков выше, чем 40b, и достигают нескольких триллионов параметров. То есть вообще говоря, контора вроде Google могла бы генерировать геномы человекоподобных существ прямо сейчас. Главная загвоздка — в 100 раз большее контекстное окно, которое надо глубоко оптимизировать. Если к такой модели добавить разметку, например, мультимодальность с картинками и текстовыми чертами, модель могла бы генерировать геном по изображению или описанию. Можно будет скармливать картинки SCP-объектов, и нейросеть сообразит им функциональный геном. А то видео с гомункулом станет новой реальностью