Хотел сделать большое видео об этом, но пора признаться себе, что у меня никогда не будет на него времени (чтобы сделать качественно и интересно). Поэтому расскажу вам так. Уже второй сезон езжу вот на такой технике: трицикл Can-Am Spyder 2008 года. Решение его купить основывалось на трёх пунктах.
1. Очень давно присматривался и хотел попробовать
2. Никогда не езжу в городе и вообще не использую мотоцикл как транспорт, а только как средство для удовольствия в свободных от пробок местах
3. Катать жену более безопасным образом :)
Сразу скажу: техника ровно такая, какой выглядит — очень спорная, очень своеобразная. Центральный недостаток с точки зрения внешнего наблюдателя обычно выглядит так: от мотоцикла ты вроде бы ожидаешь возможности ездить сквозь пробки, а если уж нет, тогда логично взять автомобиль — он комфортнее, может ездить в дождь и снег, везти больше вещей. Это всё правда, я сейчас езжу на автомобиле в том числе, и могу со всей ответственностью заявить, что автомобиль комфортнее и удобнее как способ передвижения.
Дело только в том, что мотоцикл это не способ передвижения. Я писал об этом давно, ещё когда ездил на двухколёсной технике. Для перемещения своего тела из точки А в точку Б крайне непрактично использовать транспорт, который наиболее опасен именно в плотном потоке машин, требует специальной одежды и обуви, не позволяет с собой взять много вещей, одинаково плох и в дождь и в жару.
Мотоцикл это средство для катания ради кайфа. Ты выбираешь под это время и место. И вот тут трицикл показывает себя хорошо: проходимость в пробках не важна, потому что ты в любом случае не выбрал бы пробки. Вообще, по секрету вам скажу, мотоциклисты не испытывают удовольствия от необходимости протискиваться между рядами. Это довольно стрессово — тебе приходится постоянно следить, чтобы и тебя никто не прижал, и ты никому зеркало не снёс. Рука устаёт от работы сцепления и тормоза. Толкотня, выхлопы, агрессивные взбешённые из-за долгого стояния водители. А если у тебя не компактный городской нейкед, а широкий павер-круизер или Голда, тебе порой вообще лучше занимать в пробке машиноместо и стоять вместе со всеми. В каком-то смысле даже лучше, если у тебя нет выбора "стоять в пробке или пытаться тесниться с опасностью и стрессом для себя".
Зато, если ты выезжаешь ранним утром или поздним вечером на кольцевую, ЗСД, в область и в другие подобные места, чтобы прокатиться с ветерком, либо едешь в дальняк — вот здесь у трицикла есть ряд серьёзных преимуществ. Самое главное это безопасность: тебе не страшны ямы, колдобины, рельсы, разметка и скользкая дорога. У тебя нет опасности завалиться на бок, словить вобблинг или боковой ветер. Как следствие, ты можешь ездить, например, в обычной обуви и относительно простой плотной одежде. Поездки в дождь, если уж пришлось, тоже существенно проще.
При этом ощущения полностью мотоциклетные — динамика и обзор, чувство скорости и управление — всё как у мото (на эту штуку нужны мотоциклектные права, и вообще по документам это мотоцикл). Ты получаешь такие же эмоции, при этом меньше рискуя: отлично подходит для тех, у кого взаимоотношения с мототехникой это не адреналиновая наркомания, а просто способ приобретать определённые впечатления, недоступные другим способом.
Ну и много мелочей сверху: больше вещей с собой везёшь (спереди багажник под крышкой), на пересечённой местности не страшно завалиться на грязи, меньше устаёшь сам (не нужно держать равновесие корпусом), легче ездить вдвоём с кем-то и т.д.
Скоро собираюсь в средний дальняк (до этого ездил в маленький), буду вам рассказывать по пути.
#moto#hobby
Все не так сладко с редактирующими нейронками
Я много раз восторгался возможностям нано бананы и Flux Klein.
Они очень впечатляют своими возможностями, когда пробуешьделать что-то
Но самое интересное начинается, когда нужно получить именно то, что нужно.
😬
Я тут помогаю прекрасной Арине Швецовой визуализировать шалость с велосипедной формой.
В процессе отлаживаю пайплайн создания и доработки картинок. На удивление Gemini 3 pro image (Nano Banana Pro) и Flux Klein хорошо друг друга дополняют: там где не справляется одна модель, затаскивает другая, и наоборот.
Gemini отлично работает, чтобы совмещать несколько объектов, переносить рисунок или менять позу.
Klein лучше сохраняет исходную позу, отлично меняет освещение, лучше сохраняет логотипы и детали при точечных правках (особенно с нодой inpaint crop&stich на высоком разрешении)
Вот еще несколько советов, которые помогают выжимать согласованные результаты с хорошим качеством из обеих моделей:
● Убирать все лишнее с референсных фото. Даже мощные нейронки путаются, когда нужно совместить слишком много сущностей: стиль, освещение, направление камеры, детали конкретных объектов и т.п.
Я отдельно готовил лица персонажей, форму на «невидимом манекене», отдельно редактировал шорты, очки и т.п.
Общий принцип такой: если зажмуриться и посмотреть на картинку и в ней видны ненужные элементы — надо их несчадно убирать. Klein для этого идеально подходит
● Дорабатывать текстовый запрос для ясности. В Nano Banana встроена рассуждающая нейронка, которая под капотом дописывает базовый запрос до сложного и детального, и уже его отправляет в генерацию.
Klein вообще никак не улучшает промпт — что написал, то он и отправит в модель. Поэтому для него я сделал специальный дописывальщик промпта: закидываешь свою картинку и говоришь, что надо сделать. Он на основе картинки выдает более эффективный промпт, привязываясь к деталям.
На удивление, улучшенный таким способом текст, даже в банане повышает качество результата!
● Волшебства не существует. Как бы не были хороши нейронки, а все-таки с некоторыми вещами они неимоверно тупят.
Чтобы получить позу со скрещенными руками двух людей мне пришлось знатно попотеть: сделать маску по глубине и очень детально расписывать промпт чтобы получить нужное выражение и расслабленный вайб у персонажей.
А детали формы местами пришлось допиливать по старинке в Affinity — совмещая лучшие попытки и подчищая косяки.
Так что если хотите получить по-настоящему крутой результат, готовьтесь к фрустрирующей итерационной работе с периодическими возгласами «да капец, что-ж ты творишь, это не то!»
🐱
Там Арина в канале рассказывает со своей стороны историю, ну и вся финальная красота тоже там, так что подписывайтесь!
🎤Ссылки на утро — второй канал
⏲Устойчивый VPN за звезду
#опыт@cogload#text2image@cogload
OpenAI запустили API для генерации изображений через GPT-Image-1
Новая модель доступна через API.
Генерация не бесплатна: после верификации дают 1 генерацию в сутки в низком качестве (1-2 цента), а режим с высоким качеством уже сильно дороже (до 25 центов за картинку).
Доступные функции: можно создавать изображения с нуля, редактировать существующие, менять фон на прозрачный, комбинировать объекты (например, интерьеры или гибрид UAZ и Cybertruck). Архитектура гибкая — даже low-режим полезен, а high-режим пока вне конкуренции.
Доступ в РФ есть после верификации аккаунта (иногда через VPN), API-запросы на Python относительно стабильны.
Тестировать промпты можно через Playground OpenAI.
https://t.me/semasci
#openai#gptimage1#ai#text2image
Бесплатная Nano Banana c хорошим UX — Google Flow
Гугл хорошо обновил Google Flow, свой собственный инструмент для работы с Nano Banana 2 / Pro и видео-моделью Veo 3.1
Стало намного удобнее работать с референсами, точечно вносить изменения через лассо, рисование маркером и работу с кропом.
При этом не множатся сущности, потому что итерации хранятся внутри одного «ингредиента» т.е. картинки.
Обработанные ингредиенты можно называть, группировать, и сортировать, для создания новых сцен и комбинаций.
На прошлой неделе еще добавили популярные соотношения сторон кроме 16:9 и 9:16, и стало прям совсем удобно работать над настоящими проектами!
Плюс, в отличие от бананы внутри приложения Gemini, Flow не лепит водяной знак со звездой на картинку, а вшивает внутрь криптографически.
Еще из приятного: картинку сразу можно увеличить до 2k на бесплатном, и до 4к на платном тарифе. Да, местами шакалятся мелкие детали и текст, но зато работает шустро.
Похоже Flow становится магистральной площадкой для генеративных моделей гугла, потому что из Whisk предлагают пересаживаться именно на него. И в целом регулярность обновлений у продукта сильно выросла.
Ограничения
Сейчас для бесплатных аккаунтов можно сгенерить около 20-50 картинок с NB в день, и один видос Veo flash (80 кредитов из 150, +50 добавляют каждый день)
На тарифе за $25 около 100-500 картинок и больше видосов.
Пока идет привлечение пользователей, «кредиты» на картинки не расходуются, а только «ограничены в зависимости от нагрузки на сервера». То есть если нужно использовать пару раз в неделю, это прям годный инструмент!
Вот идеальный гайд для новичков по использованию Flow с русским дубляжом. В шестеренке аудио трек → Русский.
Ну и если пишет «недоступно в вашей стране», вы знаете что делать...
👀
⏲Устойчивый VPN за звезду
🎤Ссылки на утро — второй канал
#ToolReview@cogload#text2image@cogload#nanobanana@cogload
Бесплатный конкурент Nano Banana, который работает локально, и редактирует картинки без ограничений — Flux 2 Klein.
Плюсы:
● Генерация картинок и редактирование внутри одной модели!
● В режиме редактирования очень хорошее сохранение деталей исходника.
● Klein 9b Запускается на сравнительно слабом железе. У некоторых даже работает при 8 гб vram + 64 RAM, но медленно. На маках тоже работает!
Есть более шустрая и мелкая версия: Klein 4b, она работает вообще на тостерах с GPU, но качество субъективно похуже на 5-10%
● Для своего размера модель очень хорошо понимает запрос, работает с цветами в формате HEX #ffbb00, понимает структурированные JSON запросы, делает хороший реализм и свет.
● Base версии модели можно дообучать. Прямо сейчас сотни людей нагружают сервера, чтобы научить Klien новым трюкам или поправить косяки.
Моделька правда очень мощная. По моим ощущениям, дает результат чуть лучше первой нано-бананы. Местами конкурирует с PRO.
Главный секрет — в хорошем сжатии модели (distillation) и в запчасти нейронки которая называется VAE. Для линейки FLUX 2 разработчики специально запарились, чтобы изменения при редактировании были минимальными.
В моих тестах локальный Klein на высоком разрешении сохраняет мелкий текст даже лучше, чем 2k API запрос в Nano Banana Pro! На видосе на 0:11
Минусы
[–]Текстовый запрос на генерацию передается как есть. Нужно быть красноречивым нейтивом. Ну или использовать мой системный промпт для LLM, чтобы она писала детальные тексты для более тонких изменений.
Я отправляю картинку, коротко объясняю задачу, и если Klein выдаёт плохой результат — прошу у LLM улучшить промпт. Обычно всё получается с первой или второй попытки.
[–] Проблемы с анатомией. Да-да в 2026 году! Возможно из за сжатия, но иногда получаются длиннющие пальцы, или лишние ноги.
Лечится перегенерацией заново. Благо моделька быстрая: у меня на ноуте 4 варианта выдает на пару секунд дольше чем одну генерацию Nanobanana Pro в облаке.
[–] Хитрожопая «некоммерческая» лицензия.
Текст лицензии Klein 9b написан так, что её можно по разному трактовать.
Они ясно пишут, что не претендуют на "Outputs" т.е. результаты генерации, и «не ограничивают их использование, даже в коммерческих целях, кроме случаев, явно запрещенных в этой лицензии».
В этой оговорке самое хитрое противоречие
Дальше в тексте запрещен реверс-инженеринг и хостинг модели как сервиса в коммерческих целях.
То есть можно трактовать широко: «не продавайте модель как платный сервис, но используйте локально и можете делать с картинками что хотите»
А можно узко: «любое коммерческое использование запрещено, хотя на результаты мы не претендуем». Типа на территорию сада проход запрещен, но яблоки можно есть. Но если сунетесь — засудим. Но на яблоки не претендуем.
Я потратил вечер сталкивая лбами две самые умные модели в мире (по состоянию на прошлую неделю), гоняя их по тексту этой лицензии
🙉
ChatGPT 5.2 Pro Extended после 30 минут размышлений пришел к выводу, что если бы он был «сотрудником по правовым вопросам», в крупной студии или компании Fortune 500, то он не рекомендовал бы использовать в коммерческих целях. Ну и вообще, мало ли что — посоветовал использовать более слабую модель Klein 4b, там в лицензии чистый Apache 2.0 без булшита.
Gemini 3 Pro в режиме Deep Think сказал, что если дойдет до суда в юрисдикции Делавера, то юристы будут трактовать в вашу пользу из-за механизма Эстоппель
😑
😑
В общем решайте сами для своих сценариев с учетом рисков
↑ Gemini 3 конечно жесочайше лебезит в ответах по сравнению с ЖПТ! «Вы совершенно правы...»
🐱
Тут писал как настроить для жпт. Для Gemini только создавать Gem. Gemini недавно добавили свои инструкции
Если начинаете совсем с нуля в ComfyUI, рекомендую вот этот туториал
https://youtu.be/HkoRkNLWQzY?list=PL-pohOSaL8P-FhSw1Iwf0pBGzXdtv4DZC&t=428
А конкретно по Klein от этого же автора свежий урок с примерами и воркфлоу.
https://youtu.be/kNap0VWP1xs?t=830
В комменты закинул еще сравнений до/после
🎤Ссылки на утро — второй канал
⏲Устойчивый VPN за звезду
#ToolReview@cogload#text2image@cogload
Wan стал условно бесплатным
Китайская модель для генерации картинок и видео Wan.Video стала условно бесплатной.
Теперь сама генерация бесплатна, а кредиты (которые, как и раньше, дают немного бесплатно) тратятся на приоритезацию в очереди. Т.е. плата только за время выдачи результата.
Соответственно, если можете подождать, то бесплатно).
Качество генерации вполне на высоте, как картинки, так и видео.
Можно подкладывать свой аватар (лицо), на примере:
Educational Content with a Cozy Cafe Ambiance: A young man, dressed in a stylish dark polo shirt, stands against a warm, wooden cafe backdrop. His short, neatly-groomed hair frames his face as he passionately discusses recent advancements in neural networks. Holding a smoking ceramic cup of cappuccino, his eyes meet the camera with engaging confidence. The ambient lighting from table lamps softly illuminates his features, enhancing the intimate educational atmosphere. In the background, cozy cafe tables and a hint of bustling activity create a lively yet focused setting. The camera smoothly moves in for a mid-shot, capturing the essence of trustworthy knowledge-sharing.
А главное, доступен в России без VPN, общаться можно на русском.
Из минусов:
1. Время ожидания в очереди не указывает, невозможно понять, секунды остались до выдачи или часы. Это прям огромный минус, надеюсь скоро исправят.
2. Текст на картинке пытается выдать на китайском. Тут просто это надо знать, тем более не многие модели вообще могут нормально текст на картинке сделать, и особенно на русском.
https://t.me/semasci
#wan#text2image#text2video#image2video
#python#deep_learning#diffusion#flax#flux#hacktoberfest#image_generation#image2image#image2video#jax#latent_diffusion_models#pytorch#score_based_generative_modeling#stable_diffusion#stable_diffusion_diffusers#text2image#text2video#video2video
The Hugging Face Diffusers library is a powerful and easy-to-use tool for generating images, audio, and 3D molecular structures using advanced diffusion models. It offers ready-to-use pretrained models and flexible components like pipelines, schedulers, and model building blocks, allowing you to quickly create or customize your own diffusion-based projects. Installation is simple via pip or conda, and you can generate high-quality outputs with just a few lines of code. This library benefits you by making cutting-edge AI generation accessible, customizable, and efficient, whether you want to run models or train your own[1][2][5].
https://github.com/huggingface/diffusers