Съдържание
Google I/O без купюр. Часть 1 Прошел ежегодный Google I/O. Много всяких апдейтов. Буду тестить новинки и делиться с вами впечатлениями. Начнем с самой ожидаемой модели. На нее было больше всего надежд. Gemini Omni Чуда не случилось. Хоть, как и обещали, появилась настоящая мультимодальность (возможность нативно работать одновременно с текстом, видео, картинками и аудио) — качество получаемых видео назвать прорывным сложно. 1. Картинка ощущается все еще как нейрослоп. 2. Да, модель принимает на вход разные форматы данных, но не сказать, что шикарно как-то их обрабатывает. Не сравнить с эффектом, который производят GPT Image 2 и Nano Banana Pro, где действительно ощущается, что картинки хорошо понимаются моделью. Прикладываю 2 примера генерации. Первое видео — просто попросил сгенерить профессора, доказывающего теорему Пифагора на маркерной доске со скучающей аудиторией. Как вы можете заметить — рисунки на доске появляются сами, видимо силой мысли профессора, а аудитория полна клонов 😁 Вторая генерация — я попытался развить первое видео и превратить его в тренд 2013 года — Harlem Shake. Закинул для примера оригинальное видео тренда тех лет и получил... то что получил. Судите сами. Наверное я мог бы простить все, кроме того факта, что аудитория сидит спиной к доске 🤙 То есть модель вроде неплохо следует инструкциям, понимает разные типы данных, даже справилась с переносом аудио с предоставленного видео на свою генерацию. Но совершает ошибки в базовом понимании мира. Это убивает всю магию. Очевидно, что можно черипикнуть хорошие генерации (что и сделали в презентации сами Гуглоиды), но, в целом, удовольствие недешевое. В мою подписку Gemini Pro входит всего три генерации в день — не разгуляешься. С такими ограничениями заявленный функционал "редактируйте текстом видео" — просто маркетинговый слоган. Что ж, будем надеяться, что это лишь первая версия. Заместители