✍️Пишем полифилы на JavaScript — [1:00:13]
Полифилы — это код, который реализует функционал, который не поддерживается в некоторых версиях браузера. Например, sessionStorage есть в IE8+, но недоступен в IE7.
Вы можете написать свой класс для реализации такого функционала, способного работать почти во всех версиях браузера.
Перейти к просмотру
#видео#код
📝Вайб коддинг: Telegram-бот для видео-кружков
Делимся кейсом от Ivan Bannikov и канала DIV.
Автор собрал простого, но полезного телеграм-бота: @tgsharik_bot. Он принимает обычные видеофайлы и возвращает их в формате «кружочка» — такого же, как видео-сообщения в Telegram. Вдобавок реализована проверка на подписку: доступ к функционалу только у подписчиков нужного канала.
Проект собран в рамках тренировки и прокачки в работе с нейросетями и быстрым прототипированием.
➡️ Вот как это было сделано:
1. Подготовка идеи и структуры. Сначала в нейросети (Claude, но можно использовать любую — GPT, DeepSeek, Grok) прогнали саму идею, набросали структуру проекта и сформулировали описание продукта. Это позволило быстро очертить, что нужно собрать, как должно работать и какие есть требования. Полноценного ТЗ в виде файла не было — всё на уровне промтов и быстрых набросков.
2. Сборка через Replit. Полученные описания были загружены в Replit. Перед запуском генерации автор воспользовался функцией Improve prompt, которая немного дополняет и уточняет описание. Затем — Start building. Replit начал собирать проект, настроил окружение, поднял сервер и выдал первую рабочую версию.
Важно: тот же подход можно реализовать в Cursor, Bolt и других нейросетевых IDE. Replit просто удобен тем, что сразу разворачивает сервер и даёт ссылку для тестирования.
3. Работа с чат-агентом. С первой попытки всё не заработало — Replit собрал код с ошибками. Пришлось подключать встроенного чат-агента и разбираться вручную. В процессе выявили, что не хватает импорта для asyncio и других мелких моментов. После правок удалось добиться нормального запуска бота.
Совет от автора: если Replit не справляется с конкретной ошибкой, можно скопировать код и закинуть его обратно в GPT или Claude с описанием проблемы. Затем внести предложенные правки в Replit. Такой способ сработал.
4. Деплой и запуск. Когда бот заработал, проект остался хоститься прямо на Replit. Для MVP и тестовой нагрузки этого достаточно. В случае роста можно либо перенести на внешний сервер, либо выгрузить как архив и задеплоить вручную.
🔥Итого: Простой бот, сделанный с помощью нейросети, без погружения в тонкости разработки с нуля. Это позволяет за один-два вечера собрать рабочее решение, поэкспериментировать и выкатить тестовую версию. Главное — не бояться отлаживать и дорабатывать руками.
#ИИ#AI#Нейросети
———
#Кейс#Код
✍️Подписывайтесь: @aiforproduct
Вот как звучит голосовая модель - я взял за основу 2 часа диктора какой-то сказки, и засунул его в качесвте датасета (кстати оригинал звучит менее приятно).
Примечательно, что модель делает паузы и остановки - хотя иногда читает текст не приавльно (например не так ставит ударения). Но для этого я сделал контекст анализ - который выявляет смысл предложения и правильно расставляет ударения (еще один датасет который требуется наполнить правилами и массивами 😒).
Есть более мощная модель - но она не мультиязычная, а мне хочется сделать так, чтобы даже с Пушкиным мог поговорить человек из любой страны.
Ниже представлено звучание модели:
1. Датасет на вход
2. Синтез на русском
3. Синтез на анлийском (здорово, что если в датасете нет англоязычного произношения, то голос на выходе будет звучать так, будто русский человек пытается произность янглоязычный текст). Представьте как тот же Пушкин будет говорить "Хелло май фриендс, ай эм Пушкин - а врайтер оф зе найнтентх центури" 😂
#код#хобби#обучение
Последние 3 дня разбирался с text-to-speech и нашел отличную мультиязычную голосовую модель которая подтягивает любой голос без длительного обучения (сразу съедает wav файл и работает). Дописал логику всего основного back проекта , теперь скрипт распознает голос, отправляет на llm, получает ответ и озвучивает его создавая wav файл очень качественным голосом (по качеству как GPTo но еще слабоват на русском ибо модель англоязычная, но это не проблема, дообучим). В общем, новой технологии БЫТЬ! База готова , осталось развернуть мощности и сделать качественные 3D модели портеров с минимальным количеством полигонов, ну и обернуть это все в интерфейс с индикацией и доступом.
Впрочем сейчас не об этом, пока мощностей нет, придется взять паузу по разработке. Пока делал основу, понял что нужна Lite версия без сложных 3D портретов. Чтобы люди могли сами загрузить фото, написать промты, подгрузить нужный голос и сгенерировать Lite-portrait. Суть такая, поверх лица накладывается 3d сетка и поинтами деформирует основную фотографию/видео при подаче на нее wav файла - это значительно легче и проще при нагрузке на железо как со стороны сервера так и со стороны пользователя, да это не прям хайтек движения, но и не у всех есть пару лямов сейчас сделать полноценную 3D копию.
Портал для масс где можно создать копию человека в 3 шага, даже при типичной анимации - это уже качественный инструмент сохранения памяти и личностей, плюс сбор бигдаты и датасетов для будущих нейронок.
Вангую через пару лет будет нейросеть которая автоматически генерирует 3D assets человека и нейронкой же ее анимирует по заданному датасету (не путать с veo3! для такой истории не хватит ресурсов Реалтайм анимацию рисовать, максимум для создания шаблонного видео). Тут вопрос только в большой базе данных 3д сканов и фотограмметрии, плюс шаблонных анимаций мимики и движений телом) - возможно даже мы сделаем эту самую нейросеть, но пока об этом рано думать.
Возвращаясь к lite версии портретов: планирую сделать достаточно простой датасет, снять часов на 200 (для начала) разговорную анимацию людей, синхронизировав чекпоинты мимики с входящим wav потоком, чтобы на будущее модель понимала какое положение точек в пространстве делать при воспроизведении аудио. После обучения, такую 3д маску можно будет наложить на любую фотографию, выбрать или загрузить голос и написав промты - создать упрощенную версию портрета любому юзеру. И при воспроизведении wav ответа от llm - чекпоинты будут выстраивать правильные координаты положения в пространстве, анимируя основную фотографию в realtime!
Завтра загружу аудио из text-to-speech, покажу как звучит модель 🤓
С нейронкой программирую всего неделю, а вижу очень большие движения и многое пересматриваю в процессе работы над проектом!
#код#хобби#обучение
2 дня активного общения с GPT и выявление проблем при запуске обучения на собственном датасете - я все таки смог собрать рабочий скрипт который работает!! (в рамках безопасности разумеется я его не показываю) 🫵
Теперь полученный датасет в предыдущем посте используется для обучения собственной голосовой модели которую мы будем использовать в портретах. Фишка в том что для этого требуется всего лишь чистый голос в формате wav на 20-60 минут студийной записи и на выходе мы получим качественный voice.
Дожидаться конца обучения я не стал поскольку на CPu макбука это займет неделю - и для качественного обучения требуется GPu с ядрами CUDA хотя бы на 8000 штук (а это карты формата rtx 4080 и больше) что не дешевое удовольствие )
Сейчас я делаю архитектуру на macOS но в ближайшее время буду переносить все на Linux с достаточно мощным оборудование (отдельный сервер).
Факт: программировать с помощью чата GPT реально и не вызывает особой сложности у людей, которые хоть немного разбираются в IT.
Следующий шаг - распознание речи, голосовое общение с llm, получение текстового ответа и превращение ответа в wav файл. А также скормлю GPT базу данных чтобы он связал все между собой и мог привязать голос и промты к конкретным I’d портретов для комфортного подключения.
Upd.:- Голосовая модель не актуальна! Используется другая более современная!
#код#хобби#обучение
#код#хобби#обучение
Начал самостоятельную разработку портретов новой технологией с помощью чата GPT. Буду делится шагами и результатами
Этап первый. Обучение голосовой модели портера.
Задача: обучить TTS (text-to-speech) на собственных wav файлах для последующего использования в портретах.
Решение: автоматическая система преобразования входных данных под обучение tts.
1. Добавляем wav файл в папку
2. Задаем скрипт который разбирает файл wav (20-60 минут) на куски 3-5 секунд
3. Используем speech-to-text который преобразует wav куски в текст для последующего обучения (используем whisper модели large)
4. Запускаем разбор wav на куски с помощью скрипта
Итог: задача выполнена, получен датасет готовый к обучению для text-to-speech
😎
В чем польза: достаточно просто поместить голосовую студийную запись в папку и нажать обучение - скрипт автоматически подготовит датасет под обучение.
Следующий шаг обученая модель с нужным голосом подключенная к LLm с преобразованием в wav файл.
Upd.:- Голосовая модель не актуальна! Используется другая более современная!
Под строительство лыжероллерной трассы вырубят более 63 гектаров Битцевского леса | #видео
Битцевский лес — один из крупнейших природных массивов Москвы. Здесь живут редкие животные, растут краснокнижные растения, а для тысяч людей это место отдыха и единственная «зеленая зона» рядом с домом.
Но сейчас Битцевский лес оказался под угрозой.
В этом видео мы разбираемся, что происходит с Битцевским лесом, какой проект строительства планируется, и почему жители выступают против.
Речь идет о строительстве лыжероллерной трассы длиной более 100 км. По оценкам, это может затронуть десятки гектаров леса — площадь сопоставимую по площади с 90 футбольными полями.
Мы поговорили с активистами и жителями, которые уже сейчас борются против проекта. Они рассказывают:
— к чему может привести вырубка леса
— как строительство повлияет на экологию Москвы
— почему лес может потерять свою природную ценность
— и что будет с доступом людей к лесу
Смотрите в YouTube: https://youtu.be/OSECxJP4G1M