TGTGInsightаналитика telegramLIVE / telegram public index
К списку каналов
Machinelearning avatar

TGINSIGHT CHAT

Machinelearning

@ai_machinelearning_big_data

Технологии

Погружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri

Подписчики31.3万Текущее число подписчиков
Постов1,009Проиндексировано постов
Охват398,300Просмотры последних постов
Последние посты

Последние посты

Стр. 34 из 85 · 1,009 постов

Опубликован 20 дек.

📌Итоги года от Андрея Карпаты. 2025 год был захватывающим годом для языковых моделей. Они проявились как новый вид интеллекта, одновременно гораздо более умный и гораздо более глупый, чем я ожидал. Я думаю, что индустрия не реализовала хотя бы 10% их потенциала даже при нынешних возможностях. Я одновременно верю и в то, что мы увидим быстрый и непрерывный прогресс, и в то, что впереди еще очень много работы. Пристегнитесь. 🟡Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) В 2025-м стек обучения LLM дополнился новой ключевой стадией оптимизации по объективным наградам. Он заставляет модели самостоятельно находить стратегии рассуждения. Прогресс года в том, что создание моделей стало не про увеличение размера модели, а про более длительные RLVR-прогоны. Это также дало новый рычаг управления: "время размышления" на инференсе. Первопроходец - OpenAI o1, а переломный момент - o3. 🟡Интеллект современных LLM принципиально отличен от человеческого Интеллект LLM формируется под давлением специфических оптимизаций и на выходе мы имеем резкие всплески способностей в рядом с грубыми ошибками. Из-за этого бенчмарки теряют смысл: под них напрямую оптимизируются, что не ведёт к созданию AGI. 🟡Cursor - это новый слой LLM-приложений Это не просто интерфейс к условной модели, а сложная оркестрация работы LLM под конкретные вертикали, c управляемым контекстом, вызовами и интерфейсом. Cursor создаёт отдельную ценностную прослойку между LLM-лабораториями и конечными пользователями. 🟡Claude Code В отличие от облачных агентов, он использует ваши данные, контекст и инструменты для ризонинга и вызова инструментов. Его фишка - в низкой задержке, приватности и глубокой интеграции в рабочее окружение. Это сдвиг от ИИ как «сайта» к напарнику-помощнику в вашей системе. Я думаю, OpenAI допустили ошибку, сосредоточив свои усилия по созданию агентов в облаке и управляемых из ChatGPT, вместо localhost. 🟡Вайб-кодинг В 2025 году ИИ преодолел порог, позволяющий через текстовые инструкции создавать работающие программы. Это демократизирует программирование, позволяя непрофессионалам писать код, а экспертам - быстро прототипировать без глубокого погружения. Код становится эфемерным, гибким и бесплатным ресурсом. Забавно, что я придумал термин «вайб-кодинг» в этом твите с мыслями из душа, совершенно не представляя, как далеко это зайдет :) 🟡LLM GUI и Nano banana Взаимодействие с ИИ через чат - это аналог командной строки 80-х, неудобный для человека. Будущее за LLM GUI интерфейсом, где ИИ общается визуально (инфографика, анимации, веб-приложения). Nano banana - ранний пример такого взаимодействия, в ней объединены генерация текста, изображений и общие знания. Google Gemini Nano banana — одна из самых невероятных, меняющих парадигму моделей 2025 года. 🔜Читать статью полностью @ai_machinelearning_big_data

40,800 views

Опубликован 20 дек.

✔️Higgsfield запустил сервис профессионального ИИ-кинопроизводства. Cinema Studio — специализированная среда генерации со структурой съемочного процесса. Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро. Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней. higgsfield.ai ✔️Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои. Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью. Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга. Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope. qwen.ai ✔️Cursor покупает платформу код-ревью Graphite. Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы. В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей. Несмотря на смену владельца, Graphite продолжит функционировать автономно. cursor.com ✔️NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000. Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт. Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года. blogs.nvidia.com ✔️Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM. Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом. Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам. Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia. deepmind.google @ai_machinelearning_big_data #news#ai#ml

26,200 views

Hashtags

Опубликован 19 дек.

🌟Minimax VTP: гибридный токенизатор для диффузии на стероидах. В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное. Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше. MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP). Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения. Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса: 🟢Стандартный pixel reconstruction loss; 🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2); 🟢Image-text contrastive loss (как в CLIP). Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна. 🟡Теоретические выкладки подтвердились на практике. Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза. 🟡Но главное открытие - это то, что заработал закон масштабирования для Stage 1. Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно. 🟡В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров: 🟠VTP-Large - 0.7B; 🟠VTP-Base - 0.3B; 🟠VTP-Small - 0.2B. 📌Лицензирование: MIT License. 🟡Набор моделей 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#Diffusion#Tokenizer#Minimax

28,300 views

Опубликован 19 дек.

Вышел YaC 2025 AI Edition. Внутри ИИ-ассистенты, ИИ-агенты, ИИ-наушники, ИИ-диктофон, новые LLM- и VLM-модели, роботы и автономные грузовики — всё, что начинается с ИИ. Часть фичей уже открыта на всех, часть ограниченно на тех, кто ранее записывался на раннее тестирование. Всё показано в демках или через личные кейсы пользователей. Интересно, что делают особую ставку на развитие направления Physical AI. Самый яркий пример ИИ в реальном мире — роботы-доставщики, число которых к концу 2027 года достигнет 20 тысяч (они появятся во многих крупных городах), для чего наладили автоматизированное конвейерное производство (где также трудятся роботы). Помимо роверов прогресс есть и в более мощных железках — один из автономных грузовиков Яндекса уже прошёл более 500 000 км, все вычисления на борту. В фильме продемонстрировали живые демо агентных систем, on-device вычислений и реальных сценариев применения LLM и VLM. Смотреть можно на любой платформе — Кинопоиск, VK Видео или YouTube.

29,600 views

Опубликован 19 дек.

✔️GPT-5.2-Codex. OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити. Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели. openai.com ✔️xAI представила Grok Voice Agent API. Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды. API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime. Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs. x.ai ✔️VS Code получил поддержку стандарта Agent Skills. В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах. Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости. Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах. code.visualstudio.com ✔️Google выпустила T5Gemma 2. T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров. Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей. blog.google ✔️ИИ-подразделение Марка Цукерберга открыло аудио-визуальный энкодер PE-AV. Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов. PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука. В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face. huggingface.co @ai_machinelearning_big_data #news#ai#ml

33,600 views

Hashtags

Опубликован 18 дек.

🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов. Ключевое: - Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF - Уверенно работает со сканами, рукописным текстом и нестандартной версткой - Возвращает структурированный результат, а не просто сырой текст - Подходит для автоматизации Document AI и downstream-аналитики - Доступен через API и готов к продакшен-использованию Главное - На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом. - Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения. - Используется в Document AI Playground: В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON. https://mistral.ai/news/mistral-ocr-3 @ai_machinelearning_big_data #ocr#mistal#llm

46,400 views

Опубликован 18 дек.

🌟TurboDiffusion: ускорение генерации видео в 100+ раз. Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа. Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности. Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу. 🟡Архитектура держится на 3-х китах оптимизации: 🟢Заменили стандартное внимание на гибрид из SageAttention2++ и Sparse-Linear Attention (SLA), который превратил квадратичную сложность в линейную. чтобы модель фокусировалась только на важных токенах. 🟢Дистиллировали сэмплинг через rCM - вместо стандартных 50–100 шагов модель приходит к результату всего за 3-4 шага без потери сути изображения. 🟢Перевели и веса и активации линейных слоев в INT8 используя блочное квантование, чтобы не потерять точность. В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов. 🟡Результаты бенчмарков выглядят как опечатка, но это не она. На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды. Это ускорение больше чем в 100 раз. При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала. 📌Лицензирование: Apache 2.0 License. 🟡Набор моделей 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#I2V#T2V#TurboDiffusion

37,100 views

Опубликован 18 дек.

✔️HY World 1.5: модель для генерации 3D-миров в реальном времени. Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS. В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом. Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры). 3d-models.hunyuan.tencent.com ✔️Microsoft обновила 3D-модель TRELLIS. TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией. В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты. microsoft.github.io ✔️Adobe добавил видеоредактор в Firefly. Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном. Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео. Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января. blog.adobe.com ✔️ Google Labs делает экспериментального ИИ-агента для автоматизации рутины. Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами. Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре. Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания. blog.google ✔️Perplexity обновила свое приложение для iPad. Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования. Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности. В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе. bloomberg.com @ai_machinelearning_big_data #news#ai#ml

28,000 views

Hashtags

Опубликован 17 дек.

⚡Gemini 3 Flash - быстрый ИИ нового поколения от Google Gemini 3 Flash: - это очень быстрая модель с минимальной задержкой - при этом она сохраняет сильные способности к рассуждению - Frontier-уровень на GPQA Diamond - рассуждения уровня PhD - Хорошие результаты на Humanity’s Last Exam - State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными - В целом, качество сопоставимо с Gemini 3 Pro Стоит в четыре раза дешевле, чем Gemini 3.0 Pro, при этом показывает сопоставимые результаты почти во всех бенчмарках, включая HLE и ARC-AGI 2. На некоторых бенчмарках модель обходит GPT-5.2. Более того, в ряде тестов модель даже превосходит более мощную версию Pro, оставаясь при этом значительно дешевле. По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость. Цены: - Text input: $0.30 per 1M tokens - Text output: $2.50 per 1M tokens - Cache read: $0.075 per 1M tokens - Input audio: $0.999 per 1M tokens - Input audio (cached): $0.249 per 1M tokens - Web search: $0.035 per request - Cache storage: $1 per hour per 1M tokens https://blog.google/products/gemini/gemini-3-flash/ @ai_machinelearning_big_data #AI#Gemini#Google#LLM#Multimodal#AIModels#MachineLearning

30,100 views

Опубликован 17 дек.

📌Андрей Карпаты написал ИИ-пайплайн для проверки IT-прогнозов десятилетней давности. Андрей опубликовал разбор своего нового пет-проекта. Он создал систему, которая анализирует архивные треды Hacker News и с помощью LLM проверяет, сбылись ли предсказания пользователей спустя 10 лет. Проект использует так называемые «послезнание» (hindsight), чтобы сравнивать старые комментарии с реальностью, выявлять визионеров и находить самые громкие ошибки. Технически решение представляет собой пайплайн, который собирает данные через API Algolia и обрабатывает их с помощью структурированного промпта. Тестовый прогон на 930 обсуждениях (месячный архив статей Hacker News) занял около часа и обошелся всего в 58 долларов. На выходе система генерирует статический сайт с «Залом славы» аналитиков и рейтингом точность прогнозов. Исходный вайб-код проекта, по традиции - в открытом доступе. @ai_machinelearning_big_data #AI#ML#LLM#Tutorial#Karpaty

39,500 views

Опубликован 17 дек.

✔️Black Forest Labs релизнула FLUX.2 max. FLUX.2 max — флагманская модель для генерации изображений кинематографического качества. Модель получила функцию "grounded generation": она использует данные из интернета в реальном времени, что позволяет точно отражать в генерациях актуальные события или текущую погоду. Инструмент ориентирован на профессиональную работу со стилем: модель поддерживает загрузку до 10 референсных изображений. В бенчмарках новинка сразу заняла вторую строчку по качеству text-to-image и редактирования, уступив только Nano Banana Pro. Воспользоваться FLUX.2 max можно исключительно через API. bfl.ai ✔️SAM Audio: модель для изоляции любых звуков по тексту, таймкоду или клику на видео. ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов. Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео. Код для инференса и веса модели в 3-х вариантах (small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground. github.com ✔️OpenAI сделала бенчмарк для проверки научного мышления ИИ. OpenAI запустила "Frontier Science" - стандарт оценки компетенций ИИ в физике, химии и биологии. Бенчмарк разработан при участии 42 победителей международных олимпиад и 45 ученых. Он разделен на два направления: трек «Олимпиада» включает теоретические задачи экстра-класса, а трек «Исследования» состоит из тестов уровня PhD, с которыми сталкиваются реальные научные сотрудники. Ответы в бенчмарке проверяет верифицированный авто-грейдер на базе GPT-5. Первые прогоны тестов показали расстановку сил среди моделей 2025 года. Лидером стала GPT-5.2 (x-high), решившая 77% олимпиадных задач и 25% исследовательских кейсов. Ближайший конкурент, Gemini 3 Pro, показал практически идентичный результат в теоретической части - 76%. openai.com ✔️Nvidia купила SchedMD. Nvidia объявила о приобретении компании SchedMD, которая развивает и поддерживает Slurm - инструмент для оркестрации вычислений в дата-центрах. Именно этот планировщик управляет нагрузкой на более чем половине суперкомпьютеров из рейтинга TOP-500. Для Nvidia это стратегический шаг: Slurm эффективно утилизирует ресурсы кластеров, выстраивая очереди на обучение нейросетей и симуляции так, чтобы GPU и CPU не простаивали. Nvidia пообещала, что Slurm останется open-source проектом и сохранит нейтральность к вендорам, продолжая работать на любом оборудовании. blogs.nvidia.com ✔️Власти США открыли набор 1000 инженеров и ИИ-специалистов на госслужбу. Администрация президента США объявила о запуске программы экстренной цифровизации госсектора - "US Tech Force". В рамках инициативы запланирован найм 1000 технических специалистов, в первую очередь - экспертов в области ИИ. Им предстоит решать задачи национального масштаба: от управления критической инфраструктурой Минфина до разработки передовых оборонных технологий. Условия для кандидатов приближены к рыночным: двухлетний контракт с годовым окладом от $150 000 до $200 000. Курирует набор Управление по кадрам, а первые специалисты приступят к работе уже в марте. По завершении службы инженерам обещают содействие в трудоустройстве на постоянные позиции в частные компании-партнеры "US Tech Force". techforce.gov @ai_machinelearning_big_data #news#ai#ml

29,500 views

Hashtags

Опубликован 16 дек.

⚡️ChatGPT Images 1.5 По словам компании, модель получила 4х прирост скорости работы и радикально улучшенный механизм инпейнтинга. Алгоритм научился вносить точечные правки в загруженные фото, сохраняя исходное освещение, композицию, стиль и узнаваемость персонажей, что позволяет использовать инструмент для профессиональной ретуши и виртуальной примерки. Модель также получила апгрейд в рендеринге текста и мелких деталей лиц. В состав команды, которая делала обновление вошли Билл Пиблз, руководитель разработки Sora, и Адитья Рамеш, ответственный за направление World Simulation. Для пользователей ChatGPT запущен отдельный интерфейс Images с библиотекой пресетов. OpenAI подготовили в гайд про промптингу к новой модели. Стоимость GPT Image 1.5 через API снижена на 20% по сравнению с первым поколением. @ai_machinelearning_big_data #news#ai#ml

29,200 views

Hashtags

12•••5•••10•••15•••20•••25•••30•••3233343536•••40•••45•••50•••55•••60•••65•••70•••75•••80•••8485