TGTGInsightаналитика telegramLIVE / telegram public index
← Machinelearning

TGINSIGHT SIMILAR POSTS

Найти похожее

Источник @ai_machinelearning_big_data · Post #8343 · 22 авг.

🌟MAD: алгоритм безопасной работы с огромными датасетами. Большие данные - это топливо для ИИ. Но как их использовать, чтобы не нарушить приватность, например датасета, где есть персональные данные? Один из вариантов - метод дифференциально-приватного отбора. Он выбирает из огромного набора уникальные элементы так, чтобы нельзя было соотнести их с конкретным человеком. А если данных - больше миллиарда? Для этого нужен более надежный подход. Таким алгоритмом стал Max Adaptive Degree (MAD), представленный Google на ICML 2025. Он не только эффективнее других параллельных методов, но и работает с наборами данных на десятки и сотни миллиардов записей. 🟡Стандартный MAD метод состоит из 3 шагов: 🟢Каждому элементу присваивается вес (обычно по частоте использования). 🟢К весу добавляется случайный шум для защиты приватности. 🟢Выбираются только те элементы, чей вес с шумом превышает определенный порог. Но тут появляется новая проблема - популярные элементы получают избыточный вес, который можно было бы использовать для менее частых, но ценных данных. MAD решает ее с помощью адаптивного взвешивания, перераспределяя вес: забирает часть у популярных элементов и отдает тем, чьи значения уже находятся у порога. Это позволяет отобрать больше полезных данных без потери приватности. Простой пример: представьте 100 пользователей, у каждого по 3 элемента. Один элемент (A) есть у всех, а остальные элементы уникальны. В базовом алгоритме элемент A получит слишком много веса (намного больше необходимого), а уникальные элементы - слишком мало. MAD "забирает" часть веса у A и распределяет его между уникальными элементами, давая им шанс пройти порог. 🟡MAD2R. Метод можно использовать в несколько итераций, публикуя промежуточные результаты с шумом. Так можно еще точнее распределять вес между раундами. В первом раунде запускается MAD как обычно, а во втором удаляются уже найденные элементы и те, которые явно не пройдут порог. Для остальных элементов применяется "смещение" веса на основе данных первого раунда. На практике MAD показал отличные результаты. Всего за 2 этапа он отобрал больше полезных элементов, чем другие методы. Например, в Common Crawl (800 млрд. записей) он выбрал набор слов, который покрыл 99.9% всех записей и 97% уникальных слов с полным соблюдением приватности. 🟡Статья 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#Selection#MAD#Google

Результаты

Найдено 15 похожих постов

Илья AGI TV 🤖

@ilia_plasma · Post #347 · 06.12.2023, 15:22

💎 Google запускает Gemini AI, которая лучше чем chatGPT 4 и проинтегрирована во все продукты #Google. Основные моменты: Мультифункциональность: Gemini разработана с нуля как мультимодальная модель, способная обрабатывать и объединять текст, код, аудио, изображения и видео​​. Гибкость и Оптимизация: Модель представлена в трех вариациях: Gemini Ultra для сложных задач, Gemini Pro для широкого спектра задач и Gemini Nano для задач, выполняемых на устройствах​​. Превосходящая Производительность: Gemini Ultra превзошла человеческих экспертов в тестах на многоязычное понимание, а также показала впечатляющие результаты в задачах, связанных с текстом и программированием​​​​​​. Продвинутое Мультимодальное Рассуждение: Gemini обладает способностью к сложному рассуждению, что делает её особенно подходящей для понимания и объяснения тем в области математики и физики​​​​. Эффективность и Надежность: Обучение Gemini 1.0 проводилось на специализированных AI-оптимизированных инфраструктурах, используя процессоры Google Tensor Processing Units​​. Ответственный и Безопасный #AI: Google уделяет особое внимание безопасности и ответственности, внедряя новые меры защиты для учета мультимодальных возможностей Gemini​​. Широкое Применение: Gemini уже внедряется в продукты Google, включая Bard и смартфоны Pixel, а также будет доступна через API для разработчиков и предприятий​​. Планы на Будущее: Для Gemini Ultra в настоящее время проводятся обширные проверки безопасности и доводка модели, после чего она станет доступна для широкой публики​​. 🔥 Чат для общения с моделью Gemini Pro завезли в Bard: https://bard.google.com/chat

Hashtags

Earth&Climate Tech

@earth_climate_tech · Post #401 · 19.10.2023, 16:00

​​Polymathic - междисциплинарный ИИ Ох, какая классная межуниверситетская инициатива - Polymathic🔥. Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п. В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков. На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI. #AI#ML

Hashtags

Илья AGI TV 🤖

@ilia_plasma · Post #599 · 23.12.2024, 08:57

#Google решил ворваться в рынок видео AI генераторов и выкатил свой Veo 2. OpenAI Sora просто курит в сторонке глядя на такое качество физики.

Hashtags

Ali Kuzhuget (AI, NLP, keyboards, Dev)

@AliKuzhuget · Post #106 · 27.07.2025, 17:11

Через неделю будут готовы переводы датасета SMOL от Гугла с Английского на Русский. Потом еще вычитка будет. Этот сбалансированный датасет для улучшения переводчика Гугла. Это позволит переводчикам переводить с Русского на свой язык и добавить/улучшить его в переводчике. Предполагаемый релиз будет в следующем году. Датасет содержит 2 таблицы: smolsent, smoldoc. Опционально, есть датасет gatitos (самые популярные слова на английском, нужно перевести/проверить на свой язык). У кого хороший английский, может уже сейчас переводить на свой язык. Кому надо, пишите в комментах. #google

Hashtags

🗣 В последних обновлениях политики конфиденциальности Google разрешила сбор общедоступных данных для обучения продуктов на основе искусственного интеллекта. В версии политики от 1 июля 2023 года сказано, что компания будет собирать данные для обучения ИИ-моделей и развития своих продуктов, таких как Google Translate, Bard и Cloud AI. #Google

Hashtags

🔎Google планирует сделать поисковик более «персонализированным, визуальным, удобным и человечным» с упором на молодежную аудиторию. По данным The Wall Street Journal, техгигант расширит систему чатом с ИИ под кодовым названием Magi. Также он уделит больше внимания ситуациям, когда традиционная выдача не может служить ответом на запрос. В таких случаях поисковик попросит задать дополнительные вопросы или предложит больше визуальных элементов вроде видео из TikTok. 📅 Ожидается, что компания представит новые функции на мероприятии Google I/O, которое состоится 10 мая 2023 года. #Google

Hashtags

🌐Googleдобавит в Chrome 113 функцию WebGPU, позволяющую использовать видеокарту для ускорения ИИ, онлайн-игр и графики. API будет включен по умолчанию на ПК с Windows с поддержкой Direct3D 12, MacOS (Metal) и ChromeOS (Vulkan). По данным компании, WebGPU позволит разработчикам достичь существующего уровня графики с гораздо меньшим количеством кода. Также он обеспечит более чем трехкратное ускорение логических выводов моделей машинного обучения. 🧱 В Google также заявили, что релиз Chrome 113 служит «строительным блоком» для грядущих обновлений и улучшений, обещая более продвинутые графические функции и глубокий доступ к ядрам шейдеров в будущем. #Google

Hashtags

👀Googleоткрыла доступ к Immersive view в Maps некоторым пользователям. Функция предназначена для просмотра фотореалистичных 3D-репродукций городов. При ее разработке инженеры объединили «тысячи снимков» Street View для создания точных копий различных локаций. 📆 В феврале 2023 года Google заявила, что система стала доступна в Лондоне, Лос-Анджелесе, Нью-Йорке, Сан-Франциско и Токио. Однако тогда мало кто обнаружил эту функцию в Maps. Теперь журналисты Gizmodo подтвердили, что Immersive view доступна в Лос-Анджелесе, Нью-Йорке и даже в Берлине. Также некоторые пользователи смогли протестировать функцию в Лондоне. 🗺 По данным Google, следующими городами, которые получат иммерсивное представление, будут Амстердам, Дублин, Флоренция и Венеция. #Google

Hashtags

📱 СМИ: смартфоны Google Pixel 8, вероятно, получат ИИ-инструмент повышения резкости видео Video Unblur. Журналисты 9to5Google проанализировали программный код APK-файлов для приложения Photos, загруженных компанией в Play Store. В результате декомпиляции они смогли запустить пользовательский интерфейс для инструмента и протестировать технологию. 📆 Video Unblur не смог заметно изменить видео. Вероятно, система все еще находится на стадии разработки. Ожидается, что Google покажет инструмент на конференции I/O 2023 10 мая. #Google

Hashtags

👀 Исследователи Google Researchразработали ИИ-модель Spotlight, способную одновременно решать несколько задач пользовательского интерфейса (UI). Система базируется на нейросетях-трансформерах для распознавания изображений ViT и преобразования «текста в текст» T5. Входные данные алгоритма могут включать три элемента: скриншот, определенную область на экране и текстовый запрос. В результате модель выдаст словесное описание или ответ на интересующий вопрос. ⚙️ По словам разработчиков, Spotlight существенно повышает точность выполнения UI-задач, включая создание подписей к виджетам, сводок экранов, привязки команд и прогнозирование нажатий. #Google

Hashtags

12
НазадСтр. 1 из 2Вперёд