🌟Google LangExtract: библиотека извлечения структуры из любого текста.
LangExtract - опенсорсная python-библиотека с функцией легковесного интерфейса к LLM, которая превращает большие объемы текста в структурированные данные.
🟡Ключевая особенность LangExtract на фоне других инструментов - точный фокус на источник.
Каждая извлеченная сущность, будь то имя, дата или дозировка лекарства, привязывается к точным символьным смещениям в исходном тексте. Это дает полную прослеживаемость и верифицируемость результата, просто подсветив найденные данные в оригинальном документе. Больше никаких «откуда модель это взяла?».
🟡Вторая сильная сторона - надежность выходных данных.
Вы определяете желаемый формат вывода с помощью специального представления данных и даете модели несколько примеров . Используя эти примеры, LangExtract следует заданной схеме, задействуя механизм контролируемой генерации, который поддерживается в моделях Gemini. Это гарантирует, что на выходе вы всегда будете получать данные в консистентном, предсказуемом формате.
🟡LangExtract умеет работать с действительно большими объемами.
Библиотека умеет бить текст на чанки, которые обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте.
Для наглядности библиотека умеет генерировать интерактивную и полностью автономную HTML-визуализацию. Это позволяет за считаные минуты перейти от сырого текста к визуальному представлению, где можно исследовать тысячи извлеченных аннотаций.
При этом LangExtract не замыкается на экосистеме Google: он поддерживает гибкую смену LLM-бэкендов, позволяя работать как с облачными моделями, так и с опенсорсными решениями, развернутыми локально.
🟡LangExtract может задействовать "мировые знания" LLM для обогащения данных.
Информация может быть как явной (извлеченной из текста), так и основанной на внутренних знаниях модели. Разумеется, точность таких выведенных данных сильно зависит от возможностей конкретной LLM и качества предоставленных примеров в промпте.
Изначально идеи, заложенные в LangExtract, были применены для извлечения информации из медицинских текстов. Библиотека отлично справляется с идентификацией лекарств, их дозировок и других атрибутов в клинических записях.
Чтобы продемонстрировать возможности инструмента в узкоспециализированной области, Google создал на Hugging Face интерактивное демо RadExtract. В нем показано, как LangExtract может обработать радиологический отчет, написанный свободным текстом, и автоматически преобразовать его ключевые выводы в структурированный формат, подсвечивая важные находки.
📌Лицензирование: Apache 2.0 License.
🟡Статья
🖥Github
@ai_machinelearning_big_data
#AI#ML#LangExtract#Google
💎 Google запускает Gemini AI, которая лучше чем chatGPT 4 и проинтегрирована во все продукты #Google.
Основные моменты:
Мультифункциональность: Gemini разработана с нуля как мультимодальная модель, способная обрабатывать и объединять текст, код, аудио, изображения и видео.
Гибкость и Оптимизация: Модель представлена в трех вариациях: Gemini Ultra для сложных задач, Gemini Pro для широкого спектра задач и Gemini Nano для задач, выполняемых на устройствах.
Превосходящая Производительность: Gemini Ultra превзошла человеческих экспертов в тестах на многоязычное понимание, а также показала впечатляющие результаты в задачах, связанных с текстом и программированием.
Продвинутое Мультимодальное Рассуждение: Gemini обладает способностью к сложному рассуждению, что делает её особенно подходящей для понимания и объяснения тем в области математики и физики.
Эффективность и Надежность: Обучение Gemini 1.0 проводилось на специализированных AI-оптимизированных инфраструктурах, используя процессоры Google Tensor Processing Units.
Ответственный и Безопасный #AI: Google уделяет особое внимание безопасности и ответственности, внедряя новые меры защиты для учета мультимодальных возможностей Gemini.
Широкое Применение: Gemini уже внедряется в продукты Google, включая Bard и смартфоны Pixel, а также будет доступна через API для разработчиков и предприятий.
Планы на Будущее: Для Gemini Ultra в настоящее время проводятся обширные проверки безопасности и доводка модели, после чего она станет доступна для широкой публики.
🔥 Чат для общения с моделью Gemini Pro завезли в Bard: https://bard.google.com/chat
Polymathic - междисциплинарный ИИ
Ох, какая классная межуниверситетская инициатива - Polymathic🔥.
Задача, которую они решают, заключается в создании ИИ моделей, которые используют информацию из наборов данных различных модальностей и разных научных областей, которые не имеют общего представления (например, текста). Такие модели могут использоваться в качестве надежных базовых показателей или можно сделать файн-тьюнинг для конкретных приложений. Такой подход может демократизировать ИИ в науке, предоставляя более сильные априорные модели для общих концепций, таких как причинность, измерение, обработка сигналов, и т.п.
В общем история с базовыми и генеративными моделями понемногу адаптируется к научным задачам, за что мы топим тоже 🤘. Реальных проектов пока немного, но есть, например, Multiple Physics Pretraining - подход к разработке больших предобученных физических суррогатных моделей или AstroClip - видимо модель CLIP для астрофизиков.
На данный момент кроме команды ученых есть и крутой консультативный совет, например, с Яном Лекуном (Yann LeCun) из Meta AI.
#AI#ML
Через неделю будут готовы переводы датасета SMOL от Гугла с Английского на Русский. Потом еще вычитка будет. Этот сбалансированный датасет для улучшения переводчика Гугла.
Это позволит переводчикам переводить с Русского на свой язык и добавить/улучшить его в переводчике. Предполагаемый релиз будет в следующем году.
Датасет содержит 2 таблицы: smolsent, smoldoc.
Опционально, есть датасет gatitos (самые популярные слова на английском, нужно перевести/проверить на свой язык).
У кого хороший английский, может уже сейчас переводить на свой язык. Кому надо, пишите в комментах.
#google
🗣 В последних обновлениях политики конфиденциальности Google разрешила сбор общедоступных данных для обучения продуктов на основе искусственного интеллекта.
В версии политики от 1 июля 2023 года сказано, что компания будет собирать данные для обучения ИИ-моделей и развития своих продуктов, таких как Google Translate, Bard и Cloud AI.
#Google
🔎Google планирует сделать поисковик более «персонализированным, визуальным, удобным и человечным» с упором на молодежную аудиторию.
По данным The Wall Street Journal, техгигант расширит систему чатом с ИИ под кодовым названием Magi. Также он уделит больше внимания ситуациям, когда традиционная выдача не может служить ответом на запрос. В таких случаях поисковик попросит задать дополнительные вопросы или предложит больше визуальных элементов вроде видео из TikTok.
📅 Ожидается, что компания представит новые функции на мероприятии Google I/O, которое состоится 10 мая 2023 года.
#Google
🌐Googleдобавит в Chrome 113 функцию WebGPU, позволяющую использовать видеокарту для ускорения ИИ, онлайн-игр и графики. API будет включен по умолчанию на ПК с Windows с поддержкой Direct3D 12, MacOS (Metal) и ChromeOS (Vulkan).
По данным компании, WebGPU позволит разработчикам достичь существующего уровня графики с гораздо меньшим количеством кода. Также он обеспечит более чем трехкратное ускорение логических выводов моделей машинного обучения.
🧱 В Google также заявили, что релиз Chrome 113 служит «строительным блоком» для грядущих обновлений и улучшений, обещая более продвинутые графические функции и глубокий доступ к ядрам шейдеров в будущем.
#Google
👀Googleоткрыла доступ к Immersive view в Maps некоторым пользователям.
Функция предназначена для просмотра фотореалистичных 3D-репродукций городов. При ее разработке инженеры объединили «тысячи снимков» Street View для создания точных копий различных локаций.
📆 В феврале 2023 года Google заявила, что система стала доступна в Лондоне, Лос-Анджелесе, Нью-Йорке, Сан-Франциско и Токио. Однако тогда мало кто обнаружил эту функцию в Maps.
Теперь журналисты Gizmodo подтвердили, что Immersive view доступна в Лос-Анджелесе, Нью-Йорке и даже в Берлине. Также некоторые пользователи смогли протестировать функцию в Лондоне.
🗺 По данным Google, следующими городами, которые получат иммерсивное представление, будут Амстердам, Дублин, Флоренция и Венеция.
#Google
📱 СМИ: смартфоны Google Pixel 8, вероятно, получат ИИ-инструмент повышения резкости видео Video Unblur.
Журналисты 9to5Google проанализировали программный код APK-файлов для приложения Photos, загруженных компанией в Play Store. В результате декомпиляции они смогли запустить пользовательский интерфейс для инструмента и протестировать технологию.
📆 Video Unblur не смог заметно изменить видео. Вероятно, система все еще находится на стадии разработки. Ожидается, что Google покажет инструмент на конференции I/O 2023 10 мая.
#Google
👀 Исследователи Google Researchразработали ИИ-модель Spotlight, способную одновременно решать несколько задач пользовательского интерфейса (UI).
Система базируется на нейросетях-трансформерах для распознавания изображений ViT и преобразования «текста в текст» T5. Входные данные алгоритма могут включать три элемента: скриншот, определенную область на экране и текстовый запрос. В результате модель выдаст словесное описание или ответ на интересующий вопрос.
⚙️ По словам разработчиков, Spotlight существенно повышает точность выполнения UI-задач, включая создание подписей к виджетам, сводок экранов, привязки команд и прогнозирование нажатий.
#Google