TGINSIGHT CHAT
Machinelearning
@ai_machinelearning_big_data
ТехнологииПогружаемся в машинное обучение и Data Science Показываем как запускать любые LLm на пальцах. По всем вопросам - @haarrp @itchannels_telegram -🔥best channels Реестр РКН: clck.ru/3Fmqri
Последние посты
Тег: #apple · 6 постов
🍏Apple представила SHARP - фотореалистичный 3D генератор из одного изображения SHARP - это исследовательский проект Apple, который умеет создавать фотореалистичные новые ракурсы сцены, имея всего одну фотографию. Нейросеть за один проход предсказывает 3D-сцены в виде гауссианов. Полученную 3D-сцену можно: - рендерить в реальном времени - получать высококачественные изображения с близких ракурсов - двигать камеру в реальных метрических координатах Главные фишки: - используется метрическое 3D-представление с абсолютным масштабом - поддерживаются реальные движения камеры - модель работает zero-shot, без дообучения на новых датасетах Модель устанавливает новый уровень качества сразу на нескольких наборах данных: - метрика LPIPS улучшена на 25–34% - метрика DISTS улучшена на 21–43% по сравнению с лучшими предыдущими моделями При этом время генерации снижено в тысячи раз. SHARP показывает, насколько далеко продвинулись методы 3D-реконструкции и view synthesis — и как быстро такие технологии начинают работать в реальном времени, а не только в лаборатории. ▪Github: https://github.com/apple/ml-sharp ▪HF: https://huggingface.co/apple/Sharp ▪Демки: https://apple.github.io/ml-sharp/ @ai_machinelearning_big_data #apple#llm#ai#ml
💸Apple будет платить Google около $1 млрд в год, чтобы новая Siri работала на Gemini AI. Компания завершает сделку по использованию 1.2-триллионной модели Gemini для масштабного апгрейда Siri. Запуск - весна 2026. Главное: - Apple протестировала ChatGPT, Claude и Gemini, прежде чем выбрать Google - Gemini в 8 раз больше нынешней 150B-модели Apple Intelligence - Запуск будет через Apple Private Cloud Compute - данные остаются изолированы от Google - Внутреннее кодовое имя проекта - «Linwood» Apple подаёт это как временное решение, пока сама строит собственную модель на 1 триллион параметров. Рыночек отреагировал: $AAPL +0.04%, $GOOGL +2.44% на фоне новости. https://www.bloomberg.com/news/articles/2025-11-05/apple-plans-to-use-1-2-trillion-parameter-google-gemini-model-to-power-new-siri @ai_machinelearning_big_data #Google#Apple#Gemini
🍏Apple представила чип M5 - новый уровень AI-производительности M5 это заметный скачок по сравнению с M4: - GPU 10 ядер это мощнее M4 примерно на 30% - GPU 10 с Neural Accelerator в каждом ядре это в два раза быстрее М4 - Существенный прирост скорости on-device AI - Пропускная способность памяти выросла на 30% — до 153 GB/s - Liquid Retina XDR с яркостью до 1600 нит. 🧩 Новый M5 уже будет доступен в: - Vision Pro - iPad Pro - MacBook Pro 💰 Цена макбука- от $1599. 🖤 Цвета: серебристый и космический чёрный. 🚀 Старт продаж — 22 октября. apple.com/newsroom/2025/10/apple-unleashes-m5-the-next-big-leap-in-ai-performance-for-apple-silicon/ @ai_machinelearning_big_data #apple
Hashtags
🌟Embedding Atlas: визуализация структуры эмбедингов прямо в браузере. Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU. 🟡Автоматическая кластеризация и разметка данных. Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности. Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной. 🟡Интерактивность. В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные. Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки. 🟡Embedding Atlas поставляется в виде 2 пакетов: 🟢Python-пакет Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения. 🟢Npm-пакет Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API: Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas. 📌Лицензирование: MIT License. 🟡Страница проекта 🟡Документация 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#Embedding#Visualisation#Apple
🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку. Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI. Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя. 📌 Почему это важно: - Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели) - У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ - Приобретение Mistral может стать экстренной попыткой догнать конкурентов Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время. #Apple#Mistral#AI#LLM#ГонкаИИ @machinelearning_interview
🌟 FlexTok: адаптивная 1D-токенизация изображений от Apple. FlexTok - метод токенизации изображений, который преобразует 2D-изображения в упорядоченные 1D-последовательности переменной длины. Его цель - сократить объем данных, необходимых для обучения генеративных моделей, и при этом оставить достаточную информацию для качественной реконструкции и генерации. В отличие от традиционных подходов, где число токенов фиксировано и зависит только от размера изображения, FlexTok подстраивается под сложность контента: простейшая сцена может кодироваться несколькими токенами, а сложная - десятками и сотнями . FlexTok, это по сути, пайплайн из 3 компонентов: ViT‑энкодер, квантование регистров и маскирование внимания: ViT‑энкодер с набором «регистровых» токенов читает латентные представления VAE‑GAN и конденсирует их в 1D-последовательность до 256 регистров . Затем, с помощью FSQ‑квантования, каждый регистр дискретизируется в код из заранее определенного словаря размером ~64 000. На этом этапе применяется "nested dropout": во время обучения случайно обрезаются последние токены, чтобы модель научилась упорядочивать информацию от грубых форм к деталям. Параллельно применяется авторегрессионная маска внимания: каждый токен в цепочке видит только те, что были до него, и не знает о тех, что идут после. Это заставляет модель генерировать изображения шаг за шагом, от первого токена к последнему, и упрощает ей задачу прогнозирования следующих элементов. Декодер в FlexTok - это модель rectified flow, которая на вход берет укороченные токены и слегка зашумленные латенты VAE и учится предсказывать тот шум, который нужно убрать, чтобы вернуть исходное представление. Чтобы обучение шло быстрее и давало более точные результаты, добавляют REPA‑Loss: он сравнивает промежуточные признаки с векторами из DINOv2‑L. Благодаря этому даже при очень жесткой компрессии (от 1 до 256 токенов), FlexTok успешно восстанавливает детали изображения. FlexTok легко встраивается в текстово‑ориентированные модели и может улучшить соответствие изображения описанию, даже если число токенов меняется. К тому же его адаптивная токенизация применима не только к картинкам, но и к аудио или видео. ▶️Набор токенизаторов: 🟢Flextok_d12_d12_in1k - 12\12 слоев энкодер-декодер, датасет IN1K; 🟢Flextok_d18_d18_in1k - 18\18 слоев энкодер-декодер, датасет IN1K; 🟢Flextok_d18_d28_in1k - 18\28 слоев энкодер-декодер, датасет IN1K; 🟢Flextok_d18_d28_dfm - 18\28 слоев энкодер-декодер, датасет DFN. ▶️VAE: 🟠Flextok_vae_c4 - 4 каналов латента, коэффициент понижающей дискретизации 8; 🟠Flextok_vae_c8 - 8 каналов латента, коэффициент понижающей дискретизации 8; 🟠Flextok_vae_c16 - 16 каналов латента, коэффициент понижающей дискретизации 8. 🟡Страница проекта 🟡Набор на HF 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#Tokenizer#Flextok#Apple
Hashtags