TGTGInsighttelegram intelligenceLIVE / telegram public index
← Newlearnerの自留地

TGINSIGHT SIMILAR POSTS

類似コンテンツを探す

ソースチャンネル @NewLearnerChannel · Post #14708 · 9月9日

#APPLE 🍎Apple 2025 秋季发布会看些啥?—— 自留地 の 前瞻盘点 明天凌晨,一年一度的阿果秋季春晚又要来了。老规矩,结合此前种种爆料和信息,我们一起来盘点一下今年可能的看点 📱iPhone 17 系列 - A19 系列处理器 - 推出全新 Air 系列,主打 5.5mm 超薄机身,配备「药丸」后摄模组,预计搭载 12GB RAM、Apple C1 调制解调器和 6.6 英寸显示屏 - Air 首发或暂无国行,因其大概率仅支持 eSIM,需等 eSIM 政策落地 - Pro 系列将采用半玻璃半铝的设计,其中玻璃区域用于 MagSafe 充电,后背还将采用巨大摄影头模组 - Pro 系列有望搭载 A19 Pro 处理器,以及全 48MP 后置三摄 / 最高 8 倍光学变焦 - Pro 机型将提供橙色、深蓝色、灰色、白色和黑色机型 - 数字版将迎来 6.3 英寸显示屏、A19 处理器以及「小药丸」后摄模组,有望带来 ProMotion 功能 - 将采用均热板等手段,进一步改善 iPhone 散热问题 📸 今年升级的亮点,我觉得除了推出轻薄 SKU 取代了 Plus 系列之外,依然是影像。随着国产 Android 品牌以及三星等竞品的不断发力,光学长焦等手机相机体验越来越好,Apple 这几年感受到了压力。去年使得 Pro 和 Pro Max 在影像功能上做到了对等,今年很高兴看到模组增大的同时,有新的功能和变化 像素提升、光学倍数增加,都是我们喜闻乐见的,拍演唱会等场景可以排上大用场。但是,正如我去年说的那样,我们也应该拥有一个「专业模式」来充分发挥这些硬件的实力。此外,对于日常用的中焦焦段的选择,Apple 应该有自己的思考 🧠 去年以为 Apple Intelligence 会在过去的这一年大展拳脚,但其实 Apple 还是在做底层的框架协议,至于落地一直传闻想要通过合作或者收购其他 LLM 来实现。我能理解 Apple 站到了一个十字路口,下一步选择很重要。但去全球化日益明显的今天,Apple Intelligence 在各国的落地也受到诸多法律和监管方面阻碍 从我个人的角度来看,对 Apple Intelligence 的需求也不是太强烈,日常主要还是以电脑使用为主。因此,今年也不排除会继续选择国行。最后,eSIM 或许是接下来一年每个人都要考虑的问题,如果新机真的大规模砍掉双 nano-SIM 卡,变为单卡 + eSIM 的模式,应该怎么处理自己目前的多卡问题 ⌚️Apple Watch 系列 - Apple Watch Ultra 3 将搭载全新 S11 芯片,并支持 5G 网络连接,保留卫星通信功能,略微增大屏幕尺寸 - Apple Watch Series 11 预计延续 Series 10 的设计语言 - Apple Watch SE 3 也可能获得升级,重点是升级芯片 - 目前尚不清楚是否会引入血压监测功能 🎧AirPods - AirPods Pro 3 有望在下半年发布 - 有望取消背部的传统实体配对按键,同时为充电盒正面引入触控操作区 - 耳机盒将变得更小 - 引入心率监测、体温监测等健康功能 - 实时翻译功能可能无法随硬件首发一同提供 之前通过 AC+ 更换的越南产 AirPods Pro 一代,已经快要罢工了,因此我迫切地等待第三代的发布 👀 今年的传闻大致如上所述,期待 iPad 和 Mac 更新的朋友或需要等更迟一些的发布会了。随着年龄增长,逐渐发现即便如 Apple 这样的品牌,也不能做对、做好每一件事,黄金时期的发展掩盖了很多问题,一旦停滞进入瓶颈期便暴露无遗。不管怎样,我还是很怀念那个爆料没有这么发达、发布会还是实时直播的年代 🔗 附上一些国内外媒体长文前瞻:Bloomberg | 9to5Mac | MacRumors | The Verge | sspai * 以上所有前瞻信息来自网络和爆料人,均在早晚报出现过,不一一列举来源。请以最终发布会结果为准,欢迎大家届时进群 @NewlearnerGroup 和我们一同观看 🍿️ 频道:@NewlearnerChannel

Hashtags

結果

28件の類似投稿が見つかりました

検索: #multimodal

当前筛选 #multimodal清除筛选

🚢DP World: мультимодальные коридоры становятся ключевым фактором устойчивости цепочек поставок. Оператор портовой и логистической инфраструктуры DP World отмечает рост мультимодальных транспортных решений на фоне сбоев в глобальных цепочках поставок. Компания развивает интеграцию морских, железнодорожных и автомобильных перевозок, создавая сквозные логистические коридоры. По оценкам, мировой рынок мультимодальных перевозок достигнет $160 млрд к 2032 году. DP World уже реализует эту стратегию: сеть компании охватывает более 200 портов и свыше 23 500 рейсов в год, а объем перевозок достигает около 6 млн TEU. Особое внимание уделяется развитию фидерного и каботажного судоходства, связывающих региональные порты с внутренними логистическими системами. Переход от линейных цепочек к интегрированным коридорам отражает новую модель глобальной торговли, где ключевыми факторами становятся гибкость, скорость и устойчивость к внешним шокам. Дополнительно усиление мультимодальности позволяет снижать зависимость от отдельных маршрутов и повышать эффективность логистики, особенно в условиях геополитической нестабильности и перегрузки портов. Таким образом, DP World делает ставку на интеграцию транспортных систем как основу конкурентоспособности в новой структуре глобальных поставок. 📌DP World Limited — основана в 2005 году, глобальный портовый оператор, базируется в ОАЭ, принадлежит компании Dubai World (правительство Дубая). #logistics#ports#shipping#multimodal#supplychain

Machinelearning

@ai_machinelearning_big_data · Post #8865 · 2025/10/27 16:24

⚡️Glyph: масштабирование контекста через визуально-текстовую компрессию В основе модели лежит простая идея : вместо того чтобы кормить модели километровый текст, Glyph превращает его в изображение и обрабатывает через vision-language модель. Используется LLM-управляемый генетический алгоритм, чтобы подобрать наилучшие параметры визуального отображения текста (шрифт, плотность, макет), балансируя между сжатием и точностью. Это радикально снижает вычислительные затраты, сохраняя при этом смысловую структуру текста. При этом точность почти не падает: на задачах с длинным контекстом Glyph работает на уровне современных моделей вроде Qwen3-8B. При экстремальном сжатии VLM с контекстом 128K может эффективно обрабатывать задачи, эквивалентные 1M+ токенов в традиционных LLM. Фактически, длинный контекст становится мультимодальной задачей, а не чисто текстовой. 📄Подробности: arxiv.org/abs/2510.17800 🧩Веса: huggingface.co/zai-org/Glyph 👉Репозиторий: github.com/thu-coai/Glyph @ai_machinelearning_big_data #AI#LLM#Multimodal#Research#DeepLearning

🚢Eastship расширяет бизнес, запуская направление Air & Sea. Румынская логистическая компания Eastship объявила о создании нового подразделения Eastship Air & Sea, направленного на предоставление комплексных транспортных решений. Новый сервис объединяет морские и авиационные перевозки, позволяя компании расширить присутствие в сегменте генеральных грузов по всей Европе. С операционной точки зрения, интеграция различных видов транспорта повышает гибкость логистических цепочек и позволяет эффективнее управлять сложными поставками. Для рынка это сигнал усиления мультимодальных решений, где логистические операторы стремятся предложить полный спектр услуг в рамках единой платформы. 📌Eastship Projects & Logistics SRL — основана в Румынии, компания специализируется на проектной логистике и перевозках; находится в частной собственности - управляющим директором и партнёром является Дэн Бадою (Dan Badoiu). #Logistics#Shipping#AirCargo#Europe#Multimodal

🚢 CLdN приобретает бизнес Samskip в Великобритании и Ирландии. Люксембургский оператор shortsea CLdN договорился о покупке британско-ирландского quay-to-quay и door-to-door направления у мультимодальной группы Samskip. Сделка охватывает контейнерные линии Роттердам–Великобритания (Белфаст, Блайт, Грэнджмут, Халл, Тилбери) и Ирландия (Корк, Дублин, Уотерфорд), совершающие свыше 1000 заходов в год. В периметр входят более 5 000 единиц мультимодального оборудования (45’ pallet-wide, reefers, curtain-siders, flat racks и др.), а также контракты на автоперевозки, ж/д и баржевые плечи, соглашения по совместному использованию судов и портовые операции. Финансовые условия не раскрываются; требуется одобрение регуляторов. Для CLdN актив усиливает существующую сеть (около 30 судов, >200 рейсов в неделю по направлениям UK/IE–Континент–Иберия–Скандинавия) и расширяет частоту и покрытие door-to-door. Для Samskip это стратегический фокус на дальнем мультимодальном контуре (Континент, Нордики, Балтика, Северная Африка) при сохранении сервиса в UK/IE через партнёрство. 📌CLdN основана в 1928 году и является частной группой, контролируемой бельгийской семьёй Van Damme. 📌Samskip основана в 1990 году в Исландии; частная компания, контролируемая исландскими акционерами. #shortsea#multimodal#containers#UKIreland#logistics

Machinelearning

@ai_machinelearning_big_data · Post #9625 · 2026/03/05 13:26

🌟Self-Flow: обучение диффузионных моделей без внешних энкодеров от Black Forest Labs. Black Forest Labs и MIT решили проблему, с которой сталкиваются диффузионные и flow-модели: чтобы генерировать качественные картинки, им нужны сильные семантические представления. Обычно их берут снаружи - выравнивают внутренние признаки модели с признаками энкодера вроде DINOv2. Метод работает, но есть нюанс. Чем сильнее энкодер, тем хуже результат: в экспериментах замена DINOv2-B на более мощный DINOv3-H+ стойко ухудшала FID. Модель привязывалась к фиксированным внешним представлениям и переставала масштабироваться. На видео и аудио выравнивание с энкодерами V-JEPA2 и MERT вообще давало результат хуже ванильного flow matching. 🟡Self-Flow предлагает механизм Dual-Timestep Scheduling В стандартном flow matching все токены нойзятся одинаково, поэтому модель решает задачу локально и не учится строить глобальные связи. Self-Flow сэмплирует 2 разных уровня шума и случайно назначает их разным токенам (часть входа зашумлена сильнее, часть чище). Это создает асимметрию: чтобы восстановить сильно зашумленные токены, модель вынуждена опираться на чистые и строить глобальный контекст. Поверх этого работает самообучение по принципу дистилляции. Обучаются одновременно 2 копии модели: модель-ученик видит смешанный зашумленный вход, модель-учитель - более чистую версию (EMA-копия с экспоненциальным скользящим средним). Ученик учится предсказывать признаки учителя из зашумленного входа, и это вынуждает его развивать сильные семантические представления без какого-либо внешнего энкодера. 🟡Результаты тестов 🟢На ImageNet 256×256 Self-Flow показал FID 5.70 против 5.89 у REPA; Это, кстати, первый случай, когда self-supervised метод превзошел внешнее выравнивание на этом бенче 🟢На text-to-image: FID 3.61 против 3.92 у REPA; 🟢По видео: FVD 47.81 против 49.75 у REPA; 🟢По аудио: лучшие FAD-оценки среди всех вариантов. При этом на масштабировании (с 290M до 1B) разрыв с REPA увеличивается: модель Self-Flow на 625M параметров обходит REPA на 1B. Метод универсален для модальностей - он работает одинаково на картинках, видео и аудио, что намекает на применение для мультимодального обучения. В репозитории проекта есть код инференса на основе SiT-XL/2 с per-token timestep conditioning, чекпоинт на основе ImageNet 256×256 и скрипты для генерации сэмплов под FID-оценку через ADM evaluation suite. Поддерживаются режимы SDE и ODE, мульти-GPU через torchrun. 🟡Статья 🟡Техотчет 🖥GitHub @ai_machinelearning_big_data #AI#ML#Multimodal#Framework#BFL

Machinelearning

@ai_machinelearning_big_data · Post #9275 · 2025/12/17 16:07

⚡Gemini 3 Flash - быстрый ИИ нового поколения от Google Gemini 3 Flash: - это очень быстрая модель с минимальной задержкой - при этом она сохраняет сильные способности к рассуждению - Frontier-уровень на GPQA Diamond - рассуждения уровня PhD - Хорошие результаты на Humanity’s Last Exam - State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными - В целом, качество сопоставимо с Gemini 3 Pro Стоит в четыре раза дешевле, чем Gemini 3.0 Pro, при этом показывает сопоставимые результаты почти во всех бенчмарках, включая HLE и ARC-AGI 2. На некоторых бенчмарках модель обходит GPT-5.2. Более того, в ряде тестов модель даже превосходит более мощную версию Pro, оставаясь при этом значительно дешевле. По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость. Цены: - Text input: $0.30 per 1M tokens - Text output: $2.50 per 1M tokens - Cache read: $0.075 per 1M tokens - Input audio: $0.999 per 1M tokens - Input audio (cached): $0.249 per 1M tokens - Web search: $0.035 per request - Cache storage: $1 per hour per 1M tokens https://blog.google/products/gemini/gemini-3-flash/ @ai_machinelearning_big_data #AI#Gemini#Google#LLM#Multimodal#AIModels#MachineLearning

Machinelearning

@ai_machinelearning_big_data · Post #8240 · 2025/08/09 14:01

🖼️ GPT-Image-Edit-1.5M — крупнейший и полностью открытый датасет для редактирования изображений по тексту! 🚀 1.5 миллиона триплетов: инструкция + оригинальное изображение + отредактированное по запросу Как мы это сделали? Мы переосмыслили и усилили три известных датасета (OmniEdit, HQ-Edit, UltraEdit) с помощью новой GPT-Image API. 📊 Результаты впечатляют: Модель FluxKontext, дообученная на этом наборе, показывает: ▫️ 7.24 на GEdit-EN ▫️ 3.80 на ImgEdit-Full ▫️ 8.78 на Complex-Edit — на уровне с топовыми проприетарными решениями! 🎯 Инструкции выполняются точно, а изображения выглядят реалистично. Цель — сократить разрыв между open-source и закрытыми системами редактирования. 🔗 Подробнее: 🌐 Проект: https://ucsc-vlaa.github.io/GPT-Image-Edit/ 💻 Код: https://github.com/wyhlovecpp/GPT-Image-Edit 📦 Датасет: https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M 🤖 Модель: https://huggingface.co/UCSC-VLAA/gpt-image-edit-training 📄 Статья: https://arxiv.org/abs/2507.21033 @ai_machinelearning_big_data #AI#ImageEditing#OpenSource#GPT4V#Multimodal

Machinelearning

@ai_machinelearning_big_data · Post #8924 · 2025/11/02 09:32

⚡️LongCat-Flash-Omni - открытая 560B MoE-модель (27B активных параметров), которая умеет вести живой диалог в реальном времени, слышать, видеть и отвечать голосом. Ключевые фишки: -модель разговаривает и видит собеседника, реагирует на беседу в реальном времени - 128K контекст - продвинутая MoE-архитектура: высокое качество при меньших затратах (27B активных параметров из 560B) - Полгный open-source По тестам: - лидер на OmniBench, DailyOmni - хорошие показатели на ASR (распознавании речи), DocVQA, RefCOCO - обходит лучше Qwen3-Omni Instruct - и очень близка к Gemini-2.5-Flash, но это все таки*открытая* модель Открытая мультимодальная модель, которую можно запускать локально, хороший вариант для голосовых ассистентов. 🤖Model: https://modelscope.cn/models/meituan-longcat/LongCat-Flash-Omni 🌐Demo: https://longcat.ai 📄 Full technical report & code: https://github.com/meituan-longcat/LongCat-Flash-Omni @ai_machinelearning_big_data #AI#OpenSourceAI#Multimodal#MoE#LLM#GenAI

Machinelearning

@ai_machinelearning_big_data · Post #8830 · 2025/10/22 15:04

🔍 Qwen3-VL-2B-Thinking — новая маленькая мультимодальная модель, заточенная под рассуждения Компактная версия семейства Qwen3-VL, ориентированная на глубокое мышление, аналитику и агентные применения. В линейке Qwen-VL предусмотрены два ключевых режима: - *Instruct* — для диалогов и инструкций, - *Thinking* — для логических рассуждений, кода и комплексных задач. 💡 Особенности - Архитектура поддерживает мультимодальность: модель понимает текст и изображения, способна анализировать контент и выстраивать причинно-следственные связи. - Оптимизирована для reasoning-задач, где важна не генерация текста, а последовательное мышление и вывод. - Благодаря размеру в 2B параметров, модель легко разворачивается на локальных GPU и в облачных окружениях. - Поддерживает tool calling и интеграцию в агентные фреймворки. Qwen3-VL-2B-Thinking - отличная модель при минимальных ресурсах. 👉https://huggingface.co/Qwen/Qwen3-VL-2B-Thinking @ai_machinelearning_big_data #Qwen3VL#Qwen#Reasoning#AI#Multimodal#OpenSource

Machinelearning

@ai_machinelearning_big_data · Post #8742 · 2025/10/10 14:45

🚀Qwen выпустили гайд по работе с Qwen3-VL! Это подборка интерактивных ноутбуков, демонстрирующих возможности Qwen3-VL - как при локальном запуске, так и через API. Внутри - десятки реальных примеров с разборами: ▪ Работа с изображениями и рассуждение по ним ▪ Агент для взаимодействия с интерфейсами (Computer-Use Agent) ▪ Мультимодальное программирование ▪ Распознавание объектов и сцен (Omni Recognition) ▪ Продвинутое извлечение данных из документов ▪ Точное определение объектов на изображении ▪ OCR и извлечение ключевой информации ▪ 3D-анализ и привязка объектов ▪ Понимание длинных документов ▪ Пространственное рассуждение ▪ Мобильный агент ▪ Анализ и понимание видео 🟠GitHub: https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks 🟠API-документация: https://alibabacloud.com/help/en/model-studio/user-guide/vision/ 🟠Попробовать: https://chat.qwen.ai/?models=qwen3-vl-plus 🟠Qwen3-VL: https://github.com/QwenLM/Qwen3-VL/blob/main/cookbooks @ai_machinelearning_big_data #Qwen#Qwen3VL#AI#VisionLanguage#Multimodal#LLM

PHYGITAL+CREATIVE

@phygitalcreative · Post #3065 · 2023/06/08 02:27

Мультимодальный AI Meta: будущее поиска, генерации и взаимодействия с виртуальным миром в 6 типах данных Мультимодальность постепенно проникает в нашу жизнь. Meta AI зарелизила в opensource работу с 6 модальностями, которая не только позволяет работать с текстом, изображениями и видео, но также с инфракрасными изображениями и другими данными, что открывает возможности работы с AR/VR информацией. Вот какие возможности это открывает: Мультимодальный поиск (аля Google, но одновременно по 6 модальностям). Пример: найди виртуальный мир, в котором есть пространство размером с футбольное поле, и в котором были танцующие котики. Арифметические вычисления с векторами. Если раньше "кошка" и "cat" для LLM были одно и то же по смыслу, то теперь 3D-модель кота и слово "cat" будут равносильны, а "3D-модель кота" + слово "счастливый" - фото усов позволит найти видео улыбающегося кота без усов. Кросс-модальная генерация (сейчас отдельно генерируем картинки и видео, а будем генерировать объекты в 6ти модальностях одновременно). Пример: "сгенерируй мне AR-мир с котиками на основе звука, как они мяукают". Исследование Meta AI в области мультимодальности является значительным шагом вперед в развитии AI и открывает новые возможности для работы с разнообразными данными. 📝 Paper: https://dl.fbaipublicfiles.com/imagebind/imagebind-paper.pdf 👨‍💻 Github: https://github.com/facebookresearch/imagebind #ai#multimodal#metaai#ar#vr#llm#opensourсe

GitHub Trends

@githubtrending · Post #15123 · 2025/09/06 11:30

#rust#artificial_intelligence#big_data#data_engineering#distributed_computing#machine_learning#multimodal#python#rust Daft is a powerful, easy-to-use data engine that lets you process large-scale data using Python or SQL with high speed and efficiency. It supports complex data types like images and tensors, works well interactively for quick data exploration, and can scale to huge cloud clusters using Ray. Daft integrates smoothly with cloud storage and data catalogs, making it ideal for data engineering, analytics, and machine learning workflows. By using Daft, you can handle big, multimodal datasets faster and more flexibly, improving your ability to analyze and prepare data for AI models without complex setup or slowdowns. https://github.com/Eventual-Inc/Daft

前へ1ページ / 3ページ中次へ