DN42 access
本服务为那些无法轻松访问自身网络的用户以及希望体验 dn42 但又不想承担维护自有网络成本的用户提供 dn42 连接
默认情况下,地址从/96地址块中分配,如果您希望租用独立的/96前缀或更大的地址空间,请按照联系方式联系我
所有公开的PoP均已屏蔽来自中国境内的 IP 地址。如果您确实需要dn42 access,请与我联系并提供合理的理由
该服务由AS4242423377提供
- - - - - - -
The service provides DN42 connectivity to members who cannot easily access their own networks, as well as to those who would like to explore DN42 without the overhead of maintaining their own network.
By default, addresses are allocated from a /96 block. If you wish to lease a dedicated /96 prefix or a larger address space, please contact me using the methods provided in the contact information.
All publicly accessible PoP are blocked for IPs originating from within China. DN42 access from within China is not publicly available. If you genuinely require access, please contact me and provide a valid justification.
Hosted by AS4242423377.
Policy
本服务需要花费时间和金钱才能运行,但为了您的利益,我们免费提供。使用本服务是一种特权,而非权利。您必须合理使用本服务,以确保其他用户也能继续享受同样的便利。任何滥用、误用或干扰服务或其他用户的行为都可能导致您的访问权限立即被暂停或终止。
滥用行为包括但不限于:
- 过度使用资源
- 黑客攻击、病毒、木马等,或任何其他可能损害服务或对服务及其用户造成风险的干扰行为
- 传播可能导致民事或刑事责任的不良内容
- - - - - - -
This service require real time and financial resources to operate, yet are provided free of charge for your benefit. Access to the services is a privilege, not a right. You must use the services responsibly and considerately to ensure that other users can continue to enjoy the same opportunities. Any misuse, abuse, or activities that disrupt the service or other users may result in immediate suspension or termination of access.
Abuse could include, but is not limited to:
- Excessive use of resources
- Hacking, viruses, trojans etc or any other disruption that could harm or create risk to the services or its users
- Distribution of objectional content that could create a civil or criminal liability
PoP
## Toronto, Canada
Prefix: fdb6:fc6a:e66c:724f:fad1:d2cf::/96
Zerotier: 4753cf475f65b0fb
## Los Angeles, USA
coming soon
#announcement#service
⚡️В открытом доступе появился техрепорт собственного семейства моделей Яндекса — Alice AI.
Что изменилось:
⭐️ VLM- и LLM-«Алисы» сближаются все сильнее, поскольку компания делает большую ставку на мультимодальность. Например, VLM-модель уже использует RL-подход текстовой «сестрёнки». Промпт на входе в Alice AI ART обрабатывается в специальном «рефразере», который помогает сделать описание более детальным. Также увеличен контекст и объем данных претрейна в VLM.
⭐️ Много технических подробностей о работе Alice AI LLM Search, которая теперь приносит в ответе не только текст, но и изображения, видео и геоданные.
⭐️ На инфраструктуре видим прирост по скорости за счет мелких аджастов — увеличение эффективного батча на претрейне, внедрение Ulysses attention, снижение объема кэша на инференсе и еще много изменений. В целом сняты ключевые ограничения для тренировки MoE-модели на сотни миллиардов параметров.
@ai_machinelearning_big_data
#vlm#llm#ml#ai
🚀 GLM-4.5V — новый лидер среди open-source моделей в визуальном рассуждении.
Модель показывает лучшие результаты в своём классе среди открытых решений, лидируя на 41 бенчмарке.
📌 Возможности:
- Image Reasoning — понимание изображений, анализ нескольких изображений, распознавание объектов.
- Video Understanding — раскадровка длинных видео, определение событий, которые происходят на кадрах из видео.
- GUI-задачи — понимание интрефейсов, распознавание иконок, кнопок и тд, помощь в управлении рабочим столом.
- Сложный анализ графиков и документов — разбор различных отчётов, извлечение информации их них.
- Grounding — точная локализация элементов на изображениях.
📌Особенности:
🟠 Основана на GLM-4.5-Air и использует наработки из GLM-4.1V-Thinking.
🟠 Архитектура — MoE с 106B параметров для эффективного масштабирования.
Здесь можно почитать про GLM-4.5, а здесь посмотреть техрепорт, там много интересного.
🟢 Hugging Face:http://huggingface.co/zai-org/GLM-4.5V
🟢GitHub: http://github.com/zai-org/GLM-V
🟢 Документация API: http://docs.z.ai/guides/vlm/glm-4.5v
🟢Попробовать: http://chat.z.ai
@ai_machinelearning_big_data
#GLM#opensource#vlm
🌟GUI-Libra: фреймворк обучения VLM-агентов задачам управления интерфейсами.
Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.
Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:
Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).
Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.
🟡Для решения первой проблемы предложили Action-Aware SFT
Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.
🟡Для второй - Conservative RL на базе GRPO с двумя дополнениями.
KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.
🟡Для трейна собрали датасет GUI-Libra-81K.
Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.
Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.
🟡Результаты
Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.
GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.
Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Набор датасетов
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#VLM#GUILibra#Microsoft
✔️Tencent представила HunyuanVision - новую мультимодальную модель, объединяющую зрение и язык в одном фреймворке.
Модель умеет рассуждать на основе изображений, понимать сложные визуально-текстовые задачи и поддерживает мультиязычные кейсы.
Ключевые особенности:
- Visual Reasoning - глубокое понимание изображений и сцен
- Multilingual Support - работа с несколькими языками
- Visual Dialogue - позволяет весть диалог на основе изображения и текста
- Thinking-on-Image - рассуждение на уровне визуальных деталей
HunyuanVision-1.5 демонстрирует продвинутые способности в задачах анализа, генерации и рассуждения. Работает шустро, русский понимает, но не без косяков.
Модель доступна для использования через Tencent Cloud API и LMArena (Direct Chat).
Полный технический отчёт и веса обещают к релизу позже в октябре. Ждемс.
🟠Попробовать: http://cloud.tencent.com/document/product/1729/104753
🟠Репозиторий: github.com/Tencent-Hunyuan/HunyuanVision
🟠Api: https://cloud.tencent.com/document/product/1729/104753
@ai_machinelearning_big_data
#Tencent#llm#ml#Hunyuan#vlm
🌟POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.
Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.
POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.
Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.
Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.
Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.
Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.
Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.
На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.
Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.
🟡Как в любом проекте - есть нюансы.
Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.
▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.
🟡Модель
🟡Arxiv
🖥GitHub
@ai_machinelearning_big_data
#AI#ML#VLM#POINTSReader#Tencent
🌟WM-ABench: тестирование VL-моделей на понимание физики реального мира.
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
🟡Результаты.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
🟡Но главная проблема кроется глубже.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
🟡Бенчмарк подсветил фундаментальный недостаток:
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
📌Лицензирование: Apache 2.0 License.
🟡Страница проекта
🟡Arxiv
🟡Датасет
@ai_machinelearning_big_data
#AI#ML#VLM#Benchmark#Maitrix
🌟Step3-VL-10B: VLM от stepfun.ai.
Пока индустрия одержима гигантоманией и соревнуется, у кого больше параметров, Stepfun решили пойти против течения.
Встречайте, Step3-VL-10B - компактная VL-модель, которая по заявлениям разработчиков не просто конкурирует, а буквально уделывает модели в 10–20 раз тяжелее, включая таких титанов, как Gemini 2.5 Pro и GLM-4.6V.
Звучит как маркетинговый хайп, но под капотом есть интересные инженерные решения, хоть и с хитринкой.
🟡Архитектура
Конструкция из кастомного визуального PE-lang энкодера на 1.8B параметров и Qwen3-8B (что уже половина успеха, учитывая мощь Qwen) в качестве декодера.
В отличие от многих, кто замораживает визуальную часть, Stepfun разморозили все и тренировали модель в один прогон на 1,2 трлн. токенов. Это позволило визуальной и языковой частям модели не просто сосуществовать, а реально срастись и притереться друг к другу.
После этого модель прогнали через адский RL-цикл (RLVR+RLHF) на 1400+ итераций, чтобы модель научилась жестко ризонить.
🟡Тесты
В бенчмарках цифры действительно страшные (в хорошем смысле) для такого размера:
🟢MMMU: 78.11 (SeRe) / 80.11 (PaCoRe).
🟢MathVista: 83.97
🟢AIME 2025: 87.66 (SeRe) / 94.43 (PaCoRe)
🟢OCRBench: 86.75 (отлично читает документы).
Для сравнения: GLM-4.6V на 106B выдает на MMMU только 75.20.
Инженерная хитринка кроется в методологии тестирования. Видите в результатах тестов пометку PaCoRe?
PaCoRe (Parallel Coordinated Reasoning):
Чтобы получить топовые цифры, модель использует test-time compute. Она запускает 16 параллельных роллаутов, собирает доказательства из разных веток и синтезирует ответ.
На инференсе это будет стоить вам в 16 раз "дороже" по ресурсам, чем обычный прогон. В стандартном режиме (SeRe) модель все еще хороша, но уже не выглядит как "убийца всех топов".
Кстати, Stepfun честно признались, что в отчетах накосячили с бенчмарками конкурента Qwen3VL-8B из-за неверного max_tokens. Извинились, обещают пересчитать. Это добавляет доверия, но напоминает, что бенчмарки - дело тонкое.
В общем, модель - отличный кандидат для локального использования: есть OpenAI-compatible API и vLLM поддерживается (PR вмержили).
⚠️ Если модель зацикливается при генерации - обновите конфиг, там был баг с eos_token_id, который уже пофиксили.
📌Лицензирование: Apache 2.0 License.
🟡Модель
🟡Arxiv
🟡Demo
@ai_machinelearning_big_data
#AI#ML#VLM#STEP3#StepFunAI
#Senior#DataScientist#ML#NLP#LLM#VLM#matching#DS#fulltime#ecommerce
Senior Data Scientist (NLP/LLM/VLM)
💼 Ozon Tech
💰 От 455 000 ₽ gross совокупный доход
Команда занимается развитием автоматического матчинга — технологии поиска одинаковых товаров как внутри Ozon, так и между Ozon и другими маркетплейсами.
В работе — масштабные проекты с использованием LLM, NLP и VLM, направленные на повышение точности и полноты поиска дубликатов и объединения товарных карточек.
Основные задачи:
— Аналитика текущих проблем матчинга;
— Обучение новых NLP-моделей (bi-encoder, late fusion, early fusion);
— Адаптация новых LLM/VLM-моделей.
Требования:
— 4+ лет коммерческого опыта в Data Science;
— 2+ года — в задачах NLP;
— Опыт обучения и вывода ML-моделей в прод;
— Знание современных и классических NLP-подходов;
— Уверенное владение Python и PySpark (bigdata датасеты собираем на Hadoop-кластере);
— Знание алгоритмов и структур данных;
— Проактивность, ответственность, нацеленность на результат.
Будет плюсом:
— Участие в ML-соревнованиях;
— Опыт построения протоколов и пайплайнов разметки данных;
— Опыт работы с задачами матчинга / entity resolution.
Что предлагаем:
— Динамичный и быстроразвивающийся бизнес, ресурсы, возможность сделать вместе лучший продукт на рынке e-commerce;
— Свобода решений, внимание к качеству инженерии;
— Сильную профессиональную команду;
— Возможность развиваться вместе с бизнесом;
— От 455 000 ₽ gross совокупный доход.
📩Контакт: [email protected] — присылай резюме, обсудим детали.
#python#ernie#ernie_45#ernie_45_vl#erniekit#llm#vlm
ERNIE 4.5 is a powerful AI model family that understands and generates text, images, and videos together, thanks to its special design that shares knowledge across these types without losing quality. It includes large models with billions of parameters and smaller efficient ones, all trained using the PaddlePaddle framework for fast and effective use. ERNIE 4.5 excels in tasks like language understanding, visual reasoning, and following instructions, often outperforming other top models. It also offers tools for easy training and deployment on various hardware. This means you can use ERNIE 4.5 for advanced AI applications involving text and visuals with high accuracy and efficiency, supported by open-source resources for customization and development[1][3][5].
https://github.com/PaddlePaddle/ERNIE
#typescript#agent#browser_use#computer_use#electron#gui_agents#mcp#mcp_server#vision#vite#vlm
Agent TARS is a powerful tool that helps automate tasks using AI. It integrates with many tools and can handle complex tasks like web scraping and data analysis. This makes it easier to manage workflows and reduces errors. Users can automate tasks in just a few steps, making it very efficient. Agent TARS also supports advanced browser operations and has a user-friendly desktop app, which makes it easy to use for anyone. Overall, it helps users save time and work more efficiently.
https://github.com/bytedance/UI-TARS-desktop
Major AI Investments and Developments
- France to invest €109 billion in AI, boosting Mistral's prospects. Read more
- Elon Musk plans to pay $100 billion to buy OpenAI and prevent its commercialization. Details here
- Research shows LLMs have better performance improvements compared to VLMs. GraphVLM Progress
- OpenAI has new features in o1 and o3-mini, allows document uploads, increase to 50 queries for Plus subscribers. More info
- Musk claims Grok 3 will outperform OpenAI’s offerings. Read about Grok
- OpenAI to finalize its first custom chip this year to enhance trading with Nvidia. Reuters news
#AI#OpenAI#ElonMusk#France#Investment#Chips#Mistral#LLM#VLM#DeepResearch#Grok#Crypto#Nvidia#TechNews#Finance#Market#Progress#Innovation#Data#Analysis