TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #217 · 12.02

Попробовал Obsidian. Это такой заметочник. И в итоге буду переходить на него с Notion. Вообще, с заметочниками дела плохи. Когда-то появился Evernote и занял лидирующее положение на рынке даже при всём своём неудобстве. Он кривой, кроссплатформенность реализована плохо (на части платформ то те, то другие функции недоступны), система организации урезана и приводит к беспорядку, а в клиентах много визуального мусора в UI. И тем не менее, это был один из первых облачных заметочников — важный шаг для рынка. Удивительно, как долго человечество шло к идее, что нужно сделать «Блокнот», но под все платформы, включая телефоны, и с синхронизацией через сеть. Потом пришел Notion, который поначалу топтался на месте из-за сомнительной ценовой политики. Но в результате правильных реформ стал процветающим стартапом, использующимся сейчас в огромном количестве команд и проектов. Даже смог позволить себе сделать безлимитную бесплатную версию. По сравнению с Evernote это был глоток свежего воздуха: мусора в UI на порядки меньше, функциональность одинаковая на всех платформах, полноценная древовидная организация любой глубины, почти нормальная поддержка Markdown. Впрочем, что-то не дало авторам пойти дальше и избавить свой сервис от серьёзных UX-косяков. Только ленивый не ругает Notion за ужасно низкую скорость работы. Он долго грузится, долго открывает файлы и относительно долго реагирует на ввод — для заметочника это критически важно. На всех платформах использовали гибридную разработку (HTML внутри контейнера как будто от нормального нативного приложения) со всеми худшими её чертами: проект тяжёлый и неповоротливый. Это не говоря уже о том, что и десктопное и мобильное приложение по сути окно в веб. Оно не будет работать без интернета, а сессия сбрасывается раз в несколько дней. В итоге вы хотите добавить заметку, открываете клиент, и он мало того что грузится долго, так ещё и показывает вам окно авторизации. Нужно переходить в браузер, ждать, пока авторизация пройдёт там, возвращаться в клиент... в общем, вы уже забудете, что за заметку хотели. После пары лет использования Notion я поймал себя на том, что на телефоне открываю встроенные системные заметки, а потом копирую текст оттуда в Telegram, чтобы он был доступен отовсюду. На компьютере же быстрее открыть Notepad++. Короче, Notion со своей задачей быть заметочником на каждый день не справляется. И вот, Obsidian. По сути это продвинутый блокнот с поддержкой Markdown. Ладно, у него есть какая-то фишка с организацией заметок по методу Zettelkasten, но я пока туда не смотрел, да и сам метод требует определённого подхода, который я пока что не применяю. Так что это блокнот, умеющий выводить дерево и отображать Markdown-форматирование. Он очень быстрый, грузится не молниеносно, но адекватно, и сам интерфейс работает очень шустро. Не знаю, HTML там или нет (по виду кажется, что да), но авторы явно поработали над оптимизацией. Конечно же, есть приложения под телефоны, и они тоже весьма комфортны по скорости. Что касается синхронизации, то это платная функция, и, на мой взгляд, необоснованно дорогая: $8 в месяц (сама программа бесплатная). Здесь бы разговор можно было закончить — при всех прелестях сервис без синхронизации между устройствами в 2022 году это как обувь на одну ногу. Но мне повезло: моё NAS-хранилище умеет создавать виртуальное облако. Да, возможно у какого-то из облаков на рынке тоже есть все нужные функции, но, например, Яндекс Диск на телефоне синхронизирует только видео и фотки, а произвольные папки не может. А вот Synology прям спасло. Что ещё хорошего. Notion был перегружен лишними функциями. Но если они всё-таки нужны, у Obsidian отличная система плагинов, поддерживаемых независимыми разработчиками. Уже есть множество решений на любой вкус. Например, в Notion я мог пошарить другому человеку выбранную заметку. А здесь нашёл плагин, который трансформирует заметку в Github Gist. Удобно: Markdown там совместимый, Gist бесплатный и без рекламы. Короче, пока нравится. Вот этот пост сейчас пишу в нём на компьютере, а начал на телефоне днём. То, что нужно. #web#tools

Hashtags

Резултати

Намерени 8 подобни публикации

Търсене: #inference

当前筛选 #inference清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #9624 · 05.03.2026 г., 12:06

Архитектура распределённого инференса для долгоживущих LLM-сессий Эксплуатация современных агентских LLM уже не про «поднять контейнер на GPU и прикрутить балансер». Чтобы экономика сходилась и железо утилизировалось эффективно, нужно учитывать реальный паттерн нагрузки: долгие сессии, многошаговые диалоги, большие контексты. Yandex AI Studio недавно выкатила обновление, в котором открыла доступ к стабильному инференсу DeepSeek V3.2. Поговорим про сам инференс и другие обновления – что там под капотом? 🟡Ключевые изменения — Prefill / Decode Split. Prefill-ноды ускоряют прогон длинных контекстов (TTFT↓), decode-ноды стабилизируют генерацию и поддерживают низкий TBT. — Иерархия KV-кэшей – GPU → CPU RAM → распределённый слой. — Переиспользование KV-кешей. KV-кэши передаются между серверами прямо во время обработки запроса, в реальном времени — фактически гигабайты данных, которые нужно доставлять между GPU за очень короткое время. — Cache-aware балансировка. Маршрутизирует запросы с учётом расположения кэшей в кластере, чтобы максимизировать Cache Hit Rate в многошаговых сессиях. 🟡Безопасность и тарификация Появились управляемые правила модерации. Можно контролировать допустимость запросов и ответов моделей на основе политики безопасности, категорий контента и созданных словарей. Добавили возможность по запросу подключать выделенный сетевой канал и частные эндпоинты для работы с моделями без выхода в публичный интернет. Добавлены два новых типа токенов: • токены инструментов — нововведение от Яндекса. Токены срабатывают при вызове встроенных тулов (File Search, Web Search, MCP, Code Interpreter). Стоят дешевле обычных входящих / исходящих; • токены кеширования — уже отраслевой стандарт за рубежом, который только приходит на российский рынок. Часть контекста повторно используется при повторении, модель отрабатывает побыстрее, а денег тратит поменьше. 🟡Что еще рассказывают Стек для оптимизации инференса: • Dynamo как оркестрация/балансировка, • MoonCake как распределённый KV-store, • SGLang как Inference Engine. Законтрибьютили 20+ патчей в опенсорс, чтобы довести решение до эксплуатационного качества. @ai_machinelearning_big_data #AI#ML#LLM#inference#DeepSeek

Machinelearning

@ai_machinelearning_big_data · Post #8524 · 12.09.2025 г., 11:00

⚡Speculative Cascades — как ускорить работу LLM Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле. Что это такое: 🔹Каскады Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать. 🔹Спекулятивная декодировка Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов. 🟢Speculative Cascades Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество. 🔥Что показали тесты (тестили на Gemma, T5): - быстрее, чем обычная спекулятивная декодировка - дешевле и качественнее, чем каскады - удобнее настраивать баланс «скорость ↔ качество» При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели). А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества. LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества. 🔗Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/ @ai_machinelearning_big_data #AI#LLM#Inference#SpeculativeDecoding#Cascades#GoogleResearch

Ebm_base

@ebm_base · Post #725 · 21.11.2024 г., 16:52

#методы#сausal#inference#учебники#публикации Ведущий научный сотрудник ЛССИ Борис Соколов недавно выложил в публичный доступ черновую версию своего обзора основных целевых величин (эстимандов), использующихся в статистическом каузальном анализе: АТЕ, АТТ, АТС и прочие тыквенные LATE с CATE. Хотя это ещё не полноценная статья, прошедшая рецензирование, данный текст может оказаться полезным как студентам, так и "взрослым" исследователям или прикладным аналитикам, применяющим соответствующие методы на практике - благо на русском языке литературы по теме откровенно мало. P.S. Если вы найдёте в рукописи ошибки, неточности, упущения и т.д., или у вас будут иные идеи насчёт того, как её улучшить, можно написать напрямую автору на электронную почту - он открыт к обратной связи и конструктивной критике.

GitHub Trends

@githubtrending · Post #15263 · 02.11.2025 г., 12:30

#python#deep_learning#inference#llm#nlp#pytorch#transformer Nano-vLLM is a small, fast, and easy-to-understand tool for running large language models offline. It matches the speed of bigger systems like vLLM but uses only about 1,200 lines of clean Python code, making it simple to read and modify. It includes smart features like prefix caching and tensor parallelism to boost performance. You can install it easily and run models like Qwen3-0.6B on your own GPU. This tool is great if you want fast, efficient AI inference without complex setups, ideal for learning, research, or small deployments on limited hardware. https://github.com/GeeeekExplorer/nano-vllm

GitHub Trends

@githubtrending · Post #14736 · 22.05.2025 г., 12:00

#typescript#api_client#hub#huggingface#inference#machine_learning Hugging Face offers JavaScript libraries that let you easily use over 100,000 AI models for tasks like text generation, image creation, translation, and more, directly in your code or browser. You can create and manage model repositories, upload files, and run AI tasks such as chat completions or text-to-image generation with simple commands. These libraries work on modern environments without extra dependencies and support multiple providers, giving you flexible access to powerful AI tools. This helps you quickly add advanced AI features to your projects without deep AI expertise or complex setup. https://github.com/huggingface/huggingface.js

GitHub Trends

@githubtrending · Post #15385 · 02.01.2026 г., 12:30

#python#deep_learning#inference#openai#quantization#speech_recognition#speech_to_text#transformer#whisper Faster-Whisper is a fast version of OpenAI's Whisper that transcribes audio up to 4x quicker with the same accuracy, using less memory on CPU or GPU—benchmarks show it beats original Whisper (e.g., 1m03s vs 2m23s for 13-min audio on GPU). Install via `pip install faster-whisper`, no FFmpeg needed, and use simple Python code like `WhisperModel("large-v3").transcribe("audio.mp3")` for segments with timestamps. You benefit by getting quick, efficient speech-to-text for real-time apps, saving time and resources on long files or batches. https://github.com/SYSTRAN/faster-whisper

Crypto M - Crypto News

@CryptoM · Post #64640 · 09.04.2026 г., 12:24

🚀 Meta Expands AI Cloud Partnership with CoreWeave to $21 Billion Meta has significantly expanded its AI cloud partnership with CoreWeave, increasing the agreement's value to approximately $21 billion from a previous cap of $14.2 billion. According to NS3.AI, CoreWeave will supply dedicated cloud capacity to Meta through 2032, spanning multiple locations. The expansion includes early deployments of NVIDIA's Vera Rubin platform, with a focus on inference workloads. #Meta#AI#Cloud#CoreWeave#Partnership#NVIDIA#VeraRubin#Inference#TechNews#CloudComputing

GitHub Trends

@githubtrending · Post #15362 · 23.12.2025 г., 15:30

#python#audio_generation#diffusion#image_generation#inference#model_serving#multimodal#pytorch#transformer#video_generation vLLM-Omni is a free, open-source tool that makes serving AI models for text, images, videos, and audio fast, easy, and cheap. It builds on vLLM for top speed using smart memory tricks, overlapping tasks, and flexible resource sharing across GPUs. You get 2x higher throughput, 35% less delay, and simple setup with Hugging Face models via OpenAI API—perfect for building quick multi-modal apps like chatbots or media generators without high costs. https://github.com/vllm-project/vllm-omni