TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #884 · 5.10

Роскосмос пару дней назад опубликовал отчёт о том, почему упала "Луна-25". Там конечно канцелярит, но можно примерно понять, что двигатель коррекции получил неверные данные от акселерометра: из-за возможного попадания в один массив данных команд с различными приоритетами их исполнения прибором Это очень похоже на программную ошибку, а это моя сфера, и я решил над ситуацией поразмыслить. Хейтеры сразу стали строчить комментарии в стиле "Ололо, наняли каких-то идиотов, которые простейшие тесты не провели". Тут обычно справедливо вспоминают аварию с европейской ракетой Ариан-5 в 1996 году. Там буквально из-за пары строчек кода в результате неправильного приведения числовых типов ракета за 7 млрд баксов развалилась на куски в воздухе. Бывает. Что касается Роскосмоса, при всей его сомнительной репутации, объяснение "Дураки не провели тесты" звучит лично для меня неправдоподобно. На мой личный взгляд возможны два варианта: 1. Если в описании ошибки слово "приоритет" обозначает какой-то признак внутри объекта команды, значит, на входе в приёмный модуль эти команды не были отфильтрованы. Выглядит как грубая ошибка, целый логический блок упущен. Вряд ли этот блок вообще не написан, скорее всего он не выполнился. Такое бывает, если в тестовой среде есть какое-то условие, которого нет в рабочей, и именно это условие отвечает за выполнение участка кода. Сталкивался с таким миллион раз. Самое дикое из последнего: код парсит эксель-таблицу с числами. Разработчик написал, запустил проверил, прогнал тесты, всё ок. Отправляем в прод — все числа будто бы рандомно меняются на другие. Запускаем снова — у всех разработчиков функционирует нормально, а в проде на сервере нет. Таблица одна и та же. Можете подумать, почему так. Ответ: у разработчиков стоит русская локаль и десятичный разделитесь это запятая, а на проде в докере точка. При парсинге на проде запятая уже интерпретируется как разделитель тысячных разрядов. 2. Куда вероятнее, что слово "приоритет" в описании ошибки обозначает время, а, значит, список команд просто не был отсортирован, и в обработчик уже после актуальных значений попали какие-нибудь начальные нулевые данные, сбившие логику. По косвенному описанию проблемы очень похоже именно на это. Значит, на тестах всегда порядок возникновения команд соответствовал порядку их прихода, а в реальности перестал соответствовать. Вообще, работать с железом очень сложно. Какую-нибудь схемку заглючило от холода, она задержала ответ от датчика на миллисекунду, и всё. Никто не знал, что такая проблема возможна, пока она не возникла. Мне рассказывали о таком случае: юзер логинится на сайт и иногда логин проходит, а иногда нет. Логин и пароль те же самые. Просто в случайные моменты времени ему возвращают токен авторизации, а в другие моменты времени ошибку 403. Никакой закономерности нет вообще. Нет зависимости от времени суток и даты. Сервер точно работает стабильно и не падает все 100% времени. Почему так может быть? Ответ: у сервиса авторизации два инстанса, перед которыми балансировщик нагрузки. В одном инстансе данные для авторизации есть, в другом нет. Балансировщик при примерно одинаковой нагрузке включает просто случайный выбор между ними. В общем, программисты иногда допускают такие косяки, что какая-то мелочь может привести к серьёзной аварии. Это я вам говорю как программист, который пишет для атомных станций :) #dev

Hashtags

Резултати

Намерени 6 подобни публикации

Търсене: #prometheus

当前筛选 #prometheus清除筛选
探索号

@seeker_rc · Post #20516 · 14.05.2026 г., 06:25

我最近 vibe 了一个 pod 级别的智能运维工具!希望大家使用在给点反馈 我最近开发了一个运维 agent ,我想让大家体验和使用下效果怎么样。 ———————— 📌 这个是智能核心 <https://github.com/mumong/aiops-pod> 📌 这个是工具 mcp <https://github.com/mumong/mcpServer-holmesgpt> 📌 这个是可观测性的部署。里面包含了上面要用到的 prometheus 工具 <https://github.com/mumong/Observility> 使用方式为,将上面 2 个资源拉下来 然后部署到 k8s 集群,如果想要工具完整性的话可能还需要适配一个 prometheus... via V2EX 分享创造 标签: #prometheus#部署#工具 ⚡️探索号频道 ⚡️探索者频道 ⚡️探索者交流群 ⚡️ Youtube 频道:科技探索者 每天推荐有趣内容,欢迎订阅、转发。

Bookmark

@bookmarktutorial · Post #1670 · 27.01.2022 г., 00:26

祝大家在即将到来的虎年里: 服务器永不宕机 Pod 永不 Pending #Etcd 永远健康 #KubeSphere Console 登录密码一直正确 应用负载一直可用 容器镜像永远不会拉不下来 #CoreDNS 一直正常解析 ks-apiserver 永不失联 存储卷挂载一直成功 监控数据永不丢失 #Prometheus 永不报警

Data Science Jobs

@datasciencejobs · Post #3132 · 06.02.2026 г., 12:01

#vacancy#Fulltime#remote#MLOps#Jenkins#ITВакансии#УдалённаяРабота#Prometheus#Вакансия 🔎Senior MLOps в крупный ритейлер. 💰Зарплата: 240-270К руб/мес.Гросс 🎯Локация/гр.: Россия 🕰Срок проекта: 6 месяцев + 📄Оформление: только ИП 📌 Требования: - Опыт работы с Kubernetes и облачными/on-prem кластерами; - Знание Python и инструментов ML Ops (Kubeflow, Airflow); - Опыт настройки CI/CD (Jenkins); - Опыт работы с системами хранения и векторными БД (Weaviate/Qdrant/PGVector); - Знания в области мониторинга и логирования (Prometheus, Grafana, ELK, OpenTelemetry). ✅Задачи: - Развертывание и поддержка LLM-платформы в Kubernetes (Helm, Terraform, K8s Operators); - Настройка CI/CD для ML/AI сервисов (обучение, inference, data pipelines); - Автоматизация ML workflow в Kubeflow; - Настройка и поддержка мониторинга моделей (latency, drift, cost metrics); - Управление пайплайнами данных для обучения и inference (Kafka, DataLake, объектное хранилище S3, векторные БД); - Оптимизация работы GPU-кластера (распределённое обучение, эффективное использование ресурсов); - Обеспечение безопасности и комплаенса: изоляция сред, контроль доступа, логирование. 🏛О проекте: Разработка внутренней корпоративной LLM-платформы для автоматизации процессов, поддержки сотрудников и повышения эффективности взаимодействия с данными. В задачи проекта входит создание удобных пользовательских интерфейсов (чат-ассистенты, RAG-поиск, генерация текстов и изображений), интеграция с существующими системами компании и обеспечение контроля и мониторинга использования модели. 📲Как откликнуться: Отправляйте своё резюме @AllaDemHR

GitHub Trends

@githubtrending · Post #14846 · 20.06.2025 г., 12:00

#go#cloudnative#grafana#hacktoberfest#logging#loki#prometheus Loki is a log aggregation system inspired by Prometheus but designed specifically for logs instead of metrics. It is cost-effective and easy to operate because it only indexes metadata (labels) about logs, not the full log content, which reduces storage and complexity. Loki works well with Kubernetes by automatically indexing pod labels and integrates natively with Grafana for easy log visualization. Its stack includes an agent (Alloy) to collect logs, Loki to store and query them, and Grafana to display them. This setup helps you efficiently manage and analyze logs with less cost and simpler operation compared to traditional logging systems[2]. https://github.com/grafana/loki

‍Рубрика: КодМашины 🔥 ИИ-революция 2025: как Альтман, Безос и Белый дом перезапускают науку Конец года взорвался новыми амбициозными проектами — от частных инициатив до государственных мегапрограмм. Вот что происходит: 🚀Ключевые игроки и их стратегии: 1. Episteme (Сэм Альтман) - Цель: создать «новый тип R&D-организации» для поддержки рискованных, междисциплинарных идей, которые отвергают традиционные институты. - Философия: сознательно менять «эпистему» эпохи — систему идей, определяющих мышление. Ссылаются на Фуко, Коперника и Медичи. - Фокус: фундаментальные исследования без бюрократии и коммерческого давления. 2. Project Prometheus (Джефф Безос) - Инвестиции: $6,2 млрд. - Направление: ИИ для физических задач — робототехника, аэрокосмос, автоиндустрия (конкуренция с Маском?). - Команда: почти 100 человек из Meta, OpenAI, DeepMind. Безос — содиректор. 3. Миссия Генезис (Белый дом) - Масштаб: национальный проект уровня «Манхэттенского». - Цель: ускорить научный прогресс через ИИ — от материаловедения до космоса. - Контекст: «поворотный момент», требующий исторических усилий. 4. Стартап Яна Лекуна - Критика: языковые модели (вроде ChatGPT) — тупик, так как не понимают физический мир, не умеют рассуждать и планировать. - Цель: следующая ИИ-революция — системы с памятью, логикой и способностью к абстракции. 💡 Почему это важно? - Смена парадигмы: Акцент смещается с чисто цифровых моделей (NLP) на ИИ для реального мира — робототехника, наука, инженерия. - Гонка инвестиций: Частные капиталы ($6,2 млрд у Безоса) и государственные ресурсы (США) объединяются для прорыва. - Кризис традиционной науки: Episteme и Лекун прямо указывают на ограничения академической системы — бюрократия, узкая специализация, избегание риска. 📈 Куда движется рынок? - Прорывы ожидаются в областях: - Наука + ИИ: ускорение открытий (например, новые материалы). - Киберфизические системы: роботы, автономные транспортные средства, космос. - ИИ с рассуждением: переход от статистических моделей к системам с логикой и памятью. #ИИ#Наука#Инновации#R&D #Episteme#Prometheus#МиссияГенезис#Лекун 🌐@EconRUDN

GitHub Trends

@githubtrending · Post #14992 · 23.07.2025 г., 13:00

#go#aws#azure#cncf#cost#cost_optimization#finops#gcp#k8s#kubernetes#monitoring#opencost#prometheus OpenCost is a free, open-source tool that helps you see and understand the costs of running Kubernetes clusters and cloud services in real time. It breaks down costs by cluster, node, namespace, pod, and more, across multiple cloud providers like AWS, Azure, and GCP, and even supports on-premises setups. This lets you track where your money is going, spot expensive resources, and manage your cloud spending better. It integrates with Prometheus for metrics and offers a user-friendly web interface and APIs for easy cost monitoring and exporting. Using OpenCost helps you control and optimize your cloud and Kubernetes expenses efficiently[1][2][3][4]. https://github.com/opencost/opencost