Один из самых удобных способов записать данные это использование готовых форматов, такие как JSON или YAML.
Из плюсов такого подхода стоит отметить вот что:
🔸 готовый, повсеместно используемый и поддерживаемый формат
🔸 простой и понятный файл, удобочитаемый для человека
🔸 можно легко редактировать в любом текстовом редакторе без специальных программ и библиотек
Но есть и минусы
🔹 затраты времени при записи файла (кодирование данных в нужный формат строки)
🔹 затраты времени при чтении файла (декодирование данных в Python объекты)
🔹 размер файла увеличивается из-за разметки данных (скобки, запятые, переносы, отступы...)
🔹 перед записью все данные должны быть помещены в память в полном объёме (не всегда)
🔹 при чтении необходимо считать весь файл в память и только потом декодировать данные
Если нужно писать немного данных в несколько файлов, то затраты по времени не ощутимы. Обычно это файлы конфига или какие-либо метаданные. Это отличный вариант под такие задачи.
Есть и другой поход к записи файлов - это бинарные файлы. Используется, когда данных достаточно много и никто их не собирается читать глазками😳.
🔸 очень быстрая запись
🔸 чтение значительно быстрей чем JSON, YAML итд
🔸 размер файла значительно меньше, так как нет разметки
🔸 можно записывать данные по мере поступления не загружая всё в память
🔸 можно извлечь любую часть данных независимо
Из минусов
🔹 нужно определить свой формат записи данных (если не используете готовую спецификацию определённого формата)
🔹 не получится открыть файл и визуально понять что там записано, а для чтения файла потребуется знать его спецификацию.
🔹 не так-то просто создать такой файл без специальной библиотеки
В таком виде удобно записывать большой массив любых однородных данных. Например, мониторинг валютной биржи или кэшированная анимация 3D геометрии.
(Это не означает что нельзя записать данные разного типа, просто это будет не так удобно)
Представьте себе JPG-картинку. По сути это немного мета-информации и большой массив пикселей. Тоже самое со звуком или видео файлом. Поэтому, если вы попробуете открыть картинку в текстовом редакторе вы увидите что-то вроде такого
f15d cd29 a564 4578 ...
09e2 9bc4 a696 1253 ...
84e9 4de1 3b23 c24a ...
2534 5161 28e0 709d ...
...
Это и есть записанные байтики. И для их чтения требуется определённый софт который знает что с ними делать. Под каждый тип файла.
К чему это я? Читайте в следующем посте...
#tricks#basic
#GitLab
Modern CI/CD with GitLab: Productivity and Workflow Boost
Your journey to the modern CI/CD with Gitlab starts here! Learn how you can boost your productivity and workflows.
🔗Link
-----
Main channel:@repo_science
Coupons: @freecoupons_reposcience
-----
🦊 Настройка автоматизация проверки качества, сборки и запуск тестов Android проекта в Gitlab
CI/CD - неотъемлемая часть любого мобильного и не только проекта! Даже если вы делаете всё один, вас стоит настроить CI/CD. GitHub, Gitlac, Jenkins и множество других решений подойдут для решения задачи.
Если вы решили использовать CI/CD от Gitlab, тогда вам может пригодиться серия статей:
1️⃣Планирование, настройка Gitlab файла, публикация в Telegram сборок
2️⃣Запуск Android-тестов: Marathon Labs, Firebase Test Lab
3️⃣Автоматизация публикации версий в Play Store с помощью Gradle Play Publisher plugin и Fastlane, а также собственного Docker образа для сборки
#andorid#ci#gitlab#автоматизация
#вакансия#инженер#engineer#DataEngineer#middle#machinelearning#Python#PostgreSQL#SQL#Redis#gitlab#работа#job#удаленно
Компания: Sever X
Формат: удаленно
Занятость: полная, 5/2
💵: от 250 000 руб.
🚀Отличная возможность для опытного Data Engineer реализовать и развить как технические компетенции, так и навыки коммуникации с бизнесом, лидерские качества, навыки формирования команды. С развитием проекта предполагается создание команды под себя, сейчас необходимо возглавить текущие задачи и реализовать их.
🗝задача: поддержка и развитие Data Lake и связанных с ним проектов
📍Основные обязанности
•Интеграция с источниками данных и построение ETL-процессов
•Разработка и поддержка аналитической отчётности системами и API
•Выявление и устранение аномалий в данных
•Взаимодействие с другими членами команды
🛠Стек:
Основной язык разработки – Python 3.8
Платформа разработки – Яндекс.Облако (Managed Services + виртуальные машины)
Хранилища данных – GreenPlum 6.2, PostgreSQL 14, Redis
Оркестратор процессов – Apache Airflow 2.0
Система управления версиями – GitLab
Контейнеризация приложений – Docker + k8s
📍Обязательные требования
•Уверенное владение SQL: базовый синтаксис, транзакции, представления, хранимые процедуры
•Опыт интеграции с различными источниками данных: файловые системы (локальные/ftp/sftp), API, SQL и NoSQL базы данных
•Понимание принципа работы распределённых баз данных
•Знание Python 3: модули pandas, pyodbc (либо другие модули, имплементирующие ODBC), paramiko, requests
•Базовые навыки использования Linux
🔥Преимуществом при отборе будет:
•Опыт работы с распределёнными хранилищами данных: Hadoop (Hive/Impala), GreenPlum, ClickHouse
•Опыт разработки пайплайнов на Apache Airflow
•Навыки оптимизации процессов SQL
•Опыт реализации RestAPI
⚖️Условия работы и что мы можем предложить взамен:
•Место работы: удаленно
•Возможны различные варианты оформления
•Рассматриваются кандидаты в часовом поясе максимум +5 часов к МСК
•Обязательно наличие гражданства РФ
•Квартальные премии в размере 30% от квартального оклада
•ДМС со стоматологией
•Профессиональная и амбициозная команда
•Открытая корпоративная культура, атмосфера доверия и сотрудничества
•Драйв, высокие скорости, непосредственное влияние на результат
📲контакт: @Oskar17