@Wikidb · Post #423 · 21.05.2023 г., 15:14
#hadoop
Hashtags
TGINSIGHT SIMILAR POSTS
Изворен канал @pythonotes · Post #239 · 3 мај
Один из самых удобных способов записать данные это использование готовых форматов, такие как JSON или YAML. Из плюсов такого подхода стоит отметить вот что: 🔸 готовый, повсеместно используемый и поддерживаемый формат 🔸 простой и понятный файл, удобочитаемый для человека 🔸 можно легко редактировать в любом текстовом редакторе без специальных программ и библиотек Но есть и минусы 🔹 затраты времени при записи файла (кодирование данных в нужный формат строки) 🔹 затраты времени при чтении файла (декодирование данных в Python объекты) 🔹 размер файла увеличивается из-за разметки данных (скобки, запятые, переносы, отступы...) 🔹 перед записью все данные должны быть помещены в память в полном объёме (не всегда) 🔹 при чтении необходимо считать весь файл в память и только потом декодировать данные Если нужно писать немного данных в несколько файлов, то затраты по времени не ощутимы. Обычно это файлы конфига или какие-либо метаданные. Это отличный вариант под такие задачи. Есть и другой поход к записи файлов - это бинарные файлы. Используется, когда данных достаточно много и никто их не собирается читать глазками😳. 🔸 очень быстрая запись 🔸 чтение значительно быстрей чем JSON, YAML итд 🔸 размер файла значительно меньше, так как нет разметки 🔸 можно записывать данные по мере поступления не загружая всё в память 🔸 можно извлечь любую часть данных независимо Из минусов 🔹 нужно определить свой формат записи данных (если не используете готовую спецификацию определённого формата) 🔹 не получится открыть файл и визуально понять что там записано, а для чтения файла потребуется знать его спецификацию. 🔹 не так-то просто создать такой файл без специальной библиотеки В таком виде удобно записывать большой массив любых однородных данных. Например, мониторинг валютной биржи или кэшированная анимация 3D геометрии. (Это не означает что нельзя записать данные разного типа, просто это будет не так удобно) Представьте себе JPG-картинку. По сути это немного мета-информации и большой массив пикселей. Тоже самое со звуком или видео файлом. Поэтому, если вы попробуете открыть картинку в текстовом редакторе вы увидите что-то вроде такого f15d cd29 a564 4578 ... 09e2 9bc4 a696 1253 ... 84e9 4de1 3b23 c24a ... 2534 5161 28e0 709d ... ... Это и есть записанные байтики. И для их чтения требуется определённый софт который знает что с ними делать. Под каждый тип файла. К чему это я? Читайте в следующем посте... #tricks#basic
Пребарај: #hadoop
@Wikidb · Post #423 · 21.05.2023 г., 15:14
#hadoop
Hashtags
@repo_science · Post #3436 · 13.07.2023 г., 23:02
#bigData#hadoop#book 🛠 Data Processing and Modeling with Hadoop: Mastering Hadoop Ecosystem Including ETL, Data Vault, DMBok, GDPR, and Various Data-Centric Tools (English Edition) ✍️ Vinicius Aquino do Vale 📆 2021 🔗Link ----- Main channel:@repo_science Coupons:@freecoupons_reposcience -----
@repo_science · Post #3431 · 12.07.2023 г., 17:56
#bigData#hadoop#book 🛠 BIG DATA ANALYTICS AND HADOOP SOLUTIONS WITH SAS TOOLS ✍️Cesar Perez Lopez 📆 2022 🔗Link ----- Main channel:@repo_science Coupons:@freecoupons_reposcience -----
@datasciencejobs · Post #3214 · 14.04.2026 г., 06:03
#вакансия#Data#fulltime#удаленно#BigData#Hadoop#ETL 🔥Ищем Data инженера уровня Middle+ ✅ Уровень: Middle+ ✅ Локация и гражданство: РФ + Друж. Страны. ✅ ЗП:200-230К на руки ✅ Загрузка: fulltime. ✅ Оформление: как ИП 📌Обязательные требования - Владение одним из языков программирования (Java, Groovy), знание принципов ООП, умение читать чужой код; - Опыт сборки проекта, компиляции и деплоя в Rancher (Docker); - Опыт проектирования, реализации, развития и поддержки интеграционных решений на стеке технологий BigData; - Знание SQL (индексы, функции, умение читать планы запросов, оптимизация запросов); - Опыт работы с любой реляционной БД (Oracle, Postgres, MySQL, MsSQL, DB2 и т.п.); - Умение работать с Git в консоли; - Знание особенностей работы ETL-инструментов (Apache Nifi, Airflow, интеграционные шины SAP BW, Talend, Informatica, SAS и т.п.); - Опыт работы с Hadoop; - Понимание устройства HDFS, форматов данных; - Опыт работы с Hive или любым другим хранилищем на основе Hadoop; - Опыт использования систем ведения проектов и документации; - Умение работать с архитектурными схемами; - Понимание принципов построения и хранения данных - DWH и DataLake. ➕Дополнительные требования - Опыт администрирования Unix/Linux или Hadoop (HDFS, Yarn, Ranger, Spark, Zookeeper), Zabbix, Ansible. 📝Задачи на проекте - Самостоятельная разработка, реализация и поддержка интеграционных решений на стеке технологий, принятых в команде (Java, Groovy, Apache Nifi, Airflow); - Определение стека технологий для конкретных проектов и задач; - Решать технически сложные задачи, которые не могут решить другие инженеры в команде; - Оперативно реагировать на информацию о проблемах в зоне ответственности, выполнять задачи в установленные сроки; - Разрабатывать и контролировать актуальность документации по взаимодействию конфигурационных единиц платформы больших данных; - Предоставлять отчеты о своей деятельности начальнику отдела/руководителю в порядке, установленном руководством; - Контроль качества интеграционных решений с последующим созданием задач/дефектов для рефакторинга; - Определять технологическую стратегию развития проекта или продукта, работать на перспективу; - Выстраивать процессы (например, CI/CD, код-ревью), внедрять и развивать инженерные практики. 📲Контакты: @irazhura87
@datasciencejobs · Post #2281 · 25.08.2024 г., 11:03
#вакансия#de#dataengineer#etl#sql#hadoop#spark Data Engineer для агротехнологических проектов При отклике на вакансию сразу присылайте резюме @echeveria_woman Отклики без резюме рассматриваться не будут! Ключевые обязанности: - Разработка и поддержка ETL-процессов - Управление базами и хранилищами данных - Интеграция данных из разных источников (сенсоры, спутниковые снимки, IoT устройства, и тд, и тп) - Оптимизация систем обработки данных Ключевые требования: - 3+ лет опыта в Data Engineering - Уверенное владение SQL и базами данных (PostgreSQL, MySQL, NoSQL) - Опыт работы с ETL-инструментами (Apache Airflow, Talend, Informatica, и тд) - Знание облачных платформ (AWS, GCP, Azure) - Навыки программирования (Python/Java) - Опыт с big data (Hadoop, Spark) - Понимание DevOps и CI/CD Будет преимуществом: - Опыт в агросфере - Знание GIS-технологий - Опыт с Docker и Kubernetes Мы предлагаем: - Вилку 3.5-5 тысяч долларов в месяц - Гибкий график - Работу в команде профессионалов - Возможности для роста - Участие в значимых агропроектах
@datasciencejobs · Post #2470 · 06.12.2024 г., 18:32
#вакансия#lead#DataEngineer#DWH#hadoop#spark#airflow#clickhouse#SODA#remote Ищу к себе в команду DWH в AliExpress Lead Data Engineer Стек: Hadoop, Spark, Airflow, ClickHouse, SODA (DQ). Удаленка, возможность оформления вне РФ. Зона ответственности команды DWH - качественные и своевременные данные в удобном для аналитики виде. За платформу данных и подключение источников к озеру данных отвечает отдельная платформенная команда. Объемы данных в компании исчисляются петабайтами. Чем предстоит заниматься: - Оптимизация производительности сложных процессов загрузки данных (Spark); - Развитие используемых в команде практик и подходов (доработки CI/CD, мониторингов, внутренних библиотек) - Разработка NRT пайплайнов (Kafka, Spark Structured Streaming, CH); - Разработка витрин данных (Spark); - Менторинг разработчиков и контроль за соблюдением стандартов. Мы ожидаем от Вас: - Опыт работы со Spark и глубокое понимание его устройства; - Опыт работы с Python или Java от 3-х лет; - Опыт работы c ClickHouse; - Опыт написания дата пайплайнов, опыт работы с Airflow; - Понимание подходов к организации разработки (CI/CD, DevOps). Будет плюсом: - Опыт разработки потоковой обработки данных; - Опыт работы с форматом iceberg; - Опыт управления небольшой командой. По вопросам и с резюме: @shh1_01
@datasciencejobs · Post #2239 · 31.07.2024 г., 14:02
#вакансия#hadoop#sql#java#hive#spark#python#scrum#agile 🚀 Вакансия: Старший разработчик Hadoop🚀 Локация: Санкт-Петербург/Москва (гибридный формат) Вилка: 250 - 350К ✈️ Готовы обсудить релокационный пакет для кандидата не из Санкт-Петербурга и Москвы. О нас: Мы — ведущий банк России, активно развивающий свои цифровые продукты и услуги. Сейчас мы ищем опытного и амбициозного Старшего разработчика Hadoop, который присоединится к нашей команде для работы над инновационными проектами в области данных и аналитики. Что вам предстоит делать: - 🤝 Взаимодействовать с бизнес-заказчиками, понимать и структурировать их требования. - ✍️ Разрабатывать функциональные требования для построения витрин данных. - 🛠 Создавать прототипы витрин с использованием SQL, Java, Python, Spark. - 🧪 Разрабатывать алгоритмы тестирования. - 📑 Документировать разрабатываемые компоненты ПО. - 🔧 Устранять дефекты, анализировать и исправлять инциденты в рамках 3-й линии поддержки. - 🏃♂️ Работать в SCRUM спринтах. Наши ожидания: - ✅ Знание SQL (подтверждается прохождением теста). - 📈 Опыт в бизнес и системном анализе не менее 2 лет: выявление, фиксация, согласование требований, постановка задач разработке, разработка проектной и сопроводительной системной документации. - 👥 Опыт командной разработки с использованием Jira и Confluence; знание BitBucket будет плюсом. - 🧩 Умение формализовывать задачи в виде четких и понятных алгоритмов. - 🎓 Высшее образование. - 💬 Отличные коммуникативные навыки, самостоятельность, внимательность к деталям, обязательность, ответственность. Будет преимуществом: - 📚 Опыт работы с Hadoop и знания его архитектуры. - 🖥 Знание Hive, Java, Python, Spark. - 🏃 Опыт работы в Agile. - 📜 Знание и умение работы с wiki-системой Confluence и трекинговыми системами (Jira, Redmine и т.д.). - 🏦 Знание банковской предметной области. Мы предлагаем: - 📄 Официальное оформление и стабильный, прозрачный доход. - 🏆 Все льготы и преимущества работы в аккредитованной ИТ-компании. - 🎁 Партнерские программы и скидки для сотрудников. - 🏢 Гибридный формат работы. Если вы хотите развиваться в динамичной компании и работать над интересными проектами в сфере больших данных, мы будем рады видеть вас в нашей команде! 🙋🏼♀️По всем вопросам к @BekhterevaElena
@datasciencejobs · Post #2139 · 04.06.2024 г., 06:02
#вакансия Data Engineer в VK Adtech, Москва Департамент создаёт рекламные продукты и инструменты для бизнеса. Это myTarget, рекламный кабинет ВКонтакте и платформа VK Реклама. Наши разработки также интегрированы в другие продукты VK: Одноклассники, Портал и Почту Mail․ru. Всё это открывает бизнесу доступ к 95% мобильной аудитории рунета. В команде минимум бюрократии и максимум возможностей влиять на продукт — воплощение фич от идеи до релиза может занимать всего пару недель. Ищем опытного и самостоятельного дата-инженера, который будет участвовать в создании ML-инструментов. Предстоит разрабатывать и поддерживать код на Scala/Spark (UDF/UDAF, Spark ML Transformers, etc.) и Python (платформа ML/ETL). А ещё помогать команде следить за качеством генерируемых данных. У нас вы будете работать с данными популярных соцсетей (ВК, ОК, Дзен) и других проектов экосистемы VK. Также надеемся, что вам понравится наш кластер Hadoop на примерно 100 петабайтов. Задачи: • Проектировать, разрабатывать и поддерживать инструменты для создания надёжных пайплайнов обработки данных; • участвовать в развитии системы для создания и использования ML-моделей; • исследовать и интегрировать в продукт новые источники данных; • создавать витрины признаков для ML-моделей. Требования: • Знание алгоритмов и структур данных; • умение писать качественный, поддерживаемый код на Scala, Python, SQL; • опыт использования Hadoop, знание механизмов распределённого хранения и обработки данных (HDFS, Spark, Hive); • знакомство с Bash, Git, Linux, Docker; • опыт работы с терминалом по SSH. Будет плюсом: • Умение использовать Luigi, Airflow, Kafka; • опыт написания Spark UDF/UDAF на Catalyst API и трансформеров spark.ml; • знание Java и нюансов JVM; • понимание классических ML-моделей, задач и методов DS. ✍️ Отправить CV и по всем вопросам: https://t.me/olkony #de#ml#engineer#mailru#adtech#spark#python#hadoop#kafka#гибрид#remote#middle#senior
@datasciencejobs · Post #3205 · 02.04.2026 г., 09:00
#вакансии#работа#Data#Engineer#Инженер#Россия#РФ#Java#Groovy#BigData#Hadoop#ETL#DWH#удаленка#Senior 👾Senior Data инженер cтавка в час: 2000-2700 руб. гросс. Локация: удаленная работа из РФ, РБ. Проект: ритейл Компания: Omega Solutions ☕️Требования - Владение одним из языков программирования (Java, Groovy), знание принципов ООП, умение читать чужой код; - Опыт сборки проекта, компиляции и деплоя в Rancher (Docker); - Опыт проектирования, реализации, развития и поддержки интеграционных решений на стеке технологий BigData; - Знание SQL (индексы, функции, умение читать планы запросов, оптимизация запросов); - Опыт работы с любой реляционной БД (Oracle, Postgres, MySQL, MsSQL, DB2 и т.п.); - Умение работать с Git в консоли; - Знания специфики работы ETL инструментов (Apache Nifi, Airflow, интеграционные шины SAP BW, Talend, Informatica, SAS и т.п.); - Опыт работы с Hadoop; - Понимание устройства HDFS, форматов данных; - Опыт работы с Hive или любым другим хранилищем на основе Hadoop; - Опыт использования систем ведения проектов и документации; - Умение работы с архитектурными схемами; - Понимание принципов построения и хранения данных - DWH и DataLake. Дополнительные требования - Желателен опыт администрирования Unix/Linux или Hadoop (HDFS , Yarn, Ranger , Spark, Zookeeper), Zabbix, Ansible; - Понимание диагностических и трейc‑файлов SAP HANA: структура, назначение, базовая интерпретация событий; - Уверенный Python/Go/Java/C++/Rust для парсинга логов и бинарных форматов, опыт написания утилит для разбора файлов; - Опыт работы с SAP HANA как источником данных: SQL‑диалект HANA, типы данных, форматы экспорта (CSV/бинарный), базовая администрация полезна; -Умение превращать разобранные данные в формат Iceberg/Paimon (таблицы, события, JSON) и выгружать в Apache Kafka (или любой другой подходящий источник); - Практика в data engineering/observability/SRE: автоматизация анализа логов/трейсов, расследование инцидентов производительности и ошибок. 🤝Задачи: • Разработка и поддержка интеграций • Выбор технологий и решение сложных задач • Контроль качества и документации • Развитие архитектуры и процессов (CI/CD) 🪂Условия Оформление по ИП Дружелюбная атмосфера внутри компании Развитие через реальные задачи, а не формальные курсы Возможность предлагать идеи и видеть, как они внедряются Гибкий график работы и возможность удаленной работы Оплата за фактически отработанное время Участие в интересных проектах без лишнего микроменеджмента 👋Контакт:@CodeVal Любишь разбираться в сложных системах и делать их лучше — откликайся!
@datasciencejobs · Post #2147 · 11.06.2024 г., 07:41
#вакансия#de#fintech#remote Привет! Мы в поиске Data Engineer (middle+) Компания: Vsemirsoft Проект: банковский проект (входит в ТОП-50 банков РФ). Стек проекта: - #Hadoop, #GreenPlum, #S3; - #Airflow, #Spark, #Kafka, #Debezium; - #ClickHouse, #Superset Часовой пояс: Москва (UTC+03:00, Europe/Moscow) Формат работы: удаленный Зп: 285 тыс. руб. 📌Ключевые компетенции: - АБС - ЦФТ - DWH 📌 Требования: - ОПЫТ РАБОТЫ ОТ 3х ЛЕТ; - опыт работы с хранилищами данных и с отчетностью в АБС Банка; - понимание жизненного цикла разработки программного обеспечения 📌 Как преимущество: - понимание процессов формирования обязательной отчетности (ЦБ) 📌 Задачи в рамках проекта: - анализ новых требований от заказчиков по задачам обязательной отчетности (ЦБ); - реализация изменений и тестирование на стороне DWH; - взаимодействие с внутренними заказчиками, системными аналитиками-экспертами других подразделений; - написание технических задач для развития детального и витринного уровней DWH; - анализ и контроль качества загрузки данных в DWH; - описание логической и физической модели DWH и сопровождение документации в части хранилища данных По всем вопросам обращаться:@odu_v_an
@datasciencejobs · Post #2226 · 22.07.2024 г., 18:04
#вакансия#ds Мы в Циан 🏘 ищем сильного Senior Data Scientist-а в команду CRM. Локация - Полная удаленка внутри РФ. Если есть желание ходить в офис, у нас есть замечательные современные офисы в Москве, Питере и Новосибе. Вилка - от 350 до 500 гросс, готовы обсуждать О нас В Циан большая команда ML. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу! Команда CRM занимается прямыми коммуникациями с клиентами (пуши, емейлы, смски и тд) Наш стек ● Python (Numpy, SciPy, Pandas, sklearn, PyTorch); ● Экосистема Hadoop (PySpark, Hive, Kafka); ● Airflow; Задачи: ● Повышение эффективности пуш-уведомлений, емейлов и других каналов прямых коммуникаций с клиентами; ● Оптимизация коммуникационной нагрузки, выбор оптимального канала коммуникации, выбор оптимального времени отправки; Требования к кандидату ● Опыт: Не менее 3х лет релевантного опыта на позиции DS в продуктовой компании ● Python: пишет легко читаемый и поддерживаемый код ● SQL (оконные функции, оптимизация запросов) ● Apache стек: HDFS/Kafka/Spark (DF API) ● Классический ML: бустинги, линейные модели. ● Базовые знания в NLP и CV: трансформеры, TF-IDF ● DL: PyTorch. Плюшки: ДМС с первого дня (стоматология, госпитализация, полис ВЗР), Кафетерий льгот Benefactory, 5 day off в год, помимо основного отпуска. Пишите в ЛС рекрутеру / мне (@DANAlina95 / @kgavrilchik) или скидывайте свои резюме на [email protected] #Python#Numpy#SciPy#Pandas#sklearn#PyTorch#Hadoop#PySpark#Hive#Kafka#Airflow
@datasciencejobs · Post #2140 · 04.06.2024 г., 12:04
#вакансия Data analyst / Data scientist, Москва VK Реклама — одно из ключевых подразделений в VK. Ежедневно наши сервисы охватывают более 140 млн пользователей в России и странах СНГ. Более 100 тыс. рекламодателей каждый день запускают рекламные кампании у нас и находят своих клиентов. Мы — команда ML внутри VK Рекламы, отвечаем за её качество, чтобы пользователи могли увидеть наиболее подходящую им рекламу, а рекламодатели потратить свои бюджеты наиболее эффективно. Основная задача нашего направления — проверять гипотезы, искать инсайты и точки роста эффективности и впоследствии внедрять их в прод. У нас идёт полный ML-цикл от проработки гипотезы до проведения экспериментов и внедрения фич в продакшен. Результаты нашей работы напрямую влияют на эффективность такого большого продукта, как VK Реклама. Команда ad hoc аналитики занимается проверкой гипотез и поиском точек роста. Тестирует гипотезы в реальных экспериментах и оценивает изменения. Мы ищем в команду сильных аналитиков, совместными усилиями будем проводить различные аналитические исследования для повышения эффективности нашего продукта. Задачи: • Анализ больших данных для поиска потенциальных точек роста и выдвижения гипотез; • ad hoc аналитика, поиски зависимостей в данных; • проверка гипотез, поиск узких мест, донесение результатов до прода; • оптимизация моделей рекламного аукциона и моделей ранжирования пользователей; • проведение и статоценка экспериментов; • разработка и автоматизация отчётности; • сбор, обработка и дальнейшее использование больших данных. Требования: • Хорошее знание SQL (сложные запросы, порядок выполнения операций) — нужно написать не просто запрос, а оптимальный запрос, который сможет отработать на действительно больших данных; • знание Python для анализа данных; библиотеки Pandas, Numpy — нужно будет сделать анализ данных, проработать гипотезы и правильно их визуализировать. Недостаточно просто найти какой-то паттерн — нужно его правильно представить наружу; • работа с системами больших данных будет большим плюсом (Hadoop, PySpark); • хорошее понимание матстатистики; • анализ данных с учётом сезонности, поиски аномалий и выбросов в данных. Будет плюсом: • Опыт работы с ClickHouse, Hadoop, Git, Jenkins; • работа с инструментами BI-отчётности, понимание ETL-инструментов (делаем автоматические отчёты, готовим для них данные, настраиваем выгрузки и другое). ✍️ Отправить CV и по всем вопросам: https://t.me/olkony #ds#adhoc#analytics#ml#mailru#vk#adtech#sql#python#pandas#numpy#pysprak#hadoop#mathstat#clickhouse#гибрид#remote#middle#senior