#bigData#hadoop#book 🛠 Data Processing and Modeling with Hadoop: Mastering Hadoop Ecosystem Including ETL, Data Vault, DMBok, GDPR, and Various Data-Centric Tools (English Edition) ✍️ Vinicius Aquino do Vale 📆 2021 🔗Link ----- Main channel:@repo_science Coupons:@freecoupons_reposcience -----

Hashtags

#bigdata #hadoop #book

Repositorio data science

@repo_science · Post #3431 · 2023/07/12 17:56

查找相似查看

#bigData#hadoop#book 🛠 BIG DATA ANALYTICS AND HADOOP SOLUTIONS WITH SAS TOOLS ✍️Cesar Perez Lopez 📆 2022 🔗Link ----- Main channel:@repo_science Coupons:@freecoupons_reposcience -----

Hashtags

#bigdata #hadoop #book

Data Science Jobs

@datasciencejobs · Post #3214 · 2026/04/14 06:03

查找相似查看

#вакансия#Data#fulltime#удаленно#BigData#Hadoop#ETL 🔥Ищем Data инженера уровня Middle+ ✅ Уровень: Middle+ ✅ Локация и гражданство: РФ + Друж. Страны. ✅ ЗП:200-230К на руки ✅ Загрузка: fulltime. ✅ Оформление: как ИП 📌Обязательные требования - Владение одним из языков программирования (Java, Groovy), знание принципов ООП, умение читать чужой код; - Опыт сборки проекта, компиляции и деплоя в Rancher (Docker); - Опыт проектирования, реализации, развития и поддержки интеграционных решений на стеке технологий BigData; - Знание SQL (индексы, функции, умение читать планы запросов, оптимизация запросов); - Опыт работы с любой реляционной БД (Oracle, Postgres, MySQL, MsSQL, DB2 и т.п.); - Умение работать с Git в консоли; - Знание особенностей работы ETL-инструментов (Apache Nifi, Airflow, интеграционные шины SAP BW, Talend, Informatica, SAS и т.п.); - Опыт работы с Hadoop; - Понимание устройства HDFS, форматов данных; - Опыт работы с Hive или любым другим хранилищем на основе Hadoop; - Опыт использования систем ведения проектов и документации; - Умение работать с архитектурными схемами; - Понимание принципов построения и хранения данных - DWH и DataLake. ➕Дополнительные требования - Опыт администрирования Unix/Linux или Hadoop (HDFS, Yarn, Ranger, Spark, Zookeeper), Zabbix, Ansible. 📝Задачи на проекте - Самостоятельная разработка, реализация и поддержка интеграционных решений на стеке технологий, принятых в команде (Java, Groovy, Apache Nifi, Airflow); - Определение стека технологий для конкретных проектов и задач; - Решать технически сложные задачи, которые не могут решить другие инженеры в команде; - Оперативно реагировать на информацию о проблемах в зоне ответственности, выполнять задачи в установленные сроки; - Разрабатывать и контролировать актуальность документации по взаимодействию конфигурационных единиц платформы больших данных; - Предоставлять отчеты о своей деятельности начальнику отдела/руководителю в порядке, установленном руководством; - Контроль качества интеграционных решений с последующим созданием задач/дефектов для рефакторинга; - Определять технологическую стратегию развития проекта или продукта, работать на перспективу; - Выстраивать процессы (например, CI/CD, код-ревью), внедрять и развивать инженерные практики. 📲Контакты: @irazhura87

Hashtags

#вакансия #data #fulltime #удаленно #bigdata #hadoop #etl

Data Science Jobs

@datasciencejobs · Post #2281 · 2024/08/25 11:03

查找相似查看

#вакансия#de#dataengineer#etl#sql#hadoop#spark Data Engineer для агротехнологических проектов При отклике на вакансию сразу присылайте резюме @echeveria_woman Отклики без резюме рассматриваться не будут! Ключевые обязанности: - Разработка и поддержка ETL-процессов - Управление базами и хранилищами данных - Интеграция данных из разных источников (сенсоры, спутниковые снимки, IoT устройства, и тд, и тп) - Оптимизация систем обработки данных Ключевые требования: - 3+ лет опыта в Data Engineering - Уверенное владение SQL и базами данных (PostgreSQL, MySQL, NoSQL) - Опыт работы с ETL-инструментами (Apache Airflow, Talend, Informatica, и тд) - Знание облачных платформ (AWS, GCP, Azure) - Навыки программирования (Python/Java) - Опыт с big data (Hadoop, Spark) - Понимание DevOps и CI/CD Будет преимуществом: - Опыт в агросфере - Знание GIS-технологий - Опыт с Docker и Kubernetes Мы предлагаем: - Вилку 3.5-5 тысяч долларов в месяц - Гибкий график - Работу в команде профессионалов - Возможности для роста - Участие в значимых агропроектах

Hashtags

#вакансия #de #dataengineer #etl #sql #hadoop #spark

Data Science Jobs

@datasciencejobs · Post #2470 · 2024/12/06 18:32

查找相似查看

#вакансия#lead#DataEngineer#DWH#hadoop#spark#airflow#clickhouse#SODA#remote Ищу к себе в команду DWH в AliExpress Lead Data Engineer Стек: Hadoop, Spark, Airflow, ClickHouse, SODA (DQ). Удаленка, возможность оформления вне РФ. Зона ответственности команды DWH - качественные и своевременные данные в удобном для аналитики виде. За платформу данных и подключение источников к озеру данных отвечает отдельная платформенная команда. Объемы данных в компании исчисляются петабайтами. Чем предстоит заниматься: - Оптимизация производительности сложных процессов загрузки данных (Spark); - Развитие используемых в команде практик и подходов (доработки CI/CD, мониторингов, внутренних библиотек) - Разработка NRT пайплайнов (Kafka, Spark Structured Streaming, CH); - Разработка витрин данных (Spark); - Менторинг разработчиков и контроль за соблюдением стандартов. Мы ожидаем от Вас: - Опыт работы со Spark и глубокое понимание его устройства; - Опыт работы с Python или Java от 3-х лет; - Опыт работы c ClickHouse; - Опыт написания дата пайплайнов, опыт работы с Airflow; - Понимание подходов к организации разработки (CI/CD, DevOps). Будет плюсом: - Опыт разработки потоковой обработки данных; - Опыт работы с форматом iceberg; - Опыт управления небольшой командой. По вопросам и с резюме: @shh1_01

Hashtags

#вакансия #lead #dataengineer #dwh #hadoop #spark #airflow #clickhouse #soda #remote

Data Science Jobs

@datasciencejobs · Post #2239 · 2024/07/31 14:02

查找相似查看

#вакансия#hadoop#sql#java#hive#spark#python#scrum#agile 🚀 Вакансия: Старший разработчик Hadoop🚀 Локация: Санкт-Петербург/Москва (гибридный формат) Вилка: 250 - 350К ✈️ Готовы обсудить релокационный пакет для кандидата не из Санкт-Петербурга и Москвы. О нас: Мы — ведущий банк России, активно развивающий свои цифровые продукты и услуги. Сейчас мы ищем опытного и амбициозного Старшего разработчика Hadoop, который присоединится к нашей команде для работы над инновационными проектами в области данных и аналитики. Что вам предстоит делать: - 🤝 Взаимодействовать с бизнес-заказчиками, понимать и структурировать их требования. - ✍️ Разрабатывать функциональные требования для построения витрин данных. - 🛠 Создавать прототипы витрин с использованием SQL, Java, Python, Spark. - 🧪 Разрабатывать алгоритмы тестирования. - 📑 Документировать разрабатываемые компоненты ПО. - 🔧 Устранять дефекты, анализировать и исправлять инциденты в рамках 3-й линии поддержки. - 🏃‍♂️ Работать в SCRUM спринтах. Наши ожидания: - ✅ Знание SQL (подтверждается прохождением теста). - 📈 Опыт в бизнес и системном анализе не менее 2 лет: выявление, фиксация, согласование требований, постановка задач разработке, разработка проектной и сопроводительной системной документации. - 👥 Опыт командной разработки с использованием Jira и Confluence; знание BitBucket будет плюсом. - 🧩 Умение формализовывать задачи в виде четких и понятных алгоритмов. - 🎓 Высшее образование. - 💬 Отличные коммуникативные навыки, самостоятельность, внимательность к деталям, обязательность, ответственность. Будет преимуществом: - 📚 Опыт работы с Hadoop и знания его архитектуры. - 🖥 Знание Hive, Java, Python, Spark. - 🏃 Опыт работы в Agile. - 📜 Знание и умение работы с wiki-системой Confluence и трекинговыми системами (Jira, Redmine и т.д.). - 🏦 Знание банковской предметной области. Мы предлагаем: - 📄 Официальное оформление и стабильный, прозрачный доход. - 🏆 Все льготы и преимущества работы в аккредитованной ИТ-компании. - 🎁 Партнерские программы и скидки для сотрудников. - 🏢 Гибридный формат работы. Если вы хотите развиваться в динамичной компании и работать над интересными проектами в сфере больших данных, мы будем рады видеть вас в нашей команде! 🙋🏼‍♀️По всем вопросам к @BekhterevaElena

Hashtags

#вакансия #hadoop #sql #java #hive #spark #python #scrum #agile

Data Science Jobs

@datasciencejobs · Post #2139 · 2024/06/04 06:02

查找相似查看

#вакансия Data Engineer в VK Adtech, Москва Департамент создаёт рекламные продукты и инструменты для бизнеса. Это myTarget, рекламный кабинет ВКонтакте и платформа VK Реклама. Наши разработки также интегрированы в другие продукты VK: Одноклассники, Портал и Почту Mail․ru. Всё это открывает бизнесу доступ к 95% мобильной аудитории рунета. В команде минимум бюрократии и максимум возможностей влиять на продукт — воплощение фич от идеи до релиза может занимать всего пару недель. Ищем опытного и самостоятельного дата-инженера, который будет участвовать в создании ML-инструментов. Предстоит разрабатывать и поддерживать код на Scala/Spark (UDF/UDAF, Spark ML Transformers, etc.) и Python (платформа ML/ETL). А ещё помогать команде следить за качеством генерируемых данных. У нас вы будете работать с данными популярных соцсетей (ВК, ОК, Дзен) и других проектов экосистемы VK. Также надеемся, что вам понравится наш кластер Hadoop на примерно 100 петабайтов. Задачи: • Проектировать, разрабатывать и поддерживать инструменты для создания надёжных пайплайнов обработки данных; • участвовать в развитии системы для создания и использования ML-моделей; • исследовать и интегрировать в продукт новые источники данных; • создавать витрины признаков для ML-моделей. Требования: • Знание алгоритмов и структур данных; • умение писать качественный, поддерживаемый код на Scala, Python, SQL; • опыт использования Hadoop, знание механизмов распределённого хранения и обработки данных (HDFS, Spark, Hive); • знакомство с Bash, Git, Linux, Docker; • опыт работы с терминалом по SSH. Будет плюсом: • Умение использовать Luigi, Airflow, Kafka; • опыт написания Spark UDF/UDAF на Catalyst API и трансформеров spark.ml; • знание Java и нюансов JVM; • понимание классических ML-моделей, задач и методов DS. ✍️ Отправить CV и по всем вопросам: https://t.me/olkony #de#ml#engineer#mailru#adtech#spark#python#hadoop#kafka#гибрид#remote#middle#senior

Hashtags

#вакансия #de #ml #engineer #mailru #adtech #spark #python #hadoop #kafka #гибрид #remote #middle #senior

Data Science Jobs

@datasciencejobs · Post #3205 · 2026/04/02 09:00

查找相似查看

#вакансии#работа#Data#Engineer#Инженер#Россия#РФ#Java#Groovy#BigData#Hadoop#ETL#DWH#удаленка#Senior 👾Senior Data инженер cтавка в час: 2000-2700 руб. гросс. Локация: удаленная работа из РФ, РБ. Проект: ритейл Компания: Omega Solutions ☕️Требования - Владение одним из языков программирования (Java, Groovy), знание принципов ООП, умение читать чужой код; - Опыт сборки проекта, компиляции и деплоя в Rancher (Docker); - Опыт проектирования, реализации, развития и поддержки интеграционных решений на стеке технологий BigData; - Знание SQL (индексы, функции, умение читать планы запросов, оптимизация запросов); - Опыт работы с любой реляционной БД (Oracle, Postgres, MySQL, MsSQL, DB2 и т.п.); - Умение работать с Git в консоли; - Знания специфики работы ETL инструментов (Apache Nifi, Airflow, интеграционные шины SAP BW, Talend, Informatica, SAS и т.п.); - Опыт работы с Hadoop; - Понимание устройства HDFS, форматов данных; - Опыт работы с Hive или любым другим хранилищем на основе Hadoop; - Опыт использования систем ведения проектов и документации; - Умение работы с архитектурными схемами; - Понимание принципов построения и хранения данных - DWH и DataLake. Дополнительные требования - Желателен опыт администрирования Unix/Linux или Hadoop (HDFS , Yarn, Ranger , Spark, Zookeeper), Zabbix, Ansible; - Понимание диагностических и трейc‑файлов SAP HANA: структура, назначение, базовая интерпретация событий; - Уверенный Python/Go/Java/C++/Rust для парсинга логов и бинарных форматов, опыт написания утилит для разбора файлов; - Опыт работы с SAP HANA как источником данных: SQL‑диалект HANA, типы данных, форматы экспорта (CSV/бинарный), базовая администрация полезна; -Умение превращать разобранные данные в формат Iceberg/Paimon (таблицы, события, JSON) и выгружать в Apache Kafka (или любой другой подходящий источник); - Практика в data engineering/observability/SRE: автоматизация анализа логов/трейсов, расследование инцидентов производительности и ошибок. 🤝Задачи: • Разработка и поддержка интеграций • Выбор технологий и решение сложных задач • Контроль качества и документации • Развитие архитектуры и процессов (CI/CD) 🪂Условия Оформление по ИП Дружелюбная атмосфера внутри компании Развитие через реальные задачи, а не формальные курсы Возможность предлагать идеи и видеть, как они внедряются Гибкий график работы и возможность удаленной работы Оплата за фактически отработанное время Участие в интересных проектах без лишнего микроменеджмента 👋Контакт:@CodeVal Любишь разбираться в сложных системах и делать их лучше — откликайся!

Hashtags

#вакансии #работа #data #engineer #инженер #россия #рф #java #groovy #bigdata #hadoop #etl #dwh #удаленка #senior

Data Science Jobs

@datasciencejobs · Post #2147 · 2024/06/11 07:41

查找相似查看

#вакансия#de#fintech#remote Привет! Мы в поиске Data Engineer (middle+) Компания: Vsemirsoft Проект: банковский проект (входит в ТОП-50 банков РФ). Стек проекта: - #Hadoop, #GreenPlum, #S3; - #Airflow, #Spark, #Kafka, #Debezium; - #ClickHouse, #Superset Часовой пояс: Москва (UTC+03:00, Europe/Moscow) Формат работы: удаленный Зп: 285 тыс. руб. 📌Ключевые компетенции: - АБС - ЦФТ - DWH 📌 Требования: - ОПЫТ РАБОТЫ ОТ 3х ЛЕТ; - опыт работы с хранилищами данных и с отчетностью в АБС Банка; - понимание жизненного цикла разработки программного обеспечения 📌 Как преимущество: - понимание процессов формирования обязательной отчетности (ЦБ) 📌 Задачи в рамках проекта: - анализ новых требований от заказчиков по задачам обязательной отчетности (ЦБ); - реализация изменений и тестирование на стороне DWH; - взаимодействие с внутренними заказчиками, системными аналитиками-экспертами других подразделений; - написание технических задач для развития детального и витринного уровней DWH; - анализ и контроль качества загрузки данных в DWH; - описание логической и физической модели DWH и сопровождение документации в части хранилища данных По всем вопросам обращаться:@odu_v_an

Hashtags

#вакансия #de #fintech #remote #hadoop #greenplum #s3 #airflow #spark #kafka #debezium #clickhouse #superset

Data Science Jobs

@datasciencejobs · Post #2226 · 2024/07/22 18:04

查找相似查看

#вакансия#ds Мы в Циан 🏘 ищем сильного Senior Data Scientist-а в команду CRM. Локация - Полная удаленка внутри РФ. Если есть желание ходить в офис, у нас есть замечательные современные офисы в Москве, Питере и Новосибе. Вилка - от 350 до 500 гросс, готовы обсуждать О нас В Циан большая команда ML. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу! Команда CRM занимается прямыми коммуникациями с клиентами (пуши, емейлы, смски и тд) Наш стек ● Python (Numpy, SciPy, Pandas, sklearn, PyTorch); ● Экосистема Hadoop (PySpark, Hive, Kafka); ● Airflow; Задачи: ● Повышение эффективности пуш-уведомлений, емейлов и других каналов прямых коммуникаций с клиентами; ● Оптимизация коммуникационной нагрузки, выбор оптимального канала коммуникации, выбор оптимального времени отправки; Требования к кандидату ● Опыт: Не менее 3х лет релевантного опыта на позиции DS в продуктовой компании ● Python: пишет легко читаемый и поддерживаемый код ● SQL (оконные функции, оптимизация запросов) ● Apache стек: HDFS/Kafka/Spark (DF API) ● Классический ML: бустинги, линейные модели. ● Базовые знания в NLP и CV: трансформеры, TF-IDF ● DL: PyTorch. Плюшки: ДМС с первого дня (стоматология, госпитализация, полис ВЗР), Кафетерий льгот Benefactory, 5 day off в год, помимо основного отпуска. Пишите в ЛС рекрутеру / мне (@DANAlina95 / @kgavrilchik) или скидывайте свои резюме на [email protected] #Python#Numpy#SciPy#Pandas#sklearn#PyTorch#Hadoop#PySpark#Hive#Kafka#Airflow

Hashtags

#вакансия #ds #python #numpy #scipy #pandas #sklearn #pytorch #hadoop #pyspark #hive #kafka #airflow

Data Science Jobs

@datasciencejobs · Post #2140 · 2024/06/04 12:04

查找相似查看

#вакансия Data analyst / Data scientist, Москва VK Реклама — одно из ключевых подразделений в VK. Ежедневно наши сервисы охватывают более 140 млн пользователей в России и странах СНГ. Более 100 тыс. рекламодателей каждый день запускают рекламные кампании у нас и находят своих клиентов. Мы — команда ML внутри VK Рекламы, отвечаем за её качество, чтобы пользователи могли увидеть наиболее подходящую им рекламу, а рекламодатели потратить свои бюджеты наиболее эффективно. Основная задача нашего направления — проверять гипотезы, искать инсайты и точки роста эффективности и впоследствии внедрять их в прод. У нас идёт полный ML-цикл от проработки гипотезы до проведения экспериментов и внедрения фич в продакшен. Результаты нашей работы напрямую влияют на эффективность такого большого продукта, как VK Реклама. Команда ad hoc аналитики занимается проверкой гипотез и поиском точек роста. Тестирует гипотезы в реальных экспериментах и оценивает изменения. Мы ищем в команду сильных аналитиков, совместными усилиями будем проводить различные аналитические исследования для повышения эффективности нашего продукта. Задачи: • Анализ больших данных для поиска потенциальных точек роста и выдвижения гипотез; • ad hoc аналитика, поиски зависимостей в данных; • проверка гипотез, поиск узких мест, донесение результатов до прода; • оптимизация моделей рекламного аукциона и моделей ранжирования пользователей; • проведение и статоценка экспериментов; • разработка и автоматизация отчётности; • сбор, обработка и дальнейшее использование больших данных. Требования: • Хорошее знание SQL (сложные запросы, порядок выполнения операций) — нужно написать не просто запрос, а оптимальный запрос, который сможет отработать на действительно больших данных; • знание Python для анализа данных; библиотеки Pandas, Numpy — нужно будет сделать анализ данных, проработать гипотезы и правильно их визуализировать. Недостаточно просто найти какой-то паттерн — нужно его правильно представить наружу; • работа с системами больших данных будет большим плюсом (Hadoop, PySpark); • хорошее понимание матстатистики; • анализ данных с учётом сезонности, поиски аномалий и выбросов в данных. Будет плюсом: • Опыт работы с ClickHouse, Hadoop, Git, Jenkins; • работа с инструментами BI-отчётности, понимание ETL-инструментов (делаем автоматические отчёты, готовим для них данные, настраиваем выгрузки и другое). ✍️ Отправить CV и по всем вопросам: https://t.me/olkony #ds#adhoc#analytics#ml#mailru#vk#adtech#sql#python#pandas#numpy#pysprak#hadoop#mathstat#clickhouse#гибрид#remote#middle#senior

Hashtags

#вакансия #ds #adhoc #analytics #ml #mailru #vk #adtech #sql #python #pandas #numpy #pysprak #hadoop #mathstat #clickhouse #гибрид #remote #middle #senior