@repo_science · Post #3709 · 13.11.2023 г., 02:37
#ETL#book#Airflow 📓 Data Pipelines with Apache Airflow 🔗Link ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
TGINSIGHT SIMILAR POSTS
Изходен канал @clockstackwheels · Post #672 · 28.11
Впервые сделал крупный проект (под NDA, так что не расскажу, какой) на облачных функциях. Впечатления противоречивые. Изначально программисты арендовали компьютер в датацентре: или целиком или кусочек. На нём теоретически можно делать что угодно, но для запуска своих программ нужно было настроить операционную систему, безопасность и авторизацию, установить нужные исполнительные модули, программы для удобства деплоя, мониторинг нагрузки итд. Поэтому появились сервисы, которые это всё делают за тебя, а тебе дают буквально окно, куда можно написать свой код и запускать его удалённо на чужой машине. Конкретно я пользовался решением от Яндекса, чей протокол скопирован напрямую с Amazon Web Services. Причём, в документации не только открыто об этом говорится, но ещё и в некоторых местах перенаправляют на доки от Amazon. И SDK предлагают тоже использовать амазоновский. До санкций я бы сказал, что это не так плохо — можно использовать что-то привычное тем, кто уже работал с Amazon. Но сейчас привязка к американскому сервису выглядит скорее жирным минусом. Не знаю, есть ли у Яндекса ресурсы на какое-то серьёзное разделение. Судя по состоянию документации и платформы в целом — нет. Yandex Cloud кажется системой, которая активно развивалась несколько лет назад, а сейчас подзаброшена. Среда выполнения .NET отстаёт от актуальной на две версии (3.1 вместо 6, четвёртой версии не существует). Изначально мой проект был написан как обычное контейнеризированное приложение на .NET 6, а потом я переводил его на функции. Пришлось пройтись по всему коду и переписать несовместимые куски с C#10 на C#8, это было не слишком приятно. Документации фактически нет, а там, где есть, много путаницы. В примерах написано одно, по факту другое: например в функцию вместо объекта Request приходит просто строка, а разбирать её надо самому. Авторизацию я нашёл только на Stackoverflow. Интересно, что адекватных доков про неё не было ни у Яндекса, ни у Amazon. Функция выполняется и выгружается, поэтому ваша программа не должна рассчитывать на наличие постоянно живущего процесса. Мне пришлось вытащить из неё большой словарь, который грузится при старте, и положить уже подготовленные данные из него в Object Storage — это такое горячее файловое хранилище, там же рядом с функциями. Справедливости ради, работает это всё быстрее, чем я думал. Удалось запихнуть в функции даже сравнительно большой проект с кучей классов, создающий при запуске несколько десятков объектов и производящий загрузку из сети с декомпрессией. Другой важный плюс — бесплатная квота довольно внушительная: миллион вызовов и 10Гб*часов оперативной памяти в месяц. Для пет проекта вы сможете вообще не покупать сервер. Но если сервер у вас всё-таки есть, деплой вы уже настроили, то удобнее будет, конечно, делать как привычно. И гибкости больше. #dev
Hashtags
Търсене: #airflow
@repo_science · Post #3709 · 13.11.2023 г., 02:37
#ETL#book#Airflow 📓 Data Pipelines with Apache Airflow 🔗Link ----- Main channel: @repo_science Coupons: @freecoupons_reposcience -----
@ckbga · Post #209 · 03.09.2025 г., 14:41
🦷Как ухаживать за зубами: советы врача ЦКБ ГА Врач-стоматолог ЦКБ ГА Мударисова Айнара Владимировна — о базовых правилах домашней и профессиональной гигиены. 🏠Домашняя гигиена 🦷 Чистим зубы 2× в день по 3 мин: утром после еды, вечером — перед сном. 🧵 Межзубная чистка — зубная нить (по необходимости ёршики). 👅 Очищаем язык щёткой или скребком. 🔁 Меняем щётку каждые 2–3 мес. 🧴 Дополняем уход: ополаскиватель, ирригатор, ёршики. ⚡️ Электрические щётки часто эффективнее обычных. 🛡 Паста с фтором — укрепляет эмаль. 🍭➖ Меньше сахара и кислого, больше кальция и фосфора. 💧 Пьём больше воды — естественная очистка полости рта. 📅 Даже при хорошем уходе — профчистка 2× в год обязательна. 🧑⚕️Профессиональная гигиена 📆 Каждые 6 месяцев (по показаниям — чаще). 🛡 Безопасно для эмали и дёсен при работе специалиста. 😌 При чувствительности возможно обезболивание. ✨ Ультразвук и Air-Flow удаляют камень и пигментированный налёт, в т.ч. под десной. 🦷 Полировка эмали — поверхность гладкая, налёт скапливается медленнее. 🌟 Результат: здоровая, гладкая и чуть светлее эмаль. 🔎 Регулярные осмотры помогают вовремя выявить кариес и воспаление. #стоматология#гигиенаполостиРта#профессиональнаячистка#ультразвук#AirFlow#советыврача#ЦКБГА#МударисоваАйнараВладимировна
@datasciencejobs · Post #1269 · 05.01.2023 г., 06:31
#работа#вакансия#job#vacancy#fulltime#удаленка#офис#remote#SQL#DE#Python#PySpark#Airflow#Data Data engineer в Aston на проект платформы, которая распределяет работу между сотнями исполнителей. Требования: -Опыт работы в роли Data Engineer от 2\3-х лет; -Хорошее знание Python и SQL -Практический опыт решения алгоритмических задач Будет плюсом: -Знание PySpark -Опыт работы с Databricks из Airflow -Опыт работы с Airflow -Знание Bash, Docker -Высшее математическое или физико-математическое образование Условия: - работа удаленно или в офисе, фултайм - система менторства и адаптации (куратор, четкий план роста, своя школа архитекторов, а также корпоративный обучающий портал для любого стека вашей специализации) - возможность выбора/смены проекта - медицинское страхование (+стоматология) - возможность доп заработка через участие в активностях компании - компенсация спорта и англ языка - помощь в отсрочке (входим в РФ реестр ИТ-компаний) - ЗП на руки 150-240к ₽ и более Контакт для связи Ян @job_accelerator
@datasciencejobs · Post #2470 · 06.12.2024 г., 18:32
#вакансия#lead#DataEngineer#DWH#hadoop#spark#airflow#clickhouse#SODA#remote Ищу к себе в команду DWH в AliExpress Lead Data Engineer Стек: Hadoop, Spark, Airflow, ClickHouse, SODA (DQ). Удаленка, возможность оформления вне РФ. Зона ответственности команды DWH - качественные и своевременные данные в удобном для аналитики виде. За платформу данных и подключение источников к озеру данных отвечает отдельная платформенная команда. Объемы данных в компании исчисляются петабайтами. Чем предстоит заниматься: - Оптимизация производительности сложных процессов загрузки данных (Spark); - Развитие используемых в команде практик и подходов (доработки CI/CD, мониторингов, внутренних библиотек) - Разработка NRT пайплайнов (Kafka, Spark Structured Streaming, CH); - Разработка витрин данных (Spark); - Менторинг разработчиков и контроль за соблюдением стандартов. Мы ожидаем от Вас: - Опыт работы со Spark и глубокое понимание его устройства; - Опыт работы с Python или Java от 3-х лет; - Опыт работы c ClickHouse; - Опыт написания дата пайплайнов, опыт работы с Airflow; - Понимание подходов к организации разработки (CI/CD, DevOps). Будет плюсом: - Опыт разработки потоковой обработки данных; - Опыт работы с форматом iceberg; - Опыт управления небольшой командой. По вопросам и с резюме: @shh1_01
@datasciencejobs · Post #2310 · 11.09.2024 г., 13:04
#DataEngineer#ContractPosition#Remote#GCP#Snowflake#dbt#Fintech#API#Airflow#GitHub Разыскивается Data Engineer на работу по контракту с крупной американской венчурной компанией. Контракт на 6 месяцев с возможностью перезаключения договора. Предпочтительна возможность работать в их часовых поясах, минимальное время пересечения – 4 часа. Стек технологий: GCP, Snowflake, dbt, Airflow, GitHub, API/SFTP, Python, SQL. Английский B2 и выше – условие обязательное. Опыт работы в финтех/банковском секторе - условие обязательное. Работать за пределами России и Беларуси - условие обязательное. Зарплата: $5000 – 7000 NET. Для самых внимательных, кто действительно читает описание вакансии: • Пожалуйста, откликайтесь только в том случае, если у вас есть необходимый опыт по всему стеку (GCP, Snowflake, dbt, Airflow, GitHub, Python and SQL, API/SFTP), а также опыт работы в финтех/банковском секторе. • Присылайте резюме в формате Word. Спасибо! Для связи: https://t.me/Tary_bird ____________________________________ Description of the Data Engineer contract position: Location: Preferably Pacific Time Zone, with at least 4 hours overlap with working hours. Company: A large venture company with assets of over $11 billion and employees in Austin, London, Menlo Park, and San Francisco. What to expect: Your role as a data engineer involves reporting to the head of the data and analytics department and participating in the creation of the entire structure and infrastructure necessary to support operations in the fintech/banking sector. Responsibilities: • Developing, creating, and maintaining data infrastructure for optimal extraction, transformation, and loading of data from various sources using SQL, and big data technologies. • Creating and implementing data collection systems that integrate various sources, including company proprietary data and external sources. • Automating the process of collecting and visualizing user engagement data. • Developing and supporting data processes on the Google Cloud platform and in the Snowflake system for efficient data processing. • Extracting data via API/SFTP and ensuring its correctness and relevance. What we are looking for: Qualifications: • Fintech/Bank working experience (must have). • Minimum 6 years of professional experience as a data engineer/data analyst in the fintech/banking sector. • Deep knowledge of GCP, Snowflake, dbt, Airflow, and GitHub. • Strong proficiency in Python and SQL. • Experience in data intake via API/SFTP. • Attention to detail and strong communication skills, both orally and in writing. Nice to have: • Bachelor's or master's degree in computer science, database management, etc. Please send the completed application form together with your CV. • How many years of experience do you have with Google Cloud Platform (GCP)? • How many years of experience do you have with Snowflake? • How many years of experience do you have with dbt? • How many years of experience do you have with Airflow? • How many years of experience do you have with GitHub? • Do you have experience working with data intake through API/SFTP? If yes, please describe. • How many years of experience do you have with Python? • How many years of experience do you have with SQL? • What salary USD is expected?
@datasciencejobs · Post #2589 · 03.03.2025 г., 12:02
#вакансия#DE#dataengineer#DWH#pandas#clickhouse#SQL#BigQuery#AirFlow#DBT#parttime#fulltime#remote Всем привет! Ищу к себе в команду middle/senior-специалиста по data-инжинирингу. Я аналитик, строю аналитические DWH для бизнеса, внедряю сквозную аналитику и создаю дашборды (подробнее в лс). У меня небольшая команда - один специалист на full-time и несколько на фри-лансе. Объем работы по клиентам растет, поэтому ищу еще одного специалиста на part/full-time (от 20 ч в неделю). Необходимый стек: - минимум Python (ООП, Pandas), AirFlow - желательный Python (ООП, Pandas), SQL (ClickHouse/Google BigQuery), AirFlow, DBT Оплата сдельная - от 80 тыс. руб. Формат работы: удаленно Для связи: @isrustam
@datasciencejobs · Post #2147 · 11.06.2024 г., 07:41
#вакансия#de#fintech#remote Привет! Мы в поиске Data Engineer (middle+) Компания: Vsemirsoft Проект: банковский проект (входит в ТОП-50 банков РФ). Стек проекта: - #Hadoop, #GreenPlum, #S3; - #Airflow, #Spark, #Kafka, #Debezium; - #ClickHouse, #Superset Часовой пояс: Москва (UTC+03:00, Europe/Moscow) Формат работы: удаленный Зп: 285 тыс. руб. 📌Ключевые компетенции: - АБС - ЦФТ - DWH 📌 Требования: - ОПЫТ РАБОТЫ ОТ 3х ЛЕТ; - опыт работы с хранилищами данных и с отчетностью в АБС Банка; - понимание жизненного цикла разработки программного обеспечения 📌 Как преимущество: - понимание процессов формирования обязательной отчетности (ЦБ) 📌 Задачи в рамках проекта: - анализ новых требований от заказчиков по задачам обязательной отчетности (ЦБ); - реализация изменений и тестирование на стороне DWH; - взаимодействие с внутренними заказчиками, системными аналитиками-экспертами других подразделений; - написание технических задач для развития детального и витринного уровней DWH; - анализ и контроль качества загрузки данных в DWH; - описание логической и физической модели DWH и сопровождение документации в части хранилища данных По всем вопросам обращаться:@odu_v_an
@datasciencejobs · Post #2226 · 22.07.2024 г., 18:04
#вакансия#ds Мы в Циан 🏘 ищем сильного Senior Data Scientist-а в команду CRM. Локация - Полная удаленка внутри РФ. Если есть желание ходить в офис, у нас есть замечательные современные офисы в Москве, Питере и Новосибе. Вилка - от 350 до 500 гросс, готовы обсуждать О нас В Циан большая команда ML. В команде настроены процессы перфоманс ревью, регулярного обмена опытом, выделяем время на исследовательскую работу! Команда CRM занимается прямыми коммуникациями с клиентами (пуши, емейлы, смски и тд) Наш стек ● Python (Numpy, SciPy, Pandas, sklearn, PyTorch); ● Экосистема Hadoop (PySpark, Hive, Kafka); ● Airflow; Задачи: ● Повышение эффективности пуш-уведомлений, емейлов и других каналов прямых коммуникаций с клиентами; ● Оптимизация коммуникационной нагрузки, выбор оптимального канала коммуникации, выбор оптимального времени отправки; Требования к кандидату ● Опыт: Не менее 3х лет релевантного опыта на позиции DS в продуктовой компании ● Python: пишет легко читаемый и поддерживаемый код ● SQL (оконные функции, оптимизация запросов) ● Apache стек: HDFS/Kafka/Spark (DF API) ● Классический ML: бустинги, линейные модели. ● Базовые знания в NLP и CV: трансформеры, TF-IDF ● DL: PyTorch. Плюшки: ДМС с первого дня (стоматология, госпитализация, полис ВЗР), Кафетерий льгот Benefactory, 5 day off в год, помимо основного отпуска. Пишите в ЛС рекрутеру / мне (@DANAlina95 / @kgavrilchik) или скидывайте свои резюме на [email protected] #Python#Numpy#SciPy#Pandas#sklearn#PyTorch#Hadoop#PySpark#Hive#Kafka#Airflow