Загрузка файлов асинхронно
Если у нас есть список URL картинок для загрузки, использование простого цикла for позволит нам загрузить их последовательно, по одной за раз.
Однако, для задач, включающих загрузку большогоколичества маленьких файлов, параллелизация может заметно ускорить процесс.
Для параллелизации мы можем использовать ThreadPoolExecutor из модуля concurrent.futures. Этот инструмент позволяет выполнить функцию загрузки в нескольких параллельных потоках, где в конструкторе необходимо указать максимальное количество потоков для одновременного выполнения.
С помощью метода .map(download, urls) можно развернуть функцию загрузки на каждый URL из списка, обеспечивая их параллельнуюобработку.
Важно понимать, что так как загрузка файлов является IO-операцией, данный метод неускоряет выполнение кода в прямом смысле, а скорее позволяет начать загрузку следующего файла, не ожидая завершения предыдущего.
#python#threading
#python#ai#llm#rag#reasoning#retrieval
PageIndex is an advanced AI tool that helps you find the most relevant information in long professional documents by thinking and reasoning like a human expert, rather than just matching keywords. It organizes documents into a clear tree structure, similar to a table of contents, and searches through this structure to give precise, trustworthy answers with exact page references. This method avoids the common problems of traditional vector-based search, making it ideal for complex reports, legal texts, or financial filings. You can use it easily via cloud services or run it locally, improving your ability to analyze and understand large documents quickly and accurately.
https://github.com/VectifyAI/PageIndex
#вакансия#офис#Python#ETL#DWH#middle#разработчик#Москва#Питер#Самара#Тольятти#офис
Привет!
Мы в поисках ETL/DWH разработчика для разработки корпоративного хранилища данных для банка. Команду собираем с 0, что позволит участвовать во внедрении КХД с самого начала и повлиять на архитектуру.
Х-он с 2005 года помогает реализовывать IT–проекты для компаний: от авторских бизнес-идей и наставничества до комплексного анализа, сопровождения и развития проекта. Среди клиентов: Сбербанк, Дикси, РАНХиГС, Allianz и другие.
Предстоящие задачи:
- Построение корпоративного хранилища данных (КХД) по методологии Data Vault 2.0 на базе Arenadata DB (Greenplum).
- Разработка и поддержка интеграционных потоков c различными источниками данных Informatica PowerCenter (Developer), Airflow, Apache NiFi.
- Участие в оптимизации/автоматизации процесса разработки, подготовке шаблонов и методик, проектной документации.
- Апробация новых инструментов разработки и систем в рамках развития КХД.
- Обеспечение непрерывной работы хранилища данных.
Что нам важно:
- Опыт работы в банках или рисках;
- Знание Python или Java
- Опыт работы на аналогичной позиции от 2 лет;
- Опыт работы с MS SQL(или Oracle, DB2, PostgreSQL),
- Опыт с MPP системами Greenplum/Teradata/Vertica;
- Опыт работы с Airflow или Pentaho;
Будет плюсом:
- Знание CI/CD (gitlab, jenkins);
- Опыт работы с kafka.
Что мы предлагаем:
- Офис/гибрид: Москва (м. Краснопресненская), Санкт-Петербург (м. Невский проспект), Самара, Тольятти
- Заработная плата от 170тыс до 250тыс на руки
- Оформление по ИП/СМЗ
- Возможность закрепиться в штате по результатам работы
Интересен проект и задачи? Отправляйте мне резюме: @ME_Merkulova и я обязательно расскажу подробнее😊
🚀Вакансия: Аналитик данных (Middle)
🏢Компания: 'Правильный софт, вендор Альфа-банка'
🌎Локация: 🇷🇺 Россия
🕕Часовой пояс: Москва
💼Формат работы: гибрид
💰Зарплата: '300-350 net'
📊Отрасли: финтех, CRM
🎯Требования:
-Имеете высшее техническое образование;
-Большой опыт использования ML библиотек на Python;
-Имеете уверенные знания теории вероятностей, математической статистики и классического машинного обучения
-Присутствует опыт работы с Hadoop стеком - Spark, Hive;
-Присутствует опыт работы с mlflow, git, airflow;
Имеете хорошие навыки SQL - и обработки данных в pandas;
-У вас есть опыт в проведении А/Б тестирования;
-Опыт работы с бизнес заказчиком для выявления и понимания его проблем и бизнес целей
✨Пожелания:
Желательно иметь опыт DS
✅Рабочие задачи:
-Строить новые модели склонности к страховым продуктам в различных каналах и выводить их в прод.
-Генерировать новые фичи и проверять их в моделях.
-Общаться с бизнесом и помогать решать его проблемы с помощью моделей.
📌Условия:
Трудоустройство по ТД
-Доход 300 - 350 nett
-Дмс
-Ученическая премия
-Удалёнка/гибрид
📩Контакты:
@anna_abrakhimova
Не забудьте пожалуйста указать откуда узнали о вакансии.
#SQL#Python#Git#CRM#НСИ#Middle#Гибрид#ФинТех#ДМС
#python#ai_agents#claude#claude_code#claude_marketplace#claude_skills
Claude Skills offers 66 specialized skills and 9 workflows built for full-stack developers, covering languages, frameworks, DevOps, security, and more. Install easily with `/plugin marketplace add jeffallan/claude-skills` then `/plugin install fullstack-dev-skills@jeffallan`. Skills activate automatically for tasks like JWT auth in NestJS or React components, using context engineering and multi-skill combos for complex projects. This boosts your coding speed, ensures best practices, cuts errors, and streamlines full development—from features to deployment—saving hours daily.
https://github.com/Jeffallan/claude-skills
#DataEngineer#ContractPosition#Remote#SQL#BigData#FinancialData#Python#BigQ#Looker#Snowflake
Разыскиваем #DataEngineer на работу по контракту с крупной американской венчурной компанией.
Контракт на 6 месяцев с возможностью перезаключения договора.
Предпочтительна возможность работать в их часовых поясах, но возможны варианты.
Стек технологий: GCP, ETL, Snowflake, BigQ, Python, Looker (нужен full stack)
Английский B2 и выше – условие обязательное.
Работать за пределами России и Беларуси - условие обязательное.
Зарплата $5000 – 6500 NET
Для связи: https://t.me/Tary_bird
Description of the Data Engineer contract position:
Location: Preferably San Francisco Bay Area, or remotely in the Pacific or Central Time zone.
Company:
A large venture company with assets of over $11 billion and employees in Austin, London, Menlo Park, and San Francisco.
What you will be doing:
As a data engineer, you will report to the head of data and analytics and help create the entire data structure and infrastructure supporting operations.
Responsibilities:
Design, create, and maintain the data infrastructure necessary for optimal extraction, transformation, and loading of data from various data sources using SQL, NoSQL, and big data technologies.
Develop and implement data collection systems that integrate various sources such as company proprietary data and third-party data sources, etc.
Create an automated process for collecting and visualizing user engagement data from CRM/UI.
What we are looking for:
Qualifications:
• Experience of at least 3 years as a data engineer or full stack in the field of data warehousing, data monitoring, and building and maintaining ETL pipelines.
• Valid experience with the Google cloud platform (GCP).
• Deep experience with data pipeline and workflow management tools (e.g., Airflow).
• Solid knowledge and experience with database design, setup, and maintenance.
• Proven ability to work in highly dynamic environments with high product velocity.
• Strong proficiency in Python.
• Strong proficiency in SQL.
• Familiarity with data visualization tools (Looker ).
• Experience with Snowflake.
• Experience with BigQuery.
• Strong communication skills, both orally and in writing.
• Familiarity with CRM (Affinity, Salesforce), automation tools (Zapier)
Bonus points:
• Experience in venture capital data operations/working with financial data.
• Familiarity with CRM (Affinity, Salesforce), automation tools (Zapier).
• Bachelor's or master's degree in computer science, database management, etc.
#python#awesome#awesome_list#lecture_notes#list#mathematics
You can access a huge, well-organized collection of free math resources covering all levels and topics, from basic arithmetic to advanced university subjects like algebra, calculus, and topology. It includes online courses, textbooks, lecture notes, videos, tools, and problem-solving sites. This helps you learn math step-by-step, find explanations, practice problems, and explore specialized areas easily. Using these resources can improve your understanding, support self-study, and provide tools for teachers and students to engage with math effectively. Many resources are interactive and free, making math learning accessible and flexible.
https://github.com/rossant/awesome-math
http://deeplearning.net/software/theano/tutorial/index.html#basics
In terms of #algorithm availability, you can get plenty of algorithms out of the box with scikit-learn. And if you want to customize every detail of your #models, #Python has #Theano. In addition, Theano is easily configured to run on the #GPU, which gives you a cheap and easy way to get much higher speeds without having to change a single line of code or delve into performance details.
#python#ai#ai_agent#ai_infra#kubernetes#sandbox
OpenSandbox is a general-purpose sandbox platform that lets you safely run AI applications, code, and agents in isolated environments. It provides multi-language SDKs for Python, Java, and JavaScript, making it easy to integrate into your projects. The platform supports Docker and Kubernetes runtimes, so you can run sandboxes locally or at scale. Key benefits include running code generated by AI models safely, executing data analysis, automating browser tasks, and training AI systems without risking your main system. Whether you're building coding agents, testing applications, or letting AI handle complex tasks, OpenSandbox gives you a secure, controlled space to experiment and execute code without side effects.
https://github.com/alibaba/OpenSandbox
#Python#statistics#R#Matlab
🧮
Curso avanzado de datos atipicos y outliers en R y Matlab
-----
Main channel: @repo_science
Coupons: @freecoupons_reposcience
-----