Неодамнешни објави
Страница 1 од 51 · 605 објави
Објавено пред 15 дена
Немного классики!)
Објавено пред 15 дена
Exploratory Data Analysis with Python Cookbook Автор: Ayodele Oluleye Год издания: 2023 #python#en Скачать книгу
Објавено 2 фев.
pandas 3.0 — самый крупный релиз за годы: новый str dtype по умолчанию вместо object, с поддержкой Arrow‑бекенда (если установлен PyArrow), более предсказуемой типизацией и лучшей экономией памяти. Весь фрейм переведён на Copy‑on‑Write: любой срез/результат операции ведёт себя как копия, chained assignment больше не работает, SettingWithCopyWarning уходит в историю, а лишние df = df.copy() можно выкидывать. Появился pd.col() как выражения поверх колонок: теперь вместо lambda df: df["a"] + df["b"] в assign/loc можно писать pd.col("a") + pd.col("b"), с поддержкой операторов и .str/.dt методов. Для экосистемы важны Arrow PyCapsule/from_arrow()/arrow_c_stream для нулекопийного обмена (передача данных между библиотеками без физического копирования в памяти) с другими датафрейм‑движками, обновлённая политика депрекейтов с семейством PandasChangeWarning, а также пачка I/O‑улучшений (Iceberg, SQL DatabaseError, доработки Excel/Parquet/CSV).
Објавено 29 дек.
Анализ проекта VictoriaMetrics Мальчишки и девчонки, а также их родители, как устроена VictoriaMetrics узнать не хотите ли? В этой статье вы узнаете структуру каталогов проекта и о предназначении различных файлов. А ещё там описаны некоторые проектные решения при разработке продукта. Эту статью можно назвать продолжением цикла. Есть еще одна похожая, которую я уже публиковал в канале. Но там рассмотрено все немного под другим углом.
Објавено 10 дек.
🆕CUDA 13.1 переворачивает GPU-программирование Наконец-то NVIDIA выпустила CUDA 13.1, и это не просто очередное обновление — это настоящий сдвиг парадигмы. Если вы когда-то пытались объяснить GPU, что делать с тысячами маленьких потоков (да-да, тот самый SIMT-модель), то знаете, что это сродни попытке управлять тысячью муравьёв одновременно. 💡Что нового CUDA 13.1 вводит tile-based programming. Вместо того чтобы двигать песчинку за песчинкой, теперь можно управлять целыми плитками данных. Представьте: вместо того чтобы таскать каждую песчинку в отдельности, вы берёте целый холм и переносите его за один раз. Магия, правда? Что это значит для нас, Python-разработчиков и исследователей AI: ✔️ Прощай, C++ барьер: с CuTile можно писать высокопроизводительные ядра на чистом Python. Не нужен диплом магистра по C++. ✔️ Синхронизация с железом: современные тензорные ядра уже «думают» блоками данных, а софт теперь догнал железо. ✔️ Будущее уже здесь: поддержка Blackwell архитектуры и новых FP4/FP6 форматов ускоряет и делает эффективнее LLM. Иными словами, программировать ускорители стало логичнее, чище и мощнее. 🔗Ссылка на новость 🔹Курс «Специалист по ИИ» 🔹Получить консультацию менеджера 🔹Сайт Академии🔹Сайт Proglib 🐸Библиотека дата-сайентиста #свежак
Hashtags
Објавено 27 сеп.
Кажется, Google готовится объединить SQL, Python и Spark в рамках Colab Enterprise По слухам, поисковый гигант намерен создать единую среду для специалистов по машинному обучению, объединив SQL, Python и Apache Spark в одном месте. Ясмин Ахмад, управляющий директор Google Cloud по обработке данных, отметил, что главным препятствием для эффективности в ML является необходимость переключаться между средами: получать данные с помощью SQL в базах данных и хранилищах, затем экспортировать их, загружать в блокнот и настраивать отдельный кластер Spark. Как вы понимаете, это крайне неудобно. Поэтому Google представляет ряд улучшений для своих блокнотов Colab Enterprise в BigQuery и на платформе Vertex AI. Кроме того, компания анонсировала следующие преимущества для разработчиков в блокнотах Colab Enterprise: ➖ Предварительный просмотр собственных ячеек SQL. ➖ Интеграцию собственного Data Science Agent, призванного помогать в анализе и разработке моделей.
Објавено 23 сеп.
📢 NVIDIA представила nvmath-python — библиотеку для Python, которая открывает доступ к возможностям фирменных математических библиотек (например, cuBLASLt) через удобный API. Что умеет: - работает с массивами из NumPy, CuPy, PyTorch и других экосистем; - поддерживает тонкую настройку вычислений (precision, режимы умножений, epilog-операции); - позволяет использовать расширенные оптимизации NVIDIA для ускоренной математики и ML-задач. Проект пока в бета-версии, но уже можно попробовать: https://github.com/NVIDIA/nvmath-python
Објавено 9 авг.
Айтишники, забираем: open-source программу для просмотра таблиц В ТЕРМИНАЛЕ нашли в сети. Она открывает файлы CSV, JSON, Excel и других таблиц прямо в терминале. Кроме того, у нее есть встроенный SQL-движок для фильтрации, джойнов и анализа прямо в терминале. И быстрый поиск с мульти-табличными операциями. Пользуемся тут. DevHub
Објавено 4 авг.
Просто ГИГАНТСКУЮ коллекцию ИИ-агентов выгрузили на GitHub: это не просто шаблонные сервисы, а реальные, готовые к запуску инструменты. С ними можно: — Автоматизировать соцсети. — Создавать CRM-системы и базы данных. — Настраивать чат-боты. — Генерировать картинки и тексты. Забираем — ТУТ
Објавено 21 јул.
🐼 Pandas тормозит на больших данных? NVIDIA показала, как ускорить его в 40 раз — без переписывания кода. Команда NVIDIA провела эксперимент с 18 миллионами строк данных с фондовых рынков: они выполнили типичный анализ данных с помощью pandas на CPU, а затем тоже самое — на GPU, используя cudf.pandas. Для примеры были взяты: 📉 Скользящие средние (50D и 200D) 📅 Недельная статистика закрытия рынков 🧊 В общей сложности ~18M строк Результат впечатляет : удалось добиться**ускорения обработки данных в 20–40 раз Код скрипта не менялся вообще — тот же pandas, но на GPU. Это один из примеров, где ускорение достигается без переписывания логики кода. 🟡 Потестить самому можно в Colab 🟡 Другие примеры с кодом — здесь @ai_machinelearning_big_data #datasckience#ml#nvidia#gpu#pandas#python
Објавено 23 апр.
Книга Kaggle Автор: Конрад Банахевич Год издания: 2024 #ml#ru Скачать книгу
Објавено 26 мар.
✔️ СuML от NVIDIA: Scikit-learn на скорости GPU – без единой строчки нового кода! Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение! Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU! 🔥 ✨ Как это работает? Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти. Теперь, когда вы вызываете, например, KNeighborsClassifier или PCA из sklearn: ▶️Патч проверяет, есть ли у вас GPU NVIDIA. ▶️Проверяет, есть ли в cuml быстрая GPU-версия этого алгоритма. ▶️Если да – запускает ускоренную версию на GPU! 🏎️ ▶️Если нет (нет GPU или алгоритм не поддерживается) – спокойно запускает обычную CPU-версию scikit-learn. Ключевые преимущества: ✔️ Нулевые изменения кода: Ваш scikit-learn код остается прежним. Добавляете только2 строчки: import cuml.patch и cuml.patch.apply(). ✔️ Колоссальное ускорение: Получите прирост производительности на порядки для поддерживаемых алгоритмов (KNN, PCA, линейные модели, Random Forest (инференс), UMAP, DBSCAN, KMeans и др.) за счет мощи GPU. ✔️Автоматическое переключение между GPU и CPU. Ваш скрипт будет работать в любом случае. Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA. 👇 Как использовать: Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS): python conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend Добавьте в начало скрипта: import cuml.patch cuml.patch.apply() Используйте scikit-learn как обычно! Попробуйте и почувствуйте разницу! 😉 ▪Блог-пост ▪Colab ▪Github ▪Ускоряем Pandas @ai_machinelearning_big_data #python#datascience#machinelearning#scikitlearn#rapids#cuml#gpu#nvidia#ускорение#машинноеобучение#анализданных