#c_lang#cuda#cuda_driver_api#cuda_kernels#cuda_opengl
You can use the CUDA Samples from NVIDIA to learn and test CUDA Toolkit 12.9 features by downloading them from GitHub or as a ZIP file. These samples show how to use CUDA for GPU programming, including utilities, concepts, libraries, and performance optimization. You build them with CMake on Linux, Windows, or Tegra devices, and can run tests automatically with a provided Python script. This helps you understand CUDA programming, debug GPU code, and optimize your applications for better performance on NVIDIA GPUs. It’s a practical way to develop and improve GPU-accelerated software efficiently.
https://github.com/NVIDIA/cuda-samples
🌟Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. .
Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.
Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.
🟢На первом этапе система училась писать корректный и компилируемый CUDA-код.
Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.
🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные.
🟢Самое интересное - третий этап.
Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:
🟠Почему kernel_v2 настолько быстрее?
🟠Какая стратегия оптимизации сработает еще лучше?
🟠Напиши ядро, которое превзойдет их все.
Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.
🟡Отдельная история - как победили reward hacking.
После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.
Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.
Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.
🟡Пришлось строить многоуровневую защиту.
Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.
Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.
И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.
🟡После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными.
Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.
Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.
Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.
🟡Самое важное - это переносимость оптимизаций.
Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.
Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).
▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU.
📌Лицензирование: GPL-3.0 License.
🟡Страница проекта
🟡Arxiv
🟡Demo
🖥Github
@ai_machinelearning_big_data
#AI#ML#CUDA#DeepReinforce#ContrastiveRL
🚀 SakanaAI представил Robust Agentic CUDA Kernel Optimization
Это новый подход, где LLM помогает оптимизировать CUDA-ядра для PyTorch.
• Слияние операций ускоряет forward/backward-проходы, результаты выше стандартных Torch-базлайнов
• Полный пайплайн: PyTorch → генерация CUDA-кода → эволюционная оптимизация во время работы
• Проверка через LLM: модели автоматически отмечают неправильные ядра (дает +30% к производительности)
• robust-kbench — собственный бенчмарк, где измеряют не только скорость, но и корректность работы LLM
Авторы пишут о 2.5x ускорении над PyTorch eager и даже 6x в линейных операциях❗️
Но большинство примеров — это тесты на слияние операций с неотюненной базой, так что цифры спорные.
К тому же PyTorch 2.5 уже внедряет похожие оптимизации ), поэтому такие рекорды могут быстро обесцениться.
Это интересный подход к самообучающимся AI-компиляторам, но заявленные ускорения стоит проверять на праактике.
🟢Github: https://github.com/SakanaAI/robust-kbench
🟢Статья: https://arxiv.org/abs/2509.14279
@ai_machinelearning_big_data
#AI#CUDA#PyTorch#SakanaAI#LLM#Optimizatio
#c_lang#jq
jq is a lightweight command-line tool like sed, awk, or grep, but for processing JSON data. It lets you easily slice, filter, map, and transform structured data with zero runtime dependencies. Install via prebuilt binaries from GitHub releases, Docker (e.g., `docker run --rm -i ghcr.io/jqlang/jq:latest < package.json '.version'` to extract version), or build from source. This saves you time handling JSON in scripts, APIs, or files efficiently without heavy software.
https://github.com/jqlang/jq
#typescript#ai#cuda#mlx#qwen3_tts#qwen3_tts_ui#voice_ai#voice_clone#whisper
Voicebox is a free, open-source voice synthesis studio that lets you clone voices, generate speech in 23 languages, and apply audio effects—all running privately on your computer. You can create realistic voice clones from just seconds of audio, use five different text-to-speech engines for different needs, add effects like reverb and pitch shift, and build multi-voice projects with a timeline editor. The key benefit is complete privacy: your voice data and AI models never leave your machine, unlike cloud-based alternatives. It also includes an API for building voice-powered applications and works across Mac, Windows, and Linux with GPU acceleration support.
https://github.com/jamiepine/voicebox
#c_lang#embedded#filesystem#microcontroller
LittleFS is a file system designed for small devices like microcontrollers. It helps keep your data safe even if the power goes off suddenly. This is because it uses a "copy-on-write" system, which means it doesn't overwrite old data until the new data is safely stored. LittleFS also helps extend the life of your storage by spreading out writes across different areas, a process called wear leveling. This makes it very reliable and efficient for devices with limited memory and storage.
https://github.com/littlefs-project/littlefs
#c_lang#drone#esp32#quadcopter
ESP-Drone is an open-source project using ESP32 chips to build a simple Wi-Fi drone you control with a phone app or gamepad. It offers stabilize, height-hold, and position-hold modes (with extensions), plus clear code for STEAM education, based on Crazyflie firmware. You benefit by easily making a cheap ($30-50), lightweight drone in 6-8 hours for fun indoor flights, learning electronics like sensors and motors, and customizing with open code—no extra radio needed.
https://github.com/espressif/esp-drone
#c_lang#cryptography#decryption#encryption#openssl#ssl#tls
OpenSSL is a free, open-source toolkit that helps secure data by using strong encryption methods like TLS, SSL, and QUIC protocols. It includes libraries for cryptography and a command-line tool to create keys, certificates, encrypt data, and test security. OpenSSL is widely trusted and used by many software and websites to protect sensitive information during transmission, ensuring privacy and data integrity. It works on many operating systems and is regularly updated by a global community. Using OpenSSL helps you build secure applications and protect communications from cyber threats easily and reliably[1][3][5].
https://github.com/openssl/openssl
#c_lang#ble#bluetooth_low_energy#iot#nrf52#sensor#soil_moisture#soil_moisture_sensor
The b-parasite is a small, open-source device that checks soil moisture, air temperature, humidity, and light for your plants, using a simple coin cell battery that can last over two years. It works with popular smart home systems like Home Assistant and can send data wirelessly using Bluetooth or Zigbee. The device is easy to build or buy, comes with free designs and software, and can be protected with a 3D-printed case. This helps you keep your plants healthy by giving you clear, regular updates on their environment, so you know exactly when to water or adjust conditions[1][2][3].
https://github.com/rbaron/b-parasite
#c_lang#infiniband#iwarp#kernel_rdma_drivers#linux_kernel#rdma#roce#userspace_libraries
You can use RDMA Core, a set of Linux userspace libraries and daemons, to work with RDMA devices for high-speed network communication. It supports many kernel drivers and provides tools and libraries like libibverbs and librdmacm to manage RDMA devices and connections. You can build it easily with cmake and install required packages depending on your Linux distribution. Using RDMA Core lets you set up software RDMA interfaces and verify them with commands like `ibv_devices` or `rdma link`. This helps you achieve faster, low-latency data transfer, which is useful for high-performance computing and networking tasks.
https://github.com/linux-rdma/rdma-core
#c_lang#driver#flash#jedec#jedec_sfdp#qspi#sfdp#sfdp_flash#spi_flash#universal_driver
**SFUD** is an open-source library that drives many SPI/QSPI Flash chips from brands like Winbond and Macronix. It auto-detects chip specs via the **SFDP** standard or a built-in table, letting you read, write, erase, and init with simple APIs after easy config. This helps you avoid risks from Flash shortages or upgrades, boosts software reuse across projects, cuts dev time, and enables tools like programmers—saving effort on varied hardware.
https://github.com/armink/SFUD
#c_lang#ctp#ctpapi#futures#options#quant#simnow#stock#tora#trader#tts#xtp
openctp is a powerful open-source trading platform compatible with many Chinese securities and futures trading systems, offering both real and simulated trading environments for futures, options, stocks, funds, and bonds across domestic and global markets like A-shares, Hong Kong, and US stocks. It provides easy access to CTPAPI through Python and other programming languages, plus user-friendly trading clients with graphical and command-line interfaces. You can register free simulation accounts instantly via WeChat, enabling you to practice and test trading strategies in real-time or 24/7 environments. It also offers training, development support, and a monitoring platform for multiple trading systems, helping you learn, develop, and trade efficiently with low costs and broad market access. This benefits you by giving a flexible, comprehensive, and cost-effective way to develop, test, and execute trading strategies across many markets with strong community and technical support.
https://github.com/openctp/openctp
#c_lang#c#drivers#gpl#hacktoberfest#kernel#operating_system#os#osdev#reactos#win32#win32api#windows#x86
ReactOS is a free, open-source operating system designed to be compatible with Windows applications and drivers, especially those for Windows Server 2003 and later versions. The latest version, 0.4.15, brings major improvements like better USB and driver support, enhanced system stability, 64-bit fixes, and new features in system tools such as Notepad and Paint. It can be tested safely on virtual machines and is ideal for users seeking a Windows-like experience without Microsoft’s software. ReactOS is still in alpha, so it’s best for testing, but it offers a promising alternative for Windows users wanting a free, open-source OS[1][2][3].
https://github.com/reactos/reactos