TGTGInsighttelegram intelligenceLIVE / telegram public index
← Newlearnerの自留地

TGINSIGHT SIMILAR POSTS

類似コンテンツを探す

ソースチャンネル @NewLearnerChannel · Post #14708 · 9月9日

#APPLE 🍎Apple 2025 秋季发布会看些啥?—— 自留地 の 前瞻盘点 明天凌晨,一年一度的阿果秋季春晚又要来了。老规矩,结合此前种种爆料和信息,我们一起来盘点一下今年可能的看点 📱iPhone 17 系列 - A19 系列处理器 - 推出全新 Air 系列,主打 5.5mm 超薄机身,配备「药丸」后摄模组,预计搭载 12GB RAM、Apple C1 调制解调器和 6.6 英寸显示屏 - Air 首发或暂无国行,因其大概率仅支持 eSIM,需等 eSIM 政策落地 - Pro 系列将采用半玻璃半铝的设计,其中玻璃区域用于 MagSafe 充电,后背还将采用巨大摄影头模组 - Pro 系列有望搭载 A19 Pro 处理器,以及全 48MP 后置三摄 / 最高 8 倍光学变焦 - Pro 机型将提供橙色、深蓝色、灰色、白色和黑色机型 - 数字版将迎来 6.3 英寸显示屏、A19 处理器以及「小药丸」后摄模组,有望带来 ProMotion 功能 - 将采用均热板等手段,进一步改善 iPhone 散热问题 📸 今年升级的亮点,我觉得除了推出轻薄 SKU 取代了 Plus 系列之外,依然是影像。随着国产 Android 品牌以及三星等竞品的不断发力,光学长焦等手机相机体验越来越好,Apple 这几年感受到了压力。去年使得 Pro 和 Pro Max 在影像功能上做到了对等,今年很高兴看到模组增大的同时,有新的功能和变化 像素提升、光学倍数增加,都是我们喜闻乐见的,拍演唱会等场景可以排上大用场。但是,正如我去年说的那样,我们也应该拥有一个「专业模式」来充分发挥这些硬件的实力。此外,对于日常用的中焦焦段的选择,Apple 应该有自己的思考 🧠 去年以为 Apple Intelligence 会在过去的这一年大展拳脚,但其实 Apple 还是在做底层的框架协议,至于落地一直传闻想要通过合作或者收购其他 LLM 来实现。我能理解 Apple 站到了一个十字路口,下一步选择很重要。但去全球化日益明显的今天,Apple Intelligence 在各国的落地也受到诸多法律和监管方面阻碍 从我个人的角度来看,对 Apple Intelligence 的需求也不是太强烈,日常主要还是以电脑使用为主。因此,今年也不排除会继续选择国行。最后,eSIM 或许是接下来一年每个人都要考虑的问题,如果新机真的大规模砍掉双 nano-SIM 卡,变为单卡 + eSIM 的模式,应该怎么处理自己目前的多卡问题 ⌚️Apple Watch 系列 - Apple Watch Ultra 3 将搭载全新 S11 芯片,并支持 5G 网络连接,保留卫星通信功能,略微增大屏幕尺寸 - Apple Watch Series 11 预计延续 Series 10 的设计语言 - Apple Watch SE 3 也可能获得升级,重点是升级芯片 - 目前尚不清楚是否会引入血压监测功能 🎧AirPods - AirPods Pro 3 有望在下半年发布 - 有望取消背部的传统实体配对按键,同时为充电盒正面引入触控操作区 - 耳机盒将变得更小 - 引入心率监测、体温监测等健康功能 - 实时翻译功能可能无法随硬件首发一同提供 之前通过 AC+ 更换的越南产 AirPods Pro 一代,已经快要罢工了,因此我迫切地等待第三代的发布 👀 今年的传闻大致如上所述,期待 iPad 和 Mac 更新的朋友或需要等更迟一些的发布会了。随着年龄增长,逐渐发现即便如 Apple 这样的品牌,也不能做对、做好每一件事,黄金时期的发展掩盖了很多问题,一旦停滞进入瓶颈期便暴露无遗。不管怎样,我还是很怀念那个爆料没有这么发达、发布会还是实时直播的年代 🔗 附上一些国内外媒体长文前瞻:Bloomberg | 9to5Mac | MacRumors | The Verge | sspai * 以上所有前瞻信息来自网络和爆料人,均在早晚报出现过,不一一列举来源。请以最终发布会结果为准,欢迎大家届时进群 @NewlearnerGroup 和我们一同观看 🍿️ 频道:@NewlearnerChannel

Hashtags

結果

9件の類似投稿が見つかりました

検索: #cuda

当前筛选 #cuda清除筛选
GitHub Trends

@githubtrending · Post #14834 · 2025/06/17 12:00

#cuda DeepEP is a special communication library for Mixture-of-Experts (MoE) models. It helps these models work faster and more efficiently by improving how data is shared between different parts of the system. DeepEP supports low-precision operations and can handle data transfer between different types of connections, like NVLink and RDMA. This makes it very useful for both training and using AI models, especially when speed is important. Users benefit from faster processing times and better performance overall. https://github.com/deepseek-ai/DeepEP

Hashtags

GitHub Trends

@githubtrending · Post #14920 · 2025/07/06 12:30

#rust#cuda#rust ZLUDA is a software that lets you run CUDA programs, originally made for NVIDIA GPUs, on AMD Radeon RX 5000 series and newer GPUs without changing the programs. It aims to give near-native performance on non-NVIDIA hardware, making CUDA applications more accessible. Currently, ZLUDA is still being developed and mainly supports Geekbench tests, so it might not work perfectly with all applications yet. It works on Windows and Linux but not on MacOS. If you have an AMD GPU and want to try running CUDA apps without an NVIDIA card, ZLUDA could be very useful as it opens up more hardware options for CUDA software[3][5]. https://github.com/vosen/ZLUDA

Hashtags

Yummy 😋

@godlynews1 · Post #14333 · 2025/12/06 11:02

英伟达发布 CUDA Toolkit 13.1,称其为「20 年来最大的一次更新」 这个自 2006 年 CUDA 平台诞生以来规模最大、最全面的更新包括: - NVIDIA CUDA Tile 的发布,这是英伟达基于 tile 的编程模型,可用于抽象化专用硬件,包括张量核心。 - Runtime API exposure of green contexts(是指把所谓的 Green Context「指轻量级的、可并发调度的上下文或执行环境」暴露给外部调用者使用。) - NVIDIA cuBLAS 中的双精度和单精度仿真。 - 一本完全重写的 CUDA 编程指南 ,专为 CUDA 新手和高级程序员设计。 🗒 标签: #英伟达#NVIDIA#CUDA 📢 频道: @GodlyNews1 🤖 投稿: @GodlyNewsBot

Machinelearning

@ai_machinelearning_big_data · Post #9190 · 2025/12/05 13:40

🌟CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA. Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2. Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA. Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов. Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL. В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX. Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми. В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA. 🟡Что это дает на практике Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее. Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д. 🟡Тесты HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек. В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра. А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS. Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций. В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#CUDA#DeepReinforce

每日 AWESOME 观察

@awesomeopensource · Post #46 · 2018/03/02 17:57

​​waifu2x 基于深度学习的二次元插图超解析器。你是否有过好看的插图想做壁纸但因为分辨率不够只好作罢的经历。现在waifu2x可以拯救你,waifu2x成倍的放大二次元图片并且降噪,你的老婆从未如此清晰。 ps: waifu2x依赖cuda(nvidia显卡专属),如果你和我一样没有n卡推荐使用cl-waifu2x作为转换器,支持所有平台和cpu或者gpu,性能还不错。 环境:#cuda 语言:#lua 分类:#深度学习#工具

Machinelearning

@ai_machinelearning_big_data · Post #8198 · 2025/08/03 07:37

🌟Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. . Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было. Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро. 🟢На первом этапе система училась писать корректный и компилируемый CUDA-код. Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели. 🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные. 🟢Самое интересное - третий этап. Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса: 🟠Почему kernel_v2 настолько быстрее? 🟠Какая стратегия оптимизации сработает еще лучше? 🟠Напиши ядро, которое превзойдет их все. Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности. 🟡Отдельная история - как победили reward hacking. После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно. Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз. Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений. 🟡Пришлось строить многоуровневую защиту. Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%. Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%. И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось. 🟡После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными. Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации. Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x. Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x. 🟡Самое важное - это переносимость оптимизаций. Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах. Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242). ▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU. 📌Лицензирование: GPL-3.0 License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥Github @ai_machinelearning_big_data #AI#ML#CUDA#DeepReinforce#ContrastiveRL

Machinelearning

@ai_machinelearning_big_data · Post #8587 · 2025/09/19 09:09

🚀 SakanaAI представил Robust Agentic CUDA Kernel Optimization Это новый подход, где LLM помогает оптимизировать CUDA-ядра для PyTorch. • Слияние операций ускоряет forward/backward-проходы, результаты выше стандартных Torch-базлайнов • Полный пайплайн: PyTorch → генерация CUDA-кода → эволюционная оптимизация во время работы • Проверка через LLM: модели автоматически отмечают неправильные ядра (дает +30% к производительности) • robust-kbench — собственный бенчмарк, где измеряют не только скорость, но и корректность работы LLM Авторы пишут о 2.5x ускорении над PyTorch eager и даже 6x в линейных операциях❗️ Но большинство примеров — это тесты на слияние операций с неотюненной базой, так что цифры спорные. К тому же PyTorch 2.5 уже внедряет похожие оптимизации ), поэтому такие рекорды могут быстро обесцениться. Это интересный подход к самообучающимся AI-компиляторам, но заявленные ускорения стоит проверять на праактике. 🟢Github: https://github.com/SakanaAI/robust-kbench 🟢Статья: https://arxiv.org/abs/2509.14279 @ai_machinelearning_big_data #AI#CUDA#PyTorch#SakanaAI#LLM#Optimizatio

GitHub Trends

@githubtrending · Post #14985 · 2025/07/22 11:30

#c_lang#cuda#cuda_driver_api#cuda_kernels#cuda_opengl You can use the CUDA Samples from NVIDIA to learn and test CUDA Toolkit 12.9 features by downloading them from GitHub or as a ZIP file. These samples show how to use CUDA for GPU programming, including utilities, concepts, libraries, and performance optimization. You build them with CMake on Linux, Windows, or Tegra devices, and can run tests automatically with a provided Python script. This helps you understand CUDA programming, debug GPU code, and optimize your applications for better performance on NVIDIA GPUs. It’s a practical way to develop and improve GPU-accelerated software efficiently. https://github.com/NVIDIA/cuda-samples

GitHub Trends

@githubtrending · Post #15614 · 2026/04/13 11:30

#typescript#ai#cuda#mlx#qwen3_tts#qwen3_tts_ui#voice_ai#voice_clone#whisper Voicebox is a free, open-source voice synthesis studio that lets you clone voices, generate speech in 23 languages, and apply audio effects—all running privately on your computer. You can create realistic voice clones from just seconds of audio, use five different text-to-speech engines for different needs, add effects like reverb and pitch shift, and build multi-voice projects with a timeline editor. The key benefit is complete privacy: your voice data and AI models never leave your machine, unlike cloud-based alternatives. It also includes an API for building voice-powered applications and works across Mac, Windows, and Linux with GPU acceleration support. https://github.com/jamiepine/voicebox