TGTGInsighttelegram intelligenceLIVE / telegram public index

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @olddriverGDstudy · Post #98 · Sep 12

#舔逼三步第一步（初舔B）亲阴唇时要把女性的明唇尽量吸吮到嘴里，用舌头轻扫轻舔，女性会觉得阴唇部位特别有点痒，她很想你亲更多位置，亲得更广些，别理她们，你亲你的就行了，你可以趁着她们正享受着的时候，轻轻的咬一下她的阴唇她肯定会“啊”的一下惊叫，身子抽动一下，在她还没来得及说话时，你快速把嘴唇整个贴在她的阴道口，这种做法可以让女性一下子感觉到整个阴部很温暖很舒服，刚才的那声“啊”还没叫完就变成“噢”的一轻呼了。这时开始应该动手了，你应该用大拇指轻轻的将她的阴唇向两边分开蛋出女性的阴道口，用舌头在阴道口周围打转绕圈，时轻时重，时而整个嘴唇贴上。这时候你可以稍为停下不亲阴道口，而是用湿润的舌尖轻轻撩几下她的阴蒂，把她的感觉从明蒂里撩拨起来，女性会轻叫几下，然后你再回去亲她的明道口和阴唇。第二步（挑逗期）不要在这时候再亲她的阴蒂，要让女性半吊在那种感觉里，而且男性要开始从女性的会阴处向阴蒂方向往上轻舔，慢点，舌头到达阴道口时左右拨动，把阴唇一边拨开一边向上继续舔，一点点向阴蒂部位接近。就是偏不要亲到阴蒂那，差不多到的时候你用舌尖轻轻的，越轻越好，只是在她的阴蒂上轻扫轻点一下（舌头要含点口水) ，随即反方向按上述亲法朝阴道口部位舔去。这样会把女性给急死的，她一急，自然就兴奋了。亲阴道口时，舌头长的男性可以尝试把舌头插入女性的明道内搅动。舌头宽厚的男性可以把舌头由阴道口自下往上扫动。第三步（猛攻）现在开始可以集中精力夺取“珍珠”了，清把舌头上移至女性的阴蒂处集中精力。女性的阴蒂是非常敏感的，如果你太大力舔动，她的痛感多过快感，就没意思了。亲吻阴蒂要注意几点，舌头一定要湿、轻、尖，一定要保持舌头湿润，亲舔阴蒂时一定要轻，要用舌尖来舔。进攻明蒂要用“点、挑、拨、压、搅”五字诀。点，是指用舌尖轻点轻触女性的阴蒂顶端;挑，是指舌头从阴蒂下面向上挑动；拔，是用舌头左右拨动女性的阴蒂；压，是时不时用舌头压女性的阴蒂，把它稍为压下即可；搅，是当你含住女性的阴蒂时用舌头在明蒂四周搅动。进攻明蒂要用“点、挑、拨、压、视员五字决，点，是指用舌尖轻点控用女性的阴蒂顶端;挑，是指舌头从阴蒂下面向上挑动; 拔，是用舌头左右拨动女性的阴蒂;压，是时不时用活头压女性的阴蒂，把它稍为压下即可，搅，是当你含住女性的阴蒂时用舌头在阴蒂四周搅动。你可以感觉到她们的阴蒂下似乎有点筋会在跳动，这在你含着女性的阴蒂时感觉非常明显。不要随便中断女性的感觉，动作要平均，因为你突然而快节奏的动作很容易让女性到达高潮。觉得可以给对方高潮时，应该用整个嘴唇含住女性的阴蒂部位，上嘴唇压在阴蒂上方的阴毛根部，下嘴唇左石分开女性的阴唇，尽量贴近阴道口,用口含住女性的阴蒂(留点空间)，让女性觉得她的阴蒂是飘浮在你的嘴里的，用五字决发动进攻。让对方猛的一阵抽搐，看着她快到时，轻轻一放，然后马上又含上去。 (评论区附图解) 标签：#知识，#技巧

Hashtags

#舔逼三步 #知识 #技巧

Results

9 similar posts found

Search: #cuda

当前筛选 #cuda清除筛选

GitHub Trends

@githubtrending · Post #14834 · 06/17/2025, 12:00 PM

Find similar View

#cuda DeepEP is a special communication library for Mixture-of-Experts (MoE) models. It helps these models work faster and more efficiently by improving how data is shared between different parts of the system. DeepEP supports low-precision operations and can handle data transfer between different types of connections, like NVLink and RDMA. This makes it very useful for both training and using AI models, especially when speed is important. Users benefit from faster processing times and better performance overall. https://github.com/deepseek-ai/DeepEP

Hashtags

#cuda

GitHub Trends

@githubtrending · Post #14920 · 07/06/2025, 12:30 PM

Find similar View

#rust#cuda#rust ZLUDA is a software that lets you run CUDA programs, originally made for NVIDIA GPUs, on AMD Radeon RX 5000 series and newer GPUs without changing the programs. It aims to give near-native performance on non-NVIDIA hardware, making CUDA applications more accessible. Currently, ZLUDA is still being developed and mainly supports Geekbench tests, so it might not work perfectly with all applications yet. It works on Windows and Linux but not on MacOS. If you have an AMD GPU and want to try running CUDA apps without an NVIDIA card, ZLUDA could be very useful as it opens up more hardware options for CUDA software[3][5]. https://github.com/vosen/ZLUDA

Hashtags

#rust #cuda

Yummy 😋

@godlynews1 · Post #14333 · 12/06/2025, 11:02 AM

Find similar View

英伟达发布 CUDA Toolkit 13.1，称其为「20 年来最大的一次更新」这个自 2006 年 CUDA 平台诞生以来规模最大、最全面的更新包括： - NVIDIA CUDA Tile 的发布，这是英伟达基于 tile 的编程模型，可用于抽象化专用硬件，包括张量核心。 - Runtime API exposure of green contexts（是指把所谓的 Green Context「指轻量级的、可并发调度的上下文或执行环境」暴露给外部调用者使用。） - NVIDIA cuBLAS 中的双精度和单精度仿真。 - 一本完全重写的 CUDA 编程指南，专为 CUDA 新手和高级程序员设计。 🗒 标签: #英伟达#NVIDIA#CUDA 📢 频道: @GodlyNews1 🤖 投稿: @GodlyNewsBot

Hashtags

#英伟达 #nvidia #cuda

Machinelearning

@ai_machinelearning_big_data · Post #9190 · 12/05/2025, 01:40 PM

Find similar View

🌟CUDA-L2: ИИ научился писать CUDA-ядра эффективнее инженеров NVIDIA. Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2. Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA. Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов. Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL. В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX. Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми. В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA. 🟡Что это дает на практике Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее. Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д. 🟡Тесты HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек. В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра. А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с torch.matmul и cuBLAS. Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций. В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#CUDA#DeepReinforce

Hashtags

#ai #ml #cuda #deepreinforce

每日 AWESOME 观察

@awesomeopensource · Post #46 · 03/02/2018, 05:57 PM

Find similar View

waifu2x 基于深度学习的二次元插图超解析器。你是否有过好看的插图想做壁纸但因为分辨率不够只好作罢的经历。现在waifu2x可以拯救你，waifu2x成倍的放大二次元图片并且降噪，你的老婆从未如此清晰。 ps: waifu2x依赖cuda(nvidia显卡专属)，如果你和我一样没有n卡推荐使用cl-waifu2x作为转换器，支持所有平台和cpu或者gpu,性能还不错。环境：#cuda 语言：#lua 分类：#深度学习#工具

Hashtags

#cuda #lua #深度学习 #工具

Machinelearning

@ai_machinelearning_big_data · Post #8198 · 08/03/2025, 07:37 AM

Find similar View

🌟Фреймворк **CUDA-L1** сам научился оптимизировать код для GPU — и добился в среднем **3.12× ускорения работы модели**, а в пике — **до 120×**. . Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было. Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро. 🟢На первом этапе система училась писать корректный и компилируемый CUDA-код. Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели. 🟢На втором этапе модель генерировала собственный CUDA-код, тестировала его и училась на работающих примерах, отсеивая неудачные. 🟢Самое интересное - третий этап. Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса: 🟠Почему kernel_v2 настолько быстрее? 🟠Какая стратегия оптимизации сработает еще лучше? 🟠Напиши ядро, которое превзойдет их все. Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности. 🟡Отдельная история - как победили reward hacking. После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно. Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз. Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений. 🟡Пришлось строить многоуровневую защиту. Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%. Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%. И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось. 🟡После всех фильтров и проверок прогон на бенчмарке KernelBench оказался весьма позитивными. Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации. Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x. Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x. 🟡Самое важное - это переносимость оптимизаций. Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах. Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242). ▶️ Пока веса и код не опубликованы, но в ожидании можно покрутить интерактивное демо и воспроизвести тесты из пейпера - в репозитории проекта есть фрагменты CUDA-кода с отдельными версиями для разных GPU. 📌Лицензирование: GPL-3.0 License. 🟡Страница проекта 🟡Arxiv 🟡Demo 🖥Github @ai_machinelearning_big_data #AI#ML#CUDA#DeepReinforce#ContrastiveRL

Hashtags

#ai #ml #cuda #deepreinforce #contrastiverl

Machinelearning

@ai_machinelearning_big_data · Post #8587 · 09/19/2025, 09:09 AM

Find similar View

🚀 SakanaAI представил Robust Agentic CUDA Kernel Optimization Это новый подход, где LLM помогает оптимизировать CUDA-ядра для PyTorch. • Слияние операций ускоряет forward/backward-проходы, результаты выше стандартных Torch-базлайнов • Полный пайплайн: PyTorch → генерация CUDA-кода → эволюционная оптимизация во время работы • Проверка через LLM: модели автоматически отмечают неправильные ядра (дает +30% к производительности) • robust-kbench — собственный бенчмарк, где измеряют не только скорость, но и корректность работы LLM Авторы пишут о 2.5x ускорении над PyTorch eager и даже 6x в линейных операциях❗️ Но большинство примеров — это тесты на слияние операций с неотюненной базой, так что цифры спорные. К тому же PyTorch 2.5 уже внедряет похожие оптимизации ), поэтому такие рекорды могут быстро обесцениться. Это интересный подход к самообучающимся AI-компиляторам, но заявленные ускорения стоит проверять на праактике. 🟢Github: https://github.com/SakanaAI/robust-kbench 🟢Статья: https://arxiv.org/abs/2509.14279 @ai_machinelearning_big_data #AI#CUDA#PyTorch#SakanaAI#LLM#Optimizatio

Hashtags

#ai #cuda #pytorch #sakanaai #llm #optimizatio

GitHub Trends

@githubtrending · Post #14985 · 07/22/2025, 11:30 AM

Find similar View

#c_lang#cuda#cuda_driver_api#cuda_kernels#cuda_opengl You can use the CUDA Samples from NVIDIA to learn and test CUDA Toolkit 12.9 features by downloading them from GitHub or as a ZIP file. These samples show how to use CUDA for GPU programming, including utilities, concepts, libraries, and performance optimization. You build them with CMake on Linux, Windows, or Tegra devices, and can run tests automatically with a provided Python script. This helps you understand CUDA programming, debug GPU code, and optimize your applications for better performance on NVIDIA GPUs. It’s a practical way to develop and improve GPU-accelerated software efficiently. https://github.com/NVIDIA/cuda-samples

Hashtags

#c_lang #cuda #cuda_driver_api #cuda_kernels #cuda_opengl

GitHub Trends

@githubtrending · Post #15614 · 04/13/2026, 11:30 AM

Find similar View

#typescript#ai#cuda#mlx#qwen3_tts#qwen3_tts_ui#voice_ai#voice_clone#whisper Voicebox is a free, open-source voice synthesis studio that lets you clone voices, generate speech in 23 languages, and apply audio effects—all running privately on your computer. You can create realistic voice clones from just seconds of audio, use five different text-to-speech engines for different needs, add effects like reverb and pitch shift, and build multi-voice projects with a timeline editor. The key benefit is complete privacy: your voice data and AI models never leave your machine, unlike cloud-based alternatives. It also includes an API for building voice-powered applications and works across Mac, Windows, and Linux with GPU acceleration support. https://github.com/jamiepine/voicebox

Hashtags

#typescript #ai #cuda #mlx #qwen3_tts #qwen3_tts_ui #voice_ai #voice_clone #whisper