TGTGInsighttelegram intelligenceLIVE / telegram public index
← GZ学习频道

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @olddriverGDstudy · Post #102 · Oct 18

游龙历险记 孔子云:食色性也。本人自然逃不出圣人所料。于是踏上了这条不归路。能看到这篇文章的估计都已经在此道初窥门径,我便不再规劝各位,望各位好自为之。以下我分享一下个人探索世界的经历,希望各位能从其中吸取教训,少上当,多开好车。 探索篇 人生初体验: 资源途径是朋友分享的专业招嫖软件,名为51品茶。一日恰逢休假,兴致大发,遂行动。QQ约好800/pp(上门)。到了宾馆之后给她拍房卡,发送手机号,坐等上门。约半小时后,人到。人图不一,想退货,奈何是个新手在小姐的忽悠下同意了(这个小姐外形也还行)。付钱开搞。服务非常简单,口硬了开干。态度奇差,一直玩手机。一炮结束后,大为扫兴,要求退钱。小姐没同意,说给推荐其他资源。让人走了,发消息不回。两百块没了。 事后反省: 招嫖软件上的基本都是代聊,鸡头,层层转包,八百最后到小姐手机可能只有四百。尽量不要通过软件找。根据另一次经历,推测出一个人软件发布资源,然后转给鸡头,鸡头联系小姐。对小姐不要心软,人图不一的全是代聊,直接拒绝。路费都不要给。这种小姐能拿到手的都非常少,不可能有好的体验。不要对小姐的人品抱有期待,和小姐的交易必须当面完成,人走账清。 人生再探索: 去找同学玩,同学介绍了一家洗浴中心,398半套,技师年纪偏大,服务一流。不满意的可以换,多换几个总能找到个还行的。熟人带着才有全套。 事后反省: 熟人带着可以搞大活,要么就装老嫖客,技师可以私聊带出来。级别翻倍。随便搞。 斗智斗勇篇 洗浴中心第二天,同学给了一个QQ号,加上之后网上选人。888/p,本人选了两个1600。留下联系方式和房卡。约好时间,时间到了之后让转账后小姐上楼。觉得号是同学给的诚信有保障,遂给888。转账后暴露,各种借口让付另一半,小姐没上楼。期间双方斗智斗勇,互相忽悠。我想让对面给我把钱转回来,对面忽悠我转剩下的一半。最终恼羞成怒,报上我的姓名,扬言砍我一只手,(猜测酒店前台泄露了我的信息)同时发来一段视频,西瓜刀寒光四射。本人放话:有种上来。同时戴上口罩开门跑路,110已经拨好,随时可打。 反省:任何时候都不要放松警惕,哪怕同学给的资源,不见小姐不付钱。面对卖淫团伙仙人跳威胁不要怂,他刚你更刚。报警挂嘴上。(报警流程有不熟悉的建议有机会找个小事试一下,一般会问一些信息,提前准备好,比如出警地点) 安魂舒缓篇 找同学玩回来,欲找个熟女安慰一下受惊的心灵。人来略坦,无奈大莱莱迷惑了我的双眼,上门后推荐闺蜜双飞,怦然心动。共计2400。无奈服务相当机车,身材走样,下面松垮垮,除了奶子可以,其余都不行。没射出来就软了。实在下不去鸡儿。 反省:不要相信鸡头嘴里熟女这种东西,玛德二十多的他说是学生,30多的他说是二十的,四五十的才是他们嘴里的熟女。再次强调不要在床上相信小姐任何话,这时候男人每个清醒的,要谈也是提上裤子以后。 同一个地方跌倒四次: 一日兴起,招嫖,谈好价格1000pp,人来看中,付钱后准备洗漱。小姐借口自己来之前已经洗漱过了,让我自行洗漱,于是洗漱,途中和小姐聊天,指挥我洗一下鸡儿,不然口的时候不卫生。遂用肥皂擦洗,泡沫正浓时,小姐夺路而逃。跑了。又一日兴起,约好后酒店等人敲门后端详良久,这特么不是上次跑路的那个小姐,遂激动指控,逼其退钱,无奈忘记堵门,又跑了。再一日兴起,来一未成年,吓我一哆嗦,赶紧换了一个,由于兴致大起,已经洗好澡等待,准备人来直接开干。来后小姐说已经洗过澡了,没多久,提枪上马,干到一半,小姐私处异味严重,大为影响兴致。某一日,兴致再起,欲探索酒店小卡片。打电话后,人来。500一次,没啥服务,催人,质量不行,隆胸,关键隆过以后也只有B-,还特么硬,我都不敢捏,害怕摸坏了。 反省:之所以是一个地方跌倒四次,是因为开房地点都在万达中心。怀疑此地有诈。各位谨慎。小姐来了以后一定要洗澡,不论她什么借口。一定要注意卫生。不健康不说,还特么影响兴致。如果洗澡前付了钱,就同时洗澡,要么洗澡之后付钱。针对上门小姐服务机车,不认真的情况,各位可以尝试事后付款。(这点要约之前就谈好,省的浪费时间),另外远离未成年,绝对不能精虫上脑。万一被抓就不是换个星球生活的事了 云南之行: 微信约好1600包夜,小姐来到后,外形颜值良好。遂付款开整态度良好。体验良好。两炮结束后,小姐借口上厕所,卫生间内偷偷穿戴整齐,趁机夺路而逃。一日游玩结束后,浑身酸痛,想洗个澡。打车告诉司机说去洗澡。无奈司机会错意,直接拉到一家养生馆,说有当地特色。于是体验一把。没有大活298,洗澡加按摩加轻色情服务,最后大飞机。技师相当漂亮。听话。云南少数民族农村的,后悔没加微信。 反省:包夜一定要谨慎小姐偷偷溜走,思来想去只有钱给一半这个办法,这种方法也得提前说好。省的浪费时间。养生馆的小姐姐,我怎么就没要微信呢。真特么后悔。 青岛之行: 是一家spa馆,只做特殊服务的那种,小姐质量超高,服务非常机车。1399打了个飞机摸了一下奶。 反省:不要让妹妹迷失了双眼啊,看到漂亮姐姐就付钱是可耻的。 门店会员: 一家我工作城市的足浴店,挺大的,技师日常上班三四十个。质量有好有差,不满意就换,服务分档次,1000的会员,3000的会员,10000的会员。我是3000的,3000的不给口,可以打奶炮。服务挺好,单次消费666,按摩,加胸推,调情之类的,不给口,不给日。 反省:足浴店的技师因为按摩脚丫子,稍有不慎就会沾染脚气,再摸你的蛋蛋,容易引起蛋蛋瘙痒,或者各种皮肤病。要谨慎啊,事后一定要用肥皂清洗自己的二弟,别图省事用纸擦擦了事。别问我怎么知道的。 大本营: 一个外围2000两小时,相当漂亮,服务温柔,身材也好。 反省:我怎么这么穷? 作者:王一 标签:#原创,#知识,#经验反省

Results

19 similar posts found

Search: #rl

当前筛选 #rl清除筛选
Am Neumarkt 😱

@amneumarkt · Post #302 · 12/11/2021, 10:19 AM

#ml#rl How to Train your Decision-Making AIs https://thegradient.pub/how-to-train-your-decision-making-ais/ The author reviewed "five types of human guidance to train AIs: evaluation, preference, goals, attention, and demonstrations without action labels". The last one reminds me of the movie Finch. In the movie, Finch was teaching the robot to walk by demonstrating walking but without "labels".

Hashtags

Machinelearning

@ai_machinelearning_big_data · Post #8473 · 09/08/2025, 03:28 PM

🦾 Google DeepMind показала, как роботы учатся работать вместе с помощью обучения с подкреплением. Учёные из UCL, Google DeepMind и Intrinsic представили новый AI-алгоритм RoboBallet — систему, которая позволяет нескольким роботизированным манипуляторам работать синхронно и без столкновений в сложной производственной среде,. 🔹 В эксперименте участвовали 8 роботов, каждый из которых мог выполнять 40 разных задач в одном общем пространстве. 🔹 Роботы могли брать любую задачу в любом порядке — система сама решала, кому что поручить и как построить безопасные траектории. 🔹 Алгоритм обучался в симуляции, а затем сразу работал в новых условиях без дообучения (*zero-shot*). Пока решение работает только для задач перемещения (reaching), без учёта порядка выполнения или разных типов роботов. Однако архитектура гибкая — в будущем возможно добавление сложных задач, зависимостей и разнообразных роботов. Один алгоритм смог координировать целую команду, делая роботов гибкими и слаженными даже там, где они раньше не работали. 🟢 Подробнее: https://www.science.org/doi/10.1126/scirobotics.ads1204 @ai_machinelearning_big_data #google#robots#ai#rl

Am Neumarkt 😱

@amneumarkt · Post #320 · 02/17/2022, 09:32 AM

#ML#RL#DeepMind Magnetic control of tokamak plasmas through deep reinforcement learning | Nature https://www.nature.com/articles/s41586-021-04301-9

Агенты ИИ | AGI_and_RL

@agi_and_rl · Post #765 · 04/25/2024, 02:05 PM

🎓 — Семинар 29. Curriculum Learning: выбор последовательности задач для обучения с подкреплением | Мария Нестерова Завтра на семинаре выступит выпускница нашей магистерской программы МТИИ и ныне аспирантка нашего Центра, у которой уже 2 статьи на А*! Если перед агентом стоит сложная задача, то для её освоения с нуля может потребоваться много времени. Один из способов решить эту проблему — рассмотреть сначала более простые задачи. Расписание обучения (Curriculum) позволяет автоматически выбрать задачи и определить порядок их изучения, что ускоряет процесс освоения сложных задач. В первой части доклада будут рассмотрены существующие подходы к составлению расписания обучения. В рамках нашего исследования расписание обучения представлено в виде мета-агента, который выбирает задачи на основе анализа способностей обучающегося агента. Вторая часть доклада будет посвящена нашему методу и текущим результатам 📹 Трансляция Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! #семинары#RL

Агенты ИИ | AGI_and_RL

@agi_and_rl · Post #692 · 02/07/2024, 03:15 PM

🎓— Семинар 18. Mastering Memory Tasks with World Models | Артём Жолус Завтра на семинаре выступит выпускник нашей магистерской программы МТИИ, ныне аспирант университета Монреаля и научный сотрудник лаборатория MILA (основанной Йошуа Бенджио) Артём Жолус "В этом докладе я представлю Recall2Imagine (R2I), новую модель мира, которая может справиться с любой RL-задачей, требующей большого объема памяти агента (memory-intensive RL task). Эта модель построена на основе комбинации State-Space Models (SSMs), нового типа foundation model, и модели мира DreamerV3. Я покажу, как новая модель может освоить 30+ memory RL сред , включая MemoryMaze - среду, вдохновленную нейронаукой, в которой R2I является первым RL алгоритмом, достигшим сверхчеловеческой награды. Кроме того, я покажу, как память R2I остается устойчивой к различным типам контроля" — Tomorrow, a graduate of our master's program, now a graduate student at the University of Montreal and a researcher at the MILA laboratory (founded by Yoshua Bengio) Artem Zholus will speak at the seminar. "In this talk, I will present Recall2Imagine (R2I), a new world model that can master any memory-intensive RL task out of the box. This model is built upon a combination of State-Space Models (SSMs), a new type of foundation model, and DreamerV3. I will show how a new model can master 30+ memory-intensive environments, including MemoryMaze, which is a neuroscience-inspired environment where R2I is the first algorithm that achieves superhuman performance. In addition, I'll show how R2I's memory remains robust to different types of control and observations in 50+ standard RL environments. The talk covers our paper accepted at ICLR 2024 with oral talk (top-1.2% of accepted papers)." 📹Youtube Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире! Ждем всех! — Join the live discussion and ask questions live! Waiting for everyone! #семинары#RL

Data Science Jobs

@datasciencejobs · Post #2700 · 04/28/2025, 01:00 PM

#job#middle#senior#RL#ML Вакансия: Data Scientist с опытом RL Формат работы: гибрид, офис в Москве Вилка: от 5000$ до 6000$ Компания: я являюсь рекрутером компании Task Agency Что предлагаем: •Удобный офис в Москве; •Поощрения по результатам работы, привязанные к успеху торговой стратегии; •Гибкая гибридная модель работы, адаптированная к индивидуальным и командным потребностям; •Заработная плата в криптовалюте и тд Что мы ожидаем: •Высшее образование в области количественных финансов, компьютерных наук, математики или статистики. •Опыт в области количественных исследований и применения методов обучения с подкреплением (RL). •Глубокое понимание математического моделирования, статистического анализа и методов оптимизации. •Отличные навыки программирования на Python, а также опыт работы с фреймворками глубокого обучения, такими как TensorFlow, PyTorch, JAX. •Приветствуется опыт работы в трейдинге, маркет-мейкинге или высокочастотной торговле (HFT). •Опыт разработки инструментов для бэктестинга и моделирования будет большим преимуществом. Будет плюсом: •Знание методов оптимизации алгоритмов, таких как эволюционные алгоритмы и байесовские подходы. •Опыт работы с блокчейн-технологиями, смарт-контрактами и торговыми средами DeFi. •Навыки работы в высокопроизводительных вычислительных средах (HPC). Основные задачи: •Разработка торговых моделей для пар ETH/USD+ и cbBTC/USD+ для рынков DeFi. •Внедрение моделей на основе обучения с подкреплением (RL), таких как DQN и AS для маркет-мейкинга. •Проведение бэктестинга и моделирования для оценки стратегий и тд. По всем вопросам @ValeriyaStynke

Data Science Jobs

@datasciencejobs · Post #3051 · 11/27/2025, 10:00 AM

#ML#NLP#LLM#RL#remote#huggingface Компания: High Sky; Позиция: Senior LLM-Engineer для решения задачи SWE Вилка: от 8000$ до 15000$; Формат: удаленная работа; Занятость: full-time; Опыт: от 6 лет. Мы - динамично развивающийся стартап, решающий различные задачи AI в соревновательном формате: генерация текста, аудио и видео, обогащение данных, предиктивная аналитика. Мы осуществляем полный цикл работы над продуктом: от анализа бизнес-задачи до вывода в продакшен полноценного решения Находимся в поиске Senior LLM-Engineer для решения задачи SWE Чем предстоит заниматься: - Главная задача - разработать агента для решения SWE задач - обучение LLM - написание кода агента, запускаемого в sandbox - fine-tuning LLM - Построение пайплайнов валидации и оценки моделей и агентов - Сбор, очищение данных - Выбор архитектур и pre-trained моделей - Объединение моделей и адаптеров Требования к кандидату: - Опыт обучения LLM (fine-tuning / pre-training) от 2 лет - Опыт применения различных методов обучения LLM - Опыт с различными pre-trained моделями - Опыт работы с экосистемой huggingface: transformers, datasets, peft, trl - Хорошее понимание теоретической базы NLP, transformers, LLM. Понимание всех циклов предобучения и файнтюнинга, RL, classic ML - Опыт коммерческой разработки с нуля - Опыт работы от 6 лет - Высшее образование в области компьютерных технологий / прикладной математики и (или) прикладной информатики; Будет плюсом: - Опыт решения задачи SWE-bench - Научные исследования по Computer Science - Призовые места в соревнованиях (kaggle, boosters), опыт участия в хакатонах - ШАД / Школа 21 Что мы предлагаем: - Участие в разработке динамично развивающегося продукта, работающего на рынке в реальном времени; - Справедливую заработную плату по результатам собеседования и вашей квалификации; - Возможность прокачивать свою экспертизу за счет работы с топовыми коллегами и обучения в моменте; - Классный молодой коллектив профессионалов, заряженных на результат. Ценим порядочность, честность и открытость; - Горизонтальную структуру, отсутствие бюрократии и синдромов «больших начальников»; - Мы за результат, а не процесс. У всех наших сотрудников удобный график и полностью удаленная работа без привязке к стране. Для отклика пишите@perovvaa📩

Machinelearning

@ai_machinelearning_big_data · Post #9053 · 11/23/2025, 07:14 AM

🌟RL-фреймворк для обучения MoE-моделей от создателей Chatbot Arena. Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень. Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6. Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок. 🟡Технические детали. Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с torch.compile. Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели. Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения. 🟡Стабильность. Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP. В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование. 🟡Статья 🖥Github @ai_machinelearning_big_data #AI#ML#RL#Miles#LMSYS

Machinelearning

@ai_machinelearning_big_data · Post #8194 · 08/02/2025, 01:04 PM

🌟X-Omni от Tencent: авторегрессионная text-to-image модель с RL. X-Omni - методика обучения T2I моделей, которая наглядно доказывает, что RL может вдохнуть новую жизнь в авторегрессионный подход и вывести такие модели на SOTA-уровень. X-Omni построена на гибридной, но при этом унифицированной архитектуре. Схематично она выглядит так: Семантический токенизатор изображений SigLIP-VQ с фиксированным словарем на 16 384 токена кодирует картинку в дискретные токены. Эти визуальные токены вместе с текстовыми подаются в единую авторегрессионную модель на базе Qwen2.5-7B. Наконец, в финальном рендеринге используется диффузионный декодер на основе FLUX.1-dev. 🟡Уникальность метода - в смеси RL по GRPO и комплексной reward-системе. Вместо одного критерия, модель оценивается сразу по нескольким направлениям. За эстетику и соответствие предпочтениям человека отвечает HPSv2 и модель Unified Reward. За семантическую связь между промптом и изображением — VLM-модель Qwen2.5-VL-32B. А за самое сложное, отрисовку текста внутри картинки, отвечает отдельная награда на основе OCR-систем GOT-OCR2.0 и PaddleOCR. Тестовую модель X-Omni обучали на смеси из 200 млн. изображений, которые после токенизации превратились в 600 млрд мультимодальных токенов, а на этапе SFT использовал ещё 1.5 млрд. токенов. Для RL-фазы был отобран микс из 180 тыс. промптов, состоящий как из творческие запросы, так и задач на рендеринг текста. 🟡И это дало свои плоды, особенно в отрисовке текста, где авторегрессионные модели исторически пасовали. На бенче OneIG-Bench X-Omni показала результат 0.901 для английского языка, обойдя GPT-4o (0.857). А на собственном LongText-Bench, специально созданном для оценки рендеринга длинных надписей, модель буквально разгромила всех в китайском языке, набрав 0.814 балла против 0.619 у GPT-4o. В задачах общей генерации по тексту X-Omni также на высоте. На DPG-Bench модель достигла SOTA-результата 87.65, опередив GPT-4o (86.23) и Show-o2 (86.14). На GenEval результат составил 0.83, чуть-чуть не дотянув до модели Mogao (0.89). Даже в задачах на понимание изображений X-Omni показывает себя достойно: на OCRBench ее результат (704) превосходит другие унифицированные модели, например Emu3 (687). 🟡Интересные подробности. Во-первых, X-Omni не нуждается в CFG. В отличие от Emu3 или Janus-Pro, качество которых резко падает при отключении CFG, X-Omni работает стабильно. Во-вторых, что, пожалуй, самое важное, RL превосходит даже SFT с последующим сэмплингом best-of-N. Этот вывод идет вразрез с устоявшимся мнением в области языкового моделирования и доказывает, что для изображений холистическая оптимизация через RL дает существенный прирост качества. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Набор моделей 🟡Arxiv 🟡Demo 🖥GitHub @ai_machinelearning_big_data #AI#ML#T2I#RL#XOmni#Tencent

Агенты ИИ | AGI_and_RL

@agi_and_rl · Post #550 · 05/13/2023, 04:02 PM

😊Одна из самых крутых библиотек для RL агентов - это библиотека ml-agents для Unity. Позволяет довольно быстро освоиться с применением RL в играх. На видео представлен уже предобученный агент из библиотеки, которого научили ходить и собирать зеленые кубики. По ссылочкам можно найти все необходимое, но главное - примеры. Среди этих примеров можно посмотреть как учили: машины парковаться, самолеты летать, агентов играть в футбол и много всего. Некоторые из них мы в будущем поразбираем. Имеем из плюсов: ➕ Разработчики уже знакомые с моделированием сред (а это один из ключевых компонентов обучения с подкреплением) могут быстро влиться в тему. ➕ Имеем все плюшки Unity, вроде кросплатформенности, кучи готовых решений, C#. Зрелость самой платформы и огромная аудитория. ➕ Много готовых сред и предобученных агентов. ➕ Есть Python API. ➕ На ютубе и в интернете уже довольно много разборов с описаниями как ее применять. Очень рекомендую эту библиотеку попробовать, если Unity Вам близок. Если в целом имеется опыт программирования и разработки, то разобраться очень легко... Думаю что далее я еще пройдусь по енвам в Unity и может мы поделаем кастомные окружения. И мы точно еще много будем говорить о визуальных библиотеках и как там RL применяют. #rl#unity#AGI_and_RL

Machinelearning

@ai_machinelearning_big_data · Post #8851 · 10/24/2025, 10:00 PM

🧠 Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, сравнив её «мозг» с мозгом пчелы. Он обучил модель считать, сколько раз буква r встречается в слове strawberry, и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи. Сначала генерируются диалоги: «Сколько букв r в слове strawberry?» и правильные ответы. После этого модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык. Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы. Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче понимает задачу. Nanochat решает задачу двумя способами: — логически, рассуждая пошагово; — через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата. Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные. 📘 Разбор: github.com/karpathy/nanochat/discussions/164 @ai_machinelearning_big_data #AI#Karpathy#Nanochat#LLM#SFT#RL#MachineLearning#OpenSource

12
PreviousPage 1 of 2Next