TGTGInsighttelegram intelligenceLIVE / telegram public index
← GZ学习频道

TGINSIGHT SIMILAR POSTS

Find similar content

Source channel @olddriverGDstudy · Post #102 · Oct 18

游龙历险记 孔子云:食色性也。本人自然逃不出圣人所料。于是踏上了这条不归路。能看到这篇文章的估计都已经在此道初窥门径,我便不再规劝各位,望各位好自为之。以下我分享一下个人探索世界的经历,希望各位能从其中吸取教训,少上当,多开好车。 探索篇 人生初体验: 资源途径是朋友分享的专业招嫖软件,名为51品茶。一日恰逢休假,兴致大发,遂行动。QQ约好800/pp(上门)。到了宾馆之后给她拍房卡,发送手机号,坐等上门。约半小时后,人到。人图不一,想退货,奈何是个新手在小姐的忽悠下同意了(这个小姐外形也还行)。付钱开搞。服务非常简单,口硬了开干。态度奇差,一直玩手机。一炮结束后,大为扫兴,要求退钱。小姐没同意,说给推荐其他资源。让人走了,发消息不回。两百块没了。 事后反省: 招嫖软件上的基本都是代聊,鸡头,层层转包,八百最后到小姐手机可能只有四百。尽量不要通过软件找。根据另一次经历,推测出一个人软件发布资源,然后转给鸡头,鸡头联系小姐。对小姐不要心软,人图不一的全是代聊,直接拒绝。路费都不要给。这种小姐能拿到手的都非常少,不可能有好的体验。不要对小姐的人品抱有期待,和小姐的交易必须当面完成,人走账清。 人生再探索: 去找同学玩,同学介绍了一家洗浴中心,398半套,技师年纪偏大,服务一流。不满意的可以换,多换几个总能找到个还行的。熟人带着才有全套。 事后反省: 熟人带着可以搞大活,要么就装老嫖客,技师可以私聊带出来。级别翻倍。随便搞。 斗智斗勇篇 洗浴中心第二天,同学给了一个QQ号,加上之后网上选人。888/p,本人选了两个1600。留下联系方式和房卡。约好时间,时间到了之后让转账后小姐上楼。觉得号是同学给的诚信有保障,遂给888。转账后暴露,各种借口让付另一半,小姐没上楼。期间双方斗智斗勇,互相忽悠。我想让对面给我把钱转回来,对面忽悠我转剩下的一半。最终恼羞成怒,报上我的姓名,扬言砍我一只手,(猜测酒店前台泄露了我的信息)同时发来一段视频,西瓜刀寒光四射。本人放话:有种上来。同时戴上口罩开门跑路,110已经拨好,随时可打。 反省:任何时候都不要放松警惕,哪怕同学给的资源,不见小姐不付钱。面对卖淫团伙仙人跳威胁不要怂,他刚你更刚。报警挂嘴上。(报警流程有不熟悉的建议有机会找个小事试一下,一般会问一些信息,提前准备好,比如出警地点) 安魂舒缓篇 找同学玩回来,欲找个熟女安慰一下受惊的心灵。人来略坦,无奈大莱莱迷惑了我的双眼,上门后推荐闺蜜双飞,怦然心动。共计2400。无奈服务相当机车,身材走样,下面松垮垮,除了奶子可以,其余都不行。没射出来就软了。实在下不去鸡儿。 反省:不要相信鸡头嘴里熟女这种东西,玛德二十多的他说是学生,30多的他说是二十的,四五十的才是他们嘴里的熟女。再次强调不要在床上相信小姐任何话,这时候男人每个清醒的,要谈也是提上裤子以后。 同一个地方跌倒四次: 一日兴起,招嫖,谈好价格1000pp,人来看中,付钱后准备洗漱。小姐借口自己来之前已经洗漱过了,让我自行洗漱,于是洗漱,途中和小姐聊天,指挥我洗一下鸡儿,不然口的时候不卫生。遂用肥皂擦洗,泡沫正浓时,小姐夺路而逃。跑了。又一日兴起,约好后酒店等人敲门后端详良久,这特么不是上次跑路的那个小姐,遂激动指控,逼其退钱,无奈忘记堵门,又跑了。再一日兴起,来一未成年,吓我一哆嗦,赶紧换了一个,由于兴致大起,已经洗好澡等待,准备人来直接开干。来后小姐说已经洗过澡了,没多久,提枪上马,干到一半,小姐私处异味严重,大为影响兴致。某一日,兴致再起,欲探索酒店小卡片。打电话后,人来。500一次,没啥服务,催人,质量不行,隆胸,关键隆过以后也只有B-,还特么硬,我都不敢捏,害怕摸坏了。 反省:之所以是一个地方跌倒四次,是因为开房地点都在万达中心。怀疑此地有诈。各位谨慎。小姐来了以后一定要洗澡,不论她什么借口。一定要注意卫生。不健康不说,还特么影响兴致。如果洗澡前付了钱,就同时洗澡,要么洗澡之后付钱。针对上门小姐服务机车,不认真的情况,各位可以尝试事后付款。(这点要约之前就谈好,省的浪费时间),另外远离未成年,绝对不能精虫上脑。万一被抓就不是换个星球生活的事了 云南之行: 微信约好1600包夜,小姐来到后,外形颜值良好。遂付款开整态度良好。体验良好。两炮结束后,小姐借口上厕所,卫生间内偷偷穿戴整齐,趁机夺路而逃。一日游玩结束后,浑身酸痛,想洗个澡。打车告诉司机说去洗澡。无奈司机会错意,直接拉到一家养生馆,说有当地特色。于是体验一把。没有大活298,洗澡加按摩加轻色情服务,最后大飞机。技师相当漂亮。听话。云南少数民族农村的,后悔没加微信。 反省:包夜一定要谨慎小姐偷偷溜走,思来想去只有钱给一半这个办法,这种方法也得提前说好。省的浪费时间。养生馆的小姐姐,我怎么就没要微信呢。真特么后悔。 青岛之行: 是一家spa馆,只做特殊服务的那种,小姐质量超高,服务非常机车。1399打了个飞机摸了一下奶。 反省:不要让妹妹迷失了双眼啊,看到漂亮姐姐就付钱是可耻的。 门店会员: 一家我工作城市的足浴店,挺大的,技师日常上班三四十个。质量有好有差,不满意就换,服务分档次,1000的会员,3000的会员,10000的会员。我是3000的,3000的不给口,可以打奶炮。服务挺好,单次消费666,按摩,加胸推,调情之类的,不给口,不给日。 反省:足浴店的技师因为按摩脚丫子,稍有不慎就会沾染脚气,再摸你的蛋蛋,容易引起蛋蛋瘙痒,或者各种皮肤病。要谨慎啊,事后一定要用肥皂清洗自己的二弟,别图省事用纸擦擦了事。别问我怎么知道的。 大本营: 一个外围2000两小时,相当漂亮,服务温柔,身材也好。 反省:我怎么这么穷? 作者:王一 标签:#原创,#知识,#经验反省

Results

14 similar posts found

Search: #benchmark

当前筛选 #benchmark清除筛选
IT Masters

@ITmastersuz · Post #12327 · 08/18/2025, 04:47 AM

Insonlar uchun “benchmark”: o‘z mahoratingizni sinab ko‘rish sayti Bu sayt orqali siz reaksiya tezligi, katta sonlarni yodda saqlash qobiliyati va boshqa ko‘nikmalaringizni tekshirishingiz mumkin. Natijalarni boshqa odamlar bilan taqqoslash imkoniyati ham mavjud. Masalan, Mani natijam yuqoridagi rasmda 😄 *️⃣Saytga havola ⚡️Bizning barcha loyihalar | #benchmark

Hashtags

Android Broadcast

@android_broadcast · Post #9983 · 05/06/2026, 08:15 AM

🤖 GPT 5.5 и 5.4 лучше подходят для Android разработки, чем модели Claude. РАУНД! Данные официального бенчмарка Google #AI#Benchmark

MDC Uzbekistan

@mdcuzbekistan · Post #320 · 01/20/2022, 08:58 PM

#benchmark#hazil C# vs Java Bizdan ko'p so'rashadi, "Java yaxshimi yoki C#?" deb. Mana o'zingiz ko'rishingiz mumkin. Ikkalasi ham teng kuchli 😂 Oxirida ajratgan ayol C# va Java ni dunyoga keltirgan onasi boladi - C++ .NET Uzbekistan Community ______ Telegram | Instagram | Youtube

Machinelearning

@ai_machinelearning_big_data · Post #7950 · 07/03/2025, 09:05 AM

🌟LLM Speedrunning Benchmark: ИИ-ассистенты пока не способны улучшить код, написанный человеком. Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код. В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек. 🟡Суть эксперимента ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена. Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации. 🟡Результаты Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты. С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю. Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс. 🟡Фреймворк Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели. В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов. Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных. Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно. 📌Лицензирование: MIT License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#Benchmark

Android Broadcast

@android_broadcast · Post #9875 · 03/06/2026, 01:51 PM

🤯 Неожиданно по всем бенчмаркам побеждает Gemini модель. В тесте надо разбираться и понимать какая настройка давалась моделям, но почему-то сразу ощущается подкручивание результатов в пользу своих моделей. 💬 Как вы оцениваете результаты? #Android#AndroidDev#Benchmark#AI#ИИ

Android Broadcast

@android_broadcast · Post #9874 · 03/06/2026, 01:48 PM

🚀Появился Android бенчмарк LLM от Google Давно пора было, чтобы кто-то взялся за оценку LLM системно. Вопрос "какая модель лучше пишет Android-код" висел в воздухе, и каждый отвечал на него субъективно или на основе личных впечатлений и умений. Общие тесты, публикуемые при выходе модели, не говорят ничего про то, умеет ли модель разобраться в реальных задачах Android разработки. Android Bench закрывает именно этот пробел. Задачи взяты из реальных публичных Android-репозиториев на GitHub — никакой синтетики, разного уровня сложности. Модель должна самостоятельно починить проблему, а результат проверяется через unit или instrumentation-тесты. Никакой субъективщины — только прогон тестов. Модели справились только с 16–72% задач. Разброс огромный и показывает, где пропасть между разными моделями. 🔗 Подробности про Android Bench 🐱 GitHub репо Android Bench 🔗 Источник - блог Android Developers #Android#AndroidDev#Benchmark#AI#ИИ

Android Broadcast

@android_broadcast · Post #9643 · 11/03/2025, 12:52 PM

🤖Google создаёт бенчмарк для оценки ИИ-моделей в Android-разработке С каждым месяцем всё больше кода для Android пишется с помощью ИИ, но текущие модели далеко не всегда способны качественно решать реальные задачи Android-проектов. Теперь Google готовит новый набор задач для обучения и оценки LLM-моделей, специально под Android. 🎯 Цель — создать эталон (“north star”) качественной Android-разработки и помочь создателям ИИ-моделей адаптировать их под реальные сценарии мобильной разработки. 📂 Бенчмарк основан на реальных pull-request’ах из публичных Android-репозиториев GitHub. Методика простая: 1️⃣ Каждая модель должна сделать PR с решением задачи. 2️⃣ Результат проверяется автотестами, написанными людьми. Так бенчмарк сможет объективно измерить, насколько ИИ умеет ориентироваться в больших кодовых базах и решать практические задачи Android-разработки. 🗓 Сейчас команда финализирует набор задач, а результаты планируют опубликовать в конце 2025 — начале 2026 года. Остаётся дождаться, чтобы увидеть, какие модели действительно умеют писать Android-код — и насколько они приближаются к уровню живых разработчиков. Главное, чтобы тесты не подгоняли под Gemini, а сообществу дали возможность контрибьютить в бенчмарк 😉 #ии#ai#android#benchmark#google

Machinelearning

@ai_machinelearning_big_data · Post #9567 · 02/20/2026, 05:21 PM

📌Насколько Skills реально помогают LLM-агентам. SkillsBench — исследование и первый бенчмарк, где Agent Skills тестируются как самостоятельный артефакт. Авторы из 15+ топовых университетов взяли 84 задачи из 11 доменов, запустили 7 конфигураций моделей (Claude Code с Opus/Sonnet/Haiku 4.5 и 4.6, Gemini CLI с Gemini 3 Pro/Flash, Codex с GPT-5.2) и проверили 3 условия: без Skills, с готовыми Skills и с самостоятельно сгенерированными Skills. Итого: 7 308 траекторий с детерминированными верификаторами на pytest. Готовые Skills в среднем поднимают pass rate на 16,2 процентных пункта: с 24,3% до 40,6%. Но картина неоднородная: в медицине прирост составил +51,9%, для производства — +41,9%, тогда как в разработке ПО всего +4,5%. Это объяснимо: там, где модели плохо покрыты обучением (клинические протоколы, промышленные воркфлоу), Skills дают максимальный эффект. Там, где модель и так знает домен - почти ничего. 🟡Главный и неожиданный результат: самогенерация Skills не работает. Когда моделям предлагали сначала написать нужные гайды, а потом решать задачу, средний результат упал на 1,3% по сравнению с работой вообще без Skills. Только Claude Opus 4.6 показал скромный плюс (+1,4%), а GPT-5.2 просел на 5,6%. Иными словами - модели не умеют надежно создавать то знание, которым умеют пользоваться. 🟡Еще один интересный момент - это объем Skills. Оптимальный вариант: 2–3 модуля, прирост +18,6%. При 4 и более - всего +5,9%. Подробная документация вообще дает отрицательный эффект: –2,9%, с ней агент буквально тонет в контексте. Показательна и стоимость решения задач: Haiku 4.5 со Skills обходит Opus 4.5 без Skills — меньшая и более дешевая модель с готовыми Skills бьет старшую модель без них. Gemini 3 Flash при этом показал лучший абсолютный результат среди всех конфигураций - 48,7% со Skills при цене $0,57 за одну задачу против $1,06 у Gemini 3 Pro. 🟡Страница проекта 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#Benchmark#Skills

Machinelearning

@ai_machinelearning_big_data · Post #7957 · 07/04/2025, 01:03 PM

🌟WM-ABench: тестирование VL-моделей на понимание физики реального мира. Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения. Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование. В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla. Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее. Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей. 🟡Результаты. С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы. Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости. Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик. 🟡Но главная проблема кроется глубже. Точное восприятие мира совершенно не гарантирует точного прогноза. Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий. Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания. 🟡Бенчмарк подсветил фундаментальный недостаток: У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🟡Датасет @ai_machinelearning_big_data #AI#ML#VLM#Benchmark#Maitrix

Нейросети и Блендер

@monkeyinlaw · Post #1985 · 04/02/2026, 03:03 PM

Нашёл интересный проект - top3d.ai. Ребята сделали слепую арену для сравнения 3D AI генераторов. Работает просто: две модели рядом, названия скрыты, голосуешь за лучшую. Уже больше 100 000 голосов. Залип на лидерборде и вот что заметил: 🥵 Лидер рейтинга сменился буквально за 10 дней - вышла новая версия YVO3D и перетасовала всё 🥵 Open-source инструменты (Hunyuan, стабильно держатся в топе - платные не всегда выигрывают 🥵 Разница между топами - считанные очки ELO. Одно обновление и ситуация меняется 🥵 Самое интересное - некоторые генераторы делают отличную геометрию но слабые текстуры, и наоборот. Универсального лидера пока нет Ещё у них появились два новых режима: 🧩 Segmentation - сравнение качества разбивки моделей на части 🧊 Low Poly - отдельный рейтинг для low-poly ☺️ Плюс на страницах инструментов бывают промо-коды на скидки. В целом если работаете с 3D AI - полезная платформа чтобы понимать что сейчас реально работает, ещё и полностью бесплатно. ссылка #AI#3D#Blender#нейросети#benchmark

AGIRussia.news (ОИИРоссия.новости)

@agirussianews · Post #2130 · 08/20/2025, 01:39 PM

🚀 20 августа 2025 Стартует RRNCB – Russian RAG Normative – Corporate Benchmark, первый российский открытый бенчмарк для оценки RAG-решений при работе с нормативной, правовой и технической документацией компаний. Почему это важно? ✅ На рынке десятки RAG-решений, но нет методики и инструмента оценки и сопоставления характеристик RAG сервисов, оценить их качество очень трудно. ✅RRNCB – это первый продуктовый бенчмарк, цель которого провести комплексную оценку Retrieval augmented generation продуктов для работы с корпоративной и технической документацией. ✅ Специально создан для оценки систем, работающих с русскоязычными нормативами, кодексами, ГОСТами и корпоративными документами. ✅ Открытость и прозрачность: методики оценки и данные будут в открытом доступе. Сравнение проходит по ключевым метрикам (ROUGE, LLM-судья, скорость, качество уточняющих вопросов). Участие. 📋Приглашаем ИИ компании к участию в бенчмарке RRNCB со своими RAG-решениями и продуктами. Заполните заявку на участие. В вашем распоряжении будут: • Независимый лидерборд. • Управление сабмитами. • Возможность тестировать сабмиты до отправки в лидерборд. • Разделение сабмитов на категории cloud и on-prem. 🗓Даты проведения: Запуск: 20 августа Регистрация RAG решений участников: до 3го сентября Результаты: 20 сентября. Почему стоит участвовать. • Участие в открытом бенчмарке — это стратегическая инвестиция для владельца продукта. Вы перестаете просто говорить, что ваш продукт «лучший». Вы доказываете это на объективных метриках в сложных, приближенных к реальности условиях. Это самый мощный аргумент для сомневающихся клиентов, который резко повышает доверие. • Попадание в топ лидерборда — это готовый повод для PR. • Реальные запросы и строгая оценка бенчмарка действуют как мощный стресс-тест. Выявляются проблемы, которые можно было не заметить на внутренних тестах. • Результаты бенчмарка — это не просто цифры, а конкретные данные для вашей R&D-команды. • Экономия ресурсов на собственном тестировании. Бенчмарк предоставляет инфраструктуру и датасеты готовыми, вместе с продуманной методологией оценки. Подробнее о бенчмарке:https://fractalagents.ai/rrncb-rag-benchmark/ Инициатор проведения бенчмарка - ООО Аватар Машина. #RAG#AI#RRNCB#Benchmark#ИскусственныйИнтеллект#OpenSource

BotsGram®

@botsgram_cu · Post #3239 · 12/04/2020, 06:35 PM

@XtremBot Qué puede hacer este bot? Este bot tr brinda mejoras geniales para grupos. Analiza hashtags, polos, audio de voz, etc. y proporciona información más interesante! Idioma: Inglés (visto en @BotsGram_cu) #hashtag, #information, #group, #management, #administration, #pole, #message, #ping, #benchmark

12
PreviousPage 1 of 2Next