TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #367 · 30.05

Поговорим про ML. Пару дней назад вышла новость о том, что в продажу поступила первая русскоязычная книга, половину текста в которой написала нейросеть ruGPT-3. А до этого вы все наверняка натыкались на очень яркие записи про Dalle и Imagen, где нейросеть по описанию рисует картинку, и получается очень любопытно. Такими темпами скоро нейросети превратятся в крипту: высокотехнологичную вещь, о которой, однако, в среде приличных технарей лучше не упоминать. Потому что то, каким образом это используется, и то, какой образ этому создают в массах, расходится не только с реальностью, но и с определённым уровнем вменяемости. Кстати, ML ещё и может ярко демонстрировать эффект Даннинга-Крюгера. Мем про "Ты чё, пёс, я математик!" нифига не шутка. Человек может считать себя крутым программистом, если научился комбинировать чужие библиотеки на питоне. Хотя на самом деле простейшую практическую задачу решить не способен -- я с такими сталкивался лично. ML-щики вообще пихают свои нейросети куда ни попадя, считая, что это волшебная таблетка и швейцарский нож для любых ситуаций. Мне рассказывали случай, когда на хакатоне по работе с данными выиграл человек, который просто аккуратно вручную подобрал нужные зависимости в Excel :) Глобально же нейросетями пытаются решать три вида задач: 1. Информации в вопросе много, а в ответе нужно мало. Например, распознавание образов и символов. Подбор значений каких-нибудь коэффициентов. Приложение "Хотдог или не хотдог" из сериала Кремниевая Долина. Обычно нейросети справляются с таким очень хорошо. Рукописный ввод распознают шикарно, по фото могут назвать породу собаки, математические формулы читают. Но важно понимать, что под капотом даже у такой нейросети не возникает никаких понятных вам символов. Например, при распознавании рукописного ввода случайный набор пикселей, не имеющий для человека смысла, может быть с той же степенью уверенности интерпретирован нейросетью, как совершенно чёткая буква А. Просто мы на такой случайный набор не попадаем почти всегда, и поэтому всё ок. 2. Информации в вопросе средне, и в ответе нужно средне. Как правило, это предсказание, восстановление недостающих данных, улучшение качества фото, раскрашивание ч/б. С такими задачами нейросети справляются уже средненько. Улучшенный нейросетью снимок сразу видно. Предсказание лишь ненамного точнее, чем случайный выбор. Польза в том, что в обращении такие сети просты, а результат всё-таки дают. Но не стоит их переоценивать. Например, сюда можно отнести задачу суммаризации текста (по большому объёму текстов тебе печатают выжимку). Мои товарищи в одном чате несколько дней игрались с ботом-суммаризатором, и в основном половина написанных им фраз это просто мусор и ерунда для ржача. Но в другой половине всё-таки какой-то совсем небольшой смысл проглядывался. Недостаточный для того, чтобы задалбывать этим ботом участников чата (привет, ребята :) ), но не абсолютный рандом. 3. Информации в вопросе мало, а в ответе нужно много. Это генерация данных: вот как раз написание текстов, составление рисунков, логотипов и так далее. Так вот, по моему скромному, но всё-таки хоть немного компетентному мнению, в таких вопросах нейросети выдают полную херню. И хвалёная логотипная нейросетка Лебедева — тоже полная херня. И распиаренная GPT ничего толкового не пишет. Когда читаешь примеры в новостях-анонсах, сразу думаешь: "Вау, как круто!". Но когда пробуешь сам: ruGPT-3 по уровню осмысленности где-то чуть ниже "Яндекс.Рефератов", если помните такой сервис и суть его работы. Я не знаю, будут ли сети по созданию изображений работать так круто (сейчас доступа к ним ни у кого нет), но книга в соавторстве с человеком стала возможна только по той причине, что в качестве человека взяли Павла Пепперштейна, который берёт случайные комбинации словосочетаний и выдаёт это за литературу. Поверьте: человечество пока что в безопасности касательно захвата машинами. #dev

Hashtags

Резултати

Намерени 14 подобни публикации

Търсене: #benchmark

当前筛选 #benchmark清除筛选
IT Masters

@ITmastersuz · Post #12327 · 18.08.2025 г., 04:47

Insonlar uchun “benchmark”: o‘z mahoratingizni sinab ko‘rish sayti Bu sayt orqali siz reaksiya tezligi, katta sonlarni yodda saqlash qobiliyati va boshqa ko‘nikmalaringizni tekshirishingiz mumkin. Natijalarni boshqa odamlar bilan taqqoslash imkoniyati ham mavjud. Masalan, Mani natijam yuqoridagi rasmda 😄 *️⃣Saytga havola ⚡️Bizning barcha loyihalar | #benchmark

Hashtags

Android Broadcast

@android_broadcast · Post #9983 · 06.05.2026 г., 08:15

🤖 GPT 5.5 и 5.4 лучше подходят для Android разработки, чем модели Claude. РАУНД! Данные официального бенчмарка Google #AI#Benchmark

MDC Uzbekistan

@mdcuzbekistan · Post #320 · 20.01.2022 г., 20:58

#benchmark#hazil C# vs Java Bizdan ko'p so'rashadi, "Java yaxshimi yoki C#?" deb. Mana o'zingiz ko'rishingiz mumkin. Ikkalasi ham teng kuchli 😂 Oxirida ajratgan ayol C# va Java ni dunyoga keltirgan onasi boladi - C++ .NET Uzbekistan Community ______ Telegram | Instagram | Youtube

Machinelearning

@ai_machinelearning_big_data · Post #7950 · 03.07.2025 г., 09:05

🌟LLM Speedrunning Benchmark: ИИ-ассистенты пока не способны улучшить код, написанный человеком. Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код. В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек. 🟡Суть эксперимента ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена. Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации. 🟡Результаты Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты. С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю. Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс. 🟡Фреймворк Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели. В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов. Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных. Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно. 📌Лицензирование: MIT License. 🟡Arxiv 🖥GitHub @ai_machinelearning_big_data #AI#ML#LLM#Benchmark

Android Broadcast

@android_broadcast · Post #9875 · 06.03.2026 г., 13:51

🤯 Неожиданно по всем бенчмаркам побеждает Gemini модель. В тесте надо разбираться и понимать какая настройка давалась моделям, но почему-то сразу ощущается подкручивание результатов в пользу своих моделей. 💬 Как вы оцениваете результаты? #Android#AndroidDev#Benchmark#AI#ИИ

Android Broadcast

@android_broadcast · Post #9874 · 06.03.2026 г., 13:48

🚀Появился Android бенчмарк LLM от Google Давно пора было, чтобы кто-то взялся за оценку LLM системно. Вопрос "какая модель лучше пишет Android-код" висел в воздухе, и каждый отвечал на него субъективно или на основе личных впечатлений и умений. Общие тесты, публикуемые при выходе модели, не говорят ничего про то, умеет ли модель разобраться в реальных задачах Android разработки. Android Bench закрывает именно этот пробел. Задачи взяты из реальных публичных Android-репозиториев на GitHub — никакой синтетики, разного уровня сложности. Модель должна самостоятельно починить проблему, а результат проверяется через unit или instrumentation-тесты. Никакой субъективщины — только прогон тестов. Модели справились только с 16–72% задач. Разброс огромный и показывает, где пропасть между разными моделями. 🔗 Подробности про Android Bench 🐱 GitHub репо Android Bench 🔗 Источник - блог Android Developers #Android#AndroidDev#Benchmark#AI#ИИ

Android Broadcast

@android_broadcast · Post #9643 · 03.11.2025 г., 12:52

🤖Google создаёт бенчмарк для оценки ИИ-моделей в Android-разработке С каждым месяцем всё больше кода для Android пишется с помощью ИИ, но текущие модели далеко не всегда способны качественно решать реальные задачи Android-проектов. Теперь Google готовит новый набор задач для обучения и оценки LLM-моделей, специально под Android. 🎯 Цель — создать эталон (“north star”) качественной Android-разработки и помочь создателям ИИ-моделей адаптировать их под реальные сценарии мобильной разработки. 📂 Бенчмарк основан на реальных pull-request’ах из публичных Android-репозиториев GitHub. Методика простая: 1️⃣ Каждая модель должна сделать PR с решением задачи. 2️⃣ Результат проверяется автотестами, написанными людьми. Так бенчмарк сможет объективно измерить, насколько ИИ умеет ориентироваться в больших кодовых базах и решать практические задачи Android-разработки. 🗓 Сейчас команда финализирует набор задач, а результаты планируют опубликовать в конце 2025 — начале 2026 года. Остаётся дождаться, чтобы увидеть, какие модели действительно умеют писать Android-код — и насколько они приближаются к уровню живых разработчиков. Главное, чтобы тесты не подгоняли под Gemini, а сообществу дали возможность контрибьютить в бенчмарк 😉 #ии#ai#android#benchmark#google

Machinelearning

@ai_machinelearning_big_data · Post #9567 · 20.02.2026 г., 17:21

📌Насколько Skills реально помогают LLM-агентам. SkillsBench — исследование и первый бенчмарк, где Agent Skills тестируются как самостоятельный артефакт. Авторы из 15+ топовых университетов взяли 84 задачи из 11 доменов, запустили 7 конфигураций моделей (Claude Code с Opus/Sonnet/Haiku 4.5 и 4.6, Gemini CLI с Gemini 3 Pro/Flash, Codex с GPT-5.2) и проверили 3 условия: без Skills, с готовыми Skills и с самостоятельно сгенерированными Skills. Итого: 7 308 траекторий с детерминированными верификаторами на pytest. Готовые Skills в среднем поднимают pass rate на 16,2 процентных пункта: с 24,3% до 40,6%. Но картина неоднородная: в медицине прирост составил +51,9%, для производства — +41,9%, тогда как в разработке ПО всего +4,5%. Это объяснимо: там, где модели плохо покрыты обучением (клинические протоколы, промышленные воркфлоу), Skills дают максимальный эффект. Там, где модель и так знает домен - почти ничего. 🟡Главный и неожиданный результат: самогенерация Skills не работает. Когда моделям предлагали сначала написать нужные гайды, а потом решать задачу, средний результат упал на 1,3% по сравнению с работой вообще без Skills. Только Claude Opus 4.6 показал скромный плюс (+1,4%), а GPT-5.2 просел на 5,6%. Иными словами - модели не умеют надежно создавать то знание, которым умеют пользоваться. 🟡Еще один интересный момент - это объем Skills. Оптимальный вариант: 2–3 модуля, прирост +18,6%. При 4 и более - всего +5,9%. Подробная документация вообще дает отрицательный эффект: –2,9%, с ней агент буквально тонет в контексте. Показательна и стоимость решения задач: Haiku 4.5 со Skills обходит Opus 4.5 без Skills — меньшая и более дешевая модель с готовыми Skills бьет старшую модель без них. Gemini 3 Flash при этом показал лучший абсолютный результат среди всех конфигураций - 48,7% со Skills при цене $0,57 за одну задачу против $1,06 у Gemini 3 Pro. 🟡Страница проекта 🟡Arxiv @ai_machinelearning_big_data #AI#ML#LLM#Benchmark#Skills

Machinelearning

@ai_machinelearning_big_data · Post #7957 · 04.07.2025 г., 13:03

🌟WM-ABench: тестирование VL-моделей на понимание физики реального мира. Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения. Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование. В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla. Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее. Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей. 🟡Результаты. С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы. Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости. Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик. 🟡Но главная проблема кроется глубже. Точное восприятие мира совершенно не гарантирует точного прогноза. Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий. Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания. 🟡Бенчмарк подсветил фундаментальный недостаток: У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет. 📌Лицензирование: Apache 2.0 License. 🟡Страница проекта 🟡Arxiv 🟡Датасет @ai_machinelearning_big_data #AI#ML#VLM#Benchmark#Maitrix

Нашёл интересный проект - top3d.ai. Ребята сделали слепую арену для сравнения 3D AI генераторов. Работает просто: две модели рядом, названия скрыты, голосуешь за лучшую. Уже больше 100 000 голосов. Залип на лидерборде и вот что заметил: 🥵 Лидер рейтинга сменился буквально за 10 дней - вышла новая версия YVO3D и перетасовала всё 🥵 Open-source инструменты (Hunyuan, стабильно держатся в топе - платные не всегда выигрывают 🥵 Разница между топами - считанные очки ELO. Одно обновление и ситуация меняется 🥵 Самое интересное - некоторые генераторы делают отличную геометрию но слабые текстуры, и наоборот. Универсального лидера пока нет Ещё у них появились два новых режима: 🧩 Segmentation - сравнение качества разбивки моделей на части 🧊 Low Poly - отдельный рейтинг для low-poly ☺️ Плюс на страницах инструментов бывают промо-коды на скидки. В целом если работаете с 3D AI - полезная платформа чтобы понимать что сейчас реально работает, ещё и полностью бесплатно. ссылка #AI#3D#Blender#нейросети#benchmark

🚀 20 августа 2025 Стартует RRNCB – Russian RAG Normative – Corporate Benchmark, первый российский открытый бенчмарк для оценки RAG-решений при работе с нормативной, правовой и технической документацией компаний. Почему это важно? ✅ На рынке десятки RAG-решений, но нет методики и инструмента оценки и сопоставления характеристик RAG сервисов, оценить их качество очень трудно. ✅RRNCB – это первый продуктовый бенчмарк, цель которого провести комплексную оценку Retrieval augmented generation продуктов для работы с корпоративной и технической документацией. ✅ Специально создан для оценки систем, работающих с русскоязычными нормативами, кодексами, ГОСТами и корпоративными документами. ✅ Открытость и прозрачность: методики оценки и данные будут в открытом доступе. Сравнение проходит по ключевым метрикам (ROUGE, LLM-судья, скорость, качество уточняющих вопросов). Участие. 📋Приглашаем ИИ компании к участию в бенчмарке RRNCB со своими RAG-решениями и продуктами. Заполните заявку на участие. В вашем распоряжении будут: • Независимый лидерборд. • Управление сабмитами. • Возможность тестировать сабмиты до отправки в лидерборд. • Разделение сабмитов на категории cloud и on-prem. 🗓Даты проведения: Запуск: 20 августа Регистрация RAG решений участников: до 3го сентября Результаты: 20 сентября. Почему стоит участвовать. • Участие в открытом бенчмарке — это стратегическая инвестиция для владельца продукта. Вы перестаете просто говорить, что ваш продукт «лучший». Вы доказываете это на объективных метриках в сложных, приближенных к реальности условиях. Это самый мощный аргумент для сомневающихся клиентов, который резко повышает доверие. • Попадание в топ лидерборда — это готовый повод для PR. • Реальные запросы и строгая оценка бенчмарка действуют как мощный стресс-тест. Выявляются проблемы, которые можно было не заметить на внутренних тестах. • Результаты бенчмарка — это не просто цифры, а конкретные данные для вашей R&D-команды. • Экономия ресурсов на собственном тестировании. Бенчмарк предоставляет инфраструктуру и датасеты готовыми, вместе с продуманной методологией оценки. Подробнее о бенчмарке:https://fractalagents.ai/rrncb-rag-benchmark/ Инициатор проведения бенчмарка - ООО Аватар Машина. #RAG#AI#RRNCB#Benchmark#ИскусственныйИнтеллект#OpenSource

BotsGram®

@botsgram_cu · Post #3239 · 04.12.2020 г., 18:35

@XtremBot Qué puede hacer este bot? Este bot tr brinda mejoras geniales para grupos. Analiza hashtags, polos, audio de voz, etc. y proporciona información más interesante! Idioma: Inglés (visto en @BotsGram_cu) #hashtag, #information, #group, #management, #administration, #pole, #message, #ping, #benchmark

12
ПредишнаСтр. 1 от 2Следваща