TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #1174 · 7.12

Большущий текст о настолках и настольном кемпе. Если вы не интересуетесь этой темой, пропускайте пост. #games@clockstackwheels У настольщиков есть общая боль — низкое проникновение хобби в среду нормисов. Не знаю, с чем конкретно это связано, но пока что настолки прям сравнительно маргинальная тема в России. Может, людям лень или сложно, может быть им не собраться вживую, а может быть просто не хватает маркетинга, чтобы народ знал о существовании чего-то, кроме Монополии и Покера. Хотя по моим наблюдениям родители нередко начинают играть с детьми, признавая позитивный эмоционально-образовательный эффект настольных игр, но при трансфере этого хобби во взрослую жизнь что-то ломается по пути. В общем те, у кого не сломалось, собираются в игровые клубы, на игротеки и на кемпы. Кемп это такой выезд на несколько дней куда-нибудь в отель, где ты целыми днями играешь в настолки с такими же упоротыми ценителями прекрасного. Я был на таком впервые и вот только вернулся. Конкретно этот шёл трое суток в пансионате в Ленобласти, организован был компанией Лавка Игр. Ещё до начала я всех задолбал в чате попытками придумать какую-то систему записи, потому что мне было совершенно непонятно, как собственно на месте идёт процесс синхронизации. В идеале у тебя должна быть возможность в любой момент времени начать партию в интересующую тебя игру и иметь под неё нужное число игроков. На деле происходит так: • В чате кто-то пишет, что собирается во что-то играть. Ты думаешь: «О, я чё-то про неё слышал, надо попробовать» и идёшь; • Ты находишь интересную тебе игру на стеллажах, предоставленных организаторами и участниками, начинаешь её раскладывать на свободном столе, игроки материализуются сами; • Ты идёшь мимо столов с раскладываемой игрой, тебе она кажется привлекательной — всё, теперь ты тот самый материализовавшийся игрок. Короч, система работает. Сам пансионат был, ну как сказать, бюджетным, со всеми вытекающими (хотя я не знаю, бывают ли не бюджетные пансионаты, которым не требуется срочный косметический ремонт везде). Еда нормальная, столовская, с выбором и адекватными порциями, но без десертов (хотя их отсутствие компенсировалось бесконечными сладостями от организаторов). Я вообще не покидал здание все дни. В день лично мне в ненапряжном темпе удавалось сыграть в 3-4 игры с учётом долгого сна утром, но при этом окончания партий в 4 часа ночи. Как я понял, среднестатистический посетитель кемпов играет больше, а спит меньше. Всего четыре игровых зала, и из них почему-то один очень шумный, такой, что едва слышно сидящего рядом, а остальные три неожиданно тихие. Окей, один был попрохладнее, туда не так стремились, но всё равно распределение шума меня удивило. По уюту было очень кайфово вечером-ночью сидеть в углу где-то за составленными группой столами и раскладывать настолочку. Дальше конкретно про игры, в которые я сыграл, и моё мнение о них. Гармония. Расслабляющий абстракт на составление сетов в тематике природы. У нас были очень красивые миниатюрки с животными, сделанные на заказ, и конкретно для меня они дали половину удовольствия от игры (в оригинальной коробке там просто цветные кубики). Вот без этих миниатюр игре не хватило тематичности, чтоб я её себе в коллекцию купил. Хотя подумывал об этом. Зоократия. У меня дома есть коробка, я не успел распаковать. Любопытная игра на позитивную дипломатию: важные игровые действия каждый может делать только с помощью других игроков, при этом побеждает всё равно кто-то один. Удивительно, но она работает, не вызывает замыканий, когда никто никому не хотел бы помогать. Оставляю коробку, с удовольствием предложу семье и друзьям.

Hashtags

Резултати

Намерени 10 подобни публикации

Търсене: #benchmarks

当前筛选 #benchmarks清除筛选
Hi, AI • Noticias sobre la IA

@hiaimediaes · Post #1101 · 02.09.2025 г., 19:20

🤯 Nueva IA "razona" como un humano La startup de Singapur Sapient ha creado una inteligencia artificial inspirada en el cerebro humano. En lugar del razonamiento lineal típico de los modelos de lenguaje, los investigadores han desarrollado un "modelo de razonamiento jerárquico" (HRM, por sus siglas en inglés) que opera de manera similar a cómo piensan los humanos. El cerebro humano no sigue simplemente una lista de pasos. Utiliza dos tipos de pensamiento al mismo tiempo: uno que observa el panorama general y planifica, y otro que se enfoca en los detalles y resuelve problemas rápidamente. Basado en este principio, el HRM también funciona. El HRM utiliza solo 1,000 muestras de entrenamiento para cada tarea y cuenta con 27 millones de parámetros, miles de veces menos que los modelos insignia de OpenAI, Google y otras empresas. Al mismo tiempo, este pequeño modelo de IA supera a los principales modelos de lenguaje en tareas lógicas y pensamiento estratégico. Por ejemplo, resuelve rápidamente complejos rompecabezas de Sudoku y encuentra la salida en laberintos confusos que incluso los modelos "más inteligentes" no pueden resolver. En el benchmark ARC-AGI, considerado uno de los exámenes más difíciles para probar las capacidades de razonamiento de la IA, el modelo de Sapient obtuvo un puntaje del 40.3%. En comparación: o3-mini-high logró un 34.5%, Claude Sonnet 3.7—21.2% y DeepSeek-R1—15.8%. "Estos resultados subrayan el potencial del HRM como un avance transformador hacia sistemas de razonamiento de propósito general y computación universal", insisten los creadores del modelo. ➡️ El modelo está disponible en GitHub. #noticias#benchmarks@hiaimediaes

Go

@golang · Post #42 · 22.02.2018 г., 19:28

How to write the load testing service? In this article you’ll know how to design an optimized service for load testing with code examples and good description 🙂 #development#benchmarks http://callistaenterprise.se/blogg/teknik/2015/11/22/gotling/

Go

@golang · Post #55 · 03.04.2018 г., 18:59

Here is not new but interesting article about an escape analysis, pprof and debugging GoLang applications. Inside of post: - Indirects; - Slices, maps; - Interfaces; - Benchmarks and tests. #practice#development#benchmarks https://www.ardanlabs.com/blog/2018/01/escape-analysis-flaws.html

Сайёд Баротов

@sayyodbarotov · Post #156 · 05.03.2024 г., 10:45

​​2024 Benchmarks Report: Journey through the metrics. Ребята из Mixpanel сделали прикольный анализ бенчмарков по продуктовым метрикам. Финансовых там нет, но все равно интересно. 1/ Бенчмарки по средним MoM growth [сразу в квадратных скобках еще 90%-й персентиль, самые топовые]: ▪️Technology: 4.0% (2022) => 0.5% (2023) [5.0% (2023)]; ▪️Media & Entertainment: 4.0% (2022) => -1.5% (2023) [5.5% (2023)]; ▪️Financial Services: 1.0% (2022) => 2.0% (2023) [7.0% (2023)]; ▪️Ecommerce: 2.0% (2022) => 3.5% (2023) [7.5% (2023)]; ▪️Healthcare: 3.0% (2022) => 4.0% (2023) [5.0% (2023)]; ▪️Gaming: 5.0% (2022) => 6.0% (2023) [10.0% (2023)]. В общем, медиа чувствует себя плоховато, а gaming впереди всех. Еще отмечу, что самый высокий топовый рост у финтек приложений, ecommerce и, собственно, gaming. 2/ Каков % активных пользователей по платформем? ▪️Technology: 69% (mobile) => 32% (desktop); ▪️Media & Entertainment: 82% (mobile) => 20% (desktop); ▪️Financial Services: 86% (mobile) => 16% (desktop); ▪️Ecommerce: 58% (mobile) => 42% (desktop); ▪️Healthcare: 73% (mobile) => 28% (desktop); ▪️Gaming: 87% (mobile) => 13% (desktop). Мобилка побеждает, только в ecommerce десктоп еще сколько-то близко. Финансовые приложения и игры фактически с десктопа не используются. 3/ Каковы бенчмарки по week 1 retention? ▪️Technology: 49% (2022) => 31% (2023); ▪️Media & Entertainment: 40% (2022) => 22% (2023); ▪️Financial Services: 51% (2022) => 27% (2023); ▪️Ecommerce: 39% (2022) => 22% (2023); ▪️Healthcare: 44% (2022) => 24% (2023); ▪️Gaming: 25% (2022) => 12% (2023). В отличие от роста, retention выше всего в технологических приложениях, а хуже всего в gaming. Как вы видите, уровень удержания с 2022 падает в 2023-м по всем категориям, пожалуй, меньше всего в ecommerce. 4/ А что по engagement? Например, Mixpanel показывает, сколько действий в среднем сделали пользователи приложений в расчете на 1 пользователя за 2023: ▪️Technology: 381; ▪️Media & Entertainment: 208; ▪️Financial Services: 313; ▪️Ecommerce: 212; ▪️Healthcare: 149; ▪️Gaming: 252. Отдельно посмотрите на страницу 34 в отчете – там графики пользования приложениями из разных категорий по дням недели. Видно, что в воскресенье никто не открывает финансовые приложения, покупки в ecommerce делают в основном в субботу, а во вторник (почему-то) никто не заходит в приложения, связанные со здоровьем. 5/ В отчете есть еще секция по результативности маркетинга, прочитайте самостоятельно. 6/ Прочие выводы и наблюдения: ▪️Топ-10 продуктов в отдельных секторах показывают, как правило, 6% рост, тогда как оставшиеся 90% в среднем имеют рост 2.4%, а пользователи топовой когорты тратят в 3х больше денег; ▪️Средний по разным вертикалям week 1 retention упал с 50% в 2022 до 28% в 2023; ▪️Средняя сессия в мобильных девайсах 11.4 минуты (топовая персентиль 30.5 минут), а на десктопе – 9.9 минут (топовая персентиль 25.6 минут). 👉 Сам отчет на [48 страниц] можно скачать по ссылке: https://mixpanel.com/benchmarks/ @proVenture #benchmarks#research#saas

Клуб CDO

@cdo_club · Post #2387 · 14.07.2025 г., 07:27

​​💰Каждая корпорация в среднем может потратить $12.3M на Gen AI за 2026 год – опрос a16z. Всеми нами уважаемый a16z тут недавно опросил 100 CIO крупных корпораций и получил некоторые любопытные данные. 1/ Для начала к теме поста – сколько же корпорации тратят на Gen AI в год? В мае 2025 опрос показал следующее: ▪️$7.0M за 2025 год (это +200% YoY) ▪️$12.3M за 2026 год (это +75%) 🔹Любопытно, что в середине 2024 ожидали, что потратят $4.5M за 2025 год, сейчас в середине уже этого года прогноз уже на 56% выше 2/ Использование разных моделей выглядит уже нормой: ▪️1 и менее модель используют ~17% компаний с выручкой $500M-$5B, а среди $20B+ нет компаний, которые используют менее 2-х ▪️OpenAI чуть больше любят большие компании (~60% компаний с выручкой $500m-$5B имеют в проде решения на базе OpenAI, тогда как доля таких компаний в когорте $20B+ составляет ~78%). Но они не любят Anthropic (у него доля падает с ~20% до ~10%) ▪️В тройке также есть Google. Они расположены #1 OpenAI, #2 Google, #3 Anthropic. ▪️У Google Gemini Flash 2.5 еще и самый лучший индекс performance по сравнению с затратами. 3/ Где хранят данные: ▪️~80% хранят у самих вендоров моделей (типа OpenAI) и также хранят в CSP (типа AWS) ▪️Если средневзвешанно по AI spent взять, то 37% у вендоров и 28% в CSP ▪️CIO отмечают, что за год стало сложнее поменять модель на другую 4/ Что находится в проде? Тут прикольная разница между регулируемыми отраслями и нерегулируемыми: ▪️У нерегулируемых на уровне 80-85% в проде находятся чатботы общего пользования, customer support и разработка софта ▫️А у регулируемых на уровне 80% только разработка софта, далее ~50% чатботы и 40% customer support 5/ Отдельный любопытный факт: 🔹Сейчас 39% компаний направляют на Gen AI средства из основного централизованного IT бюджета (только 5% считают, что это innovation budget) 👉 Читайте более подробно статью a16z по ссылке: https://a16z.com/ai-enterprise-2025/ #research#benchmarks#saas#ai

Machinelearning

@ai_machinelearning_big_data · Post #8857 · 27.10.2025 г., 09:31

🤖 MiniMax-M2: новая MoE-модель серииMiniMax MiniMax-M2 переосмысливает эффективность: это 230 млрд параметров (из них активно только 10 млрд) - мощная, быстрая и экономичная модель, которая сочетает интеллект уровня топовых LLM с оптимизацией под агентные применения и программирование. 🔹 Основные особенности 🧠 Интеллект мирового уровня. По данным *Artificial Analysis*, MiniMax-M2 демонстрирует отличные результаты в математике, науке, программировании, следовании инструкциям и использовании инструментов. Модель занимает #1 место среди всех open-source моделей по суммарному индексу интеллекта. 💻 Кодинг Разработана для полного цикла разработкт - от файловыхправок дотестировании кода и его автокоррекции. Модель показывает отличные результаты на Terminal-Bench и (Multi-)SWE-Bench, что делает её эффективной в IDE, терминалах и CI-системах. 🧩 Агентные возможности. MiniMax-M2 умеет планироватьи выполнять сложные цепочки действий через shell, браузер, retrieval и code runners. В тестах BrowseComp уверенно находит труднодоступные источники и восстанавливается после сбоев, не теряя цепочку рассуждений. MiniMax M2 построена по принципу GPT-OSS и использует сочетание Full Attention и Sliding Window Attention (SWA). Это помогает эффективно работать с длинным контекстом - часть модели анализирует всё сразу, другая концентрируется на ближайших фрагментах текста. Каждая attention-голова имеет собственный RMSNorm, а блоки Full Attention и SWA используют разные RoPE-параметры, это повышает гибкость и устойчивость модели. MiniMax-M2 - это новый стандарт эффективности для AGI-агентов и кодинга: умнее, быстрее и дешевле, чем аналоги. https://huggingface.co/MiniMaxAI/MiniMax-M2 @ai_machinelearning_big_data #AI#MiniMax#LLM#ArtificialIntelligence#Benchmarks

Machinelearning

@ai_machinelearning_big_data · Post #8560 · 16.09.2025 г., 16:22

🔥 Как реально выбирают LLM в 2025 — исследование LLM Arena Интересный опрос практиков (инженеров, ML-учёных, AI-продуктов) - как сегодня на самом деле выбирают языковые модели (LLM), что важнее: бенчмарки или собственные тесты, цена/скорость/качество, и чего не хватает в информации по моделям. 📊Ключевые выводы - 82,2% респондентов проводят собственные тесты; бенчмарки — лишь ориентир, не решение. - 26,7% вообще не пользуются бенчмарками. - В центре внимания: баланс качество / цена / скорость, устойчивость (без галлюцинаций), соответствие инфраструктуре. 👥 Участники опроса - 45 практиков с опытом работы с LLM-продуктами; все участники — профессионалы. - ML/AI Инженеры, Data Scientists, AI-строители, и менеджмент. 🔑 Что ищут и какие сигналы важны: - Часто оценивают обсуждаемость модели в статьях/сообществе; практическое применение в похожих продуктах. - Обращают внимание на число скачиваний и звёзд на Hugging Face / GitHub. - Хотят больше данных о требованиях к железу, лицензиях, локальной работе, графиках “цена vs качество”, “скорость vs качество”. ⚠️Проблемы & доверие - Многие не доверяют существующим бенчмаркам из-за методологических проблем (train/test leakage, нерелевантность задач). - Лабораторные условия часто сильно отличаются от продакшн. - Нехватка отзывов по реальным сценариям и использованиям. При выборе LLM важнее собственные тесты и контекст задач, чем рейтинги. Специалисты хотят поточечных данных: про лицензии, требования к железу, latency, стоимость. Инициатор исследования Роман Куцев - фаундер и CEO LLM Arena, публикуют много интересного у себя в блоге. Для тех, кто строит LLM-продукты, полезно: - Не ориентироваться только на чужие бенчмарки. - Собирать метрики в собственных условиях — на реальных данных. - Открыто показывать, что работает, а что — нет, в документации и обсуждениях. 🟢 Полное исследование: https://research.llmarena.ru/ #LLM#AI#ИИ#LLMArena#исследование#нейросети#benchmarks

Venture Village Wall 🦄

@venturevillagewall · Post #3607 · 20.12.2024 г., 19:00

o3 & o3-mini Break Benchmark Records The performance of o3 and o3-mini showcases state-of-the-art (SOTA) results across various benchmarks. Key insights include: - Frontier Math scores increased from 2% to 25%. - SWE-Bench achieved 71.7%, a significant leap for a startup that recently raised $200 million with 13.86% earlier this year. - ELO on Codeforces reached 2727, held by only 150 individuals globally. - ARC-AGI model scored 87.5%, breaking a five-year deadlock. - Noteworthy progress on GPQA and AIME benchmarks. Access to o3-mini is currently available to security researchers, while general public access is set for late January. Full access to o3 will follow later. #AI#SOTA#Benchmarks#o3#o3-mini #FrontierMath#SWE-Bench #Codeforces#ELO#ARC-AGI #GPQA#AIME#Funding#Progress#Research#Technology#Innovation

Venture Village Wall 🦄

@venturevillagewall · Post #3606 · 20.12.2024 г., 18:41

O3 and O3-Mini Benchmark Breakthroughs The O3 and O3-Mini models showcase state-of-the-art (SOTA) performance with significant leaps in various benchmarks. Results on Frontier Math have jumped from 2% to 25%. The SWE-Bench model achieved a score of 71.7%, while a startup has raised $200 million following results of 13.86%. ELO on Codeforces reached 2727, surpassing most peers globally. Notably, the ARC-AGI model scored 87.5%, breaking a five-year benchmark. Access for security researchers to O3-Mini starts today, with general access available in late January. #O3#O3Mini#SOTA#Benchmarks#AI#ML#Funding#Codeforces#ARC-AGI #FrontierMath#SWE-Bench #ELO#GPQA#AIME#SecurityResearch#TechUpdates#Innovations#Startups#Performance#AIModels