TGTGInsightтелеграм анализLIVE / telegram public index
← Такты, стеки, два колеса

TGINSIGHT SIMILAR POSTS

Намери подобно съдържание

Изходен канал @clockstackwheels · Post #295 · 10.04

Сегодня бродили по Зоологическому музею, и я не переставал удивляться, сколько способов «придумала» природа для решения схожих задач. Ну, конечно, природа не наделена разумом, и эволюционный механизм ничего не изобретает в нашем понимании этого слова: просто какие-то варианты оказываются более приспособленными. У этого механизма бывают ошибки (погуглите «возвратный гортанный нерв»), и ещё нередко он «отказывается» от собственных же решений, начиная до неузнаваемости их преобразовывать: например, камбала выглядит так, будто она сделана на коленке из обычной рыбы, плавающей горизонтально, а у нарвала рог не симметричен относительно тела и является просто излишне разросшимся зубом. Тем не менее, механизм наследования, высокая мотивация (если не приспособишься, весь твой вид умрёт) и закон больших чисел обеспечивают очень хорошее разнообразие решений. Вот есть задача, например, «не быть съеденным». Можно быть быстрым и убегать от опасности (антилопы и косули), можно быть неприятным на вкус или запах (скунс, опоссум), можно быть незаметным (палочник, листовидка), а можно быть сильнее всех остальных, чтобы на тебя никто не мог напасть (различные хищники). Задача «добыть себе еды» тоже решается множеством способов: запасать; есть то, что не едят другие; есть то, что не могут достать другие и так далее. Я защищался по эволюционным алгоритмам в программировании, и они, честно говоря, работают так себе. Хуже, чем настоящая эволюция в природе. Во-первых, многообразия и времени не хватает. Но самое главное: мы им даём мало свободы, они недостаточно гибкие и ограничиваются слишком узким набором правил. Например, если у вас есть алгоритм для поиска оптимального маршрута поездки на работу, у него никогда не возникнет решения «предложить пользователю сменить работу, чтобы вообще не ездить никуда». Возможно, мы сможем эффективнее запускать такие алгоритмы, когда появятся онтологические базы данных, описывающие достаточно большую часть вселенной. Ещё очень интересно наблюдать эволюцию в технике. Решения, которые предлагают люди для той или иной задачи, тоже со временем приходят к какому-то своему оптимальному виду. Например, у автомобилей для драг-рейсинга огромные задние колёса и маленькие передние, почти рудиментарные. По множеству других признаков это всё-таки автомобиль: двигатель, колёса, место для человека, может ехать. Но отличия драг-рейсингового автомобиля от автомобиля, решающего другую задачу, как раз очень похожи на отличия разных представителей какого-то одного класса животных. Техника одного вида от разных производителей выглядит очень похоже, потому что эволюционно путём развития и улучшения приходит к какому-то оптимальному для своей задачи образу. А вам фото китоглавов. Форма клюва у них такая, что невозможно отделаться от мысли, будто бы они улыбаются. #life

Hashtags

Резултати

Намерени 3 подобни публикации

Търсене: #longcontext

当前筛选 #longcontext清除筛选
Machinelearning

@ai_machinelearning_big_data · Post #8519 · 11.09.2025 г., 18:21

🚀 Релиз:Qwen3-Next-80B-A3B - эффективная модель заточенная на работа работу с очень длинным контекстом! 🔹80B параметров, но активируется только 3B на токен → тренировка и инференс 10x дешевле и быстрее, чем у Qwen3-32B (особенно при 32K+ контексте). 🔹Гибридная архитектура: Gated DeltaNet + Gated Attention → сочетает скорость и точность. 🔹Ultra-sparse MoE: 512 экспертов, маршрутизируется 10 + 1 общий. 🔹Multi-Token Prediction → ускоренное speculative decoding. 🔹 По производительности обходит Qwen3-32B и приближается к Qwen3-235B в рассуждениях и long-context задачах. 🟢Qwen3-Next-80B-A3B-Instruct показатели почти на уровне 235B flagship. 🟢Qwen3-Next-80B-A3B-Thinking превосходит Gemini-2.5-Flash-Thinking. ▪Попробовать: https://chat.qwen.ai ▪Анонс: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list ▪ HuggingFace: https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d ▪ ModelScope: https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a ▪Kaggle: https://kaggle.com/models/qwen-lm/qwen3-next-80b ▪ Alibaba Cloud API: https://alibabacloud.com/help/en/model-studio/models#c5414da58bjgj @ai_machinelearning_big_data #AI#LLM#Qwen#DeepLearning#MoE#EfficientModels#LongContext#Reasonin

Machinelearning

@ai_machinelearning_big_data · Post #9395 · 19.01.2026 г., 07:10

✔️ Sakana AI придумали, как LLM самим сортировать контекст по важности Обычные языковые модели читают текст как одну длинную ленту. Что ближе к началу внимания - то “важнее”. Что дальше - то модель видит хуже. И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать. Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном. Sakana AI предложили решение - RePo (Context Re-Positioning). Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст. Примерно как человек: ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её, а лишнее игнорируешь. Что делает RePo - подтягивает важные куски информации ближе - отодвигает шум и лишний текст - помогает вниманию модели фокусироваться на нужном В модели есть обучаемый модуль, который **переназначает позиции токенов по смыслу**, а не по порядку ✅ важно = то, что помогает уменьшать ошибку модели и правильно решать задачу ❌ второстепенно = то, что не помогает (шум), поэтому “отодвигается” по позициям В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают: - когда контекст длинный - когда много шума - когда важные детали раскиданы далеко друг от друга - когда данные структурированные (таблички, списки, правила) Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество. ▶️ Устойчивость к шуму (Noisy Context) Средний результат по 8 noisy-бенчмаркам: - Обычный RoPE: 21.07 - RePo: 28.31 🟡 Прирост: +7.24 пункта (сильно) Авторы отдельно фиксируют ключевую цифру: на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта. 🔥 Примеры прироста на конкретных задачах (везде RePo > RoPE) - TriviaQA: 61.47 → 73.02 (+11.55) - GovReport: 6.23 → 16.80 (+10.57) - 2WikiMultihopQA: 23.32 → 30.86 (+7.54) - MuSiQue: 7.24 → 13.45 (+6.21) Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память. 🟡Подробности: pub.sakana.ai/repo/ 🟡Статья: arxiv.org/abs/2512.14391 @ai_machinelearning_big_data #RePo#SakanaAI#LLM#AI#AIAgents#Context#LongContext#Attention

Neuron | OnlyFAST

@neuron_skills · Post #1643 · 11.07.2025 г., 14:48

📊 AI-автоматизация на страже новостей! За период 07.07.2025 – 10.07.2025 наша система автоматически проанализировала для вас: 191 топовый сабреддит 449 Twitter-аккаунтов 29 Discord-серверов (226 каналов, 12 761 сообщений) ⏳ Экономия вашего времени: Если бы вы читали это вручную со скоростью 200 слов в минуту, ушло бы целых 806 минут — а так, всё самое важное уже собрано в одном месте! tags: companies #xai#perplexityai#langchain#cursor#cline models #grok4#grok4heavy#claude4opus topics #modelreleases#benchmarking#longcontext#modelpricing#modelintegration#voice#performance#scaling#gpuoptimization people’s #elonmusk#aravsrinivas#igorbabuschkin#yuchenj_uw