TGTGInsightаналитика telegramLIVE / telegram public index
← DeepSchool
DeepSchool avatar

TGINSIGHT POST

Post #277

@deep_school

DeepSchool

Просмотры6,730Количество просмотров
Опубликован4 дек.04.12.2023, 13:29
Содержимое поста

Содержимое

​​Многорукие бандиты В жизни мы часто сталкиваемся с выбором: например, какое вино купить или в какой ресторан сходить. Хочется попробовать новое, но в то же время не разочароваться. В этой статье мы разберемся, как находить баланс между исследованием (новыми альтернативами) и эксплуатацией (проверенными вариантами). А также узнаем: - что такое action-value function (Q-function) - почему жадный алгоритм не самое лучшее решение задачи многоруких бандитов - какие есть методы для баланса исследования и эксплуатации Читайте новую статью по ссылке: https://deepschool-pro.notion.site/8102543939e84867a64064edff7527c2?pvs=4