TGTGInsightаналитика telegramLIVE / telegram public index
Содержимое поста
Содержимое
Многорукие бандиты В жизни мы часто сталкиваемся с выбором: например, какое вино купить или в какой ресторан сходить. Хочется попробовать новое, но в то же время не разочароваться. В этой статье мы разберемся, как находить баланс между исследованием (новыми альтернативами) и эксплуатацией (проверенными вариантами). А также узнаем: - что такое action-value function (Q-function) - почему жадный алгоритм не самое лучшее решение задачи многоруких бандитов - какие есть методы для баланса исследования и эксплуатации Читайте новую статью по ссылке: https://deepschool-pro.notion.site/8102543939e84867a64064edff7527c2?pvs=4