Разобрался в основном с алгоритмом обучения gradual value/policy iteration, прикольненький.
https://gibberblot.github.io/rl-notes/single-agent/policy-iteration.html тут что-то про него
Всё ради того, чтобы разобрать статью. Какого формата статья?
"Смотрите, круто если мы будем reward при обучении с подкреплением не максимизировать, а делать равным чему-то. Вот как это делать. Оказывается, если выбирать интервал, то получается много способов это сделать. Тогда можно наложить всяких ограничений по безопасности, чтобы не улететь по случайности в ту или иную сторону, или не выбирать слишком хардовые шаги и тд"
https://www.lesswrong.com/s/4TT69Yt5FDWijAWab
#ml #lesswrong