Вероятностный выбор действия

Материал из BrSTU Robotics Wiki
Перейти к: навигация, поиск

Предположим что у нас есть какие либо оценки действия. Оценки могут быть как положительными, так и отрицательными. Чем меньше оценка, тем действие "хуже". В задачах машинного обучения необходимо выбирать не только действия с максимальной оценкой, но порой выбирать и оценки худшие оценки. Для этого используется следующий подход:


Вероятность каждой оценке высчитывается по формуле SoftMax

$

\begin{align} p(i) & = \frac{exp(q_{i})}{\sum{exp(q_{i})}} \\ \end{align} $


  1. Суммируются все полученные вероятности sum
  2. Генерируется случайное число shoot в диапазоне от 0 до sum.
  3. Снова сумимируются все вероятности. Добавляя вероятность каждого следующего действия, производится сравнение получившейся суммы с shoot. Если shoot меньше, то выбирается действие, соответствующее последней добавленной вероятности.