Как хранить состояния в таблице Q при обучении с подкреплением Q-learning?
Для модели обучения с подкреплением есть таблица Q из n_states (число состояний) строк и n_action (число действий) столбцов. Как я поняла, выбор действия происходит следующим обра…