Méthode Policy-gradient

science

algorithme qui apprend une politique en s'intéressant directement à celle-ci

Propriétés