rainbow

rainbow#

Source code: tianshou/policy/modelfree/rainbow.py

class RainbowPolicy(*, model: Module, optim: Optimizer, action_space: Discrete, discount_factor: float = 0.99, num_atoms: int = 51, v_min: float = - 10.0, v_max: float = 10.0, estimation_step: int = 1, target_update_freq: int = 0, reward_normalization: bool = False, is_double: bool = True, clip_loss_grad: bool = False, observation_space: gymnasium.spaces.space.Space | None = None, lr_scheduler: torch.optim.lr_scheduler.LRScheduler | MultipleLRSchedulers | None = None)[source]#

Implementation of Rainbow DQN. arXiv:1710.02298.

Same parameters as C51Policy.