Reinforcement Learning (2) 썸네일형 리스트형 [강화학습] 다중 선택 문제 (K-armed bandit Bandit) Epsilon Greedy 현재 상황(Optiaml하지 않음)에서 내가 가지고 있는 정보를 기반으로 최적의 선택으로 하려고 합니다. 하지만 동시에 이게 진짜 최적의 선택인가에 대한 의문 또한 품어야합니다. 그럼 내가 가지고 있는 정보 기반으로 최적의 선택만 해야할까요?? 아닙니다. 만약 그렇게 된다면 더 나은 길을 못 볼 수도 있습니다. 그렇기 때문에 어느정도 삐딱선을 타야합니다. 최적의 선택을 함에 있어서 삐딱선을 탐은 Exploration을 의미합니다. 현재 정보에 의존하지 않고 그냥 랜덤으로 action을 정하는 거예요. 그리고 단순히 내가 가지고 있는 정보를 기반으로 최적의 선택을 하는 것을 Exploitation이라고 하고, 그저 Exploitation을 수행하는 것을 Greedy 라고 합니다... [Just Code] 다중 선택 class GreedyEpsilon(object): def __init__(self, n_arms, epsilon, average_sample, initial_value, gt_initial, step_size=0): self.n_arms = n_arms self.epsilon = epsilon self.average_sample = average_sample self.initial_value = initial_value self.gt_initial = gt_initial self.step_size = step_size self.times = 0 def reset(self): self.q_star = np.zeros(self.n_arms) + self.gt_initial self.estimator = n.. 이전 1 다음