1건의 항목

개념 노트

Policy Gradient를 처음부터 이해하기

Policy gradient의 목표는 기대 return J(\theta)를 최대화하는 것이다. log-derivative trick을 쓰면 gradient를 trajectory 분포 위의 기댓값 형태로 바꿀 수 있다. baseline과...