Digital garden
검색
1건의 항목
Policy gradient의 목표는 기대 return J(\theta)를 최대화하는 것이다. log-derivative trick을 쓰면 gradient를 trajectory 분포 위의 기댓값 형태로 바꿀 수 있다. baseline과...