'A2C' 태그의 글 목록

도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 개인적으로 강화학습을 코드 볼 일이 있어서 보다가 표준화를 보게 되었다. 코드를 보다보니 Reward를 표준화하는 코드가 있어서 호기심이 들었다. 왜 Reward는 항상 양수로 되야 잘 되는거 아닌가 하면서 표준화를 하면 중심을 기준으로 어떤 것은 음수가 되고 어떤 것은 양수가 되면서 그만큼 Reward의 효과도 주는게 아닐까라고 생각을 했다. 그래서 찾아보니 몇가지 글이 있었다. 다른 분들도 참고하시길 바란다! a2c REWARD 표준화하는 이유 http://www.modulabs.co.kr/RL_library/4225 OpenRL - 강화학습 그리고 OpenAI - 4: CartPole with Policy Gradient..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

보안상의 이유로 AI 서비스를 직접 임베드할 수 없습니다.

새 창에서 열기

Gemini API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

OpenAI API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

Anthropic API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

VLLM 서버 URL

API 키 (비어있으면 "EMPTY" 사용)

모델 이름

URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다

AI 도구

AI 도구 사이드 패널

티스토리툴바