Paper) Neural Combinatorial Optimization with Reinforcement Learning - Not Finished...
목차 Abstract goal TSP 문제를 품 우리는 순회 판매원 문제(TSP)에 초점을 맞추고 일련의 도시 좌표가 주어진다면 다른 도시 순열에 대한 분포를 예측하는 반복 신경망을 훈련시킨다. negative tour length를 보상 신호로 사용하여 정책 기울기 방법을 사용하여 현재 신경망의 매개 변수를 최적화한다. 우리는 일련의 훈련에서 네트워크 매개 변수를 학습하는 것과 개별 시험 그래프에서 학습하는 것을 비교한다. 계산 비용에도 불구하고, 많은 엔지니어링 및 휴리스틱 설계 없이, 신경 조합 최적화는 최대 100개의 노드가 있는 2D 유클리드 그래프에서 최적의 결과에 가까운 결과를 달성한다. 또 다른 NP-난이도 문제인 KnapSack에 적용하면, 동일한 방법이 최대 200개의 항목이 있는 인스..
2021.09.14