관심있는 주제(236)
-
waymo open dataset
Perception Dataset (released Aug 2019, last updated March 2020) 1,950 segments of 20s each, collected at 10Hz (390,000 frames) in diverse geographies and conditions Sensor data 1 mid-range lidar 4 short-range lidars 5 cameras (front and sides) Synchronized lidar and camera data Lidar to camera projections Sensor calibrations and vehicle poses Labeled data Labels for 4 object classes - Vehicles, ..
2021.03.11 -
Google’s RFA: Approximating Softmax Attention Mechanism in Transformers 간단하게 알아보기
What is Attention Mechanism & Why is RFA better than Softmax? 이 글에서는 Attention Mechanism은 무엇이며, softmax보다 저자가 주장한 RFA가 더 나은지 알아보는 글입니다. RANDOM FEATURE ATTENTION paper openreview.net/pdf?id=QtTKTdVrFBB 구글은 최근 새로운 방법을 출시했습니다.(Random Feature Attention) RFA란 기존보다 유사하거나 더 나은 성능을 달성하기 위해 transformer의 softmax주의 메커니즘을 시간 및 공간 복잡성의 상당한 개선한 것입니다. 이 블로그 글에서는, transformer의 배경을 알아보고, attention mechanism이 무엇인..
2021.03.01 -
Why You Should Always Use Feature Embeddings With Structured Datasets - 리뷰
정형 데이터에서 뉴럴 네트워크를 훈련시킬 때, 피처 임베딩은 중요한 것 중에 하나다. 이 기술은 NLP이외에는 좀 처럼 가르쳐 주지 않는다. 결과적으로 구조화 된 데이터 세트에서는 거의 완전히 무시됩니다. 그러나 이 단계를 스킵하는 것은 모델 정확성을 떨어트립니다. 이로 인해 XGBoost와 같은 그래디언트 강화 방법이 구조화 된 데이터 세트 문제에 대해 항상 우월하다는 잘못된 이해가 생겼습니다. 향상된 신경망을 임베딩하는 것은 종종 그래디언트 부스트 방법을 능가 할뿐만 아니라 이러한 임베딩이 추출 될 때 두 모델링 방법 모두 주요 개선 사항을 볼 수 있습니다. 이 기사는 다음 질문에 답할 것입니다. What are feature embeddings? How are they used with struct..
2021.02.28 -
[강화학습] Package MultiAgent Environments [SIMPLE] 자료 링크
Selfplay In MultiPlayer Environments github.com/davidADSP/SIMPLE davidADSP/SIMPLE Selfplay In MultiPlayer Environments. Contribute to davidADSP/SIMPLE development by creating an account on GitHub. github.com 나중에 한 번 뜯어봐서 배울 수 있는 점은 배워야겠다. About The Project Getting Started Prerequisites Installation Tutorial Quickstart Tensorboard Custom Environments Parallelisation Roadmap Contributing License C..
2021.02.22 -
[Review] CURL: Contrastive Unsupervised Representations for Reinforcement Learning
논문 리뷰) CURL : Contrastive Unsupervised Representations for Reinforcement Learning. Abstract CURL이라는 것은 강화학습에서 Contrastive를 사용한 비지도 방법을 의미한다. CURL은 constrastive learning을 사용하여 원래의 픽셀로부터 고차원의 피처를 뽑아내고, 추출된 피처로 off-policy control를 수행한다. CURL 은 복잡한 테스크(DeepMind Control Suite and Atari Games)에서 기존의 pixel based를 사용한 방법론(model-based , model-free)을 뛰어넘은 성능을 보였다고 한다. (1.9, 1.2배) Introduction 강화학습은 고차원의 데..
2021.02.13 -
Bellman Equation (Value Function, Q Function) 써보기
다시 한번 정리해보기 stats.stackexchange.com/questions/243384/deriving-bellmans-equation-in-reinforcement-learning
2021.01.16 -
[RL ENV] 강화학습 자동차 환경
자율주행을 강화학습으로 해보고 싶은 사람들에게 유용한 환경일 것 같아서 공유합니다. https://decisionforce.github.io/pgdrive/ github.com/decisionforce/pgdrive/releases/download/pgdrive-0.1.1/BIG.mp4 papercodearxiv.org/pdf/2012.13681.pdfgithub.com/decisionforce/pgdriveimport pgdrive # Import this package to register the environment! import gym env = gym.make("PGDrive-v0", config=dict(use_render=True)) # env = pgdrive.PGDriveEnv(confi..
2021.01.05 -
[Research] Action Space 관련 자료 조사
www.lamda.nju.edu.cn/wanghan/pricai16.pdf arxiv.org/pdf/2004.00980.pdf Reddit에서 combined continuous and discrete action space 에 대해서 나온 글 www.reddit.com/r/MachineLearning/comments/c7tct4/d_reinforcement_learning_with_combined_continuous/ [D] Reinforcement learning with combined continuous and discrete action space? Hi, I'm working on a reinforcement learning project to teach an AI to play a video..
2021.01.03 -
[Review] Imitation Learning with Concurrent Actions in 3D Games
좋은 논문인지는 모르겠지만, 일단 아이디어만 가져오기 위해서 빠르게 읽어 보려고 한다. 저자는 multi-action policies을 사용하면 single action selection기술을 사용할 때 달성하기 어려운 복잡한 행동을 학습할 수 있습니다. 거의 대부분의 강화학습들이 큰 action space에서 Single Action Per Time step(SAPS) policy로 복잡한 환경과 상호작용하면서 에이전트를 훈련을 시키고 있다. 예를 들어, 비디오 게임에서 스트라이핑 하고 촬영하는 동안 앞으로 달리는 것은 SAPS 아키텍처를 사용할 때 달성할 수 없는 전략이라고 한다. 그래서 보통 이러한 문제를 풀 때는 Multiple Action Per Time step(MAPS)가 필요로 하게 되는데..
2021.01.03 -
Aleatory Overfitting vs. Epistemic Overfitting
첫 번째 에폭부터 트레이닝 로스는 감소하지만, 검증 로스는 올라가는 경우 어떻게 해야 할 까? 보통 이런 경우에는 일반화가 되지 않는 경우를 크게 2가지로 나눌 수 있다고 함. Aleatory Uncertainty 흔히 알고 있는 오버 피팅이라고 불리는 것은 aleatory uncertanity라는 현상이다. 즉, 노이즈 데이터로부터 발생되는 오버 피팅이다. 기존 생성 프로세스에다가 랜덤을 다음과 같이 추가할 수 있다. $$\tilde y = y+n$$ n은 noise 값으로 임의적인 확률분포를 따른다고 가정한다. 분명 실제 데이터에서는 랜덤 성이 발생하는 메커니즘은 더 복잡할 것이다. 오버 피팅의 영향을 설명하기 위해서, 기존에 생성 프로세스보다 더 고차원의 polynomial로 적합할 것이다. 여기서..
2020.12.24 -
[Review] POMO: Policy Optimization with Multiple Optimafor Reinforcement Learnin
빠르게 아이디어만 보는 걸로 combinatorial optimization의 문제를 풀기 위해서 강화 학습을 적용함. 조합 최적화에서 일반적으로 NP-hard(Nondeterministic polynomial (NP)) 즉 다항시간내에 풀 수 없는 문제에 적용한다고 한다. NP-Hard는 TSP문제와 같이 모든 경우의 수를 일일히 확인해보는 방법 이외에는 다항식처럼 답을 풀이할 수 없는 문제들을 말한다고 한다. (외판원 문제) 저자는 Policy Optimization with Multiple Optima(POMO)를 도입한다고 한다. 그래서 여기서는 TSP(Traveling salesman) , capacitated vehicle routing (CVRP), and 0-1 knapsack (KP).과..
2020.12.18 -
[RL] 로봇 관련 시뮬레이터 URL
github.com/Unity-Technologies/Unity-Robotics-Hub Unity-Technologies/Unity-Robotics-Hub Central repository for tools, tutorials, resources, and documentation for robotic simulation in Unity. - Unity-Technologies/Unity-Robotics-Hub github.com github.com/facebookresearch/pyrobot facebookresearch/pyrobot PyRobot: An Open Source Robotics Research Platform - facebookresearch/pyrobot github.com github...
2020.12.02