'관심있는 주제' 카테고리의 글 목록 (6 Page)

RL) Reinforcement Learning for Portfolio Management - 논문

목차 Abstract 50년 동안 nonstationarity, poor predictive bahaviour, weak historical coupling과 같은 금융 시장의 행동 방식을 모델링하는 것에 대해 과학계에서는 관심을 끌었고, 지속적인 노력을 하고 있다. 전통적으로 신호 처리(signal processing) 및 제어 이론(Contro Theory)의 맥락에서 dynamic system의 수학적 공식은 금융 엔지니어링의 핵심이였다. 보다 최근에는 강화 학습 개념을 통해 순차적 의사결정의 진보는 순차적 포트폴리오 최적화 전략의 핵심 요소인 다단계 확률적 최적화(multistage stochastic optimization)의 개발에 있어 중요한 역할을 해왔다. 본 논문에서는 전통적인 시스템 인..

2021.07.19

목차 참고: 추천 시스템의 기본 개념, 추천 시스템의 유형, 경사로 강하, 선형 회귀, 매트릭스 인수화 등과 같은 ML의 기본 개념에 익숙하다고 가정합니다. 2009년 9월 21일, Netflix Competition은 사용자나 영화에 대한 다른 정보 없이 이전 등급을 기준으로 영화에 대한 사용자의 등급을 예측하는 최고의 협업 필터링 알고리즘을 찾기 위해 조직되었습니다. Bell Kor의 Practical Chaos가 이 대회에서 우승하여 백만 달러를 받았다. 그들이 생각해낸 접근법은 잠재 매트릭스 인수분해법(Latent Matrix Factorization)이었습니다. 본 글에서는 Latent Matrix Factorzation에 대한 개념을 이해해보고자 합니다. Latent Matrix Factori..

2021.07.18

Paper) Manifold Mixup: Better Representations by Interpolating Hidden States 리뷰

다른 분과 논의 중에, 내가 고민하고 있는 것을 다른 관점에서 풀어내고 있는 논문이 있다고 하셔서 보게 된 논문(감사합니다 :)) Title journal 출간 년도 2018년도 그룹 Abstract 딥러닝이 트레인은 잘되지만, 약간 다른 테스트에서는 부정확하지만 확신 있는 예측을 제공함. distribution shifts, outliers, and adversarial examples. Manifod Mixup을 제시함 신경 네트워크가 hidden representation의 interpolations(보간버)에 대해 덜 자신 있게 예측하도록 장려하는 간단한 규칙화 장치 → semantic interpolations을 추가 데이터로 사용하여, 여러 표현 수준에서 보다 부드러운 decision boun..

2021.07.11

GNN) GCN Layer Implementation

GCN는 Convolutional Aggregator를 사용하는 방식으로 위치는 다음과 같다. 해당 그래프가 있다면, 해당 그래프에서 GCN에서 필요한 정보는 다음과 같이 크게 3개가 될 수 있다. Adjancy matrix(A) , Degree Matrix (D) ,Feature Vector(X) AX를 구할 때 다음과 같이 구할 수가 있게 되고, 여기서 발생되는 문제점들은 아래에서 소개해드리겠습니다. 아래와 같은 그래프가 있다고 하였을 때, GCN을 적용해보고자 한다. 해당 테스크는 노드 분류를 하는 것이지만, 여기서는 GCN LAYER을 구현하는 것까지만 진행하고자 한다. import numpy as np from networkx.algorithms.community.modularity_max im..

2021.07.03

GNN) GAT Layer Implementation

GAT는 Attention Aggregator를 사용하는 방식으로 위치는 다음과 같다. GAT Layer 구현한 것을 따라 시행해봤다. Equation (1) is a linear transformation of the lower layer embedding $h_i^{(l)}$ and $W^{(l)}$ is its learnable weight matrix. This transformation is useful to achieve a sufficient expressive power to transform input features (in our example one-hot vectors) into high-level and dense features. Equation (2) computes a pai..

2021.07.03

Paper) Multi-Agent Game Abstraction via Graph Attention Neural Network

간단하게 확인해보기 MultiAgent RL에서 에이전트 수가 많고 복잡한 게임 관계로 인해 POLICY LEARNING에 많은 어려움을 겪는다고 한다. 그래서 학습 과정을 단순화하는 것도 MARL에서는 중요한 연구 대상이다. 대부분 MARL에서 지역적으로 에이전트 간의 상호작용이 발생하는 경우가 많아서, 다른 모든 에이전트에 대한 것들을 다 조정할 필요는 없습니다. 기존 방법에서는 미리 정의된 규칙을 사용하여 에이전트 간의 상호 작용 관계를 확보하려고 합니다. 그러나 에이전트 간의 복잡한 상호작용을 규칙으로 변환하기가 어렵기 때문에 대규모 환경에서는 방법을 직접 사용할 수 없습니다. 그래서 본 논문에서는 COMPLETE GRAPH로 에이전트 간의 관계를 모델링하고, 두 에이전트 간의 상호 작용 여부와 ..

2021.07.03

GNN-자료 정리

GNN 자료를 천천히 정리해보고 공부하려고 함. 주기적으로 업데이트 하려고 함. 내용 링크 업데이트 시기 자료 시기 CS224W http://web.stanford.edu/class/cs224w/ 21/07/03 CS224W-YOUTUBE https://www.youtube.com/watch?v=JAB_plj2rbA&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=1&ab_channel=stanfordonline 21/07/03 Intro to graph neural networks (ML Tech Talks)(Tensorflow Youtube)(직관적) https://www.youtube.com/watch?v=8owQBFAHw7E&t=898s&ab_channel=Ten..

2021.07.03

Paper) Learning to Simulate Complex Physics with Graph Networks (ICML 2020)

deepmind에서 Physics까지 학습하는 논문을 2020년에 냈다 ㄷㄷㄷ 아직 읽어보지는 안았지만, 사실 읽어도 잘 이해 못 할 것 같다. 시간을 두고 확인을 해봐야 할 것 같다. 특히 강화학습에서 이 논문은 참 유용할 것 같다. 왜냐하면 강화 학습을 하기 위해서는 결국 환경이라는 것을 만들어야 하고, 실제 환경과 유사하기 ai가 작동되게 하려면, 에이전트가 실제 환경에서 도는 것처럼 유사한 시뮬레이터를 만들어야 한다. 여기서 가장 장애물로 생각하는 것은 실제 physics를 어떻게 학습해서 ai 모델에게 제공할지가 고민이다. 실제로 physics를 바로 파이썬으로 제공하는 경우는 상관이 없지만, 아마 대부분은 제공하지 않을 텐데, 이것까지 ai로 학습할 수 있다고 하니, 읽어볼 리스트에 넣어 놓고..

2021.06.22

Paper) PettingZoo (MARL Environment) 논문 읽어보기

일단 테스를 해봤을 때 잘 작동하는 것을 확인하였고, 궁금해서 더 찾아보니, 논문까지도 나와있었다. 그래서 왜 이런 게 논문까지 나왔을까 보니, 여러 환경들을 비교해보고 적합한 Environment라는 것을 주장하기 위해 논문이 나온 것 같다. 그래서 앞으로 MARL 환경 구축시에 참고할 수 있을 것 같아 빠르게 읽어보고자 한다. 본 논문에서는 PettingZoo 라이브러리와 함께 제공되는 에이전트 환경 사이클("AEC") 게임 모델을 소개한다. PettingZoo는 범용적이고 우아한 Python API를 가진 다양한 다중 에이전트 환경들의 라이브러리이다. PettingZoo는 Multi-에이전트 강화 학습("MARL")에 대한 연구를 가속화하는 것을 목표로 개발되었으며, 이는 개방형과 유사한 방식으로 ..

2021.06.19

Paper) Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning 확인해보기

21년 6월 4일날 올라온 것으로 아직 억셉은 안됬지만,,, 우연히 찾게 되어 남겨 놓는다. 본 제안은 기존에 모델이 매개 변수와 단일 입력의 특징에 따라서만 예측을 한다는, 지도학습의 가장 기초가 되는 일반적인 가정에 도전한다고 한다. 이를 위해, 우리는 한 번에 하나의 데이터 지점을 처리하는 대신 전체 데이터 세트를 입력하는 범용 딥 러닝 아키텍처를 도입을 저자는 주장했다. 저자는 데이터 포인트간에 명시적으로 관계를 알 수 있게 self attention을 도입했다고 하고, 특히 본 논문에서는 tabular data에서 성능을 보여줬다고 한다. 일단 저자도 좀 확인해보고, 가정 자체에 도전을 하는 것도 신기해서 기록해둔다... paperwithcode https://paperswithcode.com/..

2021.06.11

Paper) Decision Transformer: Reinforcement Learning via Sequence Modeling

트랜스포머에 강화학습 적용하는 것 관련 논문인 듯 확인할 리스트에 추가 Abstract 시퀀스 모델링 문제로 강화 학습(RL)을 추상화하는 프레임워크를 소개. 트랜스포머 아키텍처의 단순성과 확장성, 그리고 GPT-x 및 BERT와 같은 언어 모델링의 관련 발전을 이용 가능. 특히, 우리는 RL의 문제를 조건부 시퀀스 모델링으로 캐스팅하는 아키텍처인 decision transformer를 제시 value function을 fit 또는 policy gradient를 계산하는 RL에 대한 이전 접근법과 달리, decision transformer는 인과적으로 마스크된 transforemr를 활용하여 최적의 동작을 출력 가능 원하는 수익(보상), 과거 상태 및 조치에 대한 자기 회귀 모델(autoregressi..

2021.06.08

RL) DuelingDQN 알아보기

기존의 Double DQN이라는 것이 있었는데, 이 논문에선 advantage function을 도입하여 성능을 더 향상한 논문이라 할 수 있습니다. 가장 큰 특징 Dueling DQN 알고리즘은 Q-VALUE을 값 함수 V (s)와 이점 함수 A (s, a)의 두 부분으로 나눕니다. 여기서는 advatange function과 value function이 동시에 존재한다해서 dueling이라고 한다고 합니다. 직관적으로, dueling 아키텍처는 각 state에 대한 각 작업의 효과를 학습할 필요 없이 어떤 상태가 가치 있는지(또는 가치가 없는지를) 학습할 수 있습니다. 이는 특히 해당 action이 environment에 관련되는 어떤 방식으로도 영향을 미치지 않는 상태에서 유용합니다. 배경 논문의 ..

2021.06.03

All I Need Is Data.

All I Need Is Data.

태그

최근글

댓글

공지사항

아카이브

관심있는 주제(225)

티스토리툴바