설명(7)
-
LLM) Mixed-Precision 개념 및 학습 방법 알아보기
LLM 같은 거대 모델을 학습할 때는 학습 속도를 어떻게 빠르게 할지가 중요합니다. 하지만 학습을 하다 보면 필요한 리소스 역시 증가해서, 이러한 리소스를 줄이면서 학습하는 것에 대한 연구들이 진행되고 있습니다. 이번에는 실제로 이러한 방법을 많이 사용하는 것 같아서 어떻게 동작하는 지 알아보고자 내용을 정리하려고 합니다. 그중에서 나온 게 바로 더 낮은 정밀도를 사용하는 방법에 대한 것이 나왔습니다. 일단 기존에 우리가 NN 모델을 학습할 때는 전통적으로 IEEE 단정밀도 형식(FP32)을 사용했습니다. 여기서는 FP32를 다 쓰는 게 아니라 혼합된 정밀도(Mixed Precision)를 쓰면 더 효율적이라는 겁니다 즉 FP32 와 FP16을 같이 써서 극복하자입니다. Sign : 부호 / Expone..
2024.04.13 -
LLM) Large Language Model 기본 개념 알아보기
본 글에서는 요즘 가장 핫 한 LLM에 대해서 알아보고자 한다. LLM이란? LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. LLM은 빅 데이터 시대에 등장한 수억 개의 매개변수를 가진 거대한 언어 모델로, 대량의 텍스트 데이터에 대해 학습됩니다. 이러한 모델은 주어진 문맥 정보를 바탕으로 텍스트를 생성하거나 이해하는 데 사용됩니다. LLM의 주요 특징 대량의 데이터 학습: LLM은 인터넷의 텍스트, 책, 기사 등 다양한 소스에서 수십 또는 수백 기가바이트의 텍스트 데이터에 대해 학습됩니다. 수억 개의 매개변수: LLM은 수억 또는 그 이상의 매개변수를 포함할 수 있으며, 이로 인해 더 복잡한 패턴과 구조를 학습할 수 있습니다. 다양한 태스크 수행: LLM은 ..
2023.10.28 -
[Pyro] Application - 4. Gaussian Process Latent Variable Model(GPLVM)
가우스 프로세스 잠재 변수 모델(GPLVM)은 (잠재적으로) 고차원 데이터의 저차원 표현을 학습하기 위해 가우스 프로세스를 사용하는 차원 감소 방법입니다. 입력과 출력이 제공되는 가우스 프로세스 회귀의 일반적인 설정에서 커널을 선택하고 에서 저차원 매핑을 가장 잘 설명하는 하이퍼 매개 변수를 학습합니다. GPLVM에서 X는 주어지지 않고 y만 주어집니다. 그래서 우리는 커널 하이퍼 파라미터와 함께 배워야 합니다. X에 대해서 최대 가능성 추론을 하지 않습니다. 대신, Pyro는 가우시안 사전 분포를 설정을 하고 대략적인 (가우스) 사후 평균(q(X|y)과 분산을 학습합니다. 이 글에서는 pyro.contrib.gp 모듈을 사용하여 이 작업을 수행하는 방법을 보여 줍니다. 참고 자료 2022.08.21 -..
2022.08.29 -
정의 및 비교) Data Warehouse, Data Base, Data Lake, Data Mart
다른 내용을 정리하다가 헷갈려서 따로 정리를 해보고자 한다. 주로 DW와 다른 것들을 비교한 자료들을 토대로 정리했다. 필자가 전문적으로 배운 것이 아니라 표현을 하는 데 있어서 부족함이 있을 수 있어서, 부족한 부분 댓글로 상세하게 작성 부탁드린다. :) Data Warehouse(DW) ODS 데이터들을 활용이 가능한 형태로 만들어 저장하고 관리, 분석할 수 있는 시스템 데이터 웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리 데이터는 트랜잭션 시스템, 관계형 데이터베이스 및 기타 소스로부터 보통 정기적으로 데이터 웨어하우스로 들어감 DW의 아키텍처 그림은 아래와 같다고 한다. 비즈니스 애널리스트, 데이터 엔지니어, 데이터 사이언티스트 및 의사 결정권자는..
2022.07.26 -
금융 IT 용어 정리
혹시 모르는 단어가 있다면 아래 홈페이지에서 찾아보길 추천한다. https://newsroom.koscom.co.kr/glossary 금융IT 용어사전 | 코스콤 뉴스룸 newsroom.koscom.co.kr 금융 IT 용어 정리를 다른 사람들의 자료를 가지고 와서 정리하고자 한다. 여전히 여러 개의 계와 데이터 흐름이 아직 잘 와닿지 않는다 정보계에서 먼저 작업을 해서 dw에 넣는 것 인지? 아니면 계정계에서 한 것인지? 고유업무 : 수신, 여신, 외환 부수업무 : 고유업무 + 동반되는 업무 (보증, 어음 인수 등) 겸영업무 : 영업을 겸한다는 뜻, 채권회수(추심)를 대행하거나 기업 M&A를 중개하는 등 본업과는 거리가 멀지만 자본과 관련된 일을 함 많이 나오는 그림이고 크게 계는 1. 계정계 2. 정..
2022.07.21 -
RL) DuelingDQN 알아보기
기존의 Double DQN이라는 것이 있었는데, 이 논문에선 advantage function을 도입하여 성능을 더 향상한 논문이라 할 수 있습니다. 가장 큰 특징 Dueling DQN 알고리즘은 Q-VALUE을 값 함수 V (s)와 이점 함수 A (s, a)의 두 부분으로 나눕니다. 여기서는 advatange function과 value function이 동시에 존재한다해서 dueling이라고 한다고 합니다. 직관적으로, dueling 아키텍처는 각 state에 대한 각 작업의 효과를 학습할 필요 없이 어떤 상태가 가치 있는지(또는 가치가 없는지를) 학습할 수 있습니다. 이는 특히 해당 action이 environment에 관련되는 어떤 방식으로도 영향을 미치지 않는 상태에서 유용합니다. 배경 논문의 ..
2021.06.03 -
[Pytorch] gather 함수 설명 (특정 인덱스만 추출하기)
우리가 자주 쓰는 방식은 위와 같은 방식이지만, 실제로 우리가 각각에 대해서 특정 인덱스를 뽑고자 하는 경우가 있다. 최근에 동료 연구원이 이것에 대해서 질문을 하였을 때, 즉각적으로 생각이 안 나서, 시간을 소비하였고, 유용하면서도 헷갈리는 것 같아 정리해보려고 한다. torch.gather(input, dim, index, out=None, sparse_grad=False) → TensorGathers values along an axis specified by dim. 위와 같이 특정 인덱스를 뽑으려고 하면 처음 접근 방식은 loop를 생각하지만, torch에서는 gather 함수를 제공하여 쉽게 indexing을 할 수 있다. 그리고 loop 방식은 차원이 커질 수록 일반화된 방식으로 처리하기가 ..
2021.03.17