LLM) 모델에서 사용하는 GPU 계산하는 방법
·
관심있는 주제/LLM
LLM에서 GPU를 얼마나 사용하는지 궁금할 때가 있다. LLM 학습할 때는 크게 1.모델 2. 옵티마이저 3. 그래디언트 4. 활성함수의 합으로 이루어져 있다고 하고 LLM 평가할 때는 1. 모델 만을 보통 고려한다. 그 다음에 고려하는 부분은 모델에서 precision을 얼마나 할 지에 따라서 GPU 양의 차이가 크다. 밑에 영상처럼 파라미터를 줄이기 위해서 Quantization 하는 경우도 많다. 사이트 공유 이때 어떻게 계산하는지 알려주는 사이트를 찾아서 공유한다. 모델을 선택하고, 입력과 출력 등 설정을 하게 되면 각각 gpu를 얼마나 쓰는 지 알려주는 앱이다. HTML 삽입 미리보기할 수 없는 소스 참고 https://huggingface.co/blog/hf-bitsandbytes-integ..
LLM) Training 방법중 ORPO(Monolithic Preference Optimization without Reference Model) 알아보기
·
관심있는 주제/LLM
LLM 학습 방법을 찾는 중에, SFT, DPO, RLHF는 알고 있었는데, ORPO라는 것을 찾게 되었고, 잠깐 봤을 때, 방법론이 효율적인 것 같아서 정리해보고자 한다. 최근에 LLM 모델에서 좀 더 사람의 선호에 맞게 학습하는 방법들이 등장하고 있습니다. 기존에 RLHF, DPO, IPO, KTO 같은 방식이 생기고 있고, 기존에 RLHF방식보다는 저렴하게 할 수 있게 있습니다. DPO, IPO 역시 기존에 RLHF 방식보다는 저렴하지만, 결국 이것도 2개의 모델이 필요합니다. 1개의 모델은 Supervised Fine-Tuning(SFT) 단계를 위한 모델 즉, 우리가 원하는 TASK에 대답을 할 수 있도록 훈련하는 것 다른 모델은 SFT 모델을 참고하여 사람이 좀 더 선호하는 모델을 만드는 것이..
LLM) Mixed-Precision 개념 및 학습 방법 알아보기
·
관심있는 주제/LLM
LLM 같은 거대 모델을 학습할 때는 학습 속도를 어떻게 빠르게 할지가 중요합니다. 하지만 학습을 하다 보면 필요한 리소스 역시 증가해서, 이러한 리소스를 줄이면서 학습하는 것에 대한 연구들이 진행되고 있습니다. 이번에는 실제로 이러한 방법을 많이 사용하는 것 같아서 어떻게 동작하는 지 알아보고자 내용을 정리하려고 합니다. 그중에서 나온 게 바로 더 낮은 정밀도를 사용하는 방법에 대한 것이 나왔습니다. 일단 기존에 우리가 NN 모델을 학습할 때는 전통적으로 IEEE 단정밀도 형식(FP32)을 사용했습니다. 여기서는 FP32를 다 쓰는 게 아니라 혼합된 정밀도(Mixed Precision)를 쓰면 더 효율적이라는 겁니다 즉 FP32 와 FP16을 같이 써서 극복하자입니다. Sign : 부호 / Expone..
LLM) PEFT 학습 방법론 알아보기
·
관심있는 주제/LLM
PEFT 방법론에 대해서 다양한 것 같아서 정리해보고자 합니다. 다음은 PyTorch, Transformers 및 UnSloth를 사용한 PEFT를 사용한 세부 조정 접근 방식에 대한 개요를 포함한 글입니다. 소개 이 글은 대형 언어 모델(Large Language Models, LLMs)을 세세하게 조정하는 중요성과 그 과정에 대한 탐색을 다룹니다. GPT-3, Llama 2 및 Mixtral과 같은 사전 훈련된 모델을 특정 응용 분야에 맞게 조정하는 방법과 그 세부 사항을 소개합니다. 감정 분석, 명명된 개체 인식, 언어 번역과 같은 다양한 응용 분야에 대한 모델의 맞춤화 가능성을 탐구합니다. 적절한 사전 훈련된 모델 선택, 과제별 목표 설정, 데이터셋 구성 및 하이퍼파라미터 조정의 중요성을 강조하며..
REACT 와 NEXTJS 정의 및 비교 그리고 프로젝트 목적별 적합 여부
·
관심있는 주제
NextJS는 리액트를 위해 만든 오픈소스 자바스크립트 웹 프레임워크입니다. 많은 사람들이 NextJS를 사용하고 있고, 여러가지 장점이 있어서 사용하긴 하지만 여전히 React로도 많이 개발을 하는 것 같습니다. 그래서 NextJS가 좋으면 다 그걸 쓰면 되는데, React로도 개발할까가 궁금했고 그러한 내용을 한번 정리해보고자 합니다. NextJS란? Vercel에서 만든 Next.js는 오픈 소스이며 JavaScript 프레임워크로, React를 사용하여 빠르고 사용자 친화적인 웹 애플리케이션 및 정적 웹 사이트를 개발할 수 있습니다. 실제로, 이는 Node.js와 Babel을 기반으로 하며, React와 통합하여 Single Page Applications를 개발할 수 있습니다. 이를 통해 서버 ..
[GPTs] Prompt 274개! - (주기적으로 업데이트)
·
관심있는 주제/ChatGPT Prompt
GPT Prompt Search No Function Contributor Reference
ChatGPT Prompt(프롬프트) 잘 작성하는 방법)
·
관심있는 주제/ChatGPT Prompt
ChatGPT 프롬프트란? ChatGPT 프롬프트는 응답을 얻기 위해 인공지능(AI) 인터페이스에 입력하는 지침이나 쿼리입니다. 프롬프트는 응답을 유도하기 위한 키워드와 문구로 구성됩니다. ChatGPT에 질문이나 지침을 제공하면 마치 대화하는 것처럼 응답합니다. 아래 그림처럼 응답을 기반으로 하는 다른 쿼리나 지시문을 제공하여 대화를 계속할 수 있습니다. How to Write Prompts for ChatGPT (& Expert Tips) 프롬프트는 ChatGPT의 출력을 지시합니다. 따라서 도움이 되는 답변을 원한다면 유용한 문구와 지침을 제공하는 방법을 알아야 합니다. 이를 프롬프트 엔지니어링이라고 합니다. ChatGPT에 제공하는 메시지가 대화를 형성합니다. 프롬프트가 좋을수록 응답도 좋아집니다..
[LangChain] Prompt Template 사용 방법 정리
·
관심있는 주제/ChatGPT Prompt
langchain에서 사용하는 prompt에 대해서 정리해보고자 합니다. 이런 식으로 굉장히 다양한 promptTemplate가 있기 때문에 정리하고자 한다. 모든 것을 커버할 수는 없지만 최대한 자주 사용할 것 같은 것들을 기준으로 정리해보고자 한다. 버전 0.1.1 버전을 기준으로 정리해서, 추후에 이 template은 의미가 없어질 수 있지만 큰 개념으로 이해하면 좋을 것 같다. 프롬프트 함수 정리 아래에는 langchain에서 사용하는 prompt를 정리한 내역을 보면 다음과 같다. 전체 from langchain.prompts import ( PromptTemplate, PipelinePromptTemplate, MessagesPlaceholder, ChatPromptTemplate, Human..
LLM) Milvus 라는 Vector Database 알아보기
·
관심있는 주제/LLM
우선 Milvus를 알아보기 전에 Vector Database에 대해서 간단히 알아보고자 한다. Vector Database "벡터 데이터베이스"는 머신 러닝 모델에서 나온 임베딩 기술의 능력을 활용하여 대규모의 비구조화 데이터 집합을 저장, 인덱싱, 검색하기 위한 관리형이면서 간단한 솔루션입니다. 이것은 대용량 및 복잡한 데이터 집합에서 정보를 효율적으로 구성하고 검색할 수 있게 해주며, 데이터 포인트를 고차원 공간의 벡터로 표현하여 유사성 검색 및 다양한 데이터 기반 작업을 수행하기가 더 쉬워집니다. 벡터 데이터베이스는 특히 자연어 처리, 이미지 인식, 추천 시스템 등과 같은 응용 분야에서 유용하며 데이터 패턴을 이해하고 비교하는 것이 중요한 경우에 활용됩니다. 여기서 또 이해를 하기 위해선 임베딩이..
LLM) BloombergGPT 논문 읽기
·
관심있는 주제/LLM
LLM 모델 중에서 파인 튜닝을 이용해 개발한 BloombergGPT에 대해서 알아보고자 합니다. 해당 논문을 통해, 어떻게 데이터 셋을 구성하고, 훈련하고 평가하는 지를 알아보고자 합니다. 개요 NLP(Natural Language Processing)의 금융 기술 분야에서의 활용은 다양하고 복잡하며, 감정 분석, 명명된 엔터티 인식부터 질문 응답까지 다양한 응용 분야에 걸쳐 있습니다. 그러나 금융 분야를 위한 특화된 대형 언어 모델 (LLM)은 학문 문헌에서 보고된 바가 없습니다. 이 연구에서는 금융 데이터 범위에서 훈련된 500억 개 파라미터 언어 모델인 BloombergGPT를 제시합니다. 저자는 Bloomberg의 다양한 데이터 소스를 기반으로 3630억 토큰 데이터셋을 구축했으며, 이는 아마도..
LLM) Large Language Model 기본 개념 알아보기
·
관심있는 주제/LLM
본 글에서는 요즘 가장 핫 한 LLM에 대해서 알아보고자 한다. LLM이란? LLM은 "Large Language Model"의 약자로, 대규모 언어 모델을 의미합니다. LLM은 빅 데이터 시대에 등장한 수억 개의 매개변수를 가진 거대한 언어 모델로, 대량의 텍스트 데이터에 대해 학습됩니다. 이러한 모델은 주어진 문맥 정보를 바탕으로 텍스트를 생성하거나 이해하는 데 사용됩니다. LLM의 주요 특징 대량의 데이터 학습: LLM은 인터넷의 텍스트, 책, 기사 등 다양한 소스에서 수십 또는 수백 기가바이트의 텍스트 데이터에 대해 학습됩니다. 수억 개의 매개변수: LLM은 수억 또는 그 이상의 매개변수를 포함할 수 있으며, 이로 인해 더 복잡한 패턴과 구조를 학습할 수 있습니다. 다양한 태스크 수행: LLM은 ..
pandas-ai 라이브러리의 prompt를 활용하여, API KEY 없이 결과 얻는 방법
·
관심있는 주제/ChatGPT Prompt
https://github.com/gventuri/pandas-ai GitHub - gventuri/pandas-ai: Pandas AI is a Python library that integrates generative artificial intelligence capabilities into Pandas AI is a Python library that integrates generative artificial intelligence capabilities into Pandas, making dataframes conversational - GitHub - gventuri/pandas-ai: Pandas AI is a Python libr... github.com pandasai라고 하는 라이브러리가..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다