LLM(14)
-
LangChain Products 알아보기 (LangChain, LangGraph, LangSmith, LangServe)
LangChain 제품들 요약(LangChain, LangGraph, LangSmith, LangServe) LangChain 제품과 각각의 주요 내용을 정리하면 다음과 같습니다:LangChain: 대형 언어 모델(LLM)을 활용한 애플리케이션 개발 프레임워크입니다.개발: 오픈소스 구성 요소와 LangGraph를 사용하여 상태 유지 에이전트를 구축합니다.생산화: LangSmith를 사용하여 체인을 검사, 모니터링, 평가하고 최적화합니다.배포: LangGraph Cloud를 통해 생산 준비가 된 API 및 Assistant로 변환합니다.LangChain의 구성 요소:langchain-core: 기본 추상화 및 LangChain 표현 언어.langchain-community: 서드파티 통합. (https:/..
2024.08.07 -
LLM) LLAVA 13b로 caption(설명) 또는 table 텍스트 데이터 생성해보기
llava라는 모델이 나와서 이미지 데이터만으로 테이블을 만들거나 caption을 생성한다는 것이 매력적인 것 같아 실험을 해봅니다. 자원이 없다 보니 개인 노트북에서 cpu로 돌리면서 결과를 하나하나 얻다 보니, 매우 오래 기다렸지만, 나름 유의미한 것 같아 공유드립니다. 아시다시피 한국 사람이다보니, 영어의 결과보다는 한국어로 결과를 얻고 싶었고, llava는 아무래도 영어를 주력 언어로 학습하다 보니, 학습을 시켜 아하나?라는 생각이 들었습니다. 하지만 그렇게 자원도 학습할 데이터도 없다 보니, 현재는 불가능하다 생각이 들었습니다. 그리고 번역기 성능이 좋다면, 오픈된 도메인 환경에서는 크게 문제 되지 않을 수도 있다는 생각이 들어서 deep_translator를 사용하여 번역하여 한국어로 결과를 ..
2024.07.30 -
논문 정리) Searching for Best Practices in Retrieval-Augmented Generation
SNS에서 요약된 내용과 이미지를 보고, 잘 정리가 되어있을 것 같아 정리해 보기로 하였습니다.이 논문을 통해 현재 최신 RAG는 어떻게 하는 지 알아보고자 합니다.논문 요약 RAG의 효과성: 최신 정보를 통합하고, 오류를 줄이며, 특히 전문 분야에서 답변의 질을 높이는 데 효과적입니다.현재 문제점: 많은 RAG 접근법이 복잡한 구현과 긴 응답 시간 문제를 가지고 있습니다.연구 목적: 다양한 RAG 방법과 조합을 조사하여 성능과 효율성을 균형 있게 유지하는 최적의 RAG 방식을 찾는 것입니다.멀티모달 검색: 시각적 입력에 대한 질문 답변 능력을 크게 향상시키고, “검색을 통한 생성” 전략을 통해 멀티모달 콘텐츠 생성을 가속화할 수 있습니다.도입부RAG란?RAG는 컴퓨터가 질문에 답할 때, 최신 정보를 찾..
2024.07.05 -
LLM) HuggingFace 에 사용하는 Tokenizer 의 결과 비교하는 Streamlit APP
최근 인공지능 분야에서 언어 모델의 발전은 눈부십니다. 이러한 모델들은 텍스트를 처리하기 위해 고유한 방식으로 단어를 토큰화하는 토크나이저를 사용합니다. 본 글에서는 Python의 인기 라이브러리인 Streamlit을 사용하여 여러 LLM 토크나이저를 비교하는 웹 애플리케이션을 만들어서 배포했습니다.이 앱은 Hugging Face의 transformers 라이브러리를 통해 다양한 토크나이저를 로드하고, 사용자가 입력한 텍스트에 대해 토큰화를 수행합니다. 사용자는 웹 인터페이스를 통해 원하는 토크나이저를 선택하고, 토크나이저의 세부 정보 및 토큰화된 결과를 비교할 수 있습니다. Streamlit 앱 (링크)- 아래에 임베디된 앱이 보이지 않으면 위의 링크를 클릭해서 활성화 부탁드립니다 :)Toggle St..
2024.06.01 -
LLM) 논문 내용 정리 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
최근에 LLAMA3에 이어서 아주 핫한 Phi-3에 대해서 마이크로소프트가 작성한 논문이 있어 공유드립니다. 최근 인공지능 연구의 한계를 극복하고자 전 세계적으로 큰 규모의 언어 모델을 개발하는 노력이 지속되고 있습니다. 이러한 대형 모델은 놀라운 성능을 보여주지만, 그 크기 때문에 일반 사용자가 접근하기에는 많은 제약이 따릅니다. 하지만, Microsoft의 최신 연구에서 소개된 Phi-3-Mini 모델은 이러한 상황에 변화를 가져오고 있습니다. 이 논문은 이 모델이 어떻게 일상의 스마트폰에 적용될 수 있는지 에 대한 기술 내용을 정리한 보고서입니다. 1. Phi-3-Mini 모델 소개Phi-3-Mini는 3.8억 개의 파라미터를 가진 언어 모델로, 3.3조 토큰으로 훈련되었습니다. 이 모델은 GPT-..
2024.05.01 -
LLM) Quantization 방법론 알아보기 (GPTQ | QAT | AWQ | GGUF | GGML | PTQ)
양자화 기술은 모델을 압축하여 빠르고 효율적으로 만드는 기술입니다. 모델의 가중치와 활성화 값을 줄여 메모리를 절약하고 연산 속도를 높입니다. 이 글은 여러 양자화 기술을 단계별로 설명하고, 코드를 제공하여 사용자가 직접 모델 압축을 수행할 수 있도록 합니다. 이를 통해 머신 러닝 모델을 최적화하고 더 효율적으로 활용할 수 있습니다. 크게 요즘 많이 나오는 방법론은 다음과 같습니다QuantizationGPTQGGUF/GGMLQATAWQPTQ (Post-training Quantization) - 훈련 후 양자화GPTQGGUF/GGML QLORA’s 4 bits QAT (Quantization-Aware Training) - 훈련하면서 양자화 TensorflowPytorchHuggingface AWQQA..
2024.04.29 -
LLM) Chat Vector 논문 내용 및 실험해보기
논문 내용 정리 CP : Continual Pre-trainingPLM : Pre-trained Language Model 해당 논문은 우연히 LLAMA3에 CHAT VECTOR 논문 방식으로 튜닝한 모델이 있다고 해서 찾아보게 되었습니다.https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview beomi/Llama-3-Open-Ko-8B-Instruct-preview · Hugging FaceLlama-3-Open-Ko-8B-Instruct-preview Update @ 2024.04.24: Release Llama-3-Open-Ko-8B model & Llama-3-Open-Ko-8B-Instruct-preview Model Details L..
2024.04.26 -
LLM) 모델에서 사용하는 GPU 계산하는 방법
LLM에서 GPU를 얼마나 사용하는지 궁금할 때가 있다. LLM 학습할 때는 크게 1.모델 2. 옵티마이저 3. 그래디언트 4. 활성함수의 합으로 이루어져 있다고 하고 LLM 평가할 때는 1. 모델 만을 보통 고려한다. 그 다음에 고려하는 부분은 모델에서 precision을 얼마나 할 지에 따라서 GPU 양의 차이가 크다. 밑에 영상처럼 파라미터를 줄이기 위해서 Quantization 하는 경우도 많다. 사이트 공유 이때 어떻게 계산하는지 알려주는 사이트를 찾아서 공유한다. 모델을 선택하고, 입력과 출력 등 설정을 하게 되면 각각 gpu를 얼마나 쓰는 지 알려주는 앱이다. HTML 삽입 미리보기할 수 없는 소스 참고 https://huggingface.co/blog/hf-bitsandbytes-integ..
2024.04.15 -
LLM) Training 방법중 ORPO(Monolithic Preference Optimization without Reference Model) 알아보기
LLM 학습 방법을 찾는 중에, SFT, DPO, RLHF는 알고 있었는데, ORPO라는 것을 찾게 되었고, 잠깐 봤을 때, 방법론이 효율적인 것 같아서 정리해보고자 한다. 최근에 LLM 모델에서 좀 더 사람의 선호에 맞게 학습하는 방법들이 등장하고 있습니다. 기존에 RLHF, DPO, IPO, KTO 같은 방식이 생기고 있고, 기존에 RLHF방식보다는 저렴하게 할 수 있게 있습니다. DPO, IPO 역시 기존에 RLHF 방식보다는 저렴하지만, 결국 이것도 2개의 모델이 필요합니다. 1개의 모델은 Supervised Fine-Tuning(SFT) 단계를 위한 모델 즉, 우리가 원하는 TASK에 대답을 할 수 있도록 훈련하는 것 다른 모델은 SFT 모델을 참고하여 사람이 좀 더 선호하는 모델을 만드는 것이..
2024.04.14 -
LLM) Mixed-Precision 개념 및 학습 방법 알아보기
LLM 같은 거대 모델을 학습할 때는 학습 속도를 어떻게 빠르게 할지가 중요합니다. 하지만 학습을 하다 보면 필요한 리소스 역시 증가해서, 이러한 리소스를 줄이면서 학습하는 것에 대한 연구들이 진행되고 있습니다. 이번에는 실제로 이러한 방법을 많이 사용하는 것 같아서 어떻게 동작하는 지 알아보고자 내용을 정리하려고 합니다. 그중에서 나온 게 바로 더 낮은 정밀도를 사용하는 방법에 대한 것이 나왔습니다. 일단 기존에 우리가 NN 모델을 학습할 때는 전통적으로 IEEE 단정밀도 형식(FP32)을 사용했습니다. 여기서는 FP32를 다 쓰는 게 아니라 혼합된 정밀도(Mixed Precision)를 쓰면 더 효율적이라는 겁니다 즉 FP32 와 FP16을 같이 써서 극복하자입니다. Sign : 부호 / Expone..
2024.04.13 -
LLM) PEFT 학습 방법론 알아보기
PEFT 방법론에 대해서 다양한 것 같아서 정리해보고자 합니다. 다음은 PyTorch, Transformers 및 UnSloth를 사용한 PEFT를 사용한 세부 조정 접근 방식에 대한 개요를 포함한 글입니다. 소개 이 글은 대형 언어 모델(Large Language Models, LLMs)을 세세하게 조정하는 중요성과 그 과정에 대한 탐색을 다룹니다. GPT-3, Llama 2 및 Mixtral과 같은 사전 훈련된 모델을 특정 응용 분야에 맞게 조정하는 방법과 그 세부 사항을 소개합니다. 감정 분석, 명명된 개체 인식, 언어 번역과 같은 다양한 응용 분야에 대한 모델의 맞춤화 가능성을 탐구합니다. 적절한 사전 훈련된 모델 선택, 과제별 목표 설정, 데이터셋 구성 및 하이퍼파라미터 조정의 중요성을 강조하며..
2024.02.25 -
[LangChain] Prompt Template 사용 방법 정리
langchain에서 사용하는 prompt에 대해서 정리해보고자 합니다. 이런 식으로 굉장히 다양한 promptTemplate가 있기 때문에 정리하고자 한다. 모든 것을 커버할 수는 없지만 최대한 자주 사용할 것 같은 것들을 기준으로 정리해보고자 한다. 버전 0.1.1 버전을 기준으로 정리해서, 추후에 이 template은 의미가 없어질 수 있지만 큰 개념으로 이해하면 좋을 것 같다. 프롬프트 함수 정리 아래에는 langchain에서 사용하는 prompt를 정리한 내역을 보면 다음과 같다. 전체 from langchain.prompts import ( PromptTemplate, PipelinePromptTemplate, MessagesPlaceholder, ChatPromptTemplate, Human..
2024.01.20