'serving' 태그의 글 목록

AI Tech Index읽기 목적에 맞춰 글 밀도 조절

Smart Filter모델, 도구, 개념명으로 좁혀보기

글 필터 검색어

qwen2.5-72b를 vllm에 올리는 테스트를 해보는 중에, ollama로 올린 것이 vllm으로 올린 것보다 더 빠른 것을 경험했습니다.vllm에 올린 모델은 허깅페이스에 올라온 모델을 기반으로 테스트했습니다.1. Qwen/Qwen2.5-72B-Instruct-AWQ2. Qwen/Qwen2.5-72B-Instruct-GPTQ-Int8 ollama 역시 양자화된 것인데Q4_K_M으로 양자화된 모델(gguf)임을 알 수 있습니다. 개인적으로 서빙을 할 때 당연히 ollama가 vllm 보다 느릴 줄 알았는데, vllm이 더 느린 것을 보고, 공식적으로 지원하지 않는 모델 같은 경우 느릴 수도 있겠다는 생각이 들었습니다.https://docs.vllm.ai/en/latest/models/supported..

LLM에서 GPU를 얼마나 사용하는지 궁금할 때가 있다. LLM 학습할 때는 크게 1.모델 2. 옵티마이저 3. 그래디언트 4. 활성함수의 합으로 이루어져 있다고 하고 LLM 평가할 때는 1. 모델 만을 보통 고려한다. 그 다음에 고려하는 부분은 모델에서 precision을 얼마나 할 지에 따라서 GPU 양의 차이가 크다. 밑에 영상처럼 파라미터를 줄이기 위해서 Quantization 하는 경우도 많다. 사이트 공유 이때 어떻게 계산하는지 알려주는 사이트를 찾아서 공유한다. 모델을 선택하고, 입력과 출력 등 설정을 하게 되면 각각 gpu를 얼마나 쓰는 지 알려주는 앱이다. HTML 삽입 미리보기할 수 없는 소스 참고 https://huggingface.co/blog/hf-bitsandbytes-integ..

조건에 맞는 글이 없습니다다른 검색어를 입력하거나 필터를 초기화해보세요.

LLM) HuggingFace 모델 다운로드부터 gguf 및 quantization 수행 후 vLLM 서빙하는 순서 정리해보기 (테스트 필요)

LLM) 모델에서 사용하는 GPU 계산하는 방법

AI 도구

AI 도구 사이드 패널

티스토리툴바