LLM을 직접 배포해보려다 보면 꽤 빨리 만나게 되는 이름이 있습니다.바로 vLLM입니다.Hugging Face 모델을 띄우고 API 형태로 연결하거나, GPU 자원을 좀 더 효율적으로 써서 추론 성능을 높이고 싶을 때 많이 언급되는 도구입니다.그런데 막상 처음 접하면 헷갈리는 부분이 있습니다. vLLM이 하나의 “모델”처럼 보이기도 하고, 어떤 사람은 서버처럼 쓰고, 어떤 사람은 파이썬 코드 안에서 바로 불러서 쓰고, 또 어떤 사람은 Docker나 Kubernetes로 배포합니다.그래서 이번 글에서는 vLLM의 종류를 “사용 형태” 기준으로 나눠서, 실제로 어떤 방식이 있고 어떻게 시작하면 되는지 처음 보는 사람도 이해할 수 있게 정리해보겠습니다.#vLLM #vLLM사용법 #vLLM종류 #LLM서빙 #..