Hermes Agent | Tích hợp Local LLM Model — Custom Endpoint
Muốn chạy AI agent mà không gửi dữ liệu lên cloud? Ollama, LocalAI và llama.cpp đều cung cấp OpenAI-compatible API — bạn có thể kết nối thẳng vào Hermes Agent chỉ bằng vài dòng cấu hình.

Local LLM Runner là gì?
Local LLM Runner là phần mềm dùng để chạy và phục vụ các Large Language Model (LLM) trực tiếp trên phần cứng của bạn — prompt không gửi lên server từ xa, mọi xử lý đều diễn ra tại chỗ.
Các runner phổ biến hiện nay:
| Runner | GitHub Stars | Điểm mạnh |
|---|---|---|
| Ollama | ★ 171k | Dễ cài, tự quản lý model, "cắm là chạy" |
| llama.cpp | ★ 109k | Chạy được trên CPU/GPU phổ thông nhờ quantization (GGUF) |
| vLLM | ★ 79k | Throughput cao, tối ưu cho môi trường production |
| LocalAI | ★ 46k | Tương thích OpenAI API, hỗ trợ nhiều loại output (text, image, audio) |
Điểm chung quan trọng: tất cả các runner trên đều cài OpenAI-compatible API — nghĩa là Hermes Agent có thể kết nối trực tiếp qua Custom Endpoint mà không cần adapter hay plugin riêng.
So sánh Local LLM và Cloud provider:
| Tiêu chí | Local LLM | Cloud (OpenAI, Anthropic…) |
|---|---|---|
| Bảo mật | Dữ liệu không rời máy | Dữ liệu xử lý trên server từ xa |
| Chi phí | Cố định (phần cứng) | Trả theo token (có thể leo thang) |
| Latency | Thấp, phụ thuộc phần cứng | Phụ thuộc băng thông internet |
| Chất lượng model | Giới hạn bởi VRAM/RAM | Truy cập model lớn nhất hiện nay |
| Offline | Hoạt động không cần internet | Bắt buộc có internet |
Triển khai Local LLM với Docker Compose
Ollama — ollama/ollama
Lựa chọn dễ nhất, phù hợp cho người mới bắt đầu.
# docker-compose.ollama.yml
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ./ollama_data:/root/.ollama
# Bật GPU NVIDIA: bỏ comment phần bên dưới
# deploy:
# resources:
# reservations:
# devices:
# - driver: nvidia
# count: 1
# capabilities: [gpu]
Sau khi container chạy, tải model:
docker exec -it ollama ollama pull llama3
LocalAI — mudler/LocalAI
Phù hợp khi cần server local hỗ trợ nhiều loại output (text, image, audio).
# docker-compose.localai.yml
services:
localai:
image: localai/localai:latest-aio-cpu # hoặc phiên bản GPU
container_name: localai
ports:
- "8080:8080"
environment:
- MODELS_PATH=/models
volumes:
- ./models:/models
restart: always
Tag aio (All-In-One) tích hợp sẵn nhiều backend, không cần cài thêm.
llama.cpp — ggml-org/llama.cpp
Phù hợp khi muốn kiểm soát hiệu năng chi tiết, đặc biệt với file GGUF đã quantize.
# docker-compose.llamacpp.yml
services:
llama-cpp:
image: ghcr.io/ggml-org/llama.cpp:server
container_name: llama-cpp-server
ports:
- "8080:8080"
volumes:
- ./models:/models
command: "-m /models/your-model-q4_k_m.gguf --host 0.0.0.0 --port 8080 --ctx-size 4096"
Kiểm tra endpoint
Trước khi kết nối Hermes, xác nhận runner đang hoạt động:
# Ollama
curl http://localhost:11434/v1/models
# LocalAI hoặc llama.cpp
curl http://localhost:8080/v1/models
Nếu nhận về JSON chứa danh sách model — runner đã sẵn sàng.
Cấu hình Hermes Agent với Custom Endpoint
Thêm hoặc chỉnh phần model trong file cấu hình config.yaml của Hermes Agent:
- Triển khai Docker Compose — file
_data/config.yaml - Cài đặt local (CLI) — file
~/.hermes/config.yaml
model:
provider: custom
model: llama3 # tên model đã pull (ví dụ: llama3, mistral)
base_url: http://localhost:11434/v1
Với llama.cpp hoặc LocalAI, thay base_url thành http://localhost:8080/v1.
Hầu hết local runner không yêu cầu xác thực — bạn có thể để key_env trỏ tới biến môi trường bất kỳ với giá trị placeholder (ví dụ local-token), hoặc bỏ qua nếu không cần.
Khởi động lại Hermes Agent để áp dụng cấu hình. Nếu muốn chuyển đổi model nhanh mà không sửa file, dùng lệnh hermes model.
Lưu ý về VRAM: Nếu chạy trên máy cá nhân, ưu tiên các model có kích thước phù hợp với VRAM của GPU. Các phiên bản quantized (Q4_K_M, Q5_K_M) giảm dung lượng đáng kể mà vẫn giữ được chất lượng chấp nhận được.
Tham khảo thêm tài liệu:
- AI Providers — Custom & Self-Hosted — cấu hình chi tiết cho custom endpoint
- Ollama Library — danh sách model hỗ trợ
- GitHub llama.cpp — repo chính thức
Hãy tham gia group Khám phá Hermes Agent: https://www.facebook.com/groups/hermes.agent.vn để cùng trao đổi và học hỏi.
Danh sách bài viết series Hermes Agent:
- Tut 1: Cài đặt và cấu hình Hermes Agent trên VPS ─ Docker Compose
- Tut 2: Luôn duyệt lệnh tự động ─ Fix DANGEROUS COMMAND Security scan
- Tut 3: Cài đặt giao diện quản lý Hermes Agent ─ Dashboard
- Tut 4: Model dự phòng ─ Fallback Provider
- Tut 5: Thiết lập multi-agent với tính năng Profiles
- Tut 6: Giao diện Open WebUI quản lý multi-agent
- Tut 7: Lập trình đa nhánh git worktree
- Tut 8: Tích hợp Local LLM Model — Custom Endpoint
Tham gia ngay group trên Facebook để cùng thảo luận với đồng bọn nhé:
- Fanpage Minh: https://www.facebook.com/minhng.info
- Khám phá Hermes Agent: https://www.facebook.com/groups/hermes.agent.vn
Khám phá Hermes Agent