Hermes Agent | Tích hợp Local LLM Model — Custom Endpoint

May 10, 2026 2m 0

Muốn chạy AI agent mà không gửi dữ liệu lên cloud? Ollama, LocalAI và llama.cpp đều cung cấp OpenAI-compatible API — bạn có thể kết nối thẳng vào Hermes Agent chỉ bằng vài dòng cấu hình.

Local LLM Runner là gì?

Local LLM Runner là phần mềm dùng để chạy và phục vụ các Large Language Model (LLM) trực tiếp trên phần cứng của bạn — prompt không gửi lên server từ xa, mọi xử lý đều diễn ra tại chỗ.

Các runner phổ biến hiện nay:

Runner	GitHub Stars	Điểm mạnh
Ollama	★ 171k	Dễ cài, tự quản lý model, "cắm là chạy"
llama.cpp	★ 109k	Chạy được trên CPU/GPU phổ thông nhờ quantization (GGUF)
vLLM	★ 79k	Throughput cao, tối ưu cho môi trường production
LocalAI	★ 46k	Tương thích OpenAI API, hỗ trợ nhiều loại output (text, image, audio)

Điểm chung quan trọng: tất cả các runner trên đều cài OpenAI-compatible API — nghĩa là Hermes Agent có thể kết nối trực tiếp qua Custom Endpoint mà không cần adapter hay plugin riêng.

So sánh Local LLM và Cloud provider:

Tiêu chí	Local LLM	Cloud (OpenAI, Anthropic…)
Bảo mật	Dữ liệu không rời máy	Dữ liệu xử lý trên server từ xa
Chi phí	Cố định (phần cứng)	Trả theo token (có thể leo thang)
Latency	Thấp, phụ thuộc phần cứng	Phụ thuộc băng thông internet
Chất lượng model	Giới hạn bởi VRAM/RAM	Truy cập model lớn nhất hiện nay
Offline	Hoạt động không cần internet	Bắt buộc có internet

Triển khai Local LLM với Docker Compose

Ollama — ollama/ollama

Lựa chọn dễ nhất, phù hợp cho người mới bắt đầu.

# docker-compose.ollama.yml
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    # Bật GPU NVIDIA: bỏ comment phần bên dưới
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - driver: nvidia
    #           count: 1
    #           capabilities: [gpu]

Sau khi container chạy, tải model:

docker exec -it ollama ollama pull llama3

LocalAI — mudler/LocalAI

Phù hợp khi cần server local hỗ trợ nhiều loại output (text, image, audio).

# docker-compose.localai.yml
services:
  localai:
    image: localai/localai:latest-aio-cpu   # hoặc phiên bản GPU
    container_name: localai
    ports:
      - "8080:8080"
    environment:
      - MODELS_PATH=/models
    volumes:
      - ./models:/models
    restart: always

Tag aio (All-In-One) tích hợp sẵn nhiều backend, không cần cài thêm.

llama.cpp — ggml-org/llama.cpp

Phù hợp khi muốn kiểm soát hiệu năng chi tiết, đặc biệt với file GGUF đã quantize.

# docker-compose.llamacpp.yml
services:
  llama-cpp:
    image: ghcr.io/ggml-org/llama.cpp:server
    container_name: llama-cpp-server
    ports:
      - "8080:8080"
    volumes:
      - ./models:/models
    command: "-m /models/your-model-q4_k_m.gguf --host 0.0.0.0 --port 8080 --ctx-size 4096"

Kiểm tra endpoint

Trước khi kết nối Hermes, xác nhận runner đang hoạt động:

# Ollama
curl http://localhost:11434/v1/models

# LocalAI hoặc llama.cpp
curl http://localhost:8080/v1/models

Nếu nhận về JSON chứa danh sách model — runner đã sẵn sàng.

Cấu hình Hermes Agent với Custom Endpoint

Thêm hoặc chỉnh phần model trong file cấu hình config.yaml của Hermes Agent:

Triển khai Docker Compose — file _data/config.yaml
Cài đặt local (CLI) — file ~/.hermes/config.yaml

model:
  provider: custom
  model: llama3               # tên model đã pull (ví dụ: llama3, mistral)
  base_url: http://localhost:11434/v1

Với llama.cpp hoặc LocalAI, thay base_url thành http://localhost:8080/v1.

Hầu hết local runner không yêu cầu xác thực — bạn có thể để key_env trỏ tới biến môi trường bất kỳ với giá trị placeholder (ví dụ "local-token"), hoặc bỏ qua nếu không cần. Khởi động lại Hermes Agent để áp dụng cấu hình.

Nếu muốn chuyển đổi model nhanh mà không sửa file, dùng lệnh hermes model:

Nếu LLM Server không có trong danh sách built-in AI Provider, hãy chọn Custom Endpoint.
Sau đó điền thông tin kết nối đến endpoint của LLM Server:
- Base URL: format phổ biến http://{localhost hoặc IP}:{port}/v1. Ví dụ: http://localhost:8080/v1.
- API Key: nếu server không yêu cầu, hãy điền bất kỳ giá trị như "local-token", "none-key".
- Model ID: nếu server có hỗ trợ endpoint /v1/models thì Hermes Agent sẽ tự động quét.
- Đặt tên gợi nhớ cho local provider này.

Lưu ý về VRAM: Nếu chạy trên máy cá nhân, ưu tiên các model có kích thước phù hợp với VRAM của GPU. Các phiên bản quantized (Q4_K_M, Q5_K_M) giảm dung lượng đáng kể mà vẫn giữ được chất lượng chấp nhận được.

Tham khảo thêm tài liệu:

AI Providers — Custom & Self-Hosted — cấu hình chi tiết cho custom endpoint
Ollama Library — danh sách model hỗ trợ
GitHub llama.cpp — repo chính thức

Hãy tham gia group Khám phá Hermes Agent: https://www.facebook.com/groups/hermes.agent.vn để cùng trao đổi và học hỏi.

Danh sách bài viết series Hermes Agent:

Tham gia ngay group trên Facebook để cùng thảo luận với đồng bọn nhé:

Fanpage Minh: https://www.facebook.com/minhng.info
Khám phá Hermes Agent: https://www.facebook.com/groups/hermes.agent.vn

Khám phá Hermes Agent

Minh Nguyen

#hermes-agent

Minh

Hermes Agent | Tích hợp Local LLM Model — Custom Endpoint

Local LLM Runner là gì?

Triển khai Local LLM với Docker Compose

Ollama — ollama/ollama

LocalAI — mudler/LocalAI

llama.cpp — ggml-org/llama.cpp

Kiểm tra endpoint

Cấu hình Hermes Agent với Custom Endpoint

Hermes Agent là gì?

Hermes Agent | Multi-session song song trong Telegram

Hermes Agent | Lập trình đa nhánh git worktree

Hermes Agent là gì?

Hermes Agent | Multi-session song song trong Telegram

Hermes Agent | Lập trình đa nhánh git worktree

Hermes Agent | Giao diện Open WebUI quản lý multi-agent

Hermes Agent | Thiết lập multi-agent với tính năng Profiles

Hermes Agent | Model dự phòng (Fallback Provider)