Hermes Agent | Tích hợp Local LLM Model — Custom Endpoint

  May 10, 2026      2m      0   
 

Muốn chạy AI agent mà không gửi dữ liệu lên cloud? Ollama, LocalAI và llama.cpp đều cung cấp OpenAI-compatible API — bạn có thể kết nối thẳng vào Hermes Agent chỉ bằng vài dòng cấu hình.

Hermes Agent | Tích hợp Local LLM Model — Custom Endpoint

Local LLM Runner là gì?

Local LLM Runner là phần mềm dùng để chạy và phục vụ các Large Language Model (LLM) trực tiếp trên phần cứng của bạn — prompt không gửi lên server từ xa, mọi xử lý đều diễn ra tại chỗ.

Các runner phổ biến hiện nay:

RunnerGitHub StarsĐiểm mạnh
Ollama★ 171kDễ cài, tự quản lý model, "cắm là chạy"
llama.cpp★ 109kChạy được trên CPU/GPU phổ thông nhờ quantization (GGUF)
vLLM★ 79kThroughput cao, tối ưu cho môi trường production
LocalAI★ 46kTương thích OpenAI API, hỗ trợ nhiều loại output (text, image, audio)

Điểm chung quan trọng: tất cả các runner trên đều cài OpenAI-compatible API — nghĩa là Hermes Agent có thể kết nối trực tiếp qua Custom Endpoint mà không cần adapter hay plugin riêng.

So sánh Local LLM và Cloud provider:

Tiêu chíLocal LLMCloud (OpenAI, Anthropic…)
Bảo mậtDữ liệu không rời máyDữ liệu xử lý trên server từ xa
Chi phíCố định (phần cứng)Trả theo token (có thể leo thang)
LatencyThấp, phụ thuộc phần cứngPhụ thuộc băng thông internet
Chất lượng modelGiới hạn bởi VRAM/RAMTruy cập model lớn nhất hiện nay
OfflineHoạt động không cần internetBắt buộc có internet

Triển khai Local LLM với Docker Compose

Ollama — ollama/ollama

Lựa chọn dễ nhất, phù hợp cho người mới bắt đầu.

# docker-compose.ollama.yml
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    # Bật GPU NVIDIA: bỏ comment phần bên dưới
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - driver: nvidia
    #           count: 1
    #           capabilities: [gpu]

Sau khi container chạy, tải model:

docker exec -it ollama ollama pull llama3

LocalAI — mudler/LocalAI

Phù hợp khi cần server local hỗ trợ nhiều loại output (text, image, audio).

# docker-compose.localai.yml
services:
  localai:
    image: localai/localai:latest-aio-cpu   # hoặc phiên bản GPU
    container_name: localai
    ports:
      - "8080:8080"
    environment:
      - MODELS_PATH=/models
    volumes:
      - ./models:/models
    restart: always

Tag aio (All-In-One) tích hợp sẵn nhiều backend, không cần cài thêm.

llama.cpp — ggml-org/llama.cpp

Phù hợp khi muốn kiểm soát hiệu năng chi tiết, đặc biệt với file GGUF đã quantize.

# docker-compose.llamacpp.yml
services:
  llama-cpp:
    image: ghcr.io/ggml-org/llama.cpp:server
    container_name: llama-cpp-server
    ports:
      - "8080:8080"
    volumes:
      - ./models:/models
    command: "-m /models/your-model-q4_k_m.gguf --host 0.0.0.0 --port 8080 --ctx-size 4096"

Kiểm tra endpoint

Trước khi kết nối Hermes, xác nhận runner đang hoạt động:

# Ollama
curl http://localhost:11434/v1/models

# LocalAI hoặc llama.cpp
curl http://localhost:8080/v1/models

Nếu nhận về JSON chứa danh sách model — runner đã sẵn sàng.


Cấu hình Hermes Agent với Custom Endpoint

Thêm hoặc chỉnh phần model trong file cấu hình config.yaml của Hermes Agent:

model:
  provider: custom
  model: llama3               # tên model đã pull (ví dụ: llama3, mistral)
  base_url: http://localhost:11434/v1

Với llama.cpp hoặc LocalAI, thay base_url thành http://localhost:8080/v1.

Hầu hết local runner không yêu cầu xác thực — bạn có thể để key_env trỏ tới biến môi trường bất kỳ với giá trị placeholder (ví dụ local-token), hoặc bỏ qua nếu không cần.

Khởi động lại Hermes Agent để áp dụng cấu hình. Nếu muốn chuyển đổi model nhanh mà không sửa file, dùng lệnh hermes model.

Lưu ý về VRAM: Nếu chạy trên máy cá nhân, ưu tiên các model có kích thước phù hợp với VRAM của GPU. Các phiên bản quantized (Q4_K_M, Q5_K_M) giảm dung lượng đáng kể mà vẫn giữ được chất lượng chấp nhận được.

Tham khảo thêm tài liệu:


Hãy tham gia group Khám phá Hermes Agent: https://www.facebook.com/groups/hermes.agent.vn để cùng trao đổi và học hỏi.

Danh sách bài viết series Hermes Agent:

Tham gia ngay group trên Facebook để cùng thảo luận với đồng bọn nhé:

Khám phá Hermes Agent