Każde wywołanie OpenAI API wysyła dane na serwery Microsoft. Każde wywołanie Claude API wysyła dane na serwery Anthropic. Dla większości zastosowań to jest akceptowalne — providery mają DPA, dane są szyfrowane, polityki są transparentne.
Ale są przypadki gdy dane nie mogą opuścić infrastruktury organizacji. Rządy i administracja. Firmy z tajemnicą przemysłową na skalę. Sektory z najsurowszymi regulacjami — obrona, wywiad, niektóre obszary finansów.
Self-hosted agent to odpowiedź: model i infrastruktura działają w twojej własnej infrastrukturze. Dane nigdy nie wychodzą.
Czym jest self-hosted agent
Self-hosted agent to agent AI działający na infrastrukturze organizacji lub w jej prywatnej chmurze — bez zewnętrznych wywołań API do dostawców modeli — gdzie model językowy jest wdrożony lokalnie (on-premises lub private cloud), zapewniając pełną kontrolę nad danymi, latencją i kosztami operacyjnymi.
Modele open-source jako fundament
Self-hosting wymaga modelu który można uruchomić lokalnie. Llama 3.x (Meta), Mistral, Phi-4 (Microsoft), Qwen (Alibaba), Gemma (Google) — to są modele open-source dostępne do self-hostingu. Nie dorównują GPT-4o czy Claude Sonnet w najlepszym performansie — ale dla wielu zastosowań enterprise są wystarczające i szybko się poprawiają.
Ollama, vLLM, Hugging Face TGI — to są serwery inference dla self-hosted modeli. Uruchamiają modele i wystawiają API kompatybilne z OpenAI (ten sam format żądań) — co pozwala zmieniać model bez zmiany kodu aplikacji.
Infrastruktura GPU
Duże modele (70B+ parametrów) wymagają GPU. Llama 3 70B potrzebuje min. 2x A100 80GB lub równoważne. Mniejsze modele (7B-13B) działają na pojedynczym GPU konsumenckiego poziomu (RTX 4090) ale z ograniczoną wydajnością.
Dla enterprise bez własnych GPU: AWS Bedrock z dedicated inference, Azure AI Foundry z private endpoints, Google Cloud Vertex AI — cloud-based self-hosting gdzie model działa w izolowanym środowisku w twoim tenant.
Kiedy self-hosting, kiedy API
API (OpenAI, Anthropic): prostsze wdrożenie, zawsze najnowszy model, brak kosztów infrastruktury, SLA providera. Właściwe dla: startupów, małych firm, nie-krytycznych zastosowań, gdy dane mogą opuścić organizację.
Self-hosted: pełna kontrola danych, przewidywalne koszty przy dużej skali, niższa latencja, brak dependencji od zewnętrznego providera. Właściwe dla: dużych wolumenów, danych które nie mogą opuścić organizacji, regulowanych branż.
Trade-off: self-hosting wymaga MLOps team, aktualizacji modelu, zarządzania infrastrukturą. Nie jest darmowy — wymaga inwestycji w zespół i infrastrukturę.