Agent hostowany lokalnie

Agent AI działający na infrastrukturze organizacji bez zewnętrznych wywołań API — model wdrożony lokalnie lub w prywatnej chmurze, dane nigdy nie opuszczają organizacji. Kluczowe dla regulowanych branż i danych wrażliwych. Llama, Mistral, Phi jako popularne modele open-source.

W Polsce nazywane też:

self-hosted agentagent lokalnyagent on-premisesprywatny agent AI

Każde wywołanie OpenAI API wysyła dane na serwery Microsoft. Każde wywołanie Claude API wysyła dane na serwery Anthropic. Dla większości zastosowań to jest akceptowalne — providery mają DPA, dane są szyfrowane, polityki są transparentne.

Ale są przypadki gdy dane nie mogą opuścić infrastruktury organizacji. Rządy i administracja. Firmy z tajemnicą przemysłową na skalę. Sektory z najsurowszymi regulacjami — obrona, wywiad, niektóre obszary finansów.

Self-hosted agent to odpowiedź: model i infrastruktura działają w twojej własnej infrastrukturze. Dane nigdy nie wychodzą.

Czym jest self-hosted agent

Self-hosted agent to agent AI działający na infrastrukturze organizacji lub w jej prywatnej chmurze — bez zewnętrznych wywołań API do dostawców modeli — gdzie model językowy jest wdrożony lokalnie (on-premises lub private cloud), zapewniając pełną kontrolę nad danymi, latencją i kosztami operacyjnymi.

Modele open-source jako fundament

Self-hosting wymaga modelu który można uruchomić lokalnie. Llama 3.x (Meta), Mistral, Phi-4 (Microsoft), Qwen (Alibaba), Gemma (Google) — to są modele open-source dostępne do self-hostingu. Nie dorównują GPT-4o czy Claude Sonnet w najlepszym performansie — ale dla wielu zastosowań enterprise są wystarczające i szybko się poprawiają.

Ollama, vLLM, Hugging Face TGI — to są serwery inference dla self-hosted modeli. Uruchamiają modele i wystawiają API kompatybilne z OpenAI (ten sam format żądań) — co pozwala zmieniać model bez zmiany kodu aplikacji.

Infrastruktura GPU

Duże modele (70B+ parametrów) wymagają GPU. Llama 3 70B potrzebuje min. 2x A100 80GB lub równoważne. Mniejsze modele (7B-13B) działają na pojedynczym GPU konsumenckiego poziomu (RTX 4090) ale z ograniczoną wydajnością.

Dla enterprise bez własnych GPU: AWS Bedrock z dedicated inference, Azure AI Foundry z private endpoints, Google Cloud Vertex AI — cloud-based self-hosting gdzie model działa w izolowanym środowisku w twoim tenant.

Kiedy self-hosting, kiedy API

API (OpenAI, Anthropic): prostsze wdrożenie, zawsze najnowszy model, brak kosztów infrastruktury, SLA providera. Właściwe dla: startupów, małych firm, nie-krytycznych zastosowań, gdy dane mogą opuścić organizację.

Self-hosted: pełna kontrola danych, przewidywalne koszty przy dużej skali, niższa latencja, brak dependencji od zewnętrznego providera. Właściwe dla: dużych wolumenów, danych które nie mogą opuścić organizacji, regulowanych branż.

Trade-off: self-hosting wymaga MLOps team, aktualizacji modelu, zarządzania infrastrukturą. Nie jest darmowy — wymaga inwestycji w zespół i infrastrukturę.

Powiązane pojęcia

Zgodność agentów z regulacjamiZapewnienie że agenty AI spełniają obowiązujące regulacje — AI Act UE, GDPR, regulacje branżowe (KNF, NFZ) — z dokumentacją i audit trail. Compliance nie znika gdy akcję wykonuje agent: przesuwa się na operatora systemu agentowego.Azure AI FoundryPlatforma Microsoft do budowania i zarządzania agentami AI w skali enterprise — z dostępem do modeli GPT i open-source, infrastrukturą RAG i fine-tuningu, narzędziami do monitoringu i enterprise-grade security (dane pozostają w tenant klienta). Dla firm z regulacjami które nie mogą wysyłać danych do publicznych API.Opóźnienie agentoweŁączny czas od zlecenia zadania agentowi do dostarczenia wyników — suma wywołań modelu, narzędzi, retrieval i orchestration overhead. Kluczowa metryka dla interaktywnych zastosowań wymagająca decyzji: równoległe wywołania, cachowanie, dobór modelu, sync vs async.Koszt tokenówKoszt operacji modelu językowego mierzony w tokenach — funkcja rozmiaru kontekstu, długości outputu i ceny modelu. Kluczowa metryka projektowa dla agentów w skali. Context window bloat jako główny winowajca wysokich kosztów. Model routing i prompt caching jako strategie optymalizacji.Izolacja agentaZestaw mechanizmów izolacji środowiska wykonawczego agenta AI — ograniczających dostęp do zasobów systemu, sieci, danych i innych agentów — tak że kompromitacja lub błędne działanie agenta ma ograniczony zasięg i nie może się rozprzestrzeniać. Implementacja zasady defence in depth: nie eliminacja ryzyka, ale zawężenie jego konsekwencji.