Infrastruktura wnioskowania modeli

Sprzęt i oprogramowanie dedykowane do uruchamiania modeli AI w czasie rzeczywistym — GPU accelerators, batching, quantization, model serving — odpowiadające na żądania z odpowiednią latencją i kosztem. Własna infrastruktura uzasadniona przy dużych wolumenach lub wymaganiach data sovereignty.

W Polsce nazywane też:

infrastruktura inferencesprzęt AIGPU inferencemodel servingwnioskowanie modeli

Training modelu to jednorazowy, ogromny wysiłek obliczeniowy. Inference — uruchamianie modelu żeby generował odpowiedzi — to ciągły, powtarzalny wysiłek który musi być szybki, tani i niezawodny przy skalowaniu do milionów żądań.

Nie są to te same wymagania. Training potrzebuje ogromnych klastrów GPU przez tygodnie. Inference potrzebuje efektywnego serwowania modelu przy niskiej latencji i wysokiej przepustowości.

Czym jest inference infrastructure

Inference infrastructure to sprzęt, oprogramowanie i architektura systemu dedykowana do uruchamiania modeli AI w czasie rzeczywistym — odpowiadając na żądania użytkowników i agentów z odpowiednią latencją i przepustowością — obejmująca GPU/TPU accelerators, batching, quantization, model serving software i strategie optymalizacji kosztu per token.

GPU jako fundament

NVIDIA H100/H200: de facto standard dla enterprise inference dużych modeli. Ogromna przepustowość, wysokie koszty ($30K+ per GPU). Używany przez OpenAI, Anthropic i innych providerów.

NVIDIA A100/A10G: poprzednia generacja, tańsza, nadal popularna dla średnich modeli i self-hosted deployments enterprise.

AMD MI300X: pojawiający się konkurent dla NVIDIA w inference, lepszy stosunek pamięci do ceny.

Specjalizowane chipy AI: Google TPU v5 (zoptymalizowany pod TensorFlow i JAX), AWS Inferentia 2 (tańszy niż GPU dla inference), Groq LPU (niezwykła latencja sub-millisecond dla konkretnych modeli).

Batching i throughput vs latency

Inference ma fundamentalny trade-off: batchowanie wielu żądań razem poprawia throughput (więcej żądań na sekundę) ale zwiększa latency dla pojedynczego żądania (czeka aż batch się wypełni).

Continuous batching (vLLM PagedAttention) minimalizuje ten trade-off — dynamicznie zarządza batchem nie czekając na jego wypełnienie. Jest to powód dlaczego vLLM stał się standardem dla high-throughput inference.

Quantization

Model w pełnej precyzji (FP32) jest duży i wolny. Quantization redukuje precyzję wag (INT8, INT4) zmniejszając rozmiar modelu i przyspieszając inference kosztem minimalnej degradacji jakości.

4-bit quantization (GGUF format, llama.cpp) pozwala uruchomić modele 13B na standardowym laptopie z 16GB RAM. Dla self-hosted deployments quantization jest kluczową techniką optymalizacji.

Inference as a Service (IaaS)

Dla większości organizacji: używaj inference przez API providera (OpenAI, Anthropic, Together AI, Groq) zamiast własnej infrastruktury. Własna inference infrastructure jest uzasadniona przy: bardzo dużych wolumenach (miliardy tokenów miesięcznie), wymaganiach data sovereignty, lub specjalizowanych modelach których nie oferują providery.

Powiązane pojęcia

Dostrajanie modeluDostosowanie pretrenowanego modelu językowego do specyficznej domeny przez dodatkowe trenowanie — modyfikuje jak model się zachowuje (styl, format, terminologia). Fine-tuning = jak model odpowiada. RAG = co model wie. Dla większości enterprise: zacznij od RAG + prompt engineering.Opóźnienie agentoweŁączny czas od zlecenia zadania agentowi do dostarczenia wyników — suma wywołań modelu, narzędzi, retrieval i orchestration overhead. Kluczowa metryka dla interaktywnych zastosowań wymagająca decyzji: równoległe wywołania, cachowanie, dobór modelu, sync vs async.Lokalny model językowyModel językowy uruchamiany lokalnie — bez zewnętrznego API — zapewniający prywatność danych, działanie offline i przewidywalne koszty. Llama, Mistral, Phi jako popularne modele. Ollama jako de facto standard dla developerów.Agent hostowany lokalnieAgent AI działający na infrastrukturze organizacji bez zewnętrznych wywołań API — model wdrożony lokalnie lub w prywatnej chmurze, dane nigdy nie opuszczają organizacji. Kluczowe dla regulowanych branż i danych wrażliwych. Llama, Mistral, Phi jako popularne modele open-source.Koszt tokenówKoszt operacji modelu językowego mierzony w tokenach — funkcja rozmiaru kontekstu, długości outputu i ceny modelu. Kluczowa metryka projektowa dla agentów w skali. Context window bloat jako główny winowajca wysokich kosztów. Model routing i prompt caching jako strategie optymalizacji.