Training modelu to jednorazowy, ogromny wysiłek obliczeniowy. Inference — uruchamianie modelu żeby generował odpowiedzi — to ciągły, powtarzalny wysiłek który musi być szybki, tani i niezawodny przy skalowaniu do milionów żądań.
Nie są to te same wymagania. Training potrzebuje ogromnych klastrów GPU przez tygodnie. Inference potrzebuje efektywnego serwowania modelu przy niskiej latencji i wysokiej przepustowości.
Czym jest inference infrastructure
Inference infrastructure to sprzęt, oprogramowanie i architektura systemu dedykowana do uruchamiania modeli AI w czasie rzeczywistym — odpowiadając na żądania użytkowników i agentów z odpowiednią latencją i przepustowością — obejmująca GPU/TPU accelerators, batching, quantization, model serving software i strategie optymalizacji kosztu per token.
GPU jako fundament
NVIDIA H100/H200: de facto standard dla enterprise inference dużych modeli. Ogromna przepustowość, wysokie koszty ($30K+ per GPU). Używany przez OpenAI, Anthropic i innych providerów.
NVIDIA A100/A10G: poprzednia generacja, tańsza, nadal popularna dla średnich modeli i self-hosted deployments enterprise.
AMD MI300X: pojawiający się konkurent dla NVIDIA w inference, lepszy stosunek pamięci do ceny.
Specjalizowane chipy AI: Google TPU v5 (zoptymalizowany pod TensorFlow i JAX), AWS Inferentia 2 (tańszy niż GPU dla inference), Groq LPU (niezwykła latencja sub-millisecond dla konkretnych modeli).
Batching i throughput vs latency
Inference ma fundamentalny trade-off: batchowanie wielu żądań razem poprawia throughput (więcej żądań na sekundę) ale zwiększa latency dla pojedynczego żądania (czeka aż batch się wypełni).
Continuous batching (vLLM PagedAttention) minimalizuje ten trade-off — dynamicznie zarządza batchem nie czekając na jego wypełnienie. Jest to powód dlaczego vLLM stał się standardem dla high-throughput inference.
Quantization
Model w pełnej precyzji (FP32) jest duży i wolny. Quantization redukuje precyzję wag (INT8, INT4) zmniejszając rozmiar modelu i przyspieszając inference kosztem minimalnej degradacji jakości.
4-bit quantization (GGUF format, llama.cpp) pozwala uruchomić modele 13B na standardowym laptopie z 16GB RAM. Dla self-hosted deployments quantization jest kluczową techniką optymalizacji.
Inference as a Service (IaaS)
Dla większości organizacji: używaj inference przez API providera (OpenAI, Anthropic, Together AI, Groq) zamiast własnej infrastruktury. Własna inference infrastructure jest uzasadniona przy: bardzo dużych wolumenach (miliardy tokenów miesięcznie), wymaganiach data sovereignty, lub specjalizowanych modelach których nie oferują providery.