Pierwsza fala adopcji LLM opierała się na API. Każde wywołanie szło przez internet do serwera OpenAI lub Anthropic. Prosto, bez infrastruktury, ale z ograniczeniami: zależność od połączenia sieciowego, latencja sieci, koszty per token, prywatność danych.
Llama 3 zmienił kalkulację. Model na poziomie GPT-3.5 który działa lokalnie na standardowym laptopie — lub na mocniejszym sprzęcie dla większych modeli. Bez internetu. Bez opłat per token. Bez wysyłania danych na zewnątrz.
Czym jest local LLM
Local LLM (Large Language Model) to model językowy uruchamiany lokalnie na urządzeniu użytkownika lub serwerze organizacji — bez połączenia z zewnętrznym API — zapewniający prywatność danych, działanie offline, przewidywalne koszty i eliminację zależności od zewnętrznego providera, kosztem wymaganego sprzętu i niższej jakości w porównaniu z największymi chmurowanymi modelami.
Modele i wymagania sprzętowe
Llama 3.2 3B: działa na CPU współczesnego laptopa. Jakość jak GPT-3 early days. Dobre dla prostych zadań, chatbota, ekstrakcji informacji.
Llama 3.1 8B: wymaga GPU 8GB VRAM (RTX 3070/4060). Jakość dobra dla większości zastosowań. Sweet spot dla edge deployments.
Llama 3.3 70B: wymaga 2x GPU 24GB VRAM lub więcej. Jakość porównywalna z GPT-4o na wielu benchmarkach. Enterprise-grade przy odpowiednim sprzęcie.
Phi-4 Mini (Microsoft): 3.8B parametrów, exceptional quality for size, zoptymalizowany pod edge. Najlepszy stosunek jakości do wymagań sprzętowych w 2025-2026.
Narzędzia do local LLM
Ollama: de facto standard dla developerów. Prosta instalacja (jeden command), obsługuje dziesiątki modeli, API kompatybilne z OpenAI (drop-in replacement). `ollama run llama3.3` — model pobiera się i działa.
LM Studio: GUI dla lokalnych modeli, dobre dla non-technical users którzy chcą eksperymentować.
vLLM: high-performance inference server dla production deployments, PagedAttention dla efektywnej obsługi wielu requestów jednocześnie.
Local LLM w agentach developerskich
Claude Code, Cursor, Continue.dev — narzędzia developerskie które mogą używać local LLM jako backend. Developer który nie chce wysyłać kodu do zewnętrznych API (IP protection) może używać lokalnego Llama lub Mistral dla code assistance.
Trade-off jest realny: local 70B model jest wolniejszy i droższy w utrzymaniu niż API call do Claude Sonnet. Ale dla kodu który nie może opuścić organizacji — jest jedyną opcją.