Lokalny model językowy

Model językowy uruchamiany lokalnie — bez zewnętrznego API — zapewniający prywatność danych, działanie offline i przewidywalne koszty. Llama, Mistral, Phi jako popularne modele. Ollama jako de facto standard dla developerów.

W Polsce nazywane też:

lokalny LLMmodel językowy lokalnieOllamaself-hosted LLMlocal AI model

Pierwsza fala adopcji LLM opierała się na API. Każde wywołanie szło przez internet do serwera OpenAI lub Anthropic. Prosto, bez infrastruktury, ale z ograniczeniami: zależność od połączenia sieciowego, latencja sieci, koszty per token, prywatność danych.

Llama 3 zmienił kalkulację. Model na poziomie GPT-3.5 który działa lokalnie na standardowym laptopie — lub na mocniejszym sprzęcie dla większych modeli. Bez internetu. Bez opłat per token. Bez wysyłania danych na zewnątrz.

Czym jest local LLM

Local LLM (Large Language Model) to model językowy uruchamiany lokalnie na urządzeniu użytkownika lub serwerze organizacji — bez połączenia z zewnętrznym API — zapewniający prywatność danych, działanie offline, przewidywalne koszty i eliminację zależności od zewnętrznego providera, kosztem wymaganego sprzętu i niższej jakości w porównaniu z największymi chmurowanymi modelami.

Modele i wymagania sprzętowe

Llama 3.2 3B: działa na CPU współczesnego laptopa. Jakość jak GPT-3 early days. Dobre dla prostych zadań, chatbota, ekstrakcji informacji.

Llama 3.1 8B: wymaga GPU 8GB VRAM (RTX 3070/4060). Jakość dobra dla większości zastosowań. Sweet spot dla edge deployments.

Llama 3.3 70B: wymaga 2x GPU 24GB VRAM lub więcej. Jakość porównywalna z GPT-4o na wielu benchmarkach. Enterprise-grade przy odpowiednim sprzęcie.

Phi-4 Mini (Microsoft): 3.8B parametrów, exceptional quality for size, zoptymalizowany pod edge. Najlepszy stosunek jakości do wymagań sprzętowych w 2025-2026.

Narzędzia do local LLM

Ollama: de facto standard dla developerów. Prosta instalacja (jeden command), obsługuje dziesiątki modeli, API kompatybilne z OpenAI (drop-in replacement). `ollama run llama3.3` — model pobiera się i działa.

LM Studio: GUI dla lokalnych modeli, dobre dla non-technical users którzy chcą eksperymentować.

vLLM: high-performance inference server dla production deployments, PagedAttention dla efektywnej obsługi wielu requestów jednocześnie.

Local LLM w agentach developerskich

Claude Code, Cursor, Continue.dev — narzędzia developerskie które mogą używać local LLM jako backend. Developer który nie chce wysyłać kodu do zewnętrznych API (IP protection) może używać lokalnego Llama lub Mistral dla code assistance.

Trade-off jest realny: local 70B model jest wolniejszy i droższy w utrzymaniu niż API call do Claude Sonnet. Ale dla kodu który nie może opuścić organizacji — jest jedyną opcją.