Koszt tokenów

Koszt operacji modelu językowego mierzony w tokenach — funkcja rozmiaru kontekstu, długości outputu i ceny modelu. Kluczowa metryka projektowa dla agentów w skali. Context window bloat jako główny winowajca wysokich kosztów. Model routing i prompt caching jako strategie optymalizacji.

W Polsce nazywane też:

koszt tokenówcena tokenów AItoken pricingcontext window costLLM cost optimization

Model językowy nie jest darmowy. Każde zapytanie kosztuje — proporcjonalnie do liczby tokenów wejścia (context) i wyjścia (output). Dla pojedynczego zapytania chatbota koszt jest pomijalny. Dla agenta który wywołuje model 20 razy w jednej sesji, obsługuje tysiące sesji dziennie, z długimi contextami — koszty mogą zaskoczyć.

Token cost to nie tylko koszt finansowy — to metryka efektywności agenta.

Czym jest token cost

Token cost to koszt obliczeniowy i finansowy operacji modelu językowego mierzony w tokenach — jednostkach tekstu odpowiadających mniej więcej 0.75 słowa po angielsku — będący funkcją rozmiaru kontekstu wejściowego, długości generowanego outputu i ceny modelu, stanowiący kluczową metrykę projektową dla agentów działających w skali.

Kalkulacja kosztów — przykład

Claude Sonnet 4 (maj 2026): $3 / 1M input tokens, $15 / 1M output tokens. Agent obsługi klienta z kontekstem 5000 tokenów (historia + narzędzia + dokumenty) który generuje 500 tokenów odpowiedzi:

Cost per conversation = (5000 × $3/1M) + (500 × $15/1M) = $0.015 + $0.0075 = $0.0225

Tysiąc konwersacji dziennie = $22.50/dzień = ~$675/miesiąc. Jak system prompt rośnie do 10000 tokenów i konwersacje wydłużają się — koszt podwaja.

Context window bloat — główny winowajca kosztów

Najczęstszą przyczyną wysokich kosztów w agentach produkcyjnych jest context window bloat — niepotrzebne rozrastanie się kontekstu przez: za długi system prompt (z niepotrzebną historią i dokumentami), dołączanie pełnych wyników narzędzi zamiast wyciągniętych kluczowych informacji, długa historia konwersacji bez summaryzacji.

Strategie redukcji: summaryzacja historii konwersacji co N tur, wyciąganie kluczowych informacji z wyników narzędzi zamiast wklejania pełnego JSON, system prompt tylko z tym co agent faktycznie potrzebuje.

Model routing jako optymalizacja kosztu

Nie każde wywołanie agenta wymaga najdroższego modelu. Router który klasyfikuje złożoność zapytania i kieruje proste do tańszego modelu (np. Haiku zamiast Sonnet) może zredukować koszty o 50-80% przy minimalnej degradacji jakości.

Przykład: zapytanie „jaki jest status mojego zamówienia?” → prosty model + API call. Zapytanie „pomóż mi zrozumieć warunki umowy i oceń ryzyka” → reasoning model.

Token cost a caching

Anthropic i inne providery oferują prompt caching — wielokrotne użycie tego samego system promptu jest tańsze gdy jest cachowany. Dla agentów z długim, stabilnym system promptem caching redukuje koszty input tokenów o 90%.

Powiązane pojęcia

Obserwowalność agentówMonitorowanie agentów AI w produkcji — strukturalne logowanie kroków agent loop, metryki (latency, token cost, error rate) i narzędzia do debugowania konwersacji. Trzy poziomy: tracing, metryki, alerty. Token cost observability jako kluczowa dla kontroli kosztów.Opóźnienie agentoweŁączny czas od zlecenia zadania agentowi do dostarczenia wyników — suma wywołań modelu, narzędzi, retrieval i orchestration overhead. Kluczowa metryka dla interaktywnych zastosowań wymagająca decyzji: równoległe wywołania, cachowanie, dobór modelu, sync vs async.Model rozumującyKlasa modeli językowych która przed wygenerowaniem odpowiedzi wykonuje wewnętrzny proces rozumowania — chain of thought lub extended thinking — co znacząco poprawia jakość odpowiedzi na złożone problemy. Pierwszy popularny reasoning model: OpenAI o1 (wrzesień 2024).Okno kontekstuMaksymalna ilość tekstu (mierzona w tokenach) którą model AI może przetworzyć w jednym zapytaniu — determinuje ile treści strony agent może przeczytać naraz i dlaczego Markdown for Agents ma znaczenie.RAGRetrieval-Augmented Generation — technika wzbogacania odpowiedzi modelu AI o dane pobrane w czasie rzeczywistym ze stron WWW lub baz wiedzy, zamiast polegania wyłącznie na wiedzy z treningu.