Model językowy nie jest darmowy. Każde zapytanie kosztuje — proporcjonalnie do liczby tokenów wejścia (context) i wyjścia (output). Dla pojedynczego zapytania chatbota koszt jest pomijalny. Dla agenta który wywołuje model 20 razy w jednej sesji, obsługuje tysiące sesji dziennie, z długimi contextami — koszty mogą zaskoczyć.
Token cost to nie tylko koszt finansowy — to metryka efektywności agenta.
Czym jest token cost
Token cost to koszt obliczeniowy i finansowy operacji modelu językowego mierzony w tokenach — jednostkach tekstu odpowiadających mniej więcej 0.75 słowa po angielsku — będący funkcją rozmiaru kontekstu wejściowego, długości generowanego outputu i ceny modelu, stanowiący kluczową metrykę projektową dla agentów działających w skali.
Kalkulacja kosztów — przykład
Claude Sonnet 4 (maj 2026): $3 / 1M input tokens, $15 / 1M output tokens. Agent obsługi klienta z kontekstem 5000 tokenów (historia + narzędzia + dokumenty) który generuje 500 tokenów odpowiedzi:
Cost per conversation = (5000 × $3/1M) + (500 × $15/1M) = $0.015 + $0.0075 = $0.0225
Tysiąc konwersacji dziennie = $22.50/dzień = ~$675/miesiąc. Jak system prompt rośnie do 10000 tokenów i konwersacje wydłużają się — koszt podwaja.
Context window bloat — główny winowajca kosztów
Najczęstszą przyczyną wysokich kosztów w agentach produkcyjnych jest context window bloat — niepotrzebne rozrastanie się kontekstu przez: za długi system prompt (z niepotrzebną historią i dokumentami), dołączanie pełnych wyników narzędzi zamiast wyciągniętych kluczowych informacji, długa historia konwersacji bez summaryzacji.
Strategie redukcji: summaryzacja historii konwersacji co N tur, wyciąganie kluczowych informacji z wyników narzędzi zamiast wklejania pełnego JSON, system prompt tylko z tym co agent faktycznie potrzebuje.
Model routing jako optymalizacja kosztu
Nie każde wywołanie agenta wymaga najdroższego modelu. Router który klasyfikuje złożoność zapytania i kieruje proste do tańszego modelu (np. Haiku zamiast Sonnet) może zredukować koszty o 50-80% przy minimalnej degradacji jakości.
Przykład: zapytanie „jaki jest status mojego zamówienia?” → prosty model + API call. Zapytanie „pomóż mi zrozumieć warunki umowy i oceń ryzyka” → reasoning model.
Token cost a caching
Anthropic i inne providery oferują prompt caching — wielokrotne użycie tego samego system promptu jest tańsze gdy jest cachowany. Dla agentów z długim, stabilnym system promptem caching redukuje koszty input tokenów o 90%.