Budżet tokenów to rozmiar okna kontekstu traktowany nie jako pojemność, lecz jako zasób do świadomego alokowania. Każdy token ma cenę — dosłowną (koszt wywołania API) i jakościową (im więcej tokenów w oknie, tym trudniej modelowi skoncentrować się na tym, co ważne).
Podwójny koszt nadmiaru
W pętli agenta tokeny wejścia płaci się przy każdej iteracji. Jeśli kontekst rośnie bez kontroli — historia wszystkich kroków, kompletne dokumenty, nieprzycinane wyniki narzędzi — koszt rośnie wykładniczo z każdą rundą. A razem z kosztem rośnie ryzyko context rot: ważna informacja tonie w szumie.
Zasada: każdy token musi na siebie zarabiać
Dobry kontekst to nie maksymalnie pełny kontekst — to kontekst, w którym każdy element odpowiada na pytanie: czy ten fragment zwiększa szansę na poprawny wynik w tym konkretnym kroku? Jeśli nie — nie powinien być w oknie.
Techniki gospodarowania budżetem
Kompakcja kontekstu — streszczanie starszej historii zamiast jej akumulowania. Just-in-time retrieval — pobieranie wiedzy dopiero gdy krok jej wymaga, nie z góry. Selekcja wyników narzędzi — zwracanie do okna tylko relevantnych pól, nie całego obiektu JSON.