Ograniczenie wywołań API

Mechanizm ograniczający wywołania API w danym oknie czasowym — wymagający od agentów exponential backoff przy błędach 429, queue-based throttling i monitoringu zużycia. Jeden agent w pętli bez rate limit management może zablokować wszystkie inne agenty w organizacji.

W Polsce nazywane też:

rate limitingograniczenie wywołańthrottling APIexponential backofflimity API

Agent który napotka błąd może go obsłużyć przez retry. Jeden retry. Dwa retry. Trzy retry. Każdy retry to kolejne wywołanie API. Jeśli agent jest w pętli i nie obsługuje rate limits poprawnie — może w ciągu minut wygenerować tysiące wywołań, wyczerpać limity, zablokować nie tylko siebie ale wszystkie inne agenty w organizacji korzystające z tego samego klucza API.

Rate limiting nie jest tylko ograniczeniem — jest mechanizmem ochrony ekosystemu.

Czym jest rate limiting API w kontekście agentów

Rate limiting API to mechanizm ograniczający liczbę wywołań do API w danym oknie czasowym — stosowany przez dostawców modeli (tokens per minute, requests per minute) i zewnętrznych serwisów — wymagający od agentów świadomego zarządzania: exponential backoff przy błędach 429, queue-based throttling przy wielu równoległych agentach i monitoring zużycia przed wyczerpaniem limitów.

Limity dostawców modeli

OpenAI, Anthropic, Google — wszyscy mają rate limits które zależą od tier konta. Anthropic Claude API (2026): tier podstawowy — 50K tokens/minute, tier enterprise — 2M+ tokens/minute. Przekroczenie limitu → błąd 429 „Too Many Requests”.

Agent który nie obsługuje 429 → crash lub nieskończona pętla. Agent który obsługuje 429 przez exponential backoff → czeka, powtarza z rosnącymi interwałami (1s, 2s, 4s, 8s…), ogranicza samoczynnie tempo.

Token per minute vs requests per minute

Dwa różne limity wymagają różnego zarządzania. Requests per minute (RPM): liczba wywołań. Token per minute (TPM): całkowita liczba tokenów. Agent z długimi kontekstami może wyczerpać TPM przy małej liczbie requestów. Agent wywołujący wiele prostych narzędzi może wyczerpać RPM przy małym TPM.

Monitoring obu metryk jednocześnie jest konieczny dla agentów w produkcji.

Organizacyjny rate limit management

W enterprise z wieloma agentami współdzielącymi jeden klucz API — jeden agent w pętli może zablokować wszystkich innych. Rozwiązania: osobne klucze API per agent (izolacja limitów), centralne API gateway z rate limiting per agent (kontrola zużycia), kolejkowanie żądań przez wspólny pool z budgetowaniem per agent.

AWS API Gateway, Kong, Azure API Management — narzędzia do zarządzania rate limitami dla wielu agentów na wspólnej infrastrukturze.