Agent który napotka błąd może go obsłużyć przez retry. Jeden retry. Dwa retry. Trzy retry. Każdy retry to kolejne wywołanie API. Jeśli agent jest w pętli i nie obsługuje rate limits poprawnie — może w ciągu minut wygenerować tysiące wywołań, wyczerpać limity, zablokować nie tylko siebie ale wszystkie inne agenty w organizacji korzystające z tego samego klucza API.
Rate limiting nie jest tylko ograniczeniem — jest mechanizmem ochrony ekosystemu.
Czym jest rate limiting API w kontekście agentów
Rate limiting API to mechanizm ograniczający liczbę wywołań do API w danym oknie czasowym — stosowany przez dostawców modeli (tokens per minute, requests per minute) i zewnętrznych serwisów — wymagający od agentów świadomego zarządzania: exponential backoff przy błędach 429, queue-based throttling przy wielu równoległych agentach i monitoring zużycia przed wyczerpaniem limitów.
Limity dostawców modeli
OpenAI, Anthropic, Google — wszyscy mają rate limits które zależą od tier konta. Anthropic Claude API (2026): tier podstawowy — 50K tokens/minute, tier enterprise — 2M+ tokens/minute. Przekroczenie limitu → błąd 429 „Too Many Requests”.
Agent który nie obsługuje 429 → crash lub nieskończona pętla. Agent który obsługuje 429 przez exponential backoff → czeka, powtarza z rosnącymi interwałami (1s, 2s, 4s, 8s…), ogranicza samoczynnie tempo.
Token per minute vs requests per minute
Dwa różne limity wymagają różnego zarządzania. Requests per minute (RPM): liczba wywołań. Token per minute (TPM): całkowita liczba tokenów. Agent z długimi kontekstami może wyczerpać TPM przy małej liczbie requestów. Agent wywołujący wiele prostych narzędzi może wyczerpać RPM przy małym TPM.
Monitoring obu metryk jednocześnie jest konieczny dla agentów w produkcji.
Organizacyjny rate limit management
W enterprise z wieloma agentami współdzielącymi jeden klucz API — jeden agent w pętli może zablokować wszystkich innych. Rozwiązania: osobne klucze API per agent (izolacja limitów), centralne API gateway z rate limiting per agent (kontrola zużycia), kolejkowanie żądań przez wspólny pool z budgetowaniem per agent.
AWS API Gateway, Kong, Azure API Management — narzędzia do zarządzania rate limitami dla wielu agentów na wspólnej infrastrukturze.