Użytkownik pyta chatbota — odpowiedź po 2-3 sekundach jest akceptowalna. Użytkownik prosi agenta o zarezerwowanie lotu, sprawdzenie dostępności hoteli i przygotowanie itinerary — agent wywołuje API 15 razy, każde wywołanie 500ms, plus czas modelu, plus retrieval. Łączny czas: 20-30 sekund.
Czy 30 sekund oczekiwania jest akceptowalne? To zależy od zadania. Dla złożonego planowania podróży — prawdopodobnie tak, jeśli efekt jest wartościowy. Dla prostego zapytania o status zamówienia — nie.
Latency agentowa to nie tylko problem techniczny — to decyzja projektowa dotycząca trade-offu między jakością a szybkością.
Czym jest latency agentowa
Latency agentowa to łączny czas od zlecenia zadania agentowi do dostarczenia wyników — będący sumą czasu wywołań modelu, wywołań narzędzi, operacji retrieval i orchestration overhead — kluczowa metryka użyteczności agenta w interaktywnych zastosowaniach, wymagająca świadomych decyzji projektowych dotyczących równoległości wywołań, cachowania i wyboru modelu.
Składowe latency agentowej
Model inference: czas generowania tokenów przez model. Zależy od modelu (większy = wolniejszy), długości kontekstu (dłuższy = wolniejszy), długości generowanego outputu. Reasoning modele (o1, Claude extended thinking) są 2-5x wolniejsze od standardowych — ale dają lepsze wyniki dla złożonych zadań.
Tool call latency: czas wywołania zewnętrznych narzędzi (API, bazy danych). Często dominująca składowa przy agentach operacyjnych. Sieć + czas odpowiedzi zewnętrznego serwisu.
Retrieval latency: czas przeszukania vector database i pobrania dokumentów. Zazwyczaj 50-200ms dla dobrze zoptymalizowanej bazy.
Orchestration overhead: czas zarządzania agent loop przez framework. Zazwyczaj mały (10-50ms) jeśli framework jest wydajny.
Strategie redukcji latency
Równoległe wywołania narzędzi: zamiast sekwencji „sprawdź dostępność A, potem sprawdź dostępność B” — wywołaj oba równolegle gdy nie zależą od siebie. Skraca latency o 30-60% dla agentów z wieloma niezależnymi narzędziami.
Streaming: zamiast czekać na pełną odpowiedź — streamuj tokeny do użytkownika. Użytkownik widzi odpowiedź pojawiającą się, co psychologicznie skraca postrzeganą latency nawet jeśli całkowity czas jest taki sam.
Cachowanie: wyniki narzędzi które nie zmieniają się często (dane produktowe, polityki firmy) mogą być cachowane. Agent nie wywołuje API za każdym razem — sprawdza cache.
Model selection: prostsze zadania → szybszy/tańszy model. Złożone zadania → wolniejszy reasoning model. Router który wybiera model na podstawie złożoności zadania optymalizuje latency i koszty jednocześnie.
Latency a UX
Agenty asynchroniczne (nie wymagające czekania użytkownika) tolerują wyższe latency. „Przygotuj mi raport na jutro rano” — agent może pracować 30 minut. „Odpowiedz mi na to pytanie” — agent ma 3-5 sekund. Projektowanie agentów z uwzględnieniem modelu interakcji (sync vs async) jest fundamentalne dla dobrego UX.