Jak sprawdzić że agent działa poprawnie? W tradycyjnym software: piszesz unit testy. Wywołujesz funkcję z konkretnym inputem, sprawdzasz output. Deterministyczne, precyzyjne.
Agent AI nie jest deterministyczny. Ten sam input może dać różne outputy. Jeden run może być doskonały, następny zawierać subtelny błąd. Jak testować coś co jest z natury niedeterministyczne?
Agent ewaluacja to odpowiedź na to pytanie.
Czym jest agent ewaluacja
Agent ewaluacja to systematyczny proces mierzenia jakości działania agenta AI — przez zestaw przykładów testowych z oczekiwanymi wynikami, metryki adekwatne dla konkretnego zadania (accuracy, faithfulness, relevance, tool_call_accuracy) i powtarzalne uruchomienia statystyczne — pozwalający wykryć regresje jakości przy zmianach agenta i porównywać różne konfiguracje.
Co mierzyć — metryki agentowe
Task completion rate: czy agent ukończył zadanie które miał wykonać. Podstawowa metryka, ale niewystarczająca — agent może „ukończyć” zadanie robiąc coś błędnego.
Tool call accuracy: czy agent wywołał właściwe narzędzia z właściwymi parametrami. Kluczowe dla agentów operacyjnych. Przykład: agent który miał sprawdzić status zamówienia ale wywołał narzędzie do anulowania — task completion = true, tool call accuracy = fail.
Response faithfulness: czy odpowiedź agenta jest zgodna z danymi z retrieval (nie hallucynuje). Mierzone przez LLM-as-judge lub specjalistyczne modele ewaluacyjne.
Conversation efficiency: ile kroków/narzędzi/tokenów agent potrzebował do wykonania zadania. Agent który wykonuje zadanie w 3 krokach jest lepszy niż ten który potrzebuje 10.
LLM-as-judge
Popularny wzorzec: użyj innego modelu AI jako „sędziego” który ocenia odpowiedź agenta. „Oceń tę odpowiedź agenta pod kątem [kryterium] na skali 1-5.” Skalowalne, ale podatne na biasy modelu sędziego (modele lubią swoje własne odpowiedzi, są bardziej surowe dla krótkich odpowiedzi).
Ewaluacja a deployment
Ewaluacja powinna być częścią CI/CD pipeline dla agentów — przed każdym wdrożeniem nowej wersji system promptu lub modelu, ewaluacja sprawdza czy jakość nie zmalała. Regresja jakości poniżej progu blokuje deployment.
Anthropic, LangChain (LangSmith) i inne platformy oferują gotowe narzędzia do ewaluacji agentów z integracją z CI/CD.