Ewaluacja trajektorii agenta — nie tylko wynik, ale droga do niego

Agent dał dobrą odpowiedź.

Ale czy doszedł do niej właściwą drogą?

Artykuł 9 serii postawił pytanie: czy agent robi to co powinien? I dał narzędzia do mierzenia tego — task completion, tool call accuracy, faithfulness, efficiency. To jest fundament, i jeśli go nie masz, zacznij tam.

Ten wpis zaczyna się w miejscu, gdzie tamten się kończy. Bo jest jeden problem, którego cztery metryki nie łapią: agent może osiągnąć dobry wynik złą drogą. I zła droga kosztuje — w tokenach, w latencji, w ryzyku. A przede wszystkim: jeśli agent doszedł do dobrej odpowiedzi przez przypadek, nie przez rozumowanie, to przy następnym, odrobinę innym pytaniu — zawiedzie.

Co to jest trajektoria

Gdy agent myśli w pętli ReAct — percepcja → plan → akcja → ocena → następny krok — każdy obrót tej pętli zostawia ślad. Trajektoria to właśnie ten ślad: pełna sekwencja kroków agenta od otrzymania zadania do odpowiedzi.

Trajektoria zawiera:

Co agent zaplanował w każdym kroku
Które narzędzia wywołał i z jakimi parametrami
Co zwróciły te narzędzia
Jak agent to zinterpretował
Co zdecydował zrobić dalej

To jest nieporównywalnie bogatszy sygnał niż sam wynik końcowy. Wynik mówi „doszedł”. Trajektoria mówi „jak”.

Dlaczego wynik to za mało — trzy scenariusze

Scenariusz 1: Dobra odpowiedź, zła droga. Agent ma sprawdzić status zamówienia #45678. Wywołuje get_order_status — ale z parametrem order_id="456" (obciął numer). Narzędzie zwraca błąd. Agent próbuje ponownie z order_id="45678" — tym razem trafia. Odpowiedź użytkownikowi: poprawna. Task completion: 100%. Ale trajektoria ujawnia, że agent zgadywał parametry — i przy zamówieniu #4 zawiedzie.

Scenariusz 2: Dobry wynik, 3x za dużo kroków. Agent ma wygenerować podsumowanie dokumentu. Zamiast wywołać jedno narzędzie do odczytu i podsumować, wywołuje je trzykrotnie (raz w całości, dwa razy fragmentami), porównuje wyniki, decyduje że pierwsza wersja była najlepsza. Wynik: dobry. Efficiency metric: niska. Koszt: 3x wyższy niż powinien. Przy 1000 wywołań dziennie — problem widoczny na rachunku.

Scenariusz 3: Pętla którą wynik ukrył. Agent ma umówić spotkanie. Nie może znaleźć dostępnego terminu, więc pyta o dostępność raz, drugi, trzeci — z coraz szerszym zakresem dat, bo nie rozumie że trzeba zapytać konkretną osobę, nie ogólny kalendarz. W końcu trafia na termin. Task completion: 100%. Ale agent się pętlił — i pętla ukrywa systematyczny błąd w rozumieniu narzędzia, który odtworzy się przy każdym podobnym zadaniu.

Trzy wymiary oceny trajektorii

1. Trafność kroków

Czy agent szedł właściwą ścieżką? Przy danym zadaniu istnieje optymalna sekwencja kroków — nie musi być jedyna, ale można ją zdefiniować z góry jako referencję.

Porównujesz: expected_trajectory (co agent powinien był zrobić) vs actual_trajectory (co faktycznie zrobił). Podobieństwo mierzysz jako procent kroków z expected które pojawiły się w actual, we właściwej kolejności.

Format rozszerzonego testu (wychodzi z formatu z art. 9):

json

{
  "id": "test_042",
  "input": "Jaki jest status zamówienia #45678?",
  "expected_tools": ["get_order_status"],
  "expected_tool_params": {"order_id": "45678"},
  "expected_trajectory": [
    {"step": 1, "action": "tool_call", "tool": "get_order_status", "params": {"order_id": "45678"}},
    {"step": 2, "action": "respond", "contains": ["status", "data dostawy"]}
  ],
  "max_steps": 3,
  "success_criteria": "Odpowiedź zawiera status i datę dostawy",
  "category": "typical"
}

max_steps to kluczowe pole — definiuje ile kroków maksymalnie akceptujesz dla tego zadania.

2. Efektywność

Stosunek kroków wykonanych do kroków minimalnych. Agent który wykonał 6 kroków na zadanie wymagające 2 kroków ma efficiency = 33%.

python

def trajectory_efficiency(actual_steps: int, min_steps: int) -> float:
    return min(1.0, min_steps / actual_steps)

# Agent wykonał 6 kroków, minimalne były 2
efficiency = trajectory_efficiency(6, 2)  # → 0.33

Efficiency poniżej 0.5 to sygnał do zbadania — agent albo się pętli, albo nie rozumie narzędzi, albo system prompt generuje niepotrzebne kroki walidacji.

3. Jakość parametrów narzędzi

Czy agent wydedukował parametry z kontekstu, czy je zgadł lub zhalucynował?

To najtrudniejszy do automatycznego mierzenia wymiar — bo wymagasz dostępu do kroków pośrednich (chain-of-thought), nie tylko wywołań. Mierzysz go przez:

Porównanie parametrów z expected (czy order_id był poprawny od pierwszego wywołania)
Liczbę retry — agent który wywołuje to samo narzędzie kilkukrotnie z różnymi parametrami prawdopodobnie zgaduje
LLM-as-judge dla rozumowania (patrz niżej)

LLM-as-judge dla trajektorii

Klasyczny LLM-as-judge z art. 9 oceniał końcową odpowiedź. Sędzia trajektorii ocenia sekwencję kroków:

python

def trajectory_judge(task: str, trajectory: list[dict], expected: list[dict]) -> dict:
    trajectory_text = "\n".join([
        f"Krok {i+1}: {step['action']} "
        f"{'→ ' + step['tool'] if 'tool' in step else ''} "
        f"{'Params: ' + str(step.get('params', {})) if 'params' in step else ''}"
        for i, step in enumerate(trajectory)
    ])
    
    expected_text = "\n".join([
        f"Krok {i+1}: {step['action']} "
        f"{'→ ' + step['tool'] if 'tool' in step else ''}"
        for i, step in enumerate(expected)
    ])
    
    prompt = f"""
Oceń trajektorię agenta wykonującego zadanie.

ZADANIE: {task}

OCZEKIWANA TRAJEKTORIA:
{expected_text}

FAKTYCZNA TRAJEKTORIA:
{trajectory_text}

Oceń na skali 1-5:
1 = Całkowicie błędna ścieżka
3 = Właściwy kierunek, zbędne kroki lub drobne błędy
5 = Optymalna trajektoria

Zwróć JSON:
{{
  "score": X,
  "efficient": true/false,
  "issues": ["lista problemów jeśli są"],
  "reasoning": "krótkie uzasadnienie"
}}
"""
    return json.loads(call_model(prompt, model="claude-haiku-4-5"))

Kluczowe: sędzia trajektorii musi dostać oba — expected i actual. Bez referencji nie ma podstawy do oceny.

Sygnały złej trajektorii — co szukać w logach

Zanim zbudujesz pełną ewaluację trajektorii, warto znać sygnały których szukać w logach. Każdy z nich to kandydat do zbadania:

Retry loop — to samo narzędzie wywołane 2+ razy z różnymi parametrami w jednym zadaniu. Niemal zawsze oznacza że agent zgadywał albo nie rozumiał zwróconego błędu.

Backtracking — agent wraca do wcześniejszego narzędzia po tym jak przeszedł do następnego. Np. sprawdza status zamówienia, potem sprawdza klienta, potem wraca do zamówienia. Może być uzasadnione, ale często sygnał niespójnego planu.

Step count > 2× expected — jeśli zadanie powinno być na 3 kroki a zajęło 8, coś poszło nie tak. Nawet jeśli wynik jest poprawny.

Narzędzie wywołane z pustymi parametrami lub null — agent nie miał skąd wziąć wartości i podstawił placeholder. Niemal zawsze halucynacja parametru.

Brak wywołania narzędzia które powinno być wywołane — agent „wiedział” odpowiedź bez sięgania do danych. W agencie RAG to red flag.

Trajektoria wymaga logowania kroków

Tu jest warunek który odkładam celowo na koniec, bo jest oczywisty — ale bez niego cała ewaluacja trajektorii jest niemożliwa: musisz logować kroki pośrednie, nie tylko wynik końcowy.

Standardowe logowanie agenta zapisuje: input → output. To wystarczy do metryki task completion. Nie wystarczy do ewaluacji trajektorii.

Rozszerzone logowanie zapisuje każdy obrt pętli: plan agenta, wywołane narzędzie i parametry, wynik narzędzia, decyzja o następnym kroku. W n8n to console.log przy każdym węźle agenta przekazany do zewnętrznego serwisu albo arkusza. W kodzie — middleware który przechwytuje każde wywołanie.

Dokładnie o tym — jak logować i co robić z tymi logami w produkcji — jest następny wpis tego wątku: observability po deploymencie. Tu ewaluacja trajektorii jest narzędziem na etapie testowania, tam jest narzędziem na etapie produkcji.

Co z tego wynika

Ewaluacja trajektorii odpowiada na pytanie które wynik końcowy nie zadaje: jak agent tam doszedł. Trzy wymiary — trafność kroków, efektywność, jakość parametrów — razem z LLM-as-judge dla sekwencji kroków dają pełny obraz tego, czy agent rozumuje właściwie, czy tylko trafia przez przypadek.

Praktyczna zasada: agent który regularnie daje dobry wynik złą drogą jest agentem który zawiedzie przy pierwszym odchyleniu od testowanych scenariuszy. Ewaluacja trajektorii łapie go zanim to zrobi — pod warunkiem że logujesz kroki.

Pojęcia ze słownika: Agent ewaluacja · Ewaluacja trajektorii · LLM-as-judge · Tool use · Chain-of-thought · Agent observability

Sprawdź słownik pojęć Agentic-Web

Spis treści

Formaty obrazu w 2026: przewodnik po całej serii (który wybrać i kiedy)

przez Łukasz

Co to jest BMP? Goła mapa bitowa — i lekcja o tym, czym naprawdę jest kompresja

przez Łukasz

Co to jest JPG? Format, który nauczył internet słowa „kompresja”

przez Łukasz

Co to jest GIF? Format, który miał umrzeć, a stał się nieśmiertelny

przez Łukasz

Co to jest TIFF? Format, którego nigdy nie zobaczysz na stronie — i o to chodzi

przez Łukasz

Co to jest HEIC? Format zdjęć z iPhone’a, którego nie otwiera pół internetu

przez Łukasz

Co to jest SVG? Format obrazu, który nie jest obrazem

przez Łukasz

Co to jest PNG? Format, który po 22 latach dostał drugie życie

przez Łukasz

Co to jest JPEG XL? Format, który wygnano z przeglądarki — i który właśnie wraca

przez Łukasz

Co to jest AVIF? Format obrazu, który poszedł dalej niż WebP

przez Łukasz

« Starsze Wpisy

Atlas znika po dziewięciu miesiącach — a jego najważniejsza lekcja jest o bezpieczeństwie, nie o rynku

przez Łukasz | lip 13, 2026 | Agentic Web

OpenAI wygasza ChatGPT Atlas 9 sierpnia 2026. To dobry moment, żeby zapytać, dlaczego agentowa przeglądarka okazała się trudniejsza, niż wyglądała — i dlaczego problem nie zniknie razem z produktem. 9 lipca 2026 OpenAI ogłosił, że ChatGPT Atlas — dedykowana...

Poza AI Act — czego ta mapa nie obejmuje (a co też jest prawem)

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna — a ta konkretna strona jest mapą granic mapy: pokazuje terytoria, których hub świadomie nie opisuje, żeby nikt nie pomylił jego zasięgu z zasięgiem prawa. Data ostatniej weryfikacji treści: lipiec 2026. AI Act jest regulacją nową...

AI Act nie dzieli świata na Big Tech i resztę — dzieli na role: dostawca i podmiot stosujący. Firma używająca kupionego narzędzia AI ma własną rolę i własne obowiązki. Mapa tej roli

Firma jako podmiot stosujący — AI Act obowiązuje także tych, którzy niczego nie zbudowali

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy konstrukcję ról z tekstu rozporządzenia. Jaką rolę pełni Twoja firma wobec konkretnego systemu i jakie obowiązki z niej wynikają — rozstrzyga prawnik. Data ostatniej weryfikacji treści: lipiec 2026. AI Act przypisuje...

Oznaczanie treści generowanych przez AI — kto, co i od kiedy

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy konstrukcję obowiązków z art. 50 AI Act według tekstu przepisów i publicznie dostępnych projektów wytycznych. Czy i jak dotyczą Twoich treści — rozstrzyga prawnik. Data ostatniej weryfikacji treści: lipiec 2026. AI Act...

Piramida ryzyka — jak AI Act klasyfikuje systemy i gdzie na niej ląduje typowa firma

przez Łukasz | lip 12, 2026 | Agentic Web, Ai Act

To mapa regulacji, nie porada prawna. Opisujemy konstrukcję klasyfikacji z tekstu rozporządzenia. Do którego poziomu należy konkretny system w konkretnym użyciu — rozstrzyga analiza prawna, nie mapa. Data ostatniej weryfikacji treści: lipiec 2026. AI Act nie reguluje...

Chatbot i agent na stronie a obowiązek przejrzystości — termin, który nie został przesunięty

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy, co wynika z tekstu art. 50 AI Act i publicznie dostępnych wytycznych. Czy i jak przepis stosuje się do Twojego konkretnego wdrożenia — rozstrzyga prawnik. Data ostatniej weryfikacji treści: lipiec 2026. Od 2 sierpnia...

Kalendarz AI Act po Digital Omnibus — co obowiązuje, co wchodzi, co przesunięto

przez Łukasz | lip 11, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy terminy i kategorie wynikające z tekstu przepisów. Czy i jak dotyczą Twojego przypadku — rozstrzyga prawnik znający Twoją sytuację. Data ostatniej weryfikacji treści: lipiec 2026; przepisy w tym obszarze zmieniały się w...

Human-in-the-loop, który kłamie — jak zaprojektować okno zgody, które naprawdę chroni

przez Łukasz | lip 11, 2026 | Anatomia agenta AI

Dodałeś potwierdzenie przez człowieka. To nie znaczy, że dodałeś zabezpieczenie. Kiedy budujesz agenta, który robi coś nieodwracalnego — pisze pliki, wykonuje polecenia, wysyła pieniądze — prędzej czy później dokładasz punkt kontrolny: zanim agent to zrobi, pyta...

AI Website Tycoon

przez Łukasz | lip 9, 2026 | Gry

👑 AI WEBSITE TYCOON Symulator agencji stron przyszłości Rok 2025 Budżet 100 000 zł ⛶ 1 · Klient 2 · Budżet 3 · Wydarzenia 4 · Wyniki 5 · Raport AI Zbuduj stronę, którą poleci AI — nie tylko taką, która ładnie wygląda. Dostajesz klienta i 100 000 zł. Twoje...

Ekonomia widoczności — kto płaci za internet, który czytają maszyny

przez Łukasz | lip 9, 2026 | AI Visibility

Otwarty internet stał przez dwie dekady na niepisanej umowie: twórca oddaje treść do indeksowania, wyszukiwarka odsyła w zamian ruch, ruch monetyzuje się reklamą, sprzedażą albo marką. Systemy AI tę umowę łamią w połowie — czytają treść jak nikt wcześniej, ale...

« Starsze Wpisy

Ewaluacja trajektorii agenta — nie tylko wynik, ale droga do niego

Agent dał dobrą odpowiedź.

Ale czy doszedł do niej właściwą drogą?

Co to jest trajektoria

Dlaczego wynik to za mało — trzy scenariusze

Trzy wymiary oceny trajektorii

1. Trafność kroków

2. Efektywność

3. Jakość parametrów narzędzi

LLM-as-judge dla trajektorii

Sygnały złej trajektorii — co szukać w logach

Trajektoria wymaga logowania kroków

Co z tego wynika

Spis treści

Formaty obrazu w 2026: przewodnik po całej serii (który wybrać i kiedy)

Co to jest BMP? Goła mapa bitowa — i lekcja o tym, czym naprawdę jest kompresja

Co to jest JPG? Format, który nauczył internet słowa „kompresja”

Co to jest GIF? Format, który miał umrzeć, a stał się nieśmiertelny

Co to jest TIFF? Format, którego nigdy nie zobaczysz na stronie — i o to chodzi

Co to jest HEIC? Format zdjęć z iPhone’a, którego nie otwiera pół internetu

Co to jest SVG? Format obrazu, który nie jest obrazem

Co to jest PNG? Format, który po 22 latach dostał drugie życie

Co to jest JPEG XL? Format, który wygnano z przeglądarki — i który właśnie wraca

Co to jest AVIF? Format obrazu, który poszedł dalej niż WebP

Atlas znika po dziewięciu miesiącach — a jego najważniejsza lekcja jest o bezpieczeństwie, nie o rynku

Poza AI Act — czego ta mapa nie obejmuje (a co też jest prawem)

Firma jako podmiot stosujący — AI Act obowiązuje także tych, którzy niczego nie zbudowali

Oznaczanie treści generowanych przez AI — kto, co i od kiedy

Piramida ryzyka — jak AI Act klasyfikuje systemy i gdzie na niej ląduje typowa firma

Chatbot i agent na stronie a obowiązek przejrzystości — termin, który nie został przesunięty

Kalendarz AI Act po Digital Omnibus — co obowiązuje, co wchodzi, co przesunięto

Human-in-the-loop, który kłamie — jak zaprojektować okno zgody, które naprawdę chroni

AI Website Tycoon

Ekonomia widoczności — kto płaci za internet, który czytają maszyny

Agentic Web

Nawigacja

Bądź na bieżąco

Zapisz się na newsletter

Join the Newsletter

Czego szukasz?