Observability agenta po deploymencie — jak wiedzieć że coś się zepsuło zanim użytkownik zgłosi

Przeszedł wszystkie testy przed wdrożeniem.

Tydzień później provider po cichu zaktualizował model. Nikt Ci o tym nie powiedział.

Artykuł 9 serii i dwa poprzednie wpisy tego wątku — ewaluacja trajektorii i ewaluacja w n8n — dotyczyły jednego momentu: przed wdrożeniem. Golden set, sędzia, quality gate. To konieczne, ale niewystarczające.

Bo agent na produkcji żyje w świecie, którego golden set nie obejmuje: pytania, których nie przewidziałeś, i zmiany, których nie wprowadziłeś. Ten wpis jest o tym drugim etapie — observability, czyli jak wiedzieć co dzieje się z agentem po wdrożeniu.

Dwa różne problemy, oba konieczne

Łatwo pomylić ewaluację z observability, bo oba dotyczą „jakości agenta”. Różnica jest czysta i warto ją trzymać:

Ewaluacja (przed deployem) odpowiada: czy ta wersja agenta jest dobra? Mierzysz na kontrolowanym golden secie, w warunkach laboratoryjnych, zanim zmiana trafi do ludzi.

Observability (po deployu) odpowiada: czy agent nadal działa dobrze teraz, na żywym ruchu? Mierzysz na rzeczywistych konwersacjach, w produkcji, ciągle.

Pierwsze chroni przed wdrożeniem złej zmiany, którą Ty wprowadziłeś. Drugie chroni przed degradacją, której niewprowadziłeś — i to jest jego unikalna wartość.

Cicha regresja — wróg, którego ewaluacja nie złapie

Najważniejszy powód, dla którego sama ewaluacja przed deployem nie wystarcza: silent regression — cicha regresja.

Twój agent stoi na modelu providera (Claude, GPT, Gemini). Ten model nie jest statyczny. Provider go aktualizuje, czasem po cichu, czasem zmieniając zachowanie w sposób, którego nie ogłasza wprost. System prompt, który działał perfekcyjnie z jedną wersją modelu, może zachowywać się inaczej z następną — to samo ryzyko, które art. 9 sygnalizował przy przejściu między wersjami modelu.

Problem z cichą regresją: nie wywołuje jej żadna Twoja zmiana. Twój kod jest ten sam. Twój prompt jest ten sam. Twój golden set z zeszłego tygodnia przeszedł. A agent nagle gorzej radzi sobie z pewną klasą pytań — bo model pod spodem jest subtelnie inny. Bez monitoringu produkcyjnego dowiesz się o tym z reklamacji, nie z dashboardu.

To dlatego observability nie jest luksusem dla dużych — jest jedynym sposobem, by złapać degradację, która nie ma związku z Twoim działaniem.

Trzy warstwy observability

Nie wszystko mierzy się tak samo. Observability agenta ma trzy warstwy, od najłatwiejszej do najtrudniejszej — i najwartościowszej.

Warstwa 1: logi techniczne. Latencja, liczba tokenów, koszt na rozmowę, błędy narzędzi, liczba kroków. To jest mierzalne zawsze i automatycznie — agent generuje te dane sam. Nagły skok latencji albo liczby kroków to pierwszy, najtańszy sygnał, że coś się zmieniło (często właśnie cicha regresja — nowy model „myśli” inaczej).

Warstwa 2: logi jakościowe. Ocena LLM-as-judge, ale tym razem na próbce rzeczywistego ruchu, nie golden setu. Bierzesz np. 10-20% produkcyjnych rozmów i przepuszczasz przez sędziego (tego samego, co w E2). Daje obraz jakości na pytaniach, których nigdy nie było w golden secie.

Warstwa 3: sygnały użytkownika. Eskalacje do człowieka, powtórzone pytania (użytkownik przeformułowuje, bo agent nie zrozumiał), porzucenia rozmowy w połowie, kciuk w dół. Najtrudniejsze do zebrania, bo wymaga instrumentacji interfejsu — ale najwartościowsze, bo to jest prawda o tym, czy agent realnie pomaga. Sędzia LLM mówi „odpowiedź spełnia kryterium”; porzucona rozmowa mówi „użytkownik się poddał”.

Sampling — nie oceniasz wszystkiego

Kluczowa decyzja w observability: nie oceniasz każdej rozmowy. Przepuszczanie 100% produkcyjnego ruchu przez sędziego LLM byłoby absurdalnie drogie — podwajasz koszt każdej rozmowy. Zamiast tego próbkujesz, i to mądrze.

Sensowna strategia łączy dwa rodzaje próbkowania:

Losowe — stały procent ruchu (np. 10%), żeby mieć reprezentatywny obraz ogólnej jakości. To Twój ciągły puls.

Celowane — 100% przypadków wysokiego ryzyka i niepewności: rozmowy, które zakończyły się eskalacją, te z niską efektywnością trajektorii (z E1), te przed nieodwracalną akcją, te w nowych kategoriach pytań. Tam, gdzie błąd kosztuje najwięcej, oceniasz wszystko.

Reguła: losowe próbkowanie mówi „jak jest średnio”, celowane mówi „gdzie jest najgorzej”. Potrzebujesz obu.

Dashboard jakości — co realnie mierzyć

Dashboard nie musi być wymyślny. Musi odpowiadać na jedno pytanie: czy dziś jest gorzej niż wczoraj? Minimalny zestaw wskaźników:

Średni score jakości (z próbki, warstwa 2) — z podziałem na kategorie, bo regresja zwykle uderza w jedną. Latencja i koszt na rozmowę (warstwa 1) — bo skok często wyprzedza spadek jakości. Wskaźnik eskalacji (warstwa 3) — procent rozmów oddanych człowiekowi. Liczba kroków na zadanie — bo jej wzrost to wczesny sygnał cichej regresji.

Do tego progi alarmowe: jeśli którykolwiek wskaźnik przekroczy granicę (np. score spadnie o 5 punktów, eskalacje wzrosną o połowę) — dostajesz alert. To jest produkcyjny odpowiednik quality gate z art. 9: tam blokował wdrożenie, tu uruchamia dochodzenie.

Feedback loop — produkcja zasila testy

Tu domyka się cały wątek ewaluacji. Observability nie jest ślepą uliczką — każdy problem, który wykryje, wraca do ewaluacji jako nowy test.

Rozmowa, w której agent zawiódł na produkcji, staje się nowym wierszem w golden secie z E2. Eskalacja ujawnia kategorię pytań, której nie testowałeś — dodajesz ją. Cicha regresja na pewnej klasie zadań — robisz z niej test, który złapie ją następnym razem przed deployem.

To jest pętla, o której mówił art. 9, domknięta przez produkcję: golden set rośnie z każdym incydentem, którego nie przewidziałeś. Agent, który ma dobry feedback loop, z czasem ma coraz lepszy zestaw testowy — bo uczy się na własnych porażkach.

Narzędzia — mapa, nie ranking

Nie musisz budować observability od zera. Istnieje warstwa narzędzi, które to robią — i krótka mapa, żeby wiedzieć od czego zacząć:

Dla zaczynających i małej skali — często wystarczy to, co masz: logi do arkusza albo do bazy, przepływ ewaluacyjny z E2 odpalany na próbce produkcji. Zero nowych narzędzi.

Dla średniej skali — dedykowane platformy observability dla LLM (Langfuse, Arize Phoenix, MLflow) dają gotowe dashboardy, tracing trajektorii i integrację z sędziami. Langfuse jest open-source i przyjazny na start; Phoenix dobry jeśli już masz stack ML; MLflow jeśli chcesz jedną platformę na ewaluację i monitoring.

To nie jest ranking — to mapa decyzyjna. Wybór zależy od skali i tego, co już masz. Mały agent w n8n nie potrzebuje MLflow; agent obsługujący tysiące rozmów dziennie nie wystarczy arkuszem.

Most do kosztów

Jedna rzecz, którą observability daje przy okazji: widoczność kosztów. Warstwa 1 (latencja, tokeny, kroki) to dokładnie te same dane, które rozkłada wpis o tym, ile kosztuje agent w produkcji. Monitoring jakości i monitoring kosztów to ten sam strumień logów oglądany pod dwoma kątami — agent, który nagle robi więcej kroków, jednocześnie tanieje na jakości i drożeje na rachunku.

Co z tego wynika — i co domyka wątek

Ewaluacja przed deployem chroni przed złą zmianą, którą wprowadzasz. Observability po deployu chroni przed degradacją, której nie wprowadzasz — przede wszystkim przed cichą regresją modelu. Trzy warstwy (techniczna, jakościowa, sygnały użytkownika), mądre próbkowanie i feedback loop, który zwraca produkcyjne porażki do golden setu — to jest pełen obraz.

Tym domykamy wątek ewaluacji. Razem z art. 9 masz teraz komplet: jak ocenić jakość (art. 9), jak ocenić drogę a nie tylko wynik (E1), jak to zrobić bez kodu w n8n (E2) i jak nie stracić tej jakości na produkcji (ten wpis).

Zasada na koniec: agent nie jest skończony w dniu wdrożenia — jest skończony wtedy, gdy przestajesz go obserwować. A ponieważ model pod nim się zmienia bez Twojej wiedzy, ten dzień nigdy nie nadchodzi.

Pojęcia ze słownika: Agent observability · Silent regression · Sampling strategy · Agent ewaluacja · Human-in-the-loop · Golden set

Sprawdź słownik pojęć Agentic-Web

Spis treści

Formaty obrazu w 2026: przewodnik po całej serii (który wybrać i kiedy)

przez Łukasz

Co to jest BMP? Goła mapa bitowa — i lekcja o tym, czym naprawdę jest kompresja

przez Łukasz

Co to jest JPG? Format, który nauczył internet słowa „kompresja”

przez Łukasz

Co to jest GIF? Format, który miał umrzeć, a stał się nieśmiertelny

przez Łukasz

Co to jest TIFF? Format, którego nigdy nie zobaczysz na stronie — i o to chodzi

przez Łukasz

Co to jest HEIC? Format zdjęć z iPhone’a, którego nie otwiera pół internetu

przez Łukasz

Co to jest SVG? Format obrazu, który nie jest obrazem

przez Łukasz

Co to jest PNG? Format, który po 22 latach dostał drugie życie

przez Łukasz

Co to jest JPEG XL? Format, który wygnano z przeglądarki — i który właśnie wraca

przez Łukasz

Co to jest AVIF? Format obrazu, który poszedł dalej niż WebP

przez Łukasz

« Starsze Wpisy

Atlas znika po dziewięciu miesiącach — a jego najważniejsza lekcja jest o bezpieczeństwie, nie o rynku

przez Łukasz | lip 13, 2026 | Agentic Web

OpenAI wygasza ChatGPT Atlas 9 sierpnia 2026. To dobry moment, żeby zapytać, dlaczego agentowa przeglądarka okazała się trudniejsza, niż wyglądała — i dlaczego problem nie zniknie razem z produktem. 9 lipca 2026 OpenAI ogłosił, że ChatGPT Atlas — dedykowana...

Poza AI Act — czego ta mapa nie obejmuje (a co też jest prawem)

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna — a ta konkretna strona jest mapą granic mapy: pokazuje terytoria, których hub świadomie nie opisuje, żeby nikt nie pomylił jego zasięgu z zasięgiem prawa. Data ostatniej weryfikacji treści: lipiec 2026. AI Act jest regulacją nową...

AI Act nie dzieli świata na Big Tech i resztę — dzieli na role: dostawca i podmiot stosujący. Firma używająca kupionego narzędzia AI ma własną rolę i własne obowiązki. Mapa tej roli

Firma jako podmiot stosujący — AI Act obowiązuje także tych, którzy niczego nie zbudowali

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy konstrukcję ról z tekstu rozporządzenia. Jaką rolę pełni Twoja firma wobec konkretnego systemu i jakie obowiązki z niej wynikają — rozstrzyga prawnik. Data ostatniej weryfikacji treści: lipiec 2026. AI Act przypisuje...

Oznaczanie treści generowanych przez AI — kto, co i od kiedy

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy konstrukcję obowiązków z art. 50 AI Act według tekstu przepisów i publicznie dostępnych projektów wytycznych. Czy i jak dotyczą Twoich treści — rozstrzyga prawnik. Data ostatniej weryfikacji treści: lipiec 2026. AI Act...

Piramida ryzyka — jak AI Act klasyfikuje systemy i gdzie na niej ląduje typowa firma

przez Łukasz | lip 12, 2026 | Agentic Web, Ai Act

To mapa regulacji, nie porada prawna. Opisujemy konstrukcję klasyfikacji z tekstu rozporządzenia. Do którego poziomu należy konkretny system w konkretnym użyciu — rozstrzyga analiza prawna, nie mapa. Data ostatniej weryfikacji treści: lipiec 2026. AI Act nie reguluje...

Chatbot i agent na stronie a obowiązek przejrzystości — termin, który nie został przesunięty

przez Łukasz | lip 12, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy, co wynika z tekstu art. 50 AI Act i publicznie dostępnych wytycznych. Czy i jak przepis stosuje się do Twojego konkretnego wdrożenia — rozstrzyga prawnik. Data ostatniej weryfikacji treści: lipiec 2026. Od 2 sierpnia...

Kalendarz AI Act po Digital Omnibus — co obowiązuje, co wchodzi, co przesunięto

przez Łukasz | lip 11, 2026 | Ai Act

To mapa regulacji, nie porada prawna. Opisujemy terminy i kategorie wynikające z tekstu przepisów. Czy i jak dotyczą Twojego przypadku — rozstrzyga prawnik znający Twoją sytuację. Data ostatniej weryfikacji treści: lipiec 2026; przepisy w tym obszarze zmieniały się w...

Human-in-the-loop, który kłamie — jak zaprojektować okno zgody, które naprawdę chroni

przez Łukasz | lip 11, 2026 | Anatomia agenta AI

Dodałeś potwierdzenie przez człowieka. To nie znaczy, że dodałeś zabezpieczenie. Kiedy budujesz agenta, który robi coś nieodwracalnego — pisze pliki, wykonuje polecenia, wysyła pieniądze — prędzej czy później dokładasz punkt kontrolny: zanim agent to zrobi, pyta...

AI Website Tycoon

przez Łukasz | lip 9, 2026 | Gry

👑 AI WEBSITE TYCOON Symulator agencji stron przyszłości Rok 2025 Budżet 100 000 zł ⛶ 1 · Klient 2 · Budżet 3 · Wydarzenia 4 · Wyniki 5 · Raport AI Zbuduj stronę, którą poleci AI — nie tylko taką, która ładnie wygląda. Dostajesz klienta i 100 000 zł. Twoje...

Ekonomia widoczności — kto płaci za internet, który czytają maszyny

przez Łukasz | lip 9, 2026 | AI Visibility

Otwarty internet stał przez dwie dekady na niepisanej umowie: twórca oddaje treść do indeksowania, wyszukiwarka odsyła w zamian ruch, ruch monetyzuje się reklamą, sprzedażą albo marką. Systemy AI tę umowę łamią w połowie — czytają treść jak nikt wcześniej, ale...

« Starsze Wpisy

Observability agenta po deploymencie — jak wiedzieć że coś się zepsuło zanim użytkownik zgłosi

Przeszedł wszystkie testy przed wdrożeniem.

Tydzień później provider po cichu zaktualizował model. Nikt Ci o tym nie powiedział.

Dwa różne problemy, oba konieczne

Cicha regresja — wróg, którego ewaluacja nie złapie

Trzy warstwy observability

Sampling — nie oceniasz wszystkiego

Dashboard jakości — co realnie mierzyć

Feedback loop — produkcja zasila testy

Narzędzia — mapa, nie ranking

Most do kosztów

Co z tego wynika — i co domyka wątek

Spis treści

Formaty obrazu w 2026: przewodnik po całej serii (który wybrać i kiedy)

Co to jest BMP? Goła mapa bitowa — i lekcja o tym, czym naprawdę jest kompresja

Co to jest JPG? Format, który nauczył internet słowa „kompresja”

Co to jest GIF? Format, który miał umrzeć, a stał się nieśmiertelny

Co to jest TIFF? Format, którego nigdy nie zobaczysz na stronie — i o to chodzi

Co to jest HEIC? Format zdjęć z iPhone’a, którego nie otwiera pół internetu

Co to jest SVG? Format obrazu, który nie jest obrazem

Co to jest PNG? Format, który po 22 latach dostał drugie życie

Co to jest JPEG XL? Format, który wygnano z przeglądarki — i który właśnie wraca

Co to jest AVIF? Format obrazu, który poszedł dalej niż WebP

Atlas znika po dziewięciu miesiącach — a jego najważniejsza lekcja jest o bezpieczeństwie, nie o rynku

Poza AI Act — czego ta mapa nie obejmuje (a co też jest prawem)

Firma jako podmiot stosujący — AI Act obowiązuje także tych, którzy niczego nie zbudowali

Oznaczanie treści generowanych przez AI — kto, co i od kiedy

Piramida ryzyka — jak AI Act klasyfikuje systemy i gdzie na niej ląduje typowa firma

Chatbot i agent na stronie a obowiązek przejrzystości — termin, który nie został przesunięty

Kalendarz AI Act po Digital Omnibus — co obowiązuje, co wchodzi, co przesunięto

Human-in-the-loop, który kłamie — jak zaprojektować okno zgody, które naprawdę chroni

AI Website Tycoon

Ekonomia widoczności — kto płaci za internet, który czytają maszyny

Agentic Web

Nawigacja

Bądź na bieżąco

Zapisz się na newsletter

Join the Newsletter

Czego szukasz?