Artykuł 10 z serii Anatomia Agenta AI Jak wiedzieć że agent robi to co powinien


Dziesięć artykułów. Zaczęliśmy od pytania czym różni się RAG od agenta od Agentic RAG. Skończyliśmy na tym jak testować agenta w CI/CD żeby regresja jakości nie trafiła do produkcji.

Pomiędzy: jak agent myśli (pętla, ReAct), jak pamięta (cztery typy pamięci), jak go zbudować bez kodu (n8n), jak nim sterować (prompt engineering), co może pójść nie tak (bezpieczeństwo), jak Twoja strona może z nim rozmawiać (NLWeb), ile to kosztuje i jak to mierzyć.

To jest dużo materiału. Ale wiedza bez działania jest bezużyteczna.

Ten artykuł to dwie checklista — jedna dla tych którzy budują agenta, jedna dla tych którzy chcą żeby ich strona była gotowa na agentów. Zamknij wszystkie poprzednie zakładki. Otwórz tę jedną i zacznij odhaczać.

Checklista 1: Agent który budujesz

Architektura i mechanika

  • Zdefiniowany cel — agent ma jeden jasny cel, nie jest „asystentem do wszystkiego”
  • Limit iteracji — agent nie może kręcić się w pętli bez końca; masz ustawiony max kroków
  • Human-in-the-loop przy nieodwracalnych akcjach — wysyłanie, płatności, modyfikacje danych wymagają potwierdzenia
  • Narzędzia na zasadzie least privilege — agent ma dostęp tylko do narzędzi których faktycznie potrzebuje

System prompt

  • Trzy warstwy — tożsamość i cel, granice i eskalacja, format i styl
  • Explicite granice — „nie robisz X”, „eskalujesz gdy Y” jako osobne, konkretne sekcje
  • ReAct w prompcie — agent pisze „Myślę: [powód]” przed wywołaniem narzędzia
  • Co najmniej dwa few-shot examples — dla najczęstszych i najtrudniejszych scenariuszy
  • Instrukcja poufności — agent odmawia ujawnienia system promptu, bez kłamania że go nie ma

Bezpieczeństwo

  • Zero credentials w prompcie — klucze API i hasła są w zmiennych środowiskowych, nigdy w kontekście modelu
  • Zewnętrzna treść oznaczona jako dane — agent nie traktuje treści ze stron lub dokumentów jako instrukcji
  • Agent zarejestrowany — kto stworzył, do czego ma dostęp, kiedy wymaga przeglądu
  • Serwery MCP z whitelisty — nie podłączasz niezweryfikowanych serwerów MCP

Koszty i wydajność

  • System prompt bez context window bloat — tylko to co agent faktycznie potrzebuje
  • Model routing — proste zadania do tańszego modelu, złożone do droższego
  • Prompt caching włączony — dla długich, stabilnych system promptów
  • Obliczony koszt scenariusza pesymistycznego — wiesz ile zapłacisz przy 3x większym ruchu niż testowy

Ewaluacja i monitoring

  • Zestaw testowy (minimum 20 przypadków) — happy path, edge cases, adversarial
  • Tool call accuracy jako metryka — nie tylko task completion
  • Groundedness check przed nieodwracalnymi akcjami
  • Logi konwersacji — PII zredagowane, anomalie flagowane
  • Ewaluacja w CI/CD — zmiana system promptu lub modelu przechodzi przez testy przed wdrożeniem
  • Baseline ustalony — wiesz jaki jest „dobry” wynik dla Twojego agenta

Checklista 2: Strona gotowa na agentów

Warstwa czytelności

  • Treść dostępna bez JavaScript — sprawdź curl twojastrona.pl/strona bez User-Agent przeglądarki; agent powinien zobaczyć treść
  • Semantyczny HTML<main>, <article>, <nav>, <header> na właściwych miejscach
  • Hierarchia nagłówków — jeden H1, logiczna struktura H2/H3
  • Alt texty na obrazach — opisowe, nie „obraz123.jpg”

Warstwa danych strukturalnych

  • Schema.org dla głównego typu treści — Product, Article, Service lub Organization zależnie od strony
  • Pola krytyczne wypełnione — dla produktu: name, price, availability; dla artykułu: headline, author, datePublished
  • Brak rozbieżności między tekstem a danymi strukturalnymi — agent ufa danym, nie tekstowi
  • Weryfikacja przez Google Rich Results Test — brak błędów krytycznych

Warstwa odkrywalności

  • robots.txt z Content Signalsai-train: yes/no, ai-crawl: yes/no świadomie ustawione
  • llms.txt — mapa treści dla modeli językowych; minimum: nazwa, opis, główne sekcje, kontakt
  • llms-full.txt (opcjonalnie) — pełna treść w formacie przyjaznym dla modeli

Warstwa operacyjności

  • REST API dla kluczowych danych (jeśli sklep lub platforma) — agenty mogą zapytać o produkty bez parsowania HTML
  • Formularze opisane semantycznie — atrybuty name, label, placeholder — nie tylko stylistycznie ładne
  • Brak CAPTCHA blokującej ruch z autoryzowanych agentów

NLWeb / endpoint /ask

  • /ask endpoint działa i zwraca JSON na pytanie w języku naturalnym
  • Przetestowany pięcioma komendami curl z artykułu 7 serii
  • Odpowiedź „poza zakresem” sensowna — agent wie że nie wie, nie halucynuje

Monitoring widoczności w AI

  • GEO Checker uruchomiony — wiesz jaki jest aktualny wynik i co go obniża
  • iFox Monitor (opcjonalnie) — śledzisz czy ChatGPT, Claude i Perplexity cytują Twoją stronę

Co dalej — gdzie jesteśmy i dokąd zmierzamy

Seria opisuje świat w połowie 2026. Warto wiedzieć co jest już produkcyjne, a co jeszcze wchodzi.

Działa dziś: MCP z milionami instalacji i natywnym wsparciem w Claude, Cursor i n8n. NLWeb w produkcji na Shopify, Eventbrite i TripAdvisor. WordPress 7.0 z WP AI Client i Abilities API. n8n z natywnym AI Agent node i obsługą MCP.

Wchodzi w drugiej połowie 2026: WebMCP w Chrome (early preview → stabilne), UCP jako standard agentic commerce z Google, Visa i Shopify, WordPress 7.1 z real-time collaboration w sierpniu, pełna integracja NLWeb w Yoast.

Horyzont 12-18 miesięcy: większość wyszukiwania informacji i zakupów online będzie odbywać się przez agentów działających w imieniu użytkowników — częściej niż przez tradycyjną przeglądarkę. Strony które są przygotowane będą obsługiwane. Strony które nie są będą omijane.

To nie jest prognoza. To jest ekstrapolacja z tego co już się dzieje.

Słownik który rośnie razem z Tobą

Wszystkie pojęcia z tej serii mają swoje hasła w Słowniku Agentic Web — 215 definicji, 18 klastrów, od pojęć bazowych przez protokoły komunikacji po bezpieczeństwo i prawo.

Słownik jest dostępny jako serwer MCP — Twój agent może go odpytywać bezpośrednio przez narzędzia MCP.

Jedno zdanie na koniec

Agenci AI nie są przyszłością. Są teraźniejszością którą dopiero zaczynamy rozumieć.

Ta seria była próbą zbudowania tego rozumienia — od mechaniki do produkcji, od konceptu do checklisty. Mam nadzieję że po tych dziesięciu artykułach budowanie pierwszego agenta brzmi mniej jak projekt na „kiedyś” a bardziej jak plan na ten weekend.


Cała seria Anatomia Agenta AI:

  1. RAG, Agent AI, Agentic RAG — czym się różnią
  2. Jak agent myśli — ReAct, Chain-of-Thought i pętla działania
  3. Jak agent pamięta — cztery typy pamięci
  4. n8n — Twój pierwszy agent bez kodu
  5. Prompt engineering dla agentów
  6. Co może pójść nie tak — bezpieczeństwo agentów dla builderów
  7. NLWeb — jak sprawić żeby Twoja strona odpowiadała agentom
  8. Ile kosztuje agent w produkcji
  9. Jak wiedzieć że agent robi to co powinien
  10. Agent-ready — checklista (ten artykuł)

Pojęcia ze słownika: Agent-readiness · Agent AI · NLWeb · MCP · llms.txt · Agentic Web

Spis treści

Google Antigravity 2.0 — opis narzędzia

Google Antigravity 2.0 — opis narzędzia

Platforma Google do orkiestrowania wielu agentów AI — ogłoszona na Google I/O 19 maja 2026. Antigravity 1.0 (listopad 2025) był IDE konkurującym z Cursor. Antigravity 2.0 wyszedł z tej kategorii — to nie jest narzędzie do pisania kodu z pomocą AI, to platforma do...