Wykrywanie hallucynacji

Systemy wykrywania nieprawdziwych twierdzeń generowanych przez modele AI — przez groundedness check, porównanie ze źródłami, factual consistency — stosowane jako guardrail przed wykonaniem akcji opartej na błędnej informacji. Trzy typy: factual, faithfulness, self-hallucination.

W Polsce nazywane też:

wykrywanie hallucynacjidetekcja wymysłów AIgroundedness checkfaithfulness check

Modele językowe hallucynują — generują fakty które brzmią przekonująco ale są nieprawdziwe. To jest znana właściwość, nie bug. Model który nie wie odpowiedzi interpoluje w przestrzeni prawdopodobieństwa zamiast powiedzieć „nie wiem”. Efekt: pewnie brzmiące fakty bez podstaw.

Dla chatbota który odpowiada na pytania ogólne — hallucynacja jest irytująca. Dla agenta który działa autonomicznie i podejmuje decyzje — hallucynacja może być kosztowna lub niebezpieczna.

Hallucination detection to systemy które wychwytują te wymyślone fakty zanim dotrą do użytkownika lub zanim agent na ich podstawie wykona akcję.

Czym jest hallucination detection

Hallucination detection to systemy i metody wykrywania nieprawdziwych lub niepotwierdzonych twierdzeń generowanych przez modele AI — przez porównanie odpowiedzi ze źródłowymi dokumentami (groundedness check), krzyżowe sprawdzanie przez drugi model lub wyszukiwanie faktów — stosowane jako guardrail w pipeline agentowym przed wykonaniem akcji opartej na potencjalnie błędnej informacji.

Typy hallucynacji

Factual hallucination: agent twierdzi że X jest prawdą gdy X jest fałszywe. „Firma Y założona w 1995 roku” gdy firma założona w 2010. Najgroźniejsze dla agentów analitycznych i informacyjnych.

Faithfulness hallucination: agent cytuje źródło ale cytuje je błędnie lub wyciąga wnioski których źródło nie zawiera. Dokument mówi „wzrost o 10%” agent mówi „wzrost o 15%”. Groźne dla agentów RAG.

Self-hallucination: agent twierdzi że wykonał akcję której nie wykonał, lub że narzędzie zwróciło wynik który nie był zwrócony. Szczególnie groźne dla agentów operacyjnych.

Metody detekcji

Groundedness check: czy każde twierdzenie agenta ma oparcie w dokumentach z retrieval? Narzędzia jak Trulens, Ragas, Azure AI Content Safety mierzą groundedness automatycznie. Twierdzenia bez oparcia w kontekście są flagowane.

Factual consistency check: drugi model sprawdza czy odpowiedź jest zgodna z dostarczonymi faktami. Kosztowne (podwójne wywołanie modelu) ale skuteczne dla wysokiego ryzyka odpowiedzi.

Confidence calibration: model który wie że nie wie wyrazi niepewność. Prompt engineering który zachęca do „jeśli nie jesteś pewien, powiedz to” redukuje pewnie brzmiące hallucynacje.

Data lineage verification: dla agentów analitycznych — każda liczba w odpowiedzi musi mieć udokumentowane źródło w retrieval log. Liczba bez źródła = podejrzana.

Guardrails przed akcją

Hallucination detection ma największą wartość gdy jest wbudowane przed wykonaniem nieodwracalnych akcji. Agent który ma wykonać transakcję na podstawie analizy — sprawdzenie groundedness tej analizy przed transakcją jest wartościowe nawet gdy zwiększa latencję. Po wysłaniu przelewu nie ma cofnięcia.

Ewaluacja agentaSystematyczny proces mierzenia jakości agenta AI — przez zestawy testowe, metryki (task completion, tool call accuracy, faithfulness) i powtarzalne uruchomienia statystyczne — pozwalający wykryć regresje przy zmianach i porównywać konfiguracje. LLM-as-judge jako popularny wzorzec.Rodowód danychŚledzenie pochodzenia, transformacji i przepływu danych przez systemy — krytyczne dla agentów AI żeby odpowiedzi były oparte na wiarygodnych, aktualnych danych z właściwych źródeł. Metoda detekcji hallucynacji: twierdzenia bez udokumentowanego retrieval są podejrzane.Model rozumującyKlasa modeli językowych która przed wygenerowaniem odpowiedzi wykonuje wewnętrzny proces rozumowania — chain of thought lub extended thinking — co znacząco poprawia jakość odpowiedzi na złożone problemy. Pierwszy popularny reasoning model: OpenAI o1 (wrzesień 2024).Zatrucie kontekstuAtak polegający na wprowadzeniu do okna kontekstu agenta — przez zewnętrzne dokumenty, historię konwersacji lub pamięć długoterminową — fałszywych informacji które modyfikują przyszłe zachowanie agenta nawet gdy bezpośredni atak już nie jest aktywny. Szczególnie groźny przy agentach z RAG i pamięcią długoterminową.Człowiek w pętliModel nadzoru nad agentami AI w którym człowiek zatwierdza kluczowe decyzje przed ich wykonaniem — równowaga między autonomią agenta a kontrolą użytkownika nad jego działaniami.RAGRetrieval-Augmented Generation — technika wzbogacania odpowiedzi modelu AI o dane pobrane w czasie rzeczywistym ze stron WWW lub baz wiedzy, zamiast polegania wyłącznie na wiedzy z treningu.