Modele językowe hallucynują — generują fakty które brzmią przekonująco ale są nieprawdziwe. To jest znana właściwość, nie bug. Model który nie wie odpowiedzi interpoluje w przestrzeni prawdopodobieństwa zamiast powiedzieć „nie wiem”. Efekt: pewnie brzmiące fakty bez podstaw.
Dla chatbota który odpowiada na pytania ogólne — hallucynacja jest irytująca. Dla agenta który działa autonomicznie i podejmuje decyzje — hallucynacja może być kosztowna lub niebezpieczna.
Hallucination detection to systemy które wychwytują te wymyślone fakty zanim dotrą do użytkownika lub zanim agent na ich podstawie wykona akcję.
Czym jest hallucination detection
Hallucination detection to systemy i metody wykrywania nieprawdziwych lub niepotwierdzonych twierdzeń generowanych przez modele AI — przez porównanie odpowiedzi ze źródłowymi dokumentami (groundedness check), krzyżowe sprawdzanie przez drugi model lub wyszukiwanie faktów — stosowane jako guardrail w pipeline agentowym przed wykonaniem akcji opartej na potencjalnie błędnej informacji.
Typy hallucynacji
Factual hallucination: agent twierdzi że X jest prawdą gdy X jest fałszywe. „Firma Y założona w 1995 roku” gdy firma założona w 2010. Najgroźniejsze dla agentów analitycznych i informacyjnych.
Faithfulness hallucination: agent cytuje źródło ale cytuje je błędnie lub wyciąga wnioski których źródło nie zawiera. Dokument mówi „wzrost o 10%” agent mówi „wzrost o 15%”. Groźne dla agentów RAG.
Self-hallucination: agent twierdzi że wykonał akcję której nie wykonał, lub że narzędzie zwróciło wynik który nie był zwrócony. Szczególnie groźne dla agentów operacyjnych.
Metody detekcji
Groundedness check: czy każde twierdzenie agenta ma oparcie w dokumentach z retrieval? Narzędzia jak Trulens, Ragas, Azure AI Content Safety mierzą groundedness automatycznie. Twierdzenia bez oparcia w kontekście są flagowane.
Factual consistency check: drugi model sprawdza czy odpowiedź jest zgodna z dostarczonymi faktami. Kosztowne (podwójne wywołanie modelu) ale skuteczne dla wysokiego ryzyka odpowiedzi.
Confidence calibration: model który wie że nie wie wyrazi niepewność. Prompt engineering który zachęca do „jeśli nie jesteś pewien, powiedz to” redukuje pewnie brzmiące hallucynacje.
Data lineage verification: dla agentów analitycznych — każda liczba w odpowiedzi musi mieć udokumentowane źródło w retrieval log. Liczba bez źródła = podejrzana.
Guardrails przed akcją
Hallucination detection ma największą wartość gdy jest wbudowane przed wykonaniem nieodwracalnych akcji. Agent który ma wykonać transakcję na podstawie analizy — sprawdzenie groundedness tej analizy przed transakcją jest wartościowe nawet gdy zwiększa latencję. Po wysłaniu przelewu nie ma cofnięcia.