Agent AI przygotowuje raport dla zarządu. Raport zawiera analizę sprzedaży za ostatni kwartał z wnioskami i rekomendacjami. Zarząd pyta: skąd te liczby? Agent cytował konkretne dane. Skąd te dane pochodzą? Czy są aktualne? Czy zastosowane transformacje były właściwe?
W tradycyjnym środowisku BI odpowiedź była w dokumentacji data pipeline. W środowisku agentowym — data lineage musi być częścią audit trail agenta.
Czym jest data lineage
Data lineage to śledzenie pochodzenia, transformacji i przepływu danych przez systemy — odpowiadające na pytania „skąd pochodzi ta dana”, „jakie transformacje przeszła” i „gdzie trafia” — krytyczne w kontekście agentów AI dla weryfikacji że odpowiedzi agenta są oparte na wiarygodnych, aktualnych danych z właściwych źródeł.
Data lineage a agenty
Gdy agent cytuje liczbę w raporcie — audytor musi móc prześledzić: skąd agent pobrał tę liczbę (RAG retrieval, wywołanie API, dane w kontekście), z jakiego systemu źródłowego pochodzi (SAP, Salesforce, Excel), kiedy dane były aktualizowane (freshness), jakie transformacje zostały zastosowane (czy agent przeliczył walutę, zaokrąglił, zagregował).
Bez data lineage — odpowiedź agenta jest „magiczna liczba” bez możliwości weryfikacji. Dla zarządu, audytorów i regulatorów to jest nieakceptowalne.
Implementacja data lineage dla agentów
Każde wywołanie narzędzia przez agenta powinno logować źródło danych — nie tylko wynik ale metadata: system źródłowy, timestamp, wersja danych. Gdy agent używa RAG — retrieval log powinien zawierać identyfikator dokumentu i jego datę modyfikacji.
Azure Purview (Microsoft) i podobne narzędzia data catalog mogą integrować się z agentowym audit trail — tworząc pełen łańcuch lineage od danych źródłowych przez retrieval agenta do odpowiedzi końcowej.
Data lineage a hallucynacje
Data lineage jest jedną z metod detekcji hallucynacji agenta. Jeśli agent podaje liczbę ale w audit trail nie ma retrieval który mógłby być źródłem tej liczby — agent mógł ją „wymyślić”. Systemy które porównują twierdzenia agenta z jego retrieval log mogą automatycznie flagować odpowiedzi bez udokumentowanego źródła.
To jest szczególnie ważne dla agentów analitycznych w regulowanych branżach gdzie liczba bez źródła jest równoznaczna z brakiem liczby.