Rodowód danych

Śledzenie pochodzenia, transformacji i przepływu danych przez systemy — krytyczne dla agentów AI żeby odpowiedzi były oparte na wiarygodnych, aktualnych danych z właściwych źródeł. Metoda detekcji hallucynacji: twierdzenia bez udokumentowanego retrieval są podejrzane.

W Polsce nazywane też:

rodowód danychpochodzenie danychślad danychlineage danych AI

Agent AI przygotowuje raport dla zarządu. Raport zawiera analizę sprzedaży za ostatni kwartał z wnioskami i rekomendacjami. Zarząd pyta: skąd te liczby? Agent cytował konkretne dane. Skąd te dane pochodzą? Czy są aktualne? Czy zastosowane transformacje były właściwe?

W tradycyjnym środowisku BI odpowiedź była w dokumentacji data pipeline. W środowisku agentowym — data lineage musi być częścią audit trail agenta.

Czym jest data lineage

Data lineage to śledzenie pochodzenia, transformacji i przepływu danych przez systemy — odpowiadające na pytania „skąd pochodzi ta dana”, „jakie transformacje przeszła” i „gdzie trafia” — krytyczne w kontekście agentów AI dla weryfikacji że odpowiedzi agenta są oparte na wiarygodnych, aktualnych danych z właściwych źródeł.

Data lineage a agenty

Gdy agent cytuje liczbę w raporcie — audytor musi móc prześledzić: skąd agent pobrał tę liczbę (RAG retrieval, wywołanie API, dane w kontekście), z jakiego systemu źródłowego pochodzi (SAP, Salesforce, Excel), kiedy dane były aktualizowane (freshness), jakie transformacje zostały zastosowane (czy agent przeliczył walutę, zaokrąglił, zagregował).

Bez data lineage — odpowiedź agenta jest „magiczna liczba” bez możliwości weryfikacji. Dla zarządu, audytorów i regulatorów to jest nieakceptowalne.

Implementacja data lineage dla agentów

Każde wywołanie narzędzia przez agenta powinno logować źródło danych — nie tylko wynik ale metadata: system źródłowy, timestamp, wersja danych. Gdy agent używa RAG — retrieval log powinien zawierać identyfikator dokumentu i jego datę modyfikacji.

Azure Purview (Microsoft) i podobne narzędzia data catalog mogą integrować się z agentowym audit trail — tworząc pełen łańcuch lineage od danych źródłowych przez retrieval agenta do odpowiedzi końcowej.

Data lineage a hallucynacje

Data lineage jest jedną z metod detekcji hallucynacji agenta. Jeśli agent podaje liczbę ale w audit trail nie ma retrieval który mógłby być źródłem tej liczby — agent mógł ją „wymyślić”. Systemy które porównują twierdzenia agenta z jego retrieval log mogą automatycznie flagować odpowiedzi bez udokumentowanego źródła.

To jest szczególnie ważne dla agentów analitycznych w regulowanych branżach gdzie liczba bez źródła jest równoznaczna z brakiem liczby.

Powiązane pojęcia

Ślad audytowy agentaKompletny, immutable log wszystkich działań agenta AI — każdego wywołania narzędzia, zapytania do bazy wiedzy i wykonanej akcji — umożliwiający odtworzenie pełnego przebiegu zadania dla compliance, debugging i accountability. Wymóg dla agentów działających w regulowanych branżach.Zarządzanie danymi enterprise dla agentówRozszerzenie tradycyjnych ram data governance o kontekst agentów AI — klasyfikacja danych dostępnych dla agentów, polityki retencji logów i pamięci, prawa dostępu do danych generowanych przez agenty i compliance z GDPR w kontekście autonomicznego przetwarzania przez AI.Korporacyjny RAGRAG dostosowany do środowiska korporacyjnego — z kontrolą dostępu na poziomie dokumentu (agent widzi tylko to do czego użytkownik ma uprawnienia), obsługą wielu źródeł (SharePoint, SAP, Salesforce), audytem retrieval i skalą enterprise.Zatrucie kontekstuAtak polegający na wprowadzeniu do okna kontekstu agenta — przez zewnętrzne dokumenty, historię konwersacji lub pamięć długoterminową — fałszywych informacji które modyfikują przyszłe zachowanie agenta nawet gdy bezpośredni atak już nie jest aktywny. Szczególnie groźny przy agentach z RAG i pamięcią długoterminową.RAGRetrieval-Augmented Generation — technika wzbogacania odpowiedzi modelu AI o dane pobrane w czasie rzeczywistym ze stron WWW lub baz wiedzy, zamiast polegania wyłącznie na wiedzy z treningu.