Model językowy wie dużo. Ale wie to co było w danych treningowych — do pewnej daty, w pewnym zakresie, z pewną głębokością. Nie wie co zmieniło się po cutoff. Nie zna twoich wewnętrznych dokumentów. Nie zna treści twojej strony jeśli nie była w danych treningowych. I nie wie co napisałeś w zeszłym tygodniu.
To jest fundamentalne ograniczenie modeli jako samotnych bytów. Ale modele nie muszą działać samotnie.
RAG to architektura która rozwiązuje ten problem nie przez douczanie modelu, ale przez dynamiczne dostarczanie mu kontekstu w momencie gdy odpowiada na pytanie. Model nie musi „wiedzieć” — musi umieć skorzystać z tego co mu podasz.
Czym jest RAG
RAG (Retrieval-Augmented Generation) to architektura systemu AI łącząca model językowy z zewnętrzną bazą wiedzy — zamiast polegać wyłącznie na danych treningowych, model otrzymuje w czasie rzeczywistym fragmenty dokumentów odnalezione przez warstwę wyszukiwania semantycznego, generując odpowiedź na podstawie aktualnej, specyficznej dla kontekstu wiedzy.
Trzy kroki RAG
Krok pierwszy — indeksowanie. Dokumenty (artykuły, podstrony, PDFy, dane z CRM, regulaminy) są dzielone na fragmenty (chunki), każdy fragment jest zamieniany na reprezentację wektorową (embedding) i przechowywany w bazie wektorowej.
Krok drugi — retrieval. Gdy użytkownik zadaje pytanie, pytanie jest zamieniane na embedding i porównywane z embeddingami w bazie. Najbardziej semantycznie podobne fragmenty są pobierane — nie przez słowa kluczowe, ale przez znaczenie. „Jak długo trwa realizacja zamówienia?” trafi na fragment o czasie dostawy nawet jeśli nigdzie nie użyto słowa „realizacja”.
Krok trzeci — generation. Pobrane fragmenty są dołączane do kontekstu modelu razem z pytaniem użytkownika. Model generuje odpowiedź bazując na tym co otrzymał — nie na tym co trenowano.
RAG a agent-readiness strony
Gdy agent AI odwiedza twoją stronę żeby odpowiedzieć na pytanie użytkownika — bez RAG po stronie agenta musi sparsować HTML, zidentyfikować relevantne fragmenty, zrozumieć kontekst. To jest kosztowne w tokenach i zawodne przy złożonej strukturze strony.
Gdy twoja strona wystawia llms-full.txt lub endpoint /ask (NLWeb) — agent może użyć RAG nad twoją treścią bezpośrednio. Twoje dokumenty, twoje FAQ, twoje dane produktowe trafiają do systemu RAG agenta i stają się jego wiedzą kontekstową.
llms-full.txt to w uproszczeniu pre-packaged kontekst pod RAG. Agent który go wczyta ma twoją treść w formacie który jego retrieval layer może efektywnie przeszukać zamiast parsować HTML strony.
RAG w enterprise
W środowiskach enterprise RAG jest fundamentem niemal każdego wdrożenia agenta. Agent obsługi klienta który „zna” wszystkie produkty i procedury? RAG nad bazą produktową i dokumentacją. Copilot który odpowiada na pytania o politykę HR? RAG nad dokumentami HR. Wewnętrzny asystent do wiedzy firmowej? RAG nad mailami, dokumentami, notatkami ze spotkań.
Microsoft SharePoint, Azure AI Search i Semantic Kernel to narzędzia które Microsoft pozycjonuje jako enterprise RAG stack — bezpośrednie połączenie z Copilotem i innymi agentami M365.
Ograniczenia RAG
RAG działa dobrze gdy pytanie ma odpowiedź w dokumentach. Nie działa dla wiedzy której w dokumentach nie ma, wnioskowań które wymagają syntezy wielu niepowiązanych źródeł, ani dla pytań które wymagają rozumowania przyczynowego wykraczającego poza tekst.
Jakość RAG zależy od jakości dokumentów, jakości ich podziału na chunki i jakości embeddingów. „Garbage in, garbage out” — agent który ma RAG nad chaotyczną bazą wiedzy będzie odpowiadał chaotycznie.