Generowanie wspomagane wyszukiwaniem

Architektura systemu AI łącząca model językowy z zewnętrzną bazą wiedzy — model otrzymuje w czasie rzeczywistym fragmenty dokumentów odnalezione przez wyszukiwanie semantyczne i generuje odpowiedź na podstawie aktualnej, specyficznej dla kontekstu wiedzy zamiast polegać wyłącznie na danych treningowych.

W Polsce nazywane też:

generowanie wspomagane wyszukiwaniemwyszukiwanie semantycznebaza wiedzy agenta

Model językowy wie dużo. Ale wie to co było w danych treningowych — do pewnej daty, w pewnym zakresie, z pewną głębokością. Nie wie co zmieniło się po cutoff. Nie zna twoich wewnętrznych dokumentów. Nie zna treści twojej strony jeśli nie była w danych treningowych. I nie wie co napisałeś w zeszłym tygodniu.

To jest fundamentalne ograniczenie modeli jako samotnych bytów. Ale modele nie muszą działać samotnie.

RAG to architektura która rozwiązuje ten problem nie przez douczanie modelu, ale przez dynamiczne dostarczanie mu kontekstu w momencie gdy odpowiada na pytanie. Model nie musi „wiedzieć” — musi umieć skorzystać z tego co mu podasz.

Czym jest RAG

RAG (Retrieval-Augmented Generation) to architektura systemu AI łącząca model językowy z zewnętrzną bazą wiedzy — zamiast polegać wyłącznie na danych treningowych, model otrzymuje w czasie rzeczywistym fragmenty dokumentów odnalezione przez warstwę wyszukiwania semantycznego, generując odpowiedź na podstawie aktualnej, specyficznej dla kontekstu wiedzy.

Trzy kroki RAG

Krok pierwszy — indeksowanie. Dokumenty (artykuły, podstrony, PDFy, dane z CRM, regulaminy) są dzielone na fragmenty (chunki), każdy fragment jest zamieniany na reprezentację wektorową (embedding) i przechowywany w bazie wektorowej.

Krok drugi — retrieval. Gdy użytkownik zadaje pytanie, pytanie jest zamieniane na embedding i porównywane z embeddingami w bazie. Najbardziej semantycznie podobne fragmenty są pobierane — nie przez słowa kluczowe, ale przez znaczenie. „Jak długo trwa realizacja zamówienia?” trafi na fragment o czasie dostawy nawet jeśli nigdzie nie użyto słowa „realizacja”.

Krok trzeci — generation. Pobrane fragmenty są dołączane do kontekstu modelu razem z pytaniem użytkownika. Model generuje odpowiedź bazując na tym co otrzymał — nie na tym co trenowano.

RAG a agent-readiness strony

Gdy agent AI odwiedza twoją stronę żeby odpowiedzieć na pytanie użytkownika — bez RAG po stronie agenta musi sparsować HTML, zidentyfikować relevantne fragmenty, zrozumieć kontekst. To jest kosztowne w tokenach i zawodne przy złożonej strukturze strony.

Gdy twoja strona wystawia llms-full.txt lub endpoint /ask (NLWeb) — agent może użyć RAG nad twoją treścią bezpośrednio. Twoje dokumenty, twoje FAQ, twoje dane produktowe trafiają do systemu RAG agenta i stają się jego wiedzą kontekstową.

llms-full.txt to w uproszczeniu pre-packaged kontekst pod RAG. Agent który go wczyta ma twoją treść w formacie który jego retrieval layer może efektywnie przeszukać zamiast parsować HTML strony.

RAG w enterprise

W środowiskach enterprise RAG jest fundamentem niemal każdego wdrożenia agenta. Agent obsługi klienta który „zna” wszystkie produkty i procedury? RAG nad bazą produktową i dokumentacją. Copilot który odpowiada na pytania o politykę HR? RAG nad dokumentami HR. Wewnętrzny asystent do wiedzy firmowej? RAG nad mailami, dokumentami, notatkami ze spotkań.

Microsoft SharePoint, Azure AI Search i Semantic Kernel to narzędzia które Microsoft pozycjonuje jako enterprise RAG stack — bezpośrednie połączenie z Copilotem i innymi agentami M365.

Ograniczenia RAG

RAG działa dobrze gdy pytanie ma odpowiedź w dokumentach. Nie działa dla wiedzy której w dokumentach nie ma, wnioskowań które wymagają syntezy wielu niepowiązanych źródeł, ani dla pytań które wymagają rozumowania przyczynowego wykraczającego poza tekst.

Jakość RAG zależy od jakości dokumentów, jakości ich podziału na chunki i jakości embeddingów. „Garbage in, garbage out” — agent który ma RAG nad chaotyczną bazą wiedzy będzie odpowiadał chaotycznie.

Powiązane pojęcia

NLWebStandard Microsoftu ogłoszony na Build 2025 przez R.V. Guha — pozwala każdej stronie wystawiać konwersacyjny interfejs dla agentów AI przez endpointy /ask i /mcp, używając Schema.org jako bazy wiedzy. Każda instancja NLWeb jest też serwerem MCP.llms-full.txtRozszerzona wersja pliku llms.txt zawierająca pełną treść strony w formacie przyjaznym dla modeli językowych — dla agentów które potrzebują kompletnego kontekstu.Protokół kontekstu modeluOtwarty standard Anthropic umożliwiający agentom AI łączenie się z zewnętrznymi narzędziami, bazami danych i API w ustandaryzowany sposób — jak USB dla modeli językowych.Okno kontekstuMaksymalna ilość tekstu (mierzona w tokenach) którą model AI może przetworzyć w jednym zapytaniu — determinuje ile treści strony agent może przeczytać naraz i dlaczego Markdown for Agents ma znaczenie.Dane strukturalneUstandaryzowany sposób opisywania treści strony w formacie zrozumiałym dla maszyn — używany przez wyszukiwarki do rich snippets i przez agentów AI do rozumienia kontekstu strony.