Chunkowalność dla AI

Warstwa AI-readiness w frameworku ContentFox oceniająca zdolność strony do bycia podzieloną na sensowne chunki przez modele AI — mierzona przez średnią gęstość treści pod nagłówkami (rekomendacja >=80 słów per sekcja), oddzielenie treści merytorycznej od kodu/nawigacji/CTA, obecność granic semantycznych. Wpływa na jakość RAG retrieval i pośrednio na Citation Share.

W Polsce nazywane też:

AI Chunkabilitychunkowalność dla AIpodzielność stronygęstość treści pod nagłówkami

Model AI nie czyta twojej strony jako jednolitego tekstu. Czyta ją w chunkach — fragmentach kilkudziesięciu do kilkuset słów wokół konkretnych nagłówków lub sekcji. Jakość tych chunków decyduje o jakości tego co model z twoją stroną zrobi: jak ją podsumuje, jak ją zacytuje, jak ją sklasyfikuje. Stąd AI Chunkability jako warstwa audytu.

Czym jest AI Chunkability

AI Chunkability to warstwa AI-readiness w frameworku ContentFox AI-Readiness Scanner oceniająca zdolność strony do bycia podzieloną na sensowne fragmenty (chunki) przez modele AI — mierzona przez średnią gęstość treści pod nagłówkami (rekomendacja >=80 słów per sekcja), oddzielenie treści merytorycznej od kodu/nawigacji/CTA, zwartość hierarchii nagłówków i obecność wyraźnych granic semantycznych między sekcjami.

Dlaczego chunki mają znaczenie

Modele AI z dostępem do web (Perplexity, ChatGPT Search, Claude z web search, AI Overviews) używają architektury RAG (Retrieval-Augmented Generation). RAG pobiera strony do bazy wektorowej, dzieli na chunki, embedduje, i przy zapytaniu wyszukuje najtrafniejsze chunki jako kontekst.

Jakość chunków = jakość kontekstu = jakość odpowiedzi modelu o twojej stronie.

Słaby chunk: 20 słów wokół nagłówka, dwie linie kodu JS, fragment menu. Model dostaje hałas. Albo cię nie zacytuje, albo zacytuje błędnie.

Dobry chunk: nagłówek + 100-200 słów spójnej treści merytorycznej + zamknięcie konceptu. Model dostaje samodzielny fragment który może użyć jako odpowiedź.

Metryki AI Chunkability

ContentFox AI-Readiness Scanner mierzy AI Chunkability przez kombinację:

Średnia liczba słów per sekcja (per nagłówek). Optimum: 80-150 słów. Zbyt mało (poniżej 30) = bezwartościowe chunki. Zbyt dużo (powyżej 300) = chunki za szerokie żeby były precyzyjne.

Stosunek nagłówków do akapitów. Strona z 31 nagłówkami i 20 akapitami jest fragmentaryczna — większość nagłówków nie ma pod sobą prawdziwej treści, tylko link/CTA/menu.

Obecność kodu / nawigacji w treści. Wykrywany przez wzorce typowe dla JS, CSS, link patterns. Każdy taki element obniża score.

Granice semantyczne. Czy strona używa

,

,

,

Ocena gotowości AIKompozytowa metryka oceny gotowości strony WWW dla agentów AI — skala 0-100 i ocena A-F — obliczana jako średnia ważona sześciu warstw analizy w ContentFox AI-Readiness Scanner. Analogia do PageSpeed Score / Lighthouse, ale dla AI. Mierzy gotowość, nie citation share (to robi iFox Monitor).Pisanie odpowiedzią-pierwsząTechnika pisarska zoptymalizowana pod cytowanie przez modele AI — otwieranie każdej sekcji konkretną, kompletną odpowiedzią na pytanie z nagłówka, a w dalszej części rozwijanie kontekstu i niuansów. Adaptacja dziennikarskiej odwróconej piramidy dla GEO i Citation Readiness. Model cytuje pierwsze 1-3 zdania pod nagłówkiem.Gotowość do cytowaniaWarstwa AI-readiness w frameworku ContentFox oceniająca zdolność treści do bycia cytowaną przez AI — kompletność twierdzeń, weryfikowalność danych, jasność autorstwa, brak szumu kodu/marketingu w treści, obecność liczb, dat i nazw własnych. Predyktor Citation Share z opóźnieniem 2-8 tygodni.ContentFox AI-Readiness ScannerNarzędzie z ekosystemu WebFlux.pl (apps.contentfox.pl) do sześciowarstwowej analizy strony WWW pod kątem gotowości dla agentów AI i modeli językowych — Semantic Clarity, AI Chunkability, Citation Readiness, Agent Operability, Structured Data, Entity Consistency. Zwraca AI-Readiness Score (0-100), ocenę A-F i listę konkretnych problemów oraz sugestii. Pozycjonowanie: "Nie SEO. Quality assurance dla internetu agentów."Fragmentacja dokumentówProces dzielenia długich dokumentów na mniejsze fragmenty przed embeddingiem — kluczowy krok w pipeline RAG który bezpośrednio wpływa na jakość wyszukiwania semantycznego. Zbyt małe chunki tracą kontekst, zbyt duże gubią szczegóły. Właściwy chunking to jeden z najważniejszych czynników jakości RAG.Generowanie wspomagane wyszukiwaniemArchitektura systemu AI łącząca model językowy z zewnętrzną bazą wiedzy — model otrzymuje w czasie rzeczywistym fragmenty dokumentów odnalezione przez wyszukiwanie semantyczne i generuje odpowiedź na podstawie aktualnej, specyficznej dla kontekstu wiedzy zamiast polegać wyłącznie na danych treningowych.Semantyczny HTMLUżycie znaczników HTML zgodnie z ich znaczeniem (main, article, nav, header, footer) zamiast generycznych div — pozwala agentom AI zrozumieć strukturę strony bez zgadywania.