Wyobraź sobie że dajesz komuś zadanie: przeczytaj tę dokumentację i odpowiedz na moje pytania. Ale zamiast całej dokumentacji — dajesz mu tylko tyle stron ile zmieści się na jego biurku. Reszta leży na podłodze, niedostępna. On pracuje z tym co widzi. Tego co poza blatem — nie ma.
Model AI działa tak samo. Ma biurko o określonej powierzchni. Wszystko co na nim leży — przetwarza. Wszystko co poza nim — nie istnieje w trakcie tej rozmowy.
To biurko nazywa się context window.
Czym jest context window
Context window to maksymalna ilość tekstu którą model AI może przetworzyć w jednym zapytaniu — mierzona w tokenach, nie w słowach ani znakach. Token to w przybliżeniu trzy czwarte słowa w języku angielskim, w polskim nieco mniej ze względu na dłuższe słowa i odmianę.
Modele różnią się rozmiarem okna kontekstu. Starsze i mniejsze modele mieściły kilka tysięcy tokenów — kilkanaście stron tekstu. Obecne modele klasy produkcyjnej obsługują setki tysięcy tokenów. Niektóre — milion i więcej. To brzmi jak dużo. I jest dużo. Ale nie jest nieskończenie dużo.
I tu zaczyna się problem który ma znaczenie dla każdej strony internetowej którą agent ma przetworzyć.
Dlaczego to ma znaczenie dla strony
Agent który odwiedza stronę nie widzi jej tak jak człowiek. Nie scrolluje, nie skanuje wzrokiem, nie pomija reklam i stopki na zasadzie naturalnej selekcji uwagi. Agent wczytuje treść — całą naraz — i próbuje zmieścić ją w swoim oknie kontekstu.
Typowa strona internetowa to HTML z nawigacją, headerem, stopką, skryptami, reklamami, komentarzami i właściwą treścią wmieszaną pośrodku. Surowy HTML strony o tysiącu słów właściwej treści może zajmować pięć do dziesięciu razy więcej tokenów niż ta sama treść w czystym tekście lub Markdown. Część okna kontekstu jest zużywana na śmieciowe tagi zanim agent dotrze do meritum.
Przy jednej stronie to nie jest problem. Przy agencie który w ramach jednego zadania przetwarza dziesiątki stron, dokument firmowy, historię rozmowy i instrukcję systemową jednocześnie — każdy zaoszczędzony token ma znaczenie.
Skąd się bierze Markdown for Agents
To jest dokładnie ten kontekst w którym Markdown for Agents — i szerzej, cała filozofia podawania treści agentom w czystym formacie zamiast pełnego HTML — ma praktyczne uzasadnienie.
Cloudflare w 2025 roku uruchomił funkcję która automatycznie konwertuje strony do Markdown gdy zapytanie pochodzi od agenta AI. Nie dlatego że Markdown jest „ładniejszy”. Dlatego że ta sama treść w Markdown zajmuje kilka razy mniej tokenów niż w HTML. Agent dostaje więcej treści za ten sam koszt okna kontekstu.
Właściciel strony który rozumie context window rozumie też dlaczego llms.txt nie jest tylko modą — to skrót który pozwala agentowi zrozumieć co jest na stronie bez wczytywania całej treści w HTML. Mapa zamiast terytorium. Biurko zostaje wolne na to co naprawdę ważne.
Context window a jakość odpowiedzi agenta
Jest jeszcze jeden efekt który rzadko jest omawiany wprost: im bardziej zapełnione okno kontekstu, tym gorzej model radzi sobie z informacjami które znalazły się na jego krańcach — na początku i na końcu. Zjawisko nazywane „lost in the middle” pokazuje że modele lepiej pamiętają i wykorzystują informacje z początku i końca kontekstu niż ze środka.
Dla właściciela strony oznacza to że kolejność i struktura treści którą dostaje agent ma znaczenie. Nie tylko ile tokenów zajmuje — ale gdzie najważniejsze informacje się pojawiają. Treść zakopana w środku długiego dokumentu może być przetworzona słabiej niż ta sama treść na początku lub w wyraźnie wyodrębnionym bloku.
Optymalizacja pod context window to nie jest tylko oszczędność tokenów. To projektowanie treści tak żeby agent wynosił z niej to co właściciel strony chciał żeby wyniósł.