Na początku czerwca 2026 stało się coś, na co społeczność structured data czekała kilkanaście lat. Google i Schema.org opublikowały pierwszy publiczny zbiór danych o realnym użyciu schema.org w sieci — miliony domen, zebrane przez infrastrukturę crawlingową Google, w formatach CSV i JSON na GitHubie, aktualizowane co miesiąc. Pierwszy raz mamy pomiar zamiast zgadywanek: które typy i właściwości schema są faktycznie wdrożone, a które istnieją tylko w specyfikacji.
Dla kogoś, kto buduje strony na WordPressie, ten dataset czyta się jak lustro — i to niewygodne. Bo pokazuje trzy rzeczy, które warto zobaczyć, zanim dorzucisz kolejną wtyczkę „pod AI”.
Najczęstsza schema w sieci to nie opis firmy — to meble strony
Zacznijmy od tego, co dataset pokazuje na samej górze rozkładu. Tylko 12 typów schema występuje na ponad 10 milionach domen. To jest wspólny język maszynowej sieci. I większość z nich nie opisuje treści — opisuje architekturę strony: BreadcrumbList, ListItem, WebPage, WebSite.
Dowód, że to automat, a nie świadoma decyzja, siedzi piętro niżej, w przedziale 1–10 mln domen: WPHeader, WPFooter, WPSideBar. To są znaczniki, które WordPress i motyw generują same, na milionach stron, których właściciele nigdy niczego nie ustawili. Duża część całej structured data w sieci to WordPress opisujący własne meble szablonu — gdzie jest nagłówek, gdzie stopka, gdzie sidebar.
To jest pierwszy wniosek praktyczny i przewraca typowy odruch. Odruch brzmi: „strony AI czytają, dodajmy więcej schema”. Dataset mówi: większość stron już emituje mnóstwo schema — tylko że to automatyczny eksport motywu, nie informacja o firmie. Twój WPHeader mówi agentowi, gdzie jest menu. Nie mówi mu, czym się zajmujesz.
Co z tego wynika dla strony na WordPressie
Praktyka nie polega na dodawaniu kolejnych typów. Polega na tym, żeby świadome twierdzenia — Organization, Person, Article, Product — były pełne, prawdziwe i zgodne z tym, co widać na stronie. To jest sygnał. Reszta to szum motywu.
Konkretnie, co sprawdzić w typowej instalacji WP:
Organization na stronie głównej i Person dla autora — czy w ogóle są wypełnione świadomie, czy zostawione na domyślnych polach wtyczki. To dwa typy, które według datasetu są w najwyższym przedziale (10 mln+ domen) właśnie dlatego, że to fundament tożsamości — ale „jest” nie znaczy „mówi to, co chcesz”.
Zgodność danych z treścią. Google w wytycznych o funkcjach AI mówi wprost: nie ma specjalnego znacznika, który gwarantuje cytowanie przez AI — liczy się, żeby dane strukturalne zgadzały się z widoczną treścią strony. Klasyczny błąd WP: wtyczka generuje Product z jedną ceną, a w treści jest inna (promocja wpisana ręcznie, nieaktualizowana w polu schema). Dla człowieka to drobiazg. Dla agenta to sprzeczność, a agent ufa danym, nie prozie.
Czy nie dublujesz schema. Częsty problem: motyw generuje swoją schemę, wtyczka SEO swoją, a do tego ręczny blok JSON-LD w nagłówku. Trzy źródła, czasem sprzeczne. Dataset nie rozróżnia JSON-LD od Microdata od RDFa — ale Twoja strona może wysyłać wszystkie trzy naraz, z różnymi wartościami.
Drugi wniosek: miliony stron wciąż mają martwy markup FAQ
W datasecie FAQPage i Question siedzą w przedziale 1–10 mln domen. Olbrzymia baza stron z oznaczeniami FAQ. Powód, dla którego tyle ich powstało, jest jeden: przez lata Google pokazywał za to rozwijane panele Q&A w wynikach, a każdy poradnik SEO to zalecał.
Ta funkcja została wycofana 7 maja 2026. Panele FAQ już się nie pokazują (HowTo zniknęło jeszcze wcześniej, w 2023). A miliony stron wciąż noszą ten markup — bo nikt go nie sprząta, bo „wtyczka tak zrobiła i kiedyś działało”.
Praktyczny wniosek dla WP: nie usuwaj istniejącego FAQ schema (nieużywane dane nie szkodzą), ale przestań dodawać nowe pod kątem widoczności w Google — tej funkcji nie ma. Jeśli Twoja wtyczka nadal zachęca do „dodaj FAQ schema dla rich snippets”, to rada z 2024 roku. A że dataset aktualizuje się co miesiąc, pierwszy raz będzie można obserwować, czy ta baza martwego markupu zacznie topnieć, czy zostanie w sieci jako skamielina.
Trzeci wniosek: 77% słownika schema to teren prawie pusty
Dataset obejmuje 5545 terminów. 76,9% z nich występuje na mniej niż 1000 domen. Większość specyfikacji, którą projektowano i standaryzowano latami, jest — miarą realnego użycia — marginalna.
Dla budującego strony to zaskakująco wyzwalające. Nie musisz znać setek typów. Realny, wspólny język to garść terminów: kilkanaście typów i kilkadziesiąt właściwości. Skup się na tych, których agenty faktycznie używają (Organization, Person, Article, Product, Offer, BreadcrumbList), zrób je dobrze, i jesteś dalej niż strona, która ma egzotyczny typ wpisany ręcznie, a Product niekompletny.
Jak sprawdzić własną stronę
Dataset Google pokazuje sieć w skali — ale nie powie Ci, co wysyła Twoja konkretna strona. Do tego trzeba spojrzeć na nią z perspektywy agenta. W ekosystemie WebFlux służy do tego ContentFox AI-Readiness Scanner — analizuje stronę w sześciu warstwach, a jedną z nich jest właśnie Structured Data: czy schema jest, czy jest kompletna, czy zgadza się z treścią. To nie audyt SEO — to sprawdzenie, czy strona mówi maszynom to, co chcesz, czy tylko to, co wygenerował motyw.
Bo sedno tego, co odsłonił dataset Google, jest proste: większość structured data w sieci powstała przez przypadek. Przewaga jest po stronie tego, kto zdecyduje świadomie, co jego strona mówi maszynom — zamiast zostawić to wtyczce.
To pojęcie łączy się z Structured Data jako jedną z sześciu warstw AI-readiness oraz z Filarem 2 — dane w sześciofilarowej mapie agent-readiness.











