Prawo autorskie a scraping AI

Obszar prawa dotyczący legalności pobierania treści przez AI i używania do trenowania modeli lub generowania odpowiedzi — z kluczowym pytaniem czy mieści się w fair use czy wymaga licencji. NYT vs OpenAI jako precedensowa sprawa w toku. Content Signals w robots.txt jako mechanizm wyrażenia preferencji właściciela.

W Polsce nazywane też:

prawo autorskie AIscraping AI copyrightfair use AITDM wyjąteklicencja treningowa

The New York Times pozwał OpenAI i Microsoft w grudniu 2023. Twierdzi że GPT-4 był trenowany na milionach artykułów NYT bez licencji i że model może reprodukować fragmenty artykułów prawie dosłownie — co narusza copyright i podważa model biznesowy NYT.

OpenAI odpowiedział że trenowanie modeli na publicznie dostępnych danych to fair use — tak jak wyszukiwarki indeksują strony bez licencji. Sąd federalny musi rozstrzygnąć.

Ta rozprawa będzie kształtować zasady ekonomii treści w erze AI przez dekadę.

Czym jest copyright a scraping

Copyright a scraping to obszar prawa autorskiego dotyczący legalności pobierania treści z internetu przez AI crawlery i używania tych treści do trenowania modeli lub generowania odpowiedzi — z kluczowym pytaniem czy takie użycie mieści się w doktrynie fair use (USA) lub dozwolonego użytku (UE), czy wymaga licencji od właściciela treści.

Argumenty za fair use (stanowisko OpenAI, Google)

Trenowanie modeli jest transformatywne: model nie reprodukuje treści, ale uczy się wzorców językowych. Analogia do studenta który czyta książki żeby nauczyć się pisać — nie musi płacić autorowi każdej przeczytanej książki.

Precedens wyszukiwarek: Google indeksuje strony bez licencji od dekad. Sądy uznały że jest to fair use bo generuje ruch dla autorów.

Skala jest technicznie niemożliwa do licencjonowania: licencjonowanie każdego dokumentu w corpora treningowej jest logistycznie niemożliwe przy bilionach dokumentów.

Argumenty przeciw fair use (NYT, publisherzy)

Reprodukcja prawie dosłowna: GPT-4 może reprodukować artykuły NYT prawie słowo w słowo gdy odpowiednio zapytany. To nie jest transformatywne użycie — to reprodukcja.

Displacement: AI Overviews i generatywne wyszukiwarki zastępują wizytę na stronie autora. Fair use nie dotyczy sytuacji gdzie AI „zastępuje” oryginalny rynek treści.

Komercyjne korzyści: OpenAI generuje miliardy dolarów używając treści bez wynagrodzenia dla twórców. Fair use jest trudniej obronić w kontekście jasnych korzyści komercyjnych.

Stan prawny w 2026

NYT vs OpenAI: w toku w sądzie federalnym USA. Reuters vs Meta AI: podobny pozew. Getty Images vs Stability AI: dotyczy obrazów, ale z orzecznictwem relevantnym dla tekstu. Sądy europejskie: kilka spraw w toku, bez prawomocnych wyroków.

Dla właściciela treści: zakładaj że crawlowanie twoich danych przez AI crawlery bez licencji jest spornym prawnie — i wdróż Content Signals oraz pay-per-crawl jako mechanizm wyrażenia preferencji i monetyzacji.

Text and Data Mining (TDM) wyjątek UE

Dyrektywa o prawie autorskim na jednolitym rynku cyfrowym (2019/790) wprowadza wyjątek TDM dla badań naukowych — ale wymaga że właściciel treści nie zastrzegł wprost swojego sprzeciwu. robots.txt z Content Signals jest mechanizmem wyrażenia tego sprzeciwu w ekosystemie agentów.

Licencjonowanie treści dla AIKomercyjne umowy między właścicielami treści a dostawcami modeli AI lub platform agentowych — przyznające prawo do użycia treści w treningu modeli lub jako źródło RAG — w zamian za opłaty lub tantiemy. Wyłaniający się rynek który przenosi logikę licencjonowania mediów do ery modeli językowych.Kontrola dostępu AI crawlerówZestaw mechanizmów aktywnej kontroli dostępu AI crawlerów do treści strony — wykraczający poza deklaratywne robots.txt w kierunku weryfikacji tożsamości botów, blokowania na poziomie CDN i monetyzacji ruchu AI. Odpowiedź na fakt że znaczna część AI crawlerów nie respektuje robots.txt.Płatny dostęp dla agentówModel monetyzacji dostępu do treści dla agentów AI — właściciel serwisu definiuje cenę za crawlowanie lub zapytanie, agent płaci za każdy dostęp przez protokoły micropayments. Odpowiedź na rozpad umowy "crawl za darmo, ruch w zamian" w erze generatywnych odpowiedzi AI które zatrzymują użytkownika przed kliknięciem.Sygnały treściRozszerzenie pliku robots.txt o trzy sygnały (search, ai-input, ai-train), które pozwalają właścicielowi strony deklarować nie tylko kto może crawlować jego zawartość, ale do czego można jej użyć po pobraniu — do wyszukiwania, do generowania odpowiedzi AI lub do trenowania modeli.robots.txt dla agentówRozszerzenie klasycznego pliku robots.txt o dyrektywy specyficzne dla agentów AI i crawlerów LLM — pozwala kontrolować które części strony są dostępne dla systemów AI.