The New York Times pozwał OpenAI i Microsoft w grudniu 2023. Twierdzi że GPT-4 był trenowany na milionach artykułów NYT bez licencji i że model może reprodukować fragmenty artykułów prawie dosłownie — co narusza copyright i podważa model biznesowy NYT.
OpenAI odpowiedział że trenowanie modeli na publicznie dostępnych danych to fair use — tak jak wyszukiwarki indeksują strony bez licencji. Sąd federalny musi rozstrzygnąć.
Ta rozprawa będzie kształtować zasady ekonomii treści w erze AI przez dekadę.
Czym jest copyright a scraping
Copyright a scraping to obszar prawa autorskiego dotyczący legalności pobierania treści z internetu przez AI crawlery i używania tych treści do trenowania modeli lub generowania odpowiedzi — z kluczowym pytaniem czy takie użycie mieści się w doktrynie fair use (USA) lub dozwolonego użytku (UE), czy wymaga licencji od właściciela treści.
Argumenty za fair use (stanowisko OpenAI, Google)
Trenowanie modeli jest transformatywne: model nie reprodukuje treści, ale uczy się wzorców językowych. Analogia do studenta który czyta książki żeby nauczyć się pisać — nie musi płacić autorowi każdej przeczytanej książki.
Precedens wyszukiwarek: Google indeksuje strony bez licencji od dekad. Sądy uznały że jest to fair use bo generuje ruch dla autorów.
Skala jest technicznie niemożliwa do licencjonowania: licencjonowanie każdego dokumentu w corpora treningowej jest logistycznie niemożliwe przy bilionach dokumentów.
Argumenty przeciw fair use (NYT, publisherzy)
Reprodukcja prawie dosłowna: GPT-4 może reprodukować artykuły NYT prawie słowo w słowo gdy odpowiednio zapytany. To nie jest transformatywne użycie — to reprodukcja.
Displacement: AI Overviews i generatywne wyszukiwarki zastępują wizytę na stronie autora. Fair use nie dotyczy sytuacji gdzie AI „zastępuje” oryginalny rynek treści.
Komercyjne korzyści: OpenAI generuje miliardy dolarów używając treści bez wynagrodzenia dla twórców. Fair use jest trudniej obronić w kontekście jasnych korzyści komercyjnych.
Stan prawny w 2026
NYT vs OpenAI: w toku w sądzie federalnym USA. Reuters vs Meta AI: podobny pozew. Getty Images vs Stability AI: dotyczy obrazów, ale z orzecznictwem relevantnym dla tekstu. Sądy europejskie: kilka spraw w toku, bez prawomocnych wyroków.
Dla właściciela treści: zakładaj że crawlowanie twoich danych przez AI crawlery bez licencji jest spornym prawnie — i wdróż Content Signals oraz pay-per-crawl jako mechanizm wyrażenia preferencji i monetyzacji.
Text and Data Mining (TDM) wyjątek UE
Dyrektywa o prawie autorskim na jednolitym rynku cyfrowym (2019/790) wprowadza wyjątek TDM dla badań naukowych — ale wymaga że właściciel treści nie zastrzegł wprost swojego sprzeciwu. robots.txt z Content Signals jest mechanizmem wyrażenia tego sprzeciwu w ekosystemie agentów.