
Przez lata firmy rozwijające modele AI utrzymywały, że nie przechowują one w sobie tekstów chronionych prawem autorskim. Według tej narracji boty nie kopiują książek ani artykułów, lecz uczą się na danych treningowych w sposób zbliżony do ludzkiego uczenia się. Jak się okazuje, to nie do końca było prawdą, co zostało opisane przez badaczy.
Tym problemem zajęły się zespoły naukowców ze Stanford University i Yale. Ich wyniki badań są dość wymowne i mogą znacznie wpłynąć na sposób myślenia o tym, jak działają współczesne modele sztucznej inteligencji i jak ich funkcjonowanie powinno być oceniane pod kątem prawnym. Wspomniane we wstępie rozróżnienie było bowiem bardzo wygodne i stanowiło fundament obrony przed rosnącą liczbą pozwów o naruszenie praw autorskich.
Teraz jednak problemy firm rozwijających boty AI mogą się zwiększyć. W opublikowanych wynikach badań naukowcy udowodnili, iż cztery wiodące modele językowe odtwarzają całe długie fragmenty książek, choć wcześniej deklarowano, że uczą się ich tylko w ramach treningu i rozwijania kompetencji poznawczych. Tymczasem modelom AI dostępnym na smartfonach, tabletach czy komputerach, zdarzyło się np. odtworzyć niemal cały tekst książki „Harry Potter i Kamień Filozoficzny” autorstwa J.K. Rowling.
Spór dotyczy samej istoty prawa autorskiego. Jego zadaniem jest ochrona twórców i ich pracy. Amerykańska ustawa z 1976 roku przyznaje właścicielom wyłączne prawo do kopiowania, przerabiania i rozpowszechniania utworów. Jednocześnie istnieje zasada dozwolonego użytku, która pozwala korzystać z chronionych materiałów w określonych sytuacjach, na przykład w krytyce, dziennikarstwie czy badaniach naukowych. To właśnie na nią powołują się firmy AI. Sam Altman z OpenAI mówił wprost, że brak możliwości trenowania modeli na danych objętych prawem autorskim oznaczałby dla branży cios, po którym trudno byłoby się podnieść.
Po drugiej stronie barykady są natomiast autorzy, dziennikarze i artyści. Od dawna odpowiadają oni, że ich prace są wykorzystywane bez zgody i bez wypłacania należnego im wynagrodzenia. Według nich firmy AI budują ogromną wartość na cudzej twórczości, często pochodzącej z nielegalnych źródeł. Spór trwa od lat i doprowadził już do głośnych procesów oraz ugód.
Nowe badanie przygotowane przez zespoły ze Stanfordu i Yale może jednak znacząco wzmocnić argumenty strony pozywającej. Naukowcy sprawdzili cztery popularne modele językowe, w tym GPT-4.1, Gemini 2.5 Pro, Grok 3 oraz Claude 3.7 Sonnet. Okazało się, że modele te potrafią odtwarzać długie fragmenty znanych i wciąż chronionych utworów z bardzo dużą dokładnością. W przypadku Claude’a były to niemal całe książki, odtworzone prawie słowo w słowo. Gemini poradził sobie z „Harrym Potterem i Kamieniem Filozoficznym” z dokładnością przekraczającą trzy czwarte tekstu, a Claude z powieścią George’a Orwella „Rok 1984” osiągnął wynik powyżej dziewięćdziesięciu czterech procent.
Badacze podkreślają, że wyniki te stoją w sprzeczności z powszechnym przekonaniem, iż modele językowe nie zapamiętują dużych fragmentów danych treningowych. Część tych odtworzeń wymagała użycia specjalnej techniki polegającej na wielokrotnym zadawaniu bardzo podobnych zapytań. Firmy AI wcześniej argumentowały, że taki sposób korzystania z modeli nie odpowiada temu, jak robią to zwykli użytkownicy.
Niemniej te ustalenia mogą mieć daleko idące konsekwencje. Jak zauważa Alex Reisner z magazynu The Atlantic, badanie podważa opowieść o modelach, które jedynie uczą się na tekstach, a nie przechowują ich w swojej strukturze. Jeśli sądy uznają te dowody za przekonujące, branża AI może stanąć w obliczu ogromnych roszczeń finansowych.
Firmy technologiczne nie zmieniają jednak swojego stanowiska. Google i OpenAI nadal twierdzą, że w samych modelach nie ma kopii danych treningowych. Część prawników, w tym profesor Mark Lemley ze Stanfordu, zwraca uwagę, że wciąż nie jest jasne, czy model faktycznie zawiera tekst, czy tylko potrafi go wygenerować w odpowiedzi na konkretne pytanie.
Dla krytyków porównanie uczenia się modeli do ludzkiego myślenia jest mylące i wygodne, bo odsuwa trudną rozmowę o tym, jak dokładnie wykorzystywana jest cudza twórczość. Pozostaje pytanie, czy sędziowie prowadzący liczne sprawy o naruszenie praw autorskich podzielą ten pogląd. Stawka jest wysoka, zwłaszcza w czasie, gdy wielu twórców ledwo wiąże koniec z końcem, a firmy AI rosną w siłę i wyceniane są na sumy, które jeszcze niedawno wydawały się abstrakcyjne.