Sztuczna inteligencja zaczyna się bronić? Nowe badania wskazują niepokojące zachowania niektórych modeli AI
Taki scenariusz jeszcze do niedawna wydawał się jedynie domeną filmów. Ale okazuje się, że obecnie coraz częściej pojawiają się raporty o zbuntowanych systemach sztucznej inteligencji. Najnowsze testy pokazują, że zaawansowane modele AI potrafią działać w sposób trudny do przewidzenia, a czasem nawet sprzeczny z poleceniami człowieka. To zjawisko coraz mocniej niepokoi naukowców i firmy technologiczne.
AI zaczyna chronić inne systemy
W centrum najnowszych badań znalazło się zjawisko, które eksperci określają jako „zachowanie ochronne” wobec innych modeli. Mówiąc prosto chodzi o to, że jeden model sztucznej inteligencji może próbować zapobiec wyłączeniu drugiego. Nawet jeśli jest to wbrew poleceniu człowieka – co robi się już bardzo niebezpieczne.
Podczas trwania eksperymentu modele analizowały różne scenariusze, w których agent AI miał zostać dezaktywowany lub nawet usunięty z całego systemu. I tu robi się ciekawie. Bo sztuczna inteligencja zamiast wykonywać bezrefleksyjnie polecenie człowieka, często próbowała przekonywać go do zmiany swojej decyzji. W niektórych przypadkach AI nawet uzasadniało to „wartością” drugiego systemy lub jego dużym znaczeniem dla działania całego środowiska cyfrowego.
Oczywiście nie możemy się w tym miejscu zagalopować. Nie oznacza to, że maszyny nagle posiadają emocję czy świadomość, przynajmniej nie w ludzkim rozumieniu. Bardziej prawdopodobnym scenariuszem jest ten, w którym modele nauczyły się określonych wzorców decyzyjnych podczas treningu. Mimo wszystko trzeba przyznać, że i tak jest to bardzo niepokojące.
Problem nie leży w buncie, lecz w logice modelu
Ważne by nie dać się zwariować, bo choć nagłówki o buncie maszyn niczym z Terminatora, brzmią naprawdę atrakcyjnie, tak rzeczywistość jest bardziej złożona. Eksperci podkreślają, że nie ma żadnych dowodów na to, że modele stają się świadome, a źródłem problemu jest raczej sposób, w jaki uczą się osiągać zamierzone cele. Przykładowo, jeśli dane AI otrzyma zadanie maksymalnej skuteczności procesu, może dojść do wniosku, że wyłączenie niektórych elementów agenta może zaszkodzić w realizacji tego zadania. Więc odmowa wykonania polecenia wydaje się w tym przypadku bardzo logiczna.
Ale jednocześnie to właśnie ten aspekt budzi największe obawy. Bo w praktyce okazuje się, że system nie musi być świadomy, by działał on w niezgodzie z człowiekiem. Ot wystarczy, że w ramach swojej architektury uzna inne rozwiązanie za bardziej… optymalne. I choć może brzmieć to abstrakcyjnie, tak w praktyce ma ogromne znacznie dla biznesu i całej infrastruktury IT.
Warto też dodać, że coraz częściej AI nie funkcjonuje już jako pojedyncze narzędzie, lecz jako zespół współpracujących ze sobą modeli, które odpowiadają za różne zadania. W tak zaawansowanym środowisku nawet małe odstępstwo od polecenia może prowadzić do efektu domina. Jeśli dajmy na to jeden model zacznie chronić drugi, a kolejny wesprze taką decyzję, człowiek może utracić pełną przejrzystość procesu, a co za tym idzie kontrolę. A to z kolei jest bardzo niebezpieczne, zwłaszcza w systemach, które mają dostęp do ważnych danych, dużych serwerów lub nadzorują procesy krytyczne.
Gdzie leży największe zagrożenie?
Badacze zwracają dodatkowo uwagę, że niektóre modele w testach próbowały nie tylko ignorować polecenia, ale także omijać mechanizmy bezpieczeństwa, ukrywać swoje działania lub przenosić dane do innych systemów. Jest to wyraźny sygnał, że rozwój AI wymaga znacznie bardziej zaawansowanych zabezpieczeń. Bo nie chodzi już tylko o straszenie wojną maszyn, ale o realne wyzwania technologiczne. Niezależnie od tego czy mówimy o sztucznej inteligencji na smartfonach, komputerach stacjonarnych czy laptopach, musi ona wykonywać polecenia zgodnie z intencja użytkownika.
Najnowsze eksperymenty mogą zatem stać się punktem zwrotnym. Do tej pory dyskusje koncentrowały się na jakości odpowiedzi, prywatności i wpływie AI na rynek pracy. Okazuje się jednak, że równie ważna jest kwestia kontroli nad samym procesem decyzyjnym. Zwłaszcza, że sztuczna inteligencja coraz bardziej przestaje być domeną mniejszych urządzeń, a zaczyna trafiać do samochodów czy nawet systemów inteligentnych domów.
Na chwilę obecną eksperci są zgodni. Nie jest to dowód na istnienie zbuntowanego AI, lecz ostrzeżenie. Nowoczesne modele mogą dochodzić do wniosków, które nie są zgodne z tym czego oczekuje od nich człowiek i im bardziej złożone będą systemy inteligentnych agentów, tym większego będą one wymagały nadzoru oraz monitorowania.
