Czy twój Smart TV też pomaga trenować modele AI? To rozwiązanie wzbudza spore kontrowersje

Firmy zajmujące się zbieraniem publicznie dostępnych treści z internetu w celu trenowania modeli AI pojawiają się dziś w wielu miejscach. Coraz częściej skupiają się na urządzeniach, które jeszcze niedawno kojarzyły się wyłącznie z rozrywką. Dotyczy to zwłaszcza aplikacji na Smart TV. Wiele z nich próbuje wykorzystać fakt, że użytkownicy mają stały dostęp do internetu i czasami są skłonni zgodzić się na różne formy „współpracy”, jeśli w zamian dostaną mniej reklam lub dostęp do darmowych treści.
Kod powiązany z Bright Data odkryto w aplikacjach na Smart TV
Jedną z takich firm jest Bright Data. To duża organizacja prowadząca sieć proxy rozproszoną po całym świecie. Działa ona w oparciu o osoby, które dobrowolnie zgadzają się, aby ich urządzenia stały się częścią systemu służącego do pobierania publicznych danych z sieci. Dla użytkowników oznacza to niewielką oszczędność podczas oglądania telewizji, ale jednocześnie wiąże się z tym, że ich domowe łącze staje się fragmentem infrastruktury, z której korzystają inni.
Według jednego z raportów fragmenty kodu powiązanego z Bright Data wykryto w kilku aplikacjach na telewizory smart. Kiedy zapytano o to twórców tych programów, część odmówiła komentarza, a inni po prostu usunęli integrację.
Jak działa ta technologia na Smart TV?
Bright Data opisuje swoje rozwiązania jako sposób na uporządkowane dostarczanie danych pozyskiwanych ze stron internetowych. W materiałach promocyjnych firma zaznacza, że jej technologia Bright SDK pozwala w pełni monetyzować informacje o użytkownikach aplikacji i jednocześnie zachować ich dotychczasowe doświadczenia. Oprogramowanie może być osadzone w aplikacjach na Smart TV i zanim zacznie działać, wskazuje użytkownikowi, że wymaga zgody na dołączenie do sieci proxy. Po jej udzieleniu, część ruchu sieciowego może być kierowana przez domowy adres IP. Dane pobierane w ten sposób trafiają później na serwery Bright Data, gdzie są sprzedawane firmom trenującym modele językowe i inne systemy oparte na uczeniu maszynowym.
Kilka lat temu, podczas branżowego webinaru, Ariel Shulman, dyrektor ds. produkcji w Bright Data, tłumaczył, że SDK nie śledzi konkretnych użytkowników. Według niego kod działa w tle w sposób anonimowy, a aktywność crawlerów trudno jednoznacznie wykryć, ponieważ całość opiera się na rozproszonych adresach IP pochodzących z prywatnych sieci domowych. Firma deklaruje, że jej sieć proxy liczy około 150 milionów użytkowników i że liczba ta obejmuje aplikacje na telewizory smart, a także programy instalowane na komputerach i smartfonach.
Rzeczniczka Bright Data, Jennifer Burns, podkreśla, że udział w sieci jest dobrowolny i można go w każdej chwili zakończyć poprzez nieskomplikowaną procedurę składającą się z dwóch kroków. Firma twierdzi też, że oprogramowanie jest tak zaprojektowane, aby nie obciążało sprzętu ani łącza w sposób zauważalny dla użytkownika. W praktyce osoby korzystające z telewizora nie mają jednak łatwego wglądu w to, ile danych faktycznie przepływa w tle w trakcie oglądania treści czy przeglądania internetu.
Takie rozwiązania budzą spore wątpliwości
W raporcie, który ujawnił obecność kodu Bright Data w aplikacjach na Smart TV, porównano model działania firmy do IPIDEA. Była to duża sieć proxy pochodząca z Chin, a Google niedawno ją zablokował. Krytycy twierdzą, że tego typu technologie mogą być wykorzystywane do działań, które trudno kontrolować lub śledzić. Bright Data broni się, mówiąc, że ich rozwiązania powstają z myślą o legalnym dostępie do danych i projektach badawczych.
Równocześnie duzi dostawcy systemów operacyjnych dla urządzeń mobilnych i telewizorów wprowadzają nowe ograniczenia dotyczące działania aplikacji w tle. Google miał rozpocząć blokowanie programów, które utrzymują trwałe procesy SDK, a Amazon utrudnia działanie aplikacjom korzystającym z mechanizmów proxy podobnych do rozwiązań Bright Data.
Mimo tych zmian firma nadal współpracuje z ekosystemami telewizorów opartych na Tizen OS i webOS. Z różnych źródeł wynika, że w obu środowiskach może działać wiele aplikacji, które posiadają funkcje zbierania danych z wykorzystaniem ruchu proxy.