Poradniki Eksperta

Zdaniem eksperta

Sora od OpenAI: jak działa nowe narzędzie to producji filmów?

 2024-02-26 

Sora, najnowsze osiągnięcie OpenAI w dziedzinie sztucznej inteligencji, zrewolucjonizowało sposób, w jaki tworzymy i postrzegamy filmowe narracje. Jako narzędzie do generowania wideo z tekstowych poleceń, Sora otwiera przed twórcami treści, filmowcami i artystami wizualnymi nowe horyzonty kreatywności, umożliwiając tworzenie zarówno realistycznych, jak i fantastycznych scen z prostych instrukcji tekstowych.

Technologia i metodyka pracy Sory

Podstawą działania Sory, jest przetwarzanie danych wizualnych na struktury zwane „łatkami” (ang. patches), co jest adaptacją strategii stosowanej przez duże modele językowe (LLM). Te modele, dzięki trenowaniu na ogromnej ilości danych internetowych, osiągnęły zdolność do generalizacji w różnych dziedzinach. Sora korzysta z tej metodyki, kompresując materiał wideo do niższej wymiarowości przestrzeni latent, a następnie rozkładając te reprezentacje na łatki przestrzenno-czasowe. Takie podejście umożliwia modelowi trenowanie na materiałach o różnorodnych rozdzielczościach, czasie trwania i proporcjach, zapewniając przy tym wysoką skalowalność i efektywność reprezentacji danych wizualnych.


Sora wyróżnia się na tle innych narzędzi AI, dzięki zastosowaniu modelu dyfuzji w transformatorach, co pozwala na efektywne generowanie „czystych” łatek z zakłóconych danych wejściowych, bazując na podpowiedziach tekstowych. Ta metoda, znana z dobrej skalowalności w różnych dziedzinach, takich jak modelowanie językowe, wizja komputerowa i generowanie obrazów, została skutecznie zaadaptowana do generowania wideo. Sora demonstruje, że transformatory dyfuzji mogą być skutecznie skalowane jako modele wideo, zauważalnie poprawiając jakość próbek wraz ze wzrostem mocy obliczeniowej dedykowanej do treningu.

Zaawansowane funkcje generowania i edycji wideo

Sora przekracza tradycyjne ramy generowania wideo z tekstowych poleceń, oferując zaawansowane możliwości animacji statycznych obrazów i edycji wideo. Narzędzie to może tworzyć doskonale zapętlone filmy, rozszerzać istniejące wideo w przód lub w tył w czasie oraz transformować styl i środowisko wideo w odpowiedzi na tekstowe polecenia, co otwiera nowe możliwości w zakresie postprodukcji i kreatywnej ekspresji. Dodatkowo, zdolność Sory do generowania wideo w zmiennych rozdzielczościach i proporcjach, pozwala na tworzenie treści zoptymalizowanych pod kątem różnych urządzeń i platform, co jest kluczowym atutem w dzisiejszym zróżnicowanym środowisku medialnym.


Jednym z najbardziej fascynujących aspektów Sory, jest jej zdolność do symulacji realistycznych i spójnych środowisk trójwymiarowych, zachowując działania obiektów i postaci w dynamicznie zmieniających się perspektywach. Ta zdolność do generowania długich, spójnych sekwencji wideo, gdzie postacie i obiekty zachowują swoją ciągłość nawet po opuszczeniu kadru, otwiera nowe możliwości w zakresie storytelling'u i produkcji filmowej. Sora może na przykład generować wieloklatkowe sceny z tą samą postacią, zachowując jej wygląd i charakterystykę przez całą sekwencję, co umożliwia tworzenie bardziej złożonych i zaawansowanych narracji wizualnych.


Sora znajduje się obecnie na etapie wczesnego dostępu dla wybranych użytkowników, takich jak red teamerzy, którzy oceniają potencjalne ryzyka i szkody oraz dla artystów wizualnych, projektantów i filmowców, którzy mogą dostarczyć cennych opinii na temat rozwoju narzędzia. OpenAI aktywnie współpracuje z twórcami i ekspertami z różnych dziedzin, aby lepiej zrozumieć potencjalne zastosowania Sory oraz wpływ, jaki może ona wywrzeć na przyszłość kreatywności i produkcji treści. Dzielenie się postępami badawczymi na wczesnym etapie, umożliwia OpenAI zbieranie opinii od osób spoza organizacji i przygotowanie społeczeństwa na nadchodzące możliwości, jakie oferują nowe technologie AI.

Powrót

Właściciel serwisu: TERG S.A. Ul. Za Dworcem 1D, 77-400 Złotów; Spółka wpisana do Krajowego Rejestru Sądowego w Sądzie Rejonowym w Poznań-Nowe Miasto i Wilda w Poznaniu, IX Wydział Gospodarczy Krajowego Rejestru Sądowego pod nr KRS 0000427063, Kapitał zakładowy: 40 618 750 zł; NIP 767-10-04-218, REGON 570217011; numer rejestrowy BDO: 000135672. Sprzedaż dla firm (B2B): dlabiznesu@me.pl INFOLINIA: 756 756 756