Zwrot generatywny. Jak kino korzysta z AI?
Pozycja sztucznej inteligencji w branży audiowizualnej rośnie w zawrotnym tempie – to już nie eksperyment, lecz pełnoprawne narzędzie produkcyjne. I choć AI wkracza do obszaru zarezerwowanego dotychczas dla ludzkiej kreatywności i sprawczości, nie zastępuje zupełnie twórców i nie dokonuje rewolucji estetycznej. Jej rola polega przede wszystkim na automatyzacji i usprawnieniu kolejnych etapów powstawania filmów czy seriali. Dziś algorytmy tworzą storyboardy i prewizualizacje, przyspieszają żmudne procesy postprodukcji oraz generują elementy obrazu, które wcześniej wymagały ogromnego nakładu pracy licznych specjalistów. Jednocześnie dynamika rozwoju technologii sprawia, że trudno przewidzieć, jak głęboko generatywne modele AI wpłyną w najbliższych latach na kształt i odbiór kina, co z kolei stawia przed przemysłem audiowizualnym istotne wyzwania etyczne i praktyczne.W dyskusji nad związkami sztucznej inteligencji z twórczością, w tym audiowizualną, dominują dwie przeciwstawne perspektywy: nieufność (czasem wręcz kasandryczna) oraz technoentuzjazm. Obie zasadzają się na silnym ładunku emocjonalnym i sensacyjności ujęcia tematu. Jest to wzorzec powtarzający się od dekad, sztuczna inteligencja bowiem nie jest konkretną technologią, lecz pojęciem określającym różne innowacje, które w danym czasie trafiały pod szyld AI. Jak zauważa badacz nowych mediów Lev Manovich: „[K]ażdą rzekomo unikalną ludzką zdolność lub umiejętność, którą automatyzowano za pomocą technologii komputerowej, określano mianem »AI«. Jednocześnie gdy automatyzacja osiąga pełną sprawność i bezproblemowość, przestaje funkcjonować jako »przypadek AI«” (Manovich 2024a, s. 72). Przywołany przez Manovicha tzw. efekt AI odzwierciedla cykliczną dynamikę kulturowego procesu reagowania na sztuczną inteligencję oraz jej długofalowej asymilacji w życiu codziennym. Choć obliczenia komputerowe, nawigacja GPS, autouzupełnianie tekstu w urządzeniach z funkcją pisania czy algorytmiczne systemy rekomendacji u swoich początków uznawano za dowód „inteligencji” maszyn, dziś, zgodnie z mechanizmem „efektu AI”, traktowane są raczej jako oczywiste elementy codziennych technologii.
Kto to napisał?
Co aktualnie uchodzi za radykalną i dopiero domagającą się asymilacji inkarnację AI? Oczywiście jej postępujące generatywne możliwości. Wprawdzie generatywna sztuczna inteligencja (GenAI) jest efektem ciągłej ewolucji uczenia maszynowego, głębokiego uczenia (deep learning) i rozwoju dużych modeli językowych (LLM), ale w perspektywie produkcji audiowizualnej ma charakter rewolucyjny, gdyż przesuwa akcent z samego usprawniania narzędzi cyfrowych ku radykalnej transformacji praktyk twórczych i modeli pracy. Początkowo stosowane w branży filmowej mechanizmy oparte na AI dotyczyły głównie analizy, przetwarzania i klasyfikowania danych, jak przewidywanie sukcesu scenariusza czy optymalizacja marketingu. GenAI działa inaczej: wykorzystując dane, na których trenowano model (lub dostarczone w danym projekcie), oraz sztuczne sieci neuronowe, które naśladują ludzkie procesy myślowe, tworzy nowe, oryginalne treści, takie jak teksty, obrazy, sekwencje wideo, animacje i dźwięki.
Kino, które zawsze chętnie implementuje technologiczne innowacje z różnych dziedzin, generatywny potencjał AI przyswaja dziś w podobnym rytmie, w jakim w latach 90. i na początku lat 2000. oswajało i aplikowało możliwości CGI i cyfrowego obrazu. Komputerowy efekt wizualny w postaci dinozaura albo androida z ciekłego metalu w czasie rewolucji cyfrowej był zauważalnym ciałem obcym w fotograficznej tkance filmu. Dziś jednak większość wysokobudżetowego kina rozrywkowego, mimo znacznej hybrydyczności obrazu, zachowuje jedność estetyczną, czyli fotorealizm, podporządkowany elementom zarejestrowanym za pomocą kamery. Daleko posunięta cyfrowa postprodukcja obrazu stała się standardem większości produkcji, niezależnie od budżetu i potencjału komercyjnego. Podobnie ma się sprawa z generatywną AI – budzi dziś ekscytację lub zaniepokojenie szczególnie wtedy, gdy stosowana jest w obszarach dotychczas w mniejszym stopniu dotkniętych rewolucją cyfrową, na przykład gdy (współ)autorem scenariusza jest model językowy, kiedy akcent aktora w niektórych wypowiadanych kwestiach modyfikowano programem do klonowania głosu albo gdy film zawiera sceny lub sekwencje, których warstwa wizualna w znacznym stopniu pozostaje efektem GenAI.
Obecnie najbardziej odporne na automatyzację związaną z AI wydaje się scenariopisarstwo, choć nowe generacje dużych modeli językowych coraz lepiej operują mową i logiką przyczynowo-skutkową. Złożona semantyka narracji przekracza jednak aktualne zdolności sztucznej inteligencji, wobec czego technologia ta służy raczej jako kreatywny asystent scenarzysty lub generator kliszowych historii opartych na powtarzalnych wzorcach. Agnieszka Kamrowska, badając wpływ AI na kino gatunkowe, zwraca uwagę, że nieliczność filmów zrealizowanych na podstawie wygenerowanego scenariusza może wynikać z młodości narzędzia (LLM są powszechnie dostępne ledwie od 2022 roku), ale wskazuje też na niesatysfakcjonujący efekt tego mechanizmu lub traktowanie go jako swoistego „podwykonawcy”. Przykładowo w Dzienniku Syzyfa (2023, M.M. Lis) prompty, czyli polecenia kierowane do modelu AI, były na tyle szczegółowe i objaśniające przebieg linii fabularnej, że ostateczny scenariusz można uznać za dzieło hybrydyczne. Z kolei w wypadku filmu The Last Screenwriter (2024, P. Luisi) scenariusz oparty na jednym i dość ogólnym prompcie okazał się banalny i tak też oceniono sam film. Projekt wzbudził natomiast spory niepokój w branży, wręcz sprzeciw. Ostatecznie protesty doprowadziły do odwołania uroczystej premiery w Londynie, a film publicznie pokazano tylko na pojedynczych pokazach festiwalowych, po czym udostępniono bezpłatnie online. Dobrze ilustruje to zarówno opór wobec GenAI w kinie, jak i debatę nad jej miejscem w procesie twórczym (por. Kamrowska 2025, s. 9–10). Kamrowska sugeruje jednak, że w przyszłości narzędzia AI będą mogły łatwo zasilać przemysł kina typowo gatunkowego z uwagi na jego pożądaną przewidywalność i konwencjonalność: „Algorytmy AI najłatwiej generują scenariusze i inne elementy filmowe, opierając się na szkoleniowej bazie danych zawierającej mnóstwo podobnych utworów. Stworzenie kolejnego »innego, choć takiego samego« filmu na podstawie tego, co już nakręcono, jest ponowną reprodukcją danej formuły” (tamże, s. 14).
Czy dziś – poza niszowymi, amatorskimi, często krótkometrażowymi projektami – można znaleźć ciekawe efekty zaprzęgnięcia sztucznej inteligencji do roli (współ)scenarzysty? Na tym tle wyróżnia się film Czy maszyny śnią o śmierci? (2024, P. Winiewicz). Model językowy Kaspar trenowano na twórczości i wypowiedziach Wernera Herzoga (za zgodą niemieckiego reżysera), a następnie włączono do pracy nad skryptem mającym imitować formę herzogowskiego dokumentu. Proces promptowania miał tu charakter precyzyjny – polecenia określały treść, ton i rytm narracji. Scenariusz powstawał więc w trybie iteracyjnym: AI generowało kolejne warianty scen i dialogów, które następnie redagowali Piotr Winiewicz wraz ze współautorką Anną Juul, aby zachować spójność fabularną i estetyczną, ograniczyć redundancje oraz dostosować scenariusz do formy, którą można sfilmować. Efekt końcowy dzieła utrzymanego w konwencji mockumentu – ironicznie tematyzującego zresztą relację człowieka i maszyny – ujawnia zarówno potencjał, jak i ograniczenia AI w procesie pisania dla kina. Czy maszyny śnią o śmierci? korzysta także z dwóch generatywnych rozwiązań, które pozwoliły zasymulować obecność samego Herzoga w diegezie: syntezy mowy (narracja z offu) oraz – w jednej sekwencji – technologii deepfake. Film zarejestrowano jednak w tradycyjny sposób, co sprawia, że niewiele ma on wspólnego z wizualną AI.
Kinematografia predykcyjna
To właśnie ruchome obrazy generowane przez modele sztucznej inteligencji są dziś wiodącym przejawem „efektu AI”. Nie chodzi tu bowiem o obcy element w przestrzeni kadru, rodzaj efektu czy nakładki, lecz o całą zawartość ujęcia. Klipy GenAI – choć finalnie przybierają formę układu pikseli – powstają inaczej niż obrazy rejestrowane kamerą lub tworzone za pomocą narzędzi cyfrowych (CGI). Nie są ani mechaniczną rejestracją, ani symulacją rzeczywistości – to synteza, w której algorytm przewiduje najbardziej prawdopodobny układ pikseli na podstawie danych treningowych. Manovich określa modele GenAI mianem mediów predykcyjnych, kładąc nacisk na ten zupełnie nowy mechanizm generowania (zob. Manovich 2024a, s. 80).
Predykcyjne syntezowanie danych skutkuje nietypową estetyką, zwłaszcza kiedy oczekujemy konkretnej konwencji przedstawieniowej. Im założenie bliższe będzie fotorealizmowi, tym wyraźniejsze staną się idiosynkrazje odróżniające obraz/wideo AI od CGI czy materiału pochodzenia fotograficznego. Najlepiej widać to na przykładzie przedstawień ludzi wykonujących czynności. W filmach i serialach jeszcze nie jesteśmy eksponowani na tę skrajną odsłonę nowej estetyki, ale w mediach społecznościowych zwrot generatywny już się dokonał. Socialmediowy strumień coraz częściej prezentuje niekomfortowy, plastikowy hiperrealizm, absurdalny morfing przeczący prawom fizyki i logiki oraz „artefakty AI”, takie jak zniekształcenia anatomiczne, zwielokrotnienia elementów i błędy tekstur – typowe dla procesu syntezy z modelu statystycznego. Sztandarowym tego przykładem był klip opublikowany w marcu 2023 roku na portalu Reddit, ukazujący Willa Smitha jedzącego spaghetti. Wideo stworzone na podstawie tekstowego promptu przy użyciu narzędzia ModelScope stało się viralem ze względu na surrealistyczne wręcz błędy anatomiczne, a prompt „Will Smith eating spaghetti” do dziś jest głównym papierkiem lakmusowym możliwości i jakości coraz nowocześniejszych modeli GenAI. W maju 2025 roku Google zaprezentowało materiał z Veo 3, ulepszonej odsłony generatora. Smith jedzący makaron wygląda na nim już niemal jak sfilmowany. Owo „niemal” spycha jednak algorytmicznego gwiazdora do tzw. doliny niesamowitości, słowem – obraz jest już tak bliski autentyczności, że może budzić dyskomfort i obcość. W wypadku ludzkiej, w dodatku znanej twarzy percypujące ją oko człowieka jest niezwykle wyczulone nawet na najdrobniejszy anatomiczny i emocjonalny niuans burzący wrażenie realizmu.
Kino jak na razie nie korzysta więc na dużą skalę z GenAI do tworzenia całych scen czy sekwencji – oczywiście nie tylko z powodu estetyki. W grę wchodzą interesy rozmaitych grup zawodowych, kwestie praw autorskich i etyki trenowania modeli, aspekty techniczne (np. niewystarczająca rozdzielczość obrazu lub jego jednowarstwowość) oraz przyziemny fakt, że autentyczna relacja kina i rzeczywistości wciąż stanowi jeden z głównych powodów fascynacji widzów medium filmowym. Nie znaczy to jednak, że w pejzażu audiowizualnym nie pojawiają się „filmy AI”, choć są to zwykle nieduże, niezależne inicjatywy – najczęściej krótkie metraże cyrkulujące w sieci. Na YouTubie wyświetlić można niespełna 25-minutowy The Frost (2024, J. Rubin), postapokaliptyczne sci-fi z wątkiem wrogiej sztucznej inteligencji, który określa się jako pierwszy „film GenAI” w rozumieniu złożonej, fabularnej opowieści, a nie tylko ruchomych obrazów. Stanowi on wizualny kompromis między fotorealistyczną konwencją a ówczesnymi możliwościami DALL-E 2, generatora obrazów opartego na promptingu, oraz narzędzi do animacji obrazów: D-ID i Mixamo. Jednocześnie pojawiają się dłuższe formy, które dodatkowo są legitymizowane instytucjonalnie. Jednym z nielicznych pełnometrażowych filmów w całości stworzonych narzędziami sztucznej inteligencji – i z oficjalną dystrybucją VOD (Amazon Prime) – jest utrzymana w estetyce mangi animacja DreadClub: Vampire’s Verdict (2024) Hooroo Jacksona, stanowiącego jednoosobową ekipę realizacyjną. Innym przykładem jest 72-minutowa animacja What’s Next? (2025, C. Yiwen), zaprezentowana na tegorocznej edycji Berlinale w sekcji Forum, poświęconej eksperymentalnym formom filmowym. Film chińskiej artystki to rodzaj feministyczno-antykapitalistycznego eseju utrzymanego w przejaskrawionej algorytmicznej estetyce, składający się wyłącznie z pozbawionych dialogu klipów GenAI.
O ile zatem zeszłoroczny The Frost wygląda jeszcze jak wersja demo czy prewizualizacja potencjalnego filmu i pełen jest osobliwych artefaktów AI, o tyle już tegoroczne filmy GenAI są nie tylko kolejnym krokiem w stronę percepcyjnie komfortowego fotorealizmu, lecz także pozostają lepiej umocowane w branży filmowej. Hiperrelistyczny – z naciskiem na realistyczny – Echo Hunter (2025, K. Cardoza), 22-minutowy thriller sci-fi, czerpiący tematycznie i formalnie z Łowcy androidów (1982, R. Scott), to pierwszy film GenAI, w którym wystąpili aktorzy należący do amerykańskich związków zawodowych. W procesie generowania postaci wykorzystano ich głosy, ruchy (motion capture), ale i fizjonomię, a relacja wkładu aktorskiego i warstwy wizualnej przypomina tę z wczesnych animacji CGI opartych w całości na motion capture (jak Ekspres polarny [2004] i Beowulf [2007] Roberta Zemeckisa).
Przykładem filmu hybrydycznego, łączącego sceny aktorskie i GenAI, jest z kolei ośmiominutowa Ancestra (2025) w reżyserii Elizy McNitt. Film wyprodukowało założone przez technoentuzjastę Darrena Aronofsky’ego studio Primordial Soup we współpracy z Google Deep Mind, a premierowy pokaz odbył się podczas Tribeca Film Festival w czerwcu tego roku. To pierwsze szeroko komentowane scalenie ujęć fotograficznych i wygenerowanych przy użyciu modeli sztucznej inteligencji w spójnym i wartościowym projekcie. McNitt – osoba z wadą serca – inscenizuje dramatyczne okoliczności własnych narodzin, przeplatając ujęcia szpitalnego porodu z wędrówką w głąb ciała i poetyckimi obrazami matczynej miłości w skali kosmicznej. Nietrudno zgadnąć, które momenty reprezentują media rejestrujące, a które media predykcyjne, jednak spójność estetyczna jest tu na wysokim poziomie. Można więc zauważyć kierunek rozwoju technologii: to nie kino ma przejść estetyczną rewolucję, to raczej GenAI wideo powinno upodobnić się do estetyki znanej z filmów, by wpasować się w pejzaż kinematograficzny. „Każda klatka wygląda tak, jakby została sfilmowana, a nie wygenerowana” – między innymi takim sloganem reklamuje się na swojej stronie internetowej Marey, jeden z najnowocześniejszych modeli GenAI dedykowany filmowcom.
Przyrost podobnych projektów jak powyższe w najbliższych miesiącach będzie z pewnością ogromny; nastąpi też intensyfikacja prób włączenia sztucznej inteligencji generującej ruchome obrazy w obieg produkcji głównego nurtu. W tym miejscu krzyżują się dwa główne aspekty GenAI, napędzające jej popularność i rozwój: dostępność oraz funkcjonalność.
Demokratyzacja pod specjalnym nadzorem
Po pierwsze, w dyskursie – zarówno naukowym, jak i publicystycznym – dotyczącym „filmów AI” zgodnie akcentuje się demokratyzujący wymiar tej technologii (zob. Taşabat 2025, s. 167–168). Narzędzia generatywne (takie jak Runway, Pika, Sora czy Adobe Firefly) trafiają do niezależnych twórców, którzy mogą realizować krótkie filmy bez zaplecza logistycznego i programistycznego. Obniżenie progu wejścia czyni ten proces inkluzywnym – choć efekty często przypominają szkice, potrafią ujawniać narracyjny potencjał czy reżyserski zmysł. Dla wielu twórców marginalizowanych przez przemysł filmowy lub wykluczonych ekonomicznie z tej ekskluzywnej branży jest to szansa, by w jakiejkolwiek ekranowej formie urzeczywistnić swoją wizję. Wspomniany Hooroo Jackson określił budżet swego solowego projektu DreadClub: Vampire’s Verdict na jedyne 405 dolarów, a trzyosobowa ekipa Echo Huntera zmieściła się (nie uwzględniając honorariów aktorskich) w 10 tysiącach dolarów. Z kolei Battalion (2024) Dave’a Clarka – pięciominutowa impresja o 320. Batalionie Balonów Zaporowych z lądowania w Normandii – powstał całkowicie dzięki dostępnym narzędziom AI przy udziale zaledwie jednej osoby. Dzięki temu udało się opowiedzieć historię grupy afroamerykańskich żołnierzy, której doświadczenia wciąż stosunkowo rzadko pojawiają się w kinie.
Dostępność, obniżenie kosztów oraz multimodalność modeli do generowania obrazów i materiałów wideo demokratyzują twórczość audiowizualną, ale jednocześnie wspierają mechanizmy monetyzowania zwrotu generatywnego. Jednakże tam, gdzie z GenAI korzystają uprzywilejowani, jej nadużywanie jest postrzegane raczej nieprzychylnie, o czym przekonały się między innymi firmy Coca-Cola i Volvo – ich „sztuczne” klipy reklamowe z 2024 roku krytykowano jako bezduszne i dystopijne. Podobne wątpliwości wzbudziła czołówka marvelowskiego serialu Tajna inwazja (2023, Disney+) – animowana i utrzymana w niepokojącym, onirycznym stylu, kojarzącym się z estetyką generowanych w tamtym czasie przez AI wizualiów. Potem ujawniono, że do produkcji openingu użyto narzędzi AI zarówno w procesie projektowania, jak i generowania obrazów. Studio podkreślało, że korzystano też z tradycyjnych technik, a sztuczna inteligencja działała w ramach odgórnej i spójnej wizji artystycznej nawiązującej do estetyki AI i paranoiczno-konspiracyjnych wątków serialu, jednak zabieg wzbudził wiele negatywnych reakcji.
Kapitalistyczna logika niosąca na sztandarach egalitarne hasła cechuje także projekt pozycjonujący się jako „Netflix branży AI”, czyli należącą do medialnej firmy Fable Studio platformę Showrunner – wirtualny warsztat i serwis streamingowy w jednym (zob. Fink 2024). Wykorzystuje ona GenAI, pozwalając użytkownikom tworzyć na podstawie prostych tekstowych promptów odcinki seriali (do kilkunastu minut) utrzymane w rozmaitych animowanych stylach. Model działa w systemie wielozadaniowym i zajmuje się wszystkim: od scenariusza przez animację aż po dubbing i montaż. Showrunner sprofilowany jest wyraźnie prosumencko: już nazwa sugeruje, że każdy może łatwo i szybko urzeczywistnić swoją serialową wizję, która zasili bibliotekę platformy. Być może kształtuje się właśnie nowy model interaktywnej telewizji, opartej na hybrydycznych zasobach, tworzonych oddolnie, ale i odgórnie. Na Showrunnerze bowiem pojawiają się też produkcje sygnowane przez Fable Studio, przykładowo satyryczny serial o Dolinie Krzemowej Exit Valley (2024). Studio przeprowadziło również eksperyment, generując bez zgody twórców odcinki w stylu animacji Miasteczko South Park (1997–, Comedy Central), co wzbudziło kontrowersje w kontekście praw autorskich. Co więcej, wprawdzie użytkownicy Showrunnera mogą dzielić się swoimi odcinkami (np. na YouTubie), ale zgodnie z regulaminem platformy wszystko, co wygenerowane za pomocą ich narzędzi, należy do dostawcy modelu – czyli do Fable. Demokratyzacja ironicznie spotyka się tu więc z technofeudalizmem, a „Netflix branży AI” czekają nie tylko wyzwania techniczne, ale uporządkowanie szarej strefy praw komercyjnych.
Promptowanie to za mało
Sceptycyzm otacza też dyskusję wokół Uncanny Valley – filmowego projektu Natashy Lyonne, aktualnie na etapie zaawansowanego developmentu. Napisany przez Lyonne oraz Brit Marling scenariusz skupia się na nastolatce, która zatraca kontakt z rzeczywistością, gdy popularna gra w rozszerzonej rzeczywistości (AR) szwankuje i zaczyna oddziaływać na świat zewnętrzny. GenAI ma być wykorzystane do współtworzenia realistycznych efektów AR-u, glitchy oraz interaktywnych wizualizacji gry, wnikających w świat rzeczywisty bohaterki. Ten hybrydyczny projekt, podobnie jak Ancestra łączący formułę live action i visual AI, kieruje uwagę na dwie bardzo istotne kwestie. Po pierwsze, studio produkcyjne Asteria, założone między innymi przez Lyonne, zauważa wagę kwestii prawa autorskiego i etyki. Deklaruje korzystanie ze wspomnianego już generatywnego modelu Marey, ucieleśniającego coraz popularniejszą ideę „clean AI”, czyli modeli trenowanych wyłącznie na legalnie licencjonowanych lub nieobjętych licencją materiałach (w przeciwieństwie do modeli Runway czy OpenAI). Po drugie, Marey reprezentuje nowy typ narzędzi GenAI zaprojektowanych specjalnie dla twórców filmowych, chcących pracować z AI w sposób złożony, plastyczny, responsywny i mniej zautomatyzowany.
Tym samym wracamy do sygnalizowanego już wątku funkcjonalności, która obok demokratyzowania dostępu jest dziś głównym aspektem dyskutowanym w kontekście zakresu stosowania generatywnych możliwości AI w przemyśle audiowizualnym. Przedstawiciele branży podkreślają, że modele GenAI oparte na promptach są nieprzystosowane do potrzeb profesjonalnych filmowców, oczekujących szczegółowej kontroli nad licznymi elementami obrazu (zob. Pulliam-Moore 2025). Jeśli kino rzeczywiście ma zacząć korzystać z GenAI jako twórczego narzędzia, ułatwiającego i przyspieszającego pracę, narzędzie to musi być czymś więcej niż tylko generatorem zadowalającym twórców reklamy czy użytkowników mediów społecznościowych. Kluczowa i potencjalnie przełomowa jest tu formuła Mareya, określana jako „świadomość 3D” (3D-aware), zdolna do budowania wewnętrznej mapy przestrzeni i traktowania sceny jako spójnego układu planów, głębi i obiektów. W praktyce oznacza to, że reżyser może pracować z materiałem niemal jak z cyfrowym planem filmowym – manualnie i precyzyjnie kontrolować trajektorię „kamery” i obiektów, panoramować, stosować zbliżenia, testować kąty widzenia, modyfikować tło. W końcu tworzenie kina to proces oraz trudne do wyrażenia w promptach decyzje rozłożone w czasie – pomysły mniej lub bardziej trafione, będące kreatywnymi poszukiwaniami. Dla wielu twórców powstałe w ten sposób materiały stają się końcową wersją dzieła i niebawem formy te mogą zacząć przedostawać się do głównego strumienia ekranowego; dla innych będą to dopiero prewizualizacje i swoista próba generalna dla filmów realizowanych w tradycyjny sposób, co może zdecydowanie obniżyć koszty.
Efektywnie i efektownie
Zwrot generatywny puka zatem do tylnych drzwi wielkiego świata filmu, a w zasadzie rozsiada się w nim, choć za kulisami produkcji, przede wszystkim w obszarze efektów wizualnych (VFX), zwanych też specjalnymi – a więc w bezpiecznej przestrzeni, gdzie od zarania kina się majstrowało, konstruowało iluzje i negocjowało fotograficzny paradygmat medium, często poza świadomością widzów. Narzędzia AI działają na planie filmowym i wokół niego pełną parą, lecz tak, byśmy nie zauważyli efektu ich pracy. To właśnie w obszarze efektów wizualnych sztuczna inteligencja zaczęła swoją karierę jako współtwórczyni obrazu filmowego.
Początki współpracy nie były jednak tak spektakularne, jak można by zakładać, i nie miały charakteru stricte generatywnego – dotyczyły głównie algorytmów wspomagających cyfrową restaurację obrazu, na przykład poprzez usuwanie szumów, poprawę ostrości i kontrastów czy uzupełnianie brakujących fragmentów obrazu na podstawie kontekstu wizualnego. Przełomem okazały się ulepszenia sieci neuronowych, czyli systemów komputerowych inspirowanych sposobem działania mózgu, uczące się wzorów i zależności. Na scenę wkroczyły sieci konwolucyjne (convolutional neural network, CNN) oraz generatywne sieci przeciwstawne (generative adversarial network, GAN). Sieci konwolucyjne skupiają się na analizie i przetwarzaniu obrazów: służą do detekcji, klasyfikacji, a ich poszczególne warianty uczą się rozpoznawać w obrazie konkretne atrybuty: mimikę, krawędzie, tekstury, kolory. Słowem: interpretują wzorce pikseli i dzięki temu „rozumieją” obraz. W produkcji filmowej wykorzystuje się je przede wszystkim do zadań, które dawniej wymagały żmudnej pracy manualnej, na przykład do zautomatyzowanej rotoskopii, czyli wycinania postaci i obiektów z tła. Sieć analizuje kadr po kadrze, śledzi kontury i generuje maski, które potem trafiają do dalszej obróbki i kompozytowania. Dziś proces, który jeszcze przed dekadą trwał tygodniami, zajmuje godziny, zachowując wysoką precyzję. Sieci konwolucyjne przyspieszają też maskowanie elementów tła oraz cleanup planu filmowego. Przykładowo podczas postprodukcji 1917 (2019, S. Mendes) wspierały usuwanie śladów współczesnej infrastruktury ze zdjęć w plenerze, uzupełniając tło zgodnie z realiami I wojny światowej.
Jeśli CNN-y można porównać do swoistych „detektywów” i „analityków”, to GAN-y byłyby „rzemieślnikami” lub „magikami od hiperrealizmu”. To układ dwóch rywalizujących ze sobą sieci neuronowych: sieci generatora, która tworzy nowe obrazy, oraz sieci dyskryminatora, która weryfikuje, czy obraz wygląda „jak prawdziwy”. W trakcie procesu dyskryminator coraz lepiej wykrywa „fałszywki”, a w konsekwencji generator uczy się tworzyć treści trudniejsze do odróżnienia od materiału referencyjnego, na przykład fotografii. W efekcie model skupia się na doskonaleniu rozmaitych detali dotyczących tekstur, światła czy ruchu. GAN-y działają więc jak wzmacniacze realizmu, a ich początkowe zastosowanie w kinie wiąże się z obszarem, w którym „klasyczne” CGI przez wiele lat nie dawało satysfakcjonujących rezultatów, mianowicie cyfrowym postarzaniem i odmładzaniem postaci. W Irlandczyku (2019, M. Scorsese) oraz Bliźniaku (2019, A. Lee), w których dokonywano de-agingu między innymi Roberta De Niro, Ala Pacino i Willa Smitha, po raz pierwszy zastosowano systemy oparte na uczeniu maszynowym, które analizowały archiwalne nagrania i przewidywały mimikę i ruchy mięśni twarzy aktorów. Sztuczna inteligencja stała się wówczas integralnym elementem workflow efektów wizualnych. Badacze zresztą określają GAN-y jako najważniejszy element dokonującej się rewolucji w polu VFX (zob. Verma, Haider 2024, s. 9–10).
Te nowatorskie sieci neuronowe znalazły też zastosowanie w klasycznych efektach proceduralnych, czyli takich, które wcześniej tworzono według algorytmów. Dotyczy to przykładowo generowania dymu, wody, ognia czy tłumu. Dawniej animatorzy ręcznie ustawiali parametry symulacji, ale nawet przy nowoczesnych silnikach renderujących proces ten bywał czasochłonny. GAN-y – analizują tysiące nagrań rzeczywistych płomieni czy chmur dymu – dodają „organiczny” niuans i drobne nieregularności trudne do zasymulowania, różnicując efekty i eliminując powtarzalność. W praktyce oznacza to, że wybuch na ekranie nie wygląda jak odtworzony algorytmicznie szablon, lecz jak naturalny ruch ognia i dymu, zachowujący spójność z resztą ujęcia.
Połączenie CNN-ów i GAN-ów w tworzeniu efektów wizualnych daje potężny efekt synergii. CNN przygotowuje dane i maski, określa kontury obiektów, identyfikuje ruch i światło, a GAN-y wykorzystują te informacje do tworzenia nowych, realistycznych lub fantastycznych elementów w scenie. Do tego dochodzą najnowsze typy sieci neuronowych, czyli transformery i modele dyfuzyjne. Te pierwsze – wprowadzone najpierw do przetwarzania języka naturalnego, a następnie zaadaptowane do obrazu i wideo – odpowiadają za spójność semantyczną i działają jak swego rodzaju „reżyserzy narracji”. Analizują całą sekwencję danych, a nie tylko pojedynczy element, rozumieją też złożone prompty i relacje temporalno-przestrzenne. Z kolei modele dyfuzyjne uzupełniają kompetencje GAN-ów, uchodząc za najwyższy obecnie standard GenAI. Przede wszystkim oferują większą modularność, a więc i lepszą kontrolę nad procesem, a także detale na jeszcze wyższym poziomie. Innymi słowy, można je wykorzystać do najprecyzyjniejszych zadań. Najnowsze modele AI na planie filmowym to możliwość automatyzacji skomplikowanych efektów, generowanie materiału do prewizualizacji, wstępne kompozytowanie CGI i materiału live action już w trakcie nagrywania, poprawa CGI w postprodukcji – przy zachowaniu dużej kontroli i swobody twórczej. Sztuczna inteligencja nie tylko jest obecna na każdym etapie produkcji, ale też zaciera granice między nimi.
Efekty wizualne i dźwiękowe wspomagane narzędziami AI znajdziemy dziś niemal w każdym filmie, od subtelnej modyfikacji głosów aktorów w Brutaliście (2024, B. Corbet) i Emilii Pérez (2024, J. Audiard) po smart de-aging Harrisona Forda w Indianie Jonesie i artefakcie przeznaczenia (2023, J. Mangold) czy Toma Hanksa w Here. Poza czasem (2024, R. Zemeckis). Na tym tle wręcz prekursorsko prezentuje się Wszystko wszędzie naraz (2022, D. Kwan, D. Scheinert), w którym zaledwie pięcioosobowy zespół VFX korzystał z narzędzi półautomatycznych, głównie do żmudnych zadań, jak wycinanie elementów z tła, a także eksperymentowania z wariantami ujęć, w tradycyjnej produkcji wymagającego wielogodzinnej rotoskopii. Jednocześnie zauważalna jest tendencja do coraz częstszej obecności całkowicie generowanych wizualizacji w funkcji efektu wizualnego – jak w scenie zawalenia się budynku w Buenos Aires w Eternaucie (2025), argentyńskim serialu Netflixa.
Maszyna ruszyła
Z pewnością nie ma już odwrotu od GenAI w kinie – tak jak nie była możliwa do zatrzymania rewolucja cyfrowa i ekspansja CGI. Wtedy też wieszczono kolejną „śmierć kina”, która przecież nie nastąpiła i teraz również raczej się na to nie zanosi. Z pewnością w filmach zaczną się pojawiać całe sceny generowane algorytmicznie, jednak – jak każda istotna zmiana na medialnej szachownicy – ekspansja AI nie sprawi, że przestaną powstawać filmy o dominującym komponencie fotograficznym. Być może staną się one bardziej ekskluzywne i wyróżniające się. Wydaje się, że GenAI, jaką znamy dziś, będzie przede wszystkim domeną wideo użytkowych, w którym relacja ze światem pozafilmowym oraz materialna i ludzka autentyczność nie są kluczowe. Nie zawsze będzie potrzeba kręcenia reklamy sieci komórkowej, filmu instruktażowego, a być może i kolejnego świątecznego filmu Hallmarka. Czy ktoś zauważy różnicę? Pewnie tak, ale może nie będzie to miało większego znaczenia.
GenAI zapewne straci aurę „efektu AI” szybciej, niż nam się wydaje. Wierzę jednocześnie, że twórcy i artyści kina podporządkują sobie nowe „inteligentne” narzędzia w taki sposób, by służyły kreatywnym procesom – tak jak aparat fotograficzny i kamera nie ograniczają się do prostej, mechanicznej reprodukcji, a grafika komputerowa – do zrobotyzowanej imitacji rzeczywistości. Najważniejsze, by dokonujący się w kulturze audiowizualnej zwrot generatywny nie okazał się tylko zwrotem w kierunku generyczności i homogenizacji treści.
Czarnoksiężnik z Oz – jeszcze większy i potężniejszy
Przykładem tego, jak poddana narzędziom AI klasyka filmowa staje się punktem wyjścia dla radykalnie nowych doświadczeń audiowizualnych, są specjalne pokazy Czarnoksiężnika z Oz (1939, V. Fleming) w obiekcie „The Sphere” w Las Vegas. Nie chodzi tu jednak ani o klasyczną restaurację cyfrową, ani o nową wersję dystrybucyjną, ale o eksperyment, w którym poddany modyfikacjom film staje się tworzywem immersyjnego widowiska, być może nowej inkarnacji kina rozszerzonego. Dzięki narzędziom AI, w tym inteligentnemu zwiększeniu rozdzielczości obrazu (superrozdzielczości), rozszerzono oryginalnego Czarnoksiężnika… do formatu sferyczno-panoramicznego. Wygenerowano też dalsze plany, boczne i głębsze elementy scenografii oraz postaci w tle, a także dostosowano detale faktur do nowej rozdzielczości. Nie ingerowano w narrację i nie kreowano nowych scen, jednakże wraz z rozszerzeniem i wypełnieniem obrazu pojawiły się elementy budzące pewne wątpliwości. Przykładowo postaci znajdujące się w niektórych scenach i ujęciach poza pierwotnym kadrem teraz widać z boku kompozycji, a wówczas ich raczej statyczny performans stanowi już efekt predykcji, a nie rejestracji występu aktorskiego. Ten rozbudowany i rozdmuchany (dosłownie – bo efekty 4D mają symulować między innymi wnętrze tornada) obraz ma wypełnić monumentalny sferyczny ekran o rozdzielczości 16K, powierzchni 15 000 m² (obszar dwóch boisk do piłki nożnej!), składający się z 1,2 miliona ekraników LED-owych, a każdy z nich z 48 diod. Pierwszy seans odbył się 28 sierpnia tego roku, a kolejne – już z ponad 120 tysiącami sprzedanych biletów – zaplanowano do marca 2026.
Heurystyka wysiłku
Jednym z głównych zarzutów wobec dzieł generowanych przez AI jest ich wątpliwa wartość, wynikająca z szybkiego, automatycznego i pozornie bezwysiłkowego powstawania. Takie obiekty czy utwory wydają się pozbawione ludzkiego wysiłku, nie ma też w nich śladu walki twórczej – rozumianej jako przezwyciężanie barier materialnych, technicznych, kulturowych czy mentalnych. Jak zauważa Lev Manovich, częścią takiego wysiłku jest także niepewność efektu i możliwość porażki, eksploracja i badanie rozmaitych możliwości bez ustalonej ścieżki. To, co tworzą maszyny, może się wydawać zbyt gładkie, mechaniczne i z góry zaplanowane. By opisać to, jak odbieramy i wartościujemy obrazy AI, Manovich przywołuje heurystykę wysiłku, czyli zasadę, zgodnie z którą jakość lub wartość obiektu określa się na podstawie postrzeganego wysiłku włożonego w jego wytworzenie. Zauważa, że od setek lat fascynuje nas „sprezzatura” – czyli pozorna lekkość twórczości, w której prawdziwe mistrzostwo polega na ukryciu trudu – choć w XX wieku pojawiła się przeciwna narracja: krytykowano awangardowe, konceptualne gesty i ready-made za ich pozorną łatwość i brak „prawdziwej pracy”. I tak właśnie postrzega się często sztukę angażującą AI, a przecież wysiłek w projektowanie procesu, żmudne dopracowywanie promptów, selekcję i obróbkę efektów jest niezaprzeczalny. Manovich zresztą podsumowuje ten wątek, rozszerzając perspektywę i dostrzegając rodzaj „wysiłku” samej maszyny: „Łatwość generowania treści jest jedynie pozorna – to rodzaj »sztucznej sprezzatury«, w której rzekoma automatyczność produkcji AI maskuje ogrom zasobów kulturowej wiedzy, na której system został wytrenowany, złożoną pracę obliczeniową, a także znaczące zużycie zasobów materialnych i energetycznych, jakie te systemy pochłaniają” (Manovich 2024b, s. 166).
Bibliografia
Fink Ch., Meet Showrunner, The ‘Netflix Of AI’ That Turns Viewers Into TV Show Creators, „Medium”, 16.08.2024, dostęp online: charliefink.medium.com.
Kamrowska A., Filmy AI: Kino z doliny niesamowitości, „Kwartalnik Filmowy” 2025, nr 130.
Manovich L., From Representation to Prediction: Theorizing the AI Image, [w:] L. Manovich, E. Arielli, Artificial Aesthetics: Generative AI, Art and Visual Media, 2024(a), wyd. elektroniczne, dostęp online: manovich.net.
Manovich L., From Tools to Authors, [w:] L. Manovich, E. Arielli, Artificial Aesthetics: Generative AI, Art and Visual Media, 2024(b), wyd. elektroniczne, dostęp online: manovich.net.
Pulliam-Moore Ch., Hollywood’s Pivot to AI Video Has a Prompting Problem, „The Verge”, 29.06.2025, dostęp online: theverge.com.
Taşabat S.E., The Revolution of Generative AI, [w:] S. Benziane, F. Guerroudji Meddah (red.), Neural Network Advancements in the Age of AI, IGI Global Scientific Publishing, 2025.
Verma K.A., Haider F., Revolutionizing Realities: The Impact of Artificial Intelligence in Visual Effects, [w:] D. Sabharwal, R.S. Sood, S. Sood (red.), Media and AI: Navigating the Future of Communication, Post Script, 2024.
Komentuj









