Większość osób, którym pokazaliśmy powyższe nagranie, uznała je za szokujące. Jednak to nie dobór „bohaterów” i piosenki szokował – ale to, jak wiele potrafi dzisiejsza technologia. Jeśli nigdy wcześniej nie widzieliście niczego podobnego – poznajcie technologię DeepFake.
Nazwa DeepFake wzięła się od użytkownika „DeepFakes” portalu Reddit, który w grudniu 2017 opublikował kilka filmów porno, wykorzystujących sieci neuronowe GAN do podmiany twarzy oryginalnych aktorek na twarze celebrytek: Emmy Watson, Scarlett Johansson czy Gal Gadot. Filmy te były oczywiście fałszywe, ale były bardzo realistyczne.
Reddit po jakimś czasie usunął wątki z filmami DeepFake, powołując się na zasady dot. mimowolnej pornografii. Niedługo potem, podobne zasady ogłosiły serwisy Twitter i Discord, a nawet Pornhub. Nie oznaczało to jednak końca tej technologii – a wręcz przeciwnie…
Jak to działa?
Filmy DeepFake tworzone są przy pomocy sieci GAN (generative adversarial networks, czyli generatywnych sieci współzawodniczących), składających się z 2 konkurujących ze sobą głębokich sieci neuronowych, trenowanych na realnych fotografiach lub klatkach filmu. Następnie zaczyna się współzawodniczenie, w którym bierze udział jedna sieć generująca obrazy (stąd nazwa „generatywna”) i druga (zwana dyskryminującą), próbująca określić, czy obraz jest prawdziwy czy fałszywy.
Potem następuje zamiana ról: sieć generatywna uczy się na podstawie wyniku, a dyskryminująca dowiaduje się, w jaki sposób zwiększyć swoją skuteczność. Z każdym cyklem obie sieci osiągają coraz lepsze rezultaty. Po kilku milionach takich cykli sieć generatywna wie już, jak wygenerować tak dobry fałszywy obraz, aby sieć dyskryminacyjna (która również się uczyła) nie była już go w stanie odróżnić od prawdziwego.
Metody tej używa wiele różnych aplikacji, w wielu różnych celach – DeepFake jest jednak z oczywistych względów celem bardzo specyficznym i wzbudzającym wiele emocji (jak robi to choćby powyższy film). Co ciekawe, technologię DeepFake rozwijają nie tylko indywidualni, zainteresowani nią użytkownicy – w 2019 rosyjski oddział firmy Samsung zaczął pracę nad technologią „neuronowych mówiących głów”.
Rozwój technologii
Pierwsze aplikacje do tworzenia filmów DeepFake nie były zbyt praktyczne – wymagały bowiem setek zdjęć „ofiary”, w dodatku odpowiednio wykadrowanych i wyskalowanych. W praktyce więc tworzenie takich filmów było raczej sztuką dla sztuki.
Sytuacja oczywiście ulegała stopniowej poprawie wraz z kolejnymi podejściami różnych osób do tematu, były to jednak bardzo drobne kroczki. Prawdziwy przełom nastąpił w grudniu 2019 wraz z opublikowaniem pracy Aliaksandra Siarohina pt. „First Order Motion Model for Image Animation”.
Od tego momentu możliwe jest tworzenie filmów DeepFake o lepszej jakości niż wcześniej, przy użyciu zaledwie jednego poprawnie spreparowanego zdjęcia ofiary, oraz filmu źródłowego – można to więc zrobić dosłownie w kilkanaście minut, nie mając żadnych własnych serwerów, nie preparując kolekcji zdjęć – jedynie mając standardowe konto Google:
Co dalej?
Jak widać po obu powyższych filmach, dzisiejsze produkcje DeepFake z jednej strony wydają się szokująco doskonałe – są to jednak oceny na pierwszy rzut oka przez laików, którzy nigdy wcześniej nie słyszeli o tego typu technologiach. Z drugiej zaś, patrząc na efekt końcowy, są tak naprawdę mocno niedoskonałe: efekty można uznać za zadowalające tylko w niskiej rozdzielczości i pod warunkiem, że dostępne są materiały źródłowe z tłem w jednolitym kolorze. W innym przypadku mamy bowiem efekt swobodnie falującego tła, czy słabe odwzorowanie niektórych fragmentów ciała, np. zębów – co z pewnością nie pozwoli na zmylenie przygotowanego przeciwnika. Patrząc jednak na dotychczasowe postępy, jest to najprawdopodobniej kwestia maksymalnie dwóch lat.