Din guide till deepfakes och dess mörka baksida

Publicerad: 6 apr. 2022

Du har säkert hört talas om deepfakes och hur bildmanipulerade filmer sprids vind för våg nu för tiden. Men vet du hur det går till när en deepfake-video skapas?  I denna artikel förklarar vi tekniken bakom deepfakes och dess mörkare sida. 

Begreppet deepfake är en sammansättning av deep learning (djupinlärning på svenska) och fake (falsk på svenska). För att förstå hur teknologin bakom en deepfake-video fungerar behöver vi först förstå ett och annat om artificiell intelligens, maskininlärning och djupinlärning. Det låter kanske komplicerat men vi ska förklara det så enkelt som möjligt.  

Artificiell intelligens 

Låt oss börja med att definiera artificiell intelligens med hjälp av ett citat från vår artikel Vad är Artificiell Intelligens? 

“Artificiell intelligens, ofta förkortat AI, kallas ibland för maskinintelligens och brukar beskriva maskinens förmåga att likna människans intelligens. Exempelvis förmågan att kunna resonera, planera, lära sig saker och uppvisa kreativitet.” 

Förenklat: AI är en teknik som möjliggör för en maskin att efterlikna mänsklig intelligens. 

Maskininlärning 

Maskininlärning i sin tur är ett område inom artificiell intelligens som handlar om att få datorer att lära sig och upptäcka regler för att lösa uppgifter, utan att datorn har programmerats med regler för att lösa just den specifika uppgiften.  

Ett exempel på det här kan vara en streamingtjänst som efter att du tittat/lyssnat på innehållet sedan kan avgöra vad du är intresserad av och kan tipsa dig. Maskinen i detta fall använder datan av ditt tittande/lyssnande för att föreslå liknande innehåll. 

Förenklat: Maskininlärning gör det möjligt för datorer att genom erfarenhet lösa uppgifter. 

Djupinlärning och artificiella neurala nätverk 

Djupinlärning är ett område inom maskininlärning där man använder sig av artificiella neurala nätverk. Dessa nätverk är uppbyggda för att efterlikna den mänskliga hjärnan. I nätverket finns lager på lager av neuroner som tar emot data vilken omvandlas till information som i nästa lager används för att lösa en uppgift. På så sätt kan man säga att djupinlärningen möjliggör för en dator att lära sig av sin egen databehandling.  

Ett exempel på djupinlärning genom artificiella neurala nätverk är bildigenkänning: Genom djupinlärning kan en dator lära sig att känna igen ett murmeldjur på bild, men inte bara det. Datorn kan se en bild av en hamster och känna igen att det inte är ett murmeldjur. Något förenklat kan man säga att neuroner i nätverkets första lager mottar data (bild på murmeldjur) denna omvandlas till information (ett värde) som skickas vidare till neuroner i lager 2, där används informationen (värdet) för att lösa en uppgift (murmeldjur eller inte murmeldjur). Resultatet är att datorn kan dra slutsatsen att bilden som visades föreställer ett murmeldjur. 

Förenklat: Genom användningen av artificiella neurala nätverk (vilka efterliknar människans hjärna) kan en dator lära sig av sin egen databehandling och på så sätt göra förutsägelser. 

Generativa motståndarnätverk

De huvudsakliga maskininlärningsmetoderna som används för att skapa deepfakes är baserade på djupinlärning och involverar träning genom generativa motståndarnätverk. Generativa motståndarnätverk består av två artificiella neurala nätverk som tävlar mot varandra. Det ena kallas för generatorn och det andra för kritikern. Generatorn genererar artificiella bilder som blandas med importerade verkliga bilder, av vilka kritikern sedan ska avgöra är artificiellt genererade eller verkliga. I denna träningsprocess blir de genererade bilderna mer och mer verkliga. Slutresultatet är artificiella bilder som kritikern misslyckats bedöma, det vill säga: kritikern tror att bilderna är verkliga.

Förenklat: Genom användningen av generativa motståndarnätverk kan en dator “titta” på bilder föreställande verkliga personer och skapa en artificiell bild utifrån originalbilderna.

Variationsautokodare

Håll ut, vi är snart framme vid skapandet av en deepfake-video! Men först ska vi kort förklara vad en variationsautokodare är och gör. Precis som med den generativa motståndarnätverket är detta en metod inom djupmaskininlärning. Skillnaden här är att en variationsautokodare (ofta förkortad VAE) tränas till att koda inkommande bilder till låg-dimensionerade representationer, för att sedan rekonstruera representationen tillbaka till bilder. Slutprodukten blir en artificiellt genererad bild.

Förenklat: En variationsautokodare genererar artificiella bilder genom att avkoda inkommande data.

Ansiktsigenkänning som verktyg för deepfakes

Ansiktsigenkänning är en teknik som kartlägger ett ansikte för att identifiera en person och dess ansiktsdrag. Med hjälp av denna kartläggning kan man med artificiell intelligens och metoderna inom djupinlärning lägga bilden eller videon av ett genererat ansikte över ett verkligt ansikte. Tänk dig ett filter på exempelvis Instagram där du med hjälp av ansiktsigenkänning kan kartlägga ditt ansikte för att lägga ett sött hundfilter över det. Tada, du ser ut som en hund! Tänk dig att du nu gör samma sak men istället för ett hundfilter använder du ett filter som föreställer någon annans ansikte.

Skapandet av en deepfake-video

Genom att använda sig av ett generativt motståndarnätverk, en variationsautokodare eller en kombination av de båda kan en dator generera artificiella bilder av ett verkligt ansikte med olika ansiktsuttryck. Tillsammans med tekniken för ansiktsigenkänning kan dessa artificiella bilder fixeras över ett verkligt ansikte i en video. När detta görs kommer det att se ut som att det genererade ansiktet är det som rör på sig. Tänk dig en väldigt åtsittande ansiktsmask, denna kommer följa ansiktets rörelser, likadant gäller för det påklistrade ansiktet som har sina ankarpunkter i det underliggande ansiktet. Lägg sedan på ljudet från en ihopklippt inspelning av den verkliga personen eller av en röstimitatör och du har gjort en deepfake-video.

Förenklat: Med hjälp av artificiell intelligens skapas det en stor mängd bilder av en persons ansiktsuttryck vilka med ansiktsigenkänning läggs på ett annat ansikte i en video. Det genererade ansiktet följer originalansiktets ansiktsuttryck och det ser ut som att det genererade artificiella ansiktet är det som talar.

Den mörka sidan av deepfakes 

Nu kommer vi till det läskiga! Genom att lägga en persons ansikte över ett klipp på en annan person kan en dator generera en video av hur det pålagda ansiktet skulle bete sig och se ut om det gjorde vad originalansiktet på videon gjorde. Ta en titt på den här deepfake-videon av en artificiell Tom Cruise till exempel. Ser du att det egentligen inte är Tom på filmen? 


Nu tänker kanske du, vad är det som är så farligt med att göra videoklipp med en artificiell Tom Cruise? Svaret är att det antagligen inte är så farligt. Men om det skulle vara vår statsminister som uppmanade oss att stänga ner vår internetuppkoppling på grund av främmande makter? Ett videoklipp föreställande din faster Kajsa som bad dig överföra pengar till hennes bankkonto? Eller Amerikas president som går loss på politiska motståndare inför ett val? Ja då skulle det kunna ha förödande konsekvenser för vår demokrati, din plånbok och statssäkerheten. Tänk exempelvis om den här videon föreställande Obama skulle användas av politiska motståndare för att förstöra hans chanser i ett politiskt val.

Deepfakes som ett verktyg i informationskriget

Tidigare i år spreds en deepfake-video på Ukrainas president Volodymyr Zelenskyj där han uppmanade sina invånare att lägga ned vapnen. Denna typ av desinformation har genom bildmanipulering och deepfakes blivit ett allt vanligare verktyg i informationskrigsföring. Därför blir det också allt viktigare att källgranska nyheter och behålla ett kritiskt öga till vad det är en ser på nätet.  

Vidare läsning 

Läs våra artiklar om källkritik på nätet

Lär dig bildsöka på Google

Lyssna på Bli säker-podden om deepfakes.