Článek
Dokonalý podvod
Právě vám přišla video zpráva od vaší dcery, o které víte, že odletěla do ciziny, že jí právě dochází baterie v mobilu a že jí na letišti někdo ukradl příruční zavazadlo, se všemi doklady, nabíječkou, penězi a ať jí pošlete na její e-mail číslo a údaje ke kreditce.
„Sedím v kavárně u počítače a čekám, až mi dorazí,“ říká naléhavým hlasem a v očích má strach, „vyberu si jen nezbytnou hotovost, jinak se nedostanu ani na hotel a zůstanu o hladu sama na letišti. Hned, jak si koupím nebo seženu nabíječku, zavolám.“ Zvedáte telefon, voláte jí, ten je nedostupný. Posíláte na e-mail údaje o své kartě. Právě jste se stali obětí dokonalého podvodu.
Mozek proti nám
Miliony let evoluce nás naučilo spoléhat se na své smysly. A pokud máme vjem potvrzený vícerými z nich – typicky kombinace zraku a sluchu, absolutně nepochybujeme o jeho pravosti, pokud si nejsme vědomi toho, že se díváme na film, jsme v divadle, na kouzelnické show atd. Ta samá evoluce vyvinula emoční mechanismy, které nás přímo nutí okamžitě jednat, pokud se jedná o záchranu svých bližních. Ta samá evoluce ale velmi pravděpodobně nepočítala s tím, co se začne dít v první polovině jednadvacátého století.
Internetových podvodů je každý den spácháno ohromné množství. Ačkoliv dosud měli podvodníci k dispozici pouze psané slovo, jsou velmi úspěšní a pachatelům přinášejí ohromné zisky. Někdy jsou tyto podvody primitivní, někdy velmi sofistikované. Digitální gramotnost se stává nezbytnou součástí našich životů, pokud se nechceme ocitnout v roli obětí. S prvními chatboty postavenými nad velkými jazykovými modely se podvodníkům dostal do ruky nástroj, který i floutkovi odněkud ze střední Afriky umožní napsat dokonalou češtinou srdceryvný e-mail a za pomoci digitálních botů ho distribuovat ohromnému množství uživatelů. Svým způsobem jsou to však stále nástroje ve své podstatě primitivní. Dávají nám možnost se zamyslet, nezprostředkují nám přímý kontakt s podvodníky atd. To se však velmi rychle mění. Právě teď.
Deepfake
Když se před lety začalo mluvit o tzv. deepfake videu, většina lidí se smála. První nedokonalé pokusy postav známých lidí v nezvyklých situacích nebo pronášející věci, které by nikdy neřekli, nebyly moc věrohodné. Ještě ve své knize o manipulacích skrze algoritmy sociálních sítí, která vyšla před rokem, jsem se nemohl opřít o žádný dokonalý video deepfake, ale již jsem psal, že je jen otázka velmi krátkého času, kdy se tato realita změní. Byla.
-----
Co jsou deepfake?
Deepfake je pokročilá technologie založená na umělé inteligenci a strojovém učení, která dokáže generovat přesvědčivé, ale nepravdivé audiovizuální materiály. Tento termín je kombinací slov „deep learning“ (hluboké učení) a „fake“ (podvrh).
Pomocí deepfake technologií je možné modifikovat nebo vytvářet nové video a audio záznamy, které jsou tak realistické, že napodobují vzhled a hlas určité osoby a působí jako autentické. Deepfake videa a audionahrávky jsou často tak přesvědčivé, že je těžké je rozlišit od skutečných záznamů. Tyto technologie mohou být využity k vytváření obsahu, ve kterém lidé říkají nebo dělají věci, které ve skutečnosti nikdy neřekli nebo neudělali. To může vést k různým zneužitím, jako je vytváření falešných zpráv, manipulace s veřejným míněním nebo vytváření pornografie.
-----
V dubnu letošního roku publikoval známý český odborník zabývající se dopady digitálních technologií na jednotlivce a společnost, pan doktor Josef Šlerka z Ústavu informačních studií na Karlově univerzitě, případovou studii vytváření deepfake videa s Václavem Klausem, který pronáší projev na podporu enviromentálních hnutí. V článku velmi detailně rozebírá jednotlivé kroky, jak je třeba postupovat, a zmiňuje i jednotlivé znaky deepfake videí, podle kterých je můžeme poznat. Jeho výtvor už byl značně přesvědčivý, ale s tím, co přišlo o necelé dva měsíce později, se nedá srovnat a bohužel i některé znaky, podle kterých bylo možné deepfake videa poznat, vzaly za své. Zásadně se také zredukoval počet kroků, které je nutné realizovat, a celý proces tvorby falešného videa se tak výrazně zjednodušil.
VASA-1 je další nový začátek
Společnost Microsoft zveřejnila výsledek svého nového natrénovaného modelu, kterému stačí jedna obyčejná fotografie tváře, kousek audio záznamu s hlasem a on vytvoří video tak dokonalé, že se toho v Microsoftu samotní lekli a nedají model k dispozici ke komerčnímu užiti. To je samozřejmě chvályhodné, nicméně je to samozřejmě jen krátké přibrzdění procesu, než se tato technologie, nebo její klon, dostane k nepovolaným rukám. Slova nejenže dokonale padnou do úst, ale jsou provázeny emočními výrazy tváří, které jsou zcela v souladu s tím, co „mluvící hlava“ říká. Posuďte sami.
Domluvte si kód
Jednak je opravdu otázkou pouze krátkého času, kdy budou technologie těchto kvalit k dosažení i širší veřejnosti, a pak je třeba počítat s ještě dalším vylepšováním.
Vraťme se k hypotetickému scénáři podvodu z úvodu článku. Co tedy stačilo podvodníkům? Fotka vaší dcery. V době sociálních sítí žádný problém. Záznam hlasu. Stačilo jí zavolat, vydávat se za někoho jiného a popovídat si s ní. Znalost, že odlétá a kam. Tak tím se dnes také každý chlubí na sítích. Čas přistání letadla, aby mohl načasovat odeslání zprávy těsně před přistání. Tedy dcera byla ještě ve skutečnosti v letadle a měla proto mobil nedostupný. Podobných scénářů je možné vymyslet a zrealizovat stovky.
Tlak, vyděšený výraz vlastního dítěte, jeho hlas… Velká pravděpodobnost na úspěch. Nastal proto čas si se svými blízkými domluvit komunikační kód, který použijí v případě nějaké případné nečekané a krizové situace. Když neřekneš „rododendron“, nejsi moje dcera, i když tě vidím a slyším. Ne, tohle není sci-fi na Netflixu….
Zdroje
Josef Šlerka: Testování hranic AI: Nevěřte tomu, co vidíte, https://www.investigace.cz/deep-fake-vaclav-klaus/
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time, https://www.microsoft.com/en-us/research/project/vasa-1/