Mit kezdjünk az újabb és újabb hangfelvételekkel?

2024. november 14. 16:53

Ezt a cikket 2024 novemberében írtuk.
A benne lévő információk azóta elavulhattak.

Bármilyen AI-felismerő szoftvert is nézünk, száz százalékos választ még egyik sem tud adni arra, hogy egy hangfelvétel manipulált-e vagy sem. Adunk néhány támpontot, ami alapján érdemes tájékozódni.

Az elmúlt napokban a Magyar Péter és a Tisza Párt körüli nyilvánosság a különböző, titokban rögzített majd nyilvánosságra hozott hangfelvételekről szólt – ma délelőtt jelent meg az újabb adag. A hanganyagok hitelességét sorra kérdőjelezik meg politikai szereplők, médiumok, és folyamatosan megy a találgatás az egyszerű internetezők körében is.

Mivel várhatóan ez a téma következő napokban, hetekben is velünk marad, ebben a cikkben összegyűjtjük, milyen szempontokat érdemes figyelembe venni, ha a témában tájékozódunk.

Összefoglaljuk,

hol áll eddig a sztori, ki mit állított a hangfelvételekkel kapcsolatban;
milyen eszközök állnak rendelkezésre az mesterséges intelligencia által manipulált hangfelvételek felismerésére,
és ezeknek az eredményét miért nem lehet száz százalékos ítéletként értékelni.

Mi történt eddig?

Magyar Péter politikai színrelépése óta nem most fordult elő először, hogy titokban rögzített hangfelvétek kerülnek elő: márciusban Magyar Péter hozott nyilvánosságra egy hangfelvételt, amelyen volt felesége, Varga Judit volt fideszes igazságügyi miniszter hallható. Ugyan a kormánysajtóban elterjedt, hogy a felvétel megvágott, a hanganyag valódiságát az érintettek akkor nem vonták kétségbe.

Az elmúlt napokban megjelent hanganyagokkal más a helyzet.

Magyar Péter november 10-én, vasárnap arról beszélt egy sajtótájékoztatón, hogy hamarosan lejárató akció indul ellene, ami során „az illegális eszközökkel szerzett információkat, kép- és hangfelvételeket, valamint a Vogel Evelintől megvásárolt hangfelvételeket, valamint a mesterséges intelligenciával előállított hamisított felvételeket fogják keverni”. Magyar ekkor nyilvánosságra hozott egy kicsit több mint 3 perces felvételt, amelyen volt barátnője, Vogel Evelin Hanzel Erik vállalkozóval beszél, és amellyel Magyar azt szándékozott bizonyítani, hogy Vogel megzsarolta őt.
November 11-én, hétfőn egy nem egészen másfél perces hangfelvételt küldött szét a sajtónak egy ismeretlen feladó, amelyen vélhetően Vogel és Magyar beszélgetése hallható, és többek közt az hangzik el, hogy „szétszedtek, negyven fokban mentünk át a Hősök terén, azt gondoltam, hogy mi a faszomat csinálok itt? Büdösek az emberek és a szájuk is.”
November 12-én, kedden ugyanez az ismeretlen feladó elküldte a sajtónak a vasárnapi sajtótájékoztatón bemutatott, Vogel és Hanzel közti beszélgetés vágatlan, 1 óra 44 perces verzióját is.

A Vogel-Hanzel beszélgetés alapján a Magyar Nemzet, az Origo és az Index is arról cikkezett, hogy a vágatlan verzió bizonyítja, hogy a vasárnapi sajtótájékoztatón Magyar „hamisított” felvételt tett közzé – azaz a rövidített verzió manipulatív módon összevágott, kontextusából kiragadott mondatokat tartalmaz (az nem merült fel, hogy a felvételt AI segítségével manipulálták volna). Azt egyébként Magyar Péter sem titkolta, hogy a vasárnapi sajtótájékoztatón egy rövidített verziót játszottak le.

A másik, Vogel és Magyar beszélgetését tartalmazó felvételről pedig Magyar azt írta, hogy a hanganyag „egyértelműen összevágott és manipulált”. Emellett azt is állította, hogy a felvételen szereplő egyik mondatot biztosan nem ő mondta (azt nem jelölte meg, hogy melyiket).

Magyar reakciójában nem utalt arra, hogy ezt a konkrét felvételt (vagy egyes részeit) mesterséges intelligencia segítségével állították volna elő, azonban kommentben megosztotta az okoshír.hu cikkét, ami egy AI-felismerő szoftver, a Resemble Detect alapján állította, hogy

„a Vogel Evelin által rögzített hangfelvétel manipulált”.

Forrás: Facebook

Az okoshír.hu Facebook-oldalán november 11-én 14:38-kor hozták le a manipulációt állítólag bizonyító elemzést, Magyar Péter pedig nem egészen 20 perccel később, 14:56-kor említette meg kommentben az oldal cikkét.

Több furcsaságot is találtunk a Magyar Péter által is hivatkozott okoshír.hu oldallal kapcsolatban.

A hangfelvételről szóló cikket

„közleményként” hozták le, és azt írták benne, hogy „mesterséges intelligencia szakértőik” vizsgálták meg a felvételt, de bizonyítékként csak a bárki által hozzáférhető Resemble Detect elemzését mutatták be.

Az okoshír.hu Facebook oldalát november 10-én, tehát egy nappal a hangfelvétel felbukkanása előtt indították, a bemutatkozás utáni első posztjuk Magyar Péter sajtótájékoztatójáról szólt. A honlapot se indíthatták el sokkal korábban, adatkezelési tájékoztatójuk november 11-i keltezésű.

Azt írják magukról, hogy cikkeik mesterséges intelligencia támogatásával készülnek, „amely biztosítja, hogy a híreink mentesek legyenek az esetleges manipulatív értékítéletektől”. Az oldalon található cikkek – a hangfelvételről szóló közlemény kivételével – a tisztahírek.info anyagainak átvételei vagy átdolgozásai. A tisztahírek.info szintén AI által generált híreket ígér.

Az okoshír.hu impresszumában az Öko-Passion Innovációs Kft. szerepel kiadóként, amelynek ügyvezetője facebookos aktivitása alapján a Tisza Párt szimpatizánsa lehet, kérdésünkre ugyanakkor azt válaszolta, hogy nem tagja a pártnak, és azt is írta, hogy a Tisza „semmilyen formában nem köthető az okoshír.hu weboldalhoz”.

Mások is megvizsgáltatták a hangfelvételt az okoshír.hu által használt programmal. Egy Reddit-felhasználó 13:51-kor, a Vastagbőr blog pedig 18:13-kor posztolt arról, hogy a szoftver szerint „a ma kiadott MP-Vogel Evelin hangfelvétel nagy része fake”, a Vastagbőr alapján a Magyar Hang cikke is arról írt, hogy „úgy tűnik, belepiszkáltak” a felvételbe. A népszerűvé vált Tiktok-videójában pedig Pankotai Lili is erre az eszközre hivatkozva állította, hogy manipulált a hangfelvétel.

A Lakmuszon már korábban felhívtuk a figyelmet, hogy az ehhez hasonló kép-és hanganyagok eredetiségének, hitelességének a pontos megítélése nem könnyű feladat, sokszor a független sajtót is komoly kihívások elé állítja. Különösen amiatt, mert jelenleg

nem létezik olyan AI-detektáló eszköz, amely száz százalékos biztonsággal tudná megmondani, hogy egy felvételt mesterséges intelligencia felhasználásával készítettek vagy sem.

A Telex a mostani eset kapcsán tesztelt is néhány programot: az okoshír.hu és a Vastagbőr által használt AI-felismerő szoftver, a Resemble Detect a Vogel-Hanzel hangfelvétel nagy részét is hamisnak minősítette, más AI-detektálásra szakosodott hangelemző programok pedig nem mutattak ki manipulációt a Vogel és Magyar közötti beszélgetésen.

A Mynds.ai Telexnek nyilatkozó szakértője szerint ezek a szoftverek egyelőre nem igazán megbízhatóak, „nagyon rossz állapotban van a technológiának ez a része, ami a különböző deepfake vagy MI-generált tartalmak felismerését illeti”.

Nézzük, mit érdemes tudni ezekről az eszközökről!

1. Resemble Detect

A Resemble Detect 2B a mesterséges intelligencia alapú hanggenerátor, a Resemble AI hangfelismerő modellje. Ez egy nagy méretű adathalmazon képzett, több almodellből álló rendszer, ami többféleképpen elemzi az audio deepfake-re utaló jeleket. Az almodellek segítségével elemzéskor külön „hamissági” pontszámot ad a hanganyag különböző részeire, majd egy küszöbértékkel összehasonlítva dönti el, hogy a hanganyag valódi vagy hamis. Az oldal azt állítja magáról, hogy több mint 94%-os pontossággal képes azonosítani a hamisítást.

Forrás: A Detect-2B eredményei a deepfake audio azonosításában, hat nyelven a deepfake audio előrejelzésében. Forrás: Resemble AI

A tesztelési folyamatuk leírásánál azonban csak 6 nyelv tesztelési eredményét tüntetik fel (a magyar nem szerepel ezek között), és nem derül kis az sem, hogy pontosan mennyi és milyen adatot használtak fel a teszteléshez. Az eredményekről nem állítják, hogy tévedhetetlenek lennének, azt írják hogy „A DETECT-2B képes helyesen azonosítani a deepfake hangklipek túlnyomó többségét, miközben nagyon alacsony hamis pozitív arányt tart fenn.”

Egy Reddit-felhasználó arra is felhívta a figyelmet, hogy a Resemble Detect a saját véletlenszerű tesztjén megbukott a magyar nyelvű szövegek azonosításában.

Forrás: Reddit

2. ElevenLabs és AI Speech Classifier

A Resemble Detect mellett a technológiai lapok az ElevenLabs-t tartják úttörőnek a deepfake hanganyagok készítésében, az oldal azonban a hanganyagok ellenőrzésére is alkalmas. A platform fő profilja alapján természetes hangzású beszédet képes előállítani mesterséges intelligencia (hangklónozás) segítségével.

Az eszköz 2023-ban arról híresült el, hogy a felhasználók hírességek szájába adtak olyan beszédeket, amelyek sohasem hangzottak el: hamis anyagokat készítettek Emma Watsonról, amint Adolf Hitler Mein Kampf című művét olvassa, Joe Bidenről, ahogy bejelenteti, hogy az amerikai csapatok bevonulnak Ukrajnába, valamint a Star Wars-színészekről, akik mélyen sértő, nőgyűlölő és rasszista üzeneteket mondanak.

Az eset után a ElevenLabs közölte, hogy biztosítékokat épít a szoftverbe a visszaélések megakadályozására, és létrehoznak egy olyan eszközt, amelyik be tudja azonosítani a mesterséges hangokat. Ez lett az AI Speech Classifier, ez azonban nem általánosan ellenőrzi a hanganyag manipuláltságát, csak azt állapítja meg, hogy a feltöltött hangfájl az ElevenLabs segítségével készült-e. Az oldal az ellenőrzés metódusáról nem közöl információt.

3. TrueMedia

A TrueMedia egy nonprofit, pártoktól független technológiai szervezet mesterségesintelligencia-alapú eszköze, ami deepfake videók, fényképek és hanganyagok észlelésére hozott létre Oren Etzioni, a Washingtoni Egyetem professzora. Célja a politikai dezinformáció elleni küzdelem volt a 2024-es választások előtt, ahogy a készítői fogalmaztak, hogy a mesterséges intelligenciát használjunk a mesterséges intelligencia elleni küzdelemben. Egy interjúban Etzioni úgy fogalmazott,

„egyetlen detektor sem tökéletes, mert a valószínűségek vezérlik őket”, majd hozzátette, hogy „még a legjobb eszközök használatával sem lehetünk biztosak”.

Az oldal a gyakori kérdéseknél az írja, hogy képes a hanganyagoknál érzékelni, hogy hangot manipulálták vagy klónozták-e, azonban a konkrét módszertant nem részletezi.

Magas hatékonyságot ígérnek, de független tesztek mást mutatnak

A tendencia hasonló a többi AI hangfelismerő eszköznél is: az AI or not szintén mesterséges intelligencia segítségével elemzi a hangfájlokat, azonban az elemzés módszertanát nem közlik, ahogyan az AI Voice Detector esetében sem, ami kutatás közlése nélkül arról tájékoztatja a felhasználókat, hogy „92%-os pontossággal képes azonosítani, hogy egy hang valódi vagy mesterséges intelligencia által generált”. A Pindrop szintén 99%-os sikert ígér, kevesebb mint egy százalék hamis pozitív eredménnyel.

Az egyre alacsonyabb költséggel egyre élethűbb gépi hangok fejlesztésében hatalmas a verseny – rendkívül széles a felhasználási terület a szórakoztatóipari médiatartalmaktól az egészségügyig. A másik oldalon szintén egyre nagyobb az igény a visszaélések csökkentésére az AI-alapú felismerő szoftverekkel. Egyes cégek ezért látják el egyedi audio vízjellel a generált tartalmat, más ellenőrző szoftverek más technológiákkal próbálkoznak – a jelek szerint egyelőre viszont nem támaszkodhatunk száz százalékban az eredményeikre.

Például az amerikai NPR közszolgálati rádió áprilisban három felismerő szoftver, a Pindrop Security, az AI or NOT, és az AI Voice Detector teljesítményét tesztelte – nem tudományos alapon – összesen 84 hangfelvétellelel. Ezeknek körülbelül fele származott az NPR valós rádióadásaiból, a másik felét pedig az AI-alapú PlayHT nevű hanggeneráló szofverrel készítették. Bár mindhárom eszköz 90 százalékos pontosságot ígér, a teszt alapján csak a céges felhasználású Pindrop teljesített 90 százalékos eredmény fölött. A lakossági felhasználású AI or Not az esetek felében, a Voice Detector csupán egynegyed arányban ismerte fel helyesen a felvételeket.

Deepfake és a politikai dezinformáció

Szakértők évek óta figyelmeztetnek a valószerű deepfake és AI-generált tartalmak veszélyeire, amelyek az identitáslopástól a különböző csalásokon (például családtagok hangját használó kamuhívásokon) keresztül a politikai célú dezinformációig terjednek. Újabban azt is hangsúlyozzák: az audio deepfake-ek, tehát a mesterséges intelligenciát használó generált, nem valódi hangfelvételek nagyobb kockázatot jelentenek jelenleg, mint a videós deepfake tartalmak.

Egyrészt azért, mert ezek előállítása egyszerűbb és olcsóbb, másrészt azért, mert alacsony költséggel lényegesen valószerűbb végeredmény állítható elő: míg egy glitch az arcon, vagy a furcsa ujjak néha még elárulják a vizuális AI-tartalmakat, addig ilyen árulkodó jeleket lényegesen nehezebb kiszúrni az AI-generálta hangfelvételeken. Erről a problémáról korábban Veszelszki Ágnessel a Lakmusz podcastjában beszélgettünk.

Forrás

Különböző deepfake-ek tavaly kezdtek el politikai dezinformációs céllal feltűnni komolyabban világszerte. Az egyik legerősebb példa erre a 2023-as szlovákiai választás.

A Reset kutatása több olyan mesterséges intelligencia felhasználásával készült deepfake videót is beazonosított a közösségi médiában a választási kampány finisében, amelyekkel a Progresszív Szlovákiát (PS) igyekeztek besározni.

Az egyik ilyen videón Michal Šimečka, a párt elnöke és egy újságíró beszélgetnek arról, hogyan fog a PS szavazatokat vásárolni szlovákiai romáktól.
Egy másik deepfake felvételen, amit a szélsőjobboldali Republika párt osztott meg, Šimečka és Čaputová köztársasági elnök intik óva a szavazókat a „progresszív birkanyáj vakon követésétől”.
Egy harmadik kísérletben pedig szintén Šimečka mesterségesen generált hangja szerepel: arról beszél, hogy pártja kormányra kerülése esetén az alkoholizmus visszaszorítása érdekében 70-100 százalékkal megemelné a sör árát.

A szlovák eset után az európai közvélemény jelentős része arra számított, hogy a a 2024. júniusi EP-választások előtt nagy számú deepfake tartalmakkal igyekeznek majd befolyásolni az eredményeket az ebben érdekelt szereplők. Azonban úgy tűnik, ez nem történt meg, a deepfake-özön elmaradt, továbbra is a hagyományos dezinformáció dominált. Ezt támasztja alá az is, hogy az európai tényellenőrzőket tömörítő European Fact-Checking Standards Network – aminek a Lakmusz is tagja – hálózatban az EP-választás előtt több mint 3000 médiatartalmat ellenőriztek az újságírók, és ebből 45 volt olyan, amit mesterséges intelligencia generált.

De ismerünk még példákat audio deepfake-ekre a közelmúltból Nigériából, Pakisztánból, Szudánból, az Egyesült Királyságból. A Financial Times összegzése szerint Indiában és Etiópiában később valódinak bizonyult hangfelvételeket hitetlenítettek azzal, hogy deepfake-nek bélyegezték őket.

Idén két amerikai eset is borzolta a kedélyeket. Az elmúlt hónapokban egy olyan audio deepfake keringett a közösségi médiában, amin Obama hangján mondja el a gép, hogy csak akkor lehetne biztosítani a demokrata győzelmet, ha megszabadulnának Trumptól, de ezt „az idióták elvétették”. A felvételt a NewsGuard elemezte, több AI-felismerő szoftver és digitális szakértő bevonásával, így jutottak arra, hogy a hangfelvétel hamis.

Még az előválasztások idején, 2024 januárjában New Hampshire-ben több ezer potenciális demokrata szavazót hívott fel egy Joe Biden hangján beszélő gép, és a választókat távolmaradásra biztatta. Sajtóinformációk szerint Biden mesterséges hangját az ElevenLabs szoftverrel készítethették, amelyről már a cikk elején is írtunk. Az ElevenLabs egyébként a terület egyik legsikeresebb cége –akkor izzottak fel a viták körülötte, amikor lehetővé tette, hogy a gép hírességek hangján mondjon el bármilyen, a felhasználó által begépelt szöveget. Ezt a szolgáltatását később a cég fizető felhasználókra korlátozta. Az eset után betiltották az AI-hangot használó politikai gépi telefonhívásokat az Egyesült Államokban.

Fontos azonban megjegyezni, hogy a politikai dezinformáció terjesztésében a deepfake csak egy újabb eszköz – a hamis információk legnagyobb része bármiféle technikai segítség nélkül, vagy jóval egyszerűbb, úgynevezett „cheap-fake” hamisítványokon keresztül terjed napjainkban. A deepfake terjedése azonban azt a nagyon is valós veszélyt hordozza magában, hogy bárminek a valódiságát meg lehet kérdőjelezni, és mivel száz százalékos bizonyosságot adó ellenőrzési lehetőségek még nincsenek, még inkább hit- vagy meggyőződés alapján döntik el az emberek, mit tartanak valósnak. Erről a problémáról nemrég az Európa Pontban egy deepfake-kel foglalkozó rendezvényen beszélgetett Mezriczky Marcell deepfake kutató, Krekó Péter, a Political Capital igazgatója és Zöldi Blanka, a Lakmusz főszerkesztője.

Forrás

De akkor hogyan védekezzünk ellene?

Ha az audio deepfake-eket ilyen nehéz nagy biztonsággal kiszűrni, akkor mit tehet a nyilvánosság, hogyan védekezhetünk ellenük? A következőkben a Deutsche Welle és a Global Investigative Journalism Network témában született tanácsait foglaltuk össze:

Ne támaszkodjunk sem a megérzésünkre, sem egyetlen deepfake-felismerő szoftver eredményére, ehelyett többlépcsős ellenőrzést végezzünk és több szoftvert használjunk.
A felismerő szoftverek eredményére úgy tekintsünk, mint valószínűségre, ne úgy, mint közvetlen bizonyítékra. Erről a korlátról az újságírók tájékoztassák az olvasóikat, amikor használják őket.
A hamis tartalmakat sokszor úgy állítják elő, hogy érzelmekre hassanak, erre különösen alkalmasak az audio deepfake-ek. Ezért általános tanács, hogy álljunk meg, gondolkodjunk és gyanakodjunk.
Hasonlítsuk össze a gyanús felvételen elhangzó beszédet a hiteles felvétellel ugyanarról az emberről: a hasonló szavak kiejtésében hallgató különbség, a természetellenes szünetek, nem reális levegővétel-ritmus mutathatja az AI nyomait. Egyetlen rövid kis hang szokatlan, idegen kiejtése az anyanyelvi beszélőknél elárulhatja az AI-t.
Használjuk a hagyományos ellenőrző technikákat, vizsgáljuk meg a tartalmat és a kontextust: milyen viszonyban van a felvétel tartalma a már megerősített tényekkel, mi a felvétel forrása, mi tudható róla a közösségi média felületeken vagy a domainadatokból?
Vizsgáljuk meg a felvétel terjedését az interneten és a közösségi médiában.

Címlapi kép: Barczikai Fanni

hangfelvétel Magyar Péter vogel evelin mesterséges intelligencia

A szerzőkről

Pálos Máté

Az ELTE BTK-n végzett, szerkesztett folyóiratot, írt kritikákat. 2014 óta teljes állásban újságíró. Dolgozott a régi Origónál, a Magyar Narancs hetilapnál és a G7.hu gazdasági portálnál. 2024-ben csatlakozott a Lakmuszhoz, 2025 márciusa óta szerkeszt is.

Fülöp Zsófia

2023 májusától a Lakmusz újságírója, korábban 9 évig a Magyar Narancsnál dolgozott, főként egészségügyről, szociális ügyekről és marginalizált csoportokról írt. Az oxfordi Reuters Institute ösztöndíjasaként a romák médiareprezentációját kutatta.

Barczikai Fanni

A Budapesti Corvinus Egyetemen végzett politológus, az ELTE-BTK mesterszakos hallgatója. Az Achilles Data nemzetközi oknyomozó újságíró program díjazottja és a Pelikán Projekt okleveles újságírója. A Lakmusz csapatához 2024 márciusában csatlakozott.

Kövess minket

Ne maradj le egy anyagunkról sem, kövess minket máshol is!

Ajánlott cikkeink

Deák Dániel egy „Gizi néni” nevű mémoldalról elterjedt képet mutatott be a Tisza AI-manipulációjaként

Pálos Máté

Szeptember 10.

Az AI-képek könnyebben lebuktathatók, mint gondolná!

Pálos Máté

Június 24.

Kikérdeztük dezinformációból az AI-t: a ChatGPT simán feltüntette forrásként a Pravdát

Dezső Annamari

Június 5.