Miért nem jelent csalást, hogy Deák Dániel kiszivárogtatott közvélemény-kutatási adatai mást mutattak, mint a Medián publikált eredménye?

2026. március 21. 14:57


A Deák által leleplezésként mutogatott dokumentum valójában a Medián súlyozás előtti, nyers számait tartalmazta. Abban pedig semmi rendkívüli nincs, hogy a súlyozás változtat az eredményen. Elmagyarázzuk, hogyan működik.

Február 25-én jelent meg a Medián Közvélemény- és Piackutató Intézet nagy port kavaró kutatása, ami a választani tudó biztos szavazók körében 20 százalékpontos, a teljes népességben pedig 42-31 arányú Tisza-előnyt mért. Ez két százalékponttal volt több, mint a januári 40-33-as Tisza-vezetés.

A februári felmérés után egy nappal, február 26-án a megafonos Deák Dániel csalással vádolta meg a Mediánt. Arra hivatkozott, hogy eljutott hozzá egy dokumentum, amiből szerinte „egyértelműen kiderül, hogy a Medián januárban nem a valódi mérését publikálta.” A négyoldalas dokumentum Deák szerint a valódi számokat tartalmazza, amik nem 40-33 arányú Tisza-előnyt mutatnak, hanem fej-fej melletti 36-36-ot (Deák itt elfeledkezett a kerekítés szabályairól, ugyanis az általa közölt táblázat valójában 36,1 százalékot mutat a Fidesznél, és 36,9 százalékot a Tiszánál). A hír gyorsan végigfutott a kormánypárti sajtón is, írt róla többek között az Origo, a Magyar Nemzet, a Mandiner és a hirado.hu is.

A Deák által közölt dokumentumban szereplő számok tényleg a Mediántól származtak, csakhogy ezek a januári mérés súlyozás előtti, nyers adatai, és valójában nem állnak ellentmondásban a végleges, 7 százalékpontos Tisza-vezetést mutató számokkal.

A Medián közleményben reagált Deák bejegyzésére. Azt írták, hogy Deák

„illegálisan megszerzett, tudatosan félrevezető, súlyozás nélküli, nem reprezentatív adatokat tett közzé. (…) Cselekedetét aljasnak és felháborítónak tartjuk, elítéljük. A Nemzeti Adatvédelmi és Információszabadság Hatóságnál megtesszük a szükséges lépéseket.”

A kérdés matematikai részéről a Vox Populi választási kalauz írt február 28-i elemzésében.

Cikkünkben elmagyarázzuk, mit jelent a súlyozás, mi biztosítja, hogy az eredmény a teljes társadalomra nézve reprezentatív legyen, és pontosan mi történik egy közvélemény-kutatás nyers adataival a súlyozás során. Ebben Tóka Gábor politológus, a Vox Populi blog szerzője és Hann Endre, a Medián vezetője segít nekünk.

A súlyozás nem manipuláció, hanem kiegyenlítés

Abban egyetértenek a szakértők, hogy egy közvélemény-kutatás nyers számai és a végső, publikált, reprezentatív adatok közötti eltérés természetes. Az eltérést egy kiegyenlítő mechanizmus, a súlyozás okozza, ami nem manipuláció, hanem szakmai követelmény.

„A közvélemény-kutatásnak az a lényege, hogy ugyanazokat a kérdéseket tesszük fel nagyon sok embernek, akik leképezik a társadalomban meglévő véleménykülönbségeket. Ehhez az embereket véletlenszerűen kell kiválasztani” – foglalta össze Tóka Gábor a Lakmusznak, hogyan készülnek a közvélemény-kutatások. Csakhogy hiába keresik fel a közvélemény-kutatók véletlenszerűen az embereket, az már nem teljesen véletlen, hogy kik válaszolnak nekik.

Általános tapasztalat, hogy egyes társadalmi csoportokat telefonos közvélemény-kutatásokkal nehezebb elérni, például a fiatalok sokkal kevésbé veszik fel a telefont és válaszolnak, mint az idősebbek. A nagy jövedelmű és a hátrányos helyzetű emberek egyaránt bizalmatlanok a telefonos kutatásokkal szemben, így ők is sokkal kevésbé válaszolnak a megkeresésekre, mint a középosztálybeliek.

„A mintavétel során sok ilyen torzulás fordul elő. A kutatók ezért súlyozással egyenlítik ki annak a következményeit, hogy nem véletlenszerűen érik el az embereket, és hogy bizonyos emberek nagyobb valószínűséggel válaszolnak a kérdéseikre”

– mondja Tóka.

Hann Endrét arról kérdeztük, a Mediánnál hogyan történik a súlyozás. A kutató azt mondta:

„Konszenzuálisan a KSH 2022-es népszámlálási adatait tekintjük a valóságnak. Egy véletlen alapon előállított minta (a legtöbbször 1000 fős, de előfordul ennél valamivel kisebb, de akár kétszer-háromszor nagyobb is) összetétele a legtöbb esetben kicsit eltér az etalontól. Például kicsivel több a nő, kicsivel több az idős válaszadó és így tovább. Ezeket az eltéréseket kiegyenlítendő képezünk súlyokat, vagyis egy olyan szorzót, amivel az elvártnál kisebb arányban meglévő népességcsoportok válaszait valamennyivel nagyobb arányban vesszük figyelembe.”

Majd hozzátette: mivel több jellemzőt is figyelembe kell venni, a nemet, életkort, iskolai végzettséget és a település típusát, ezeket egyszerre kell arányosítani. Ez egy komplex művelet, amit egy számítógépes programmal végeznek el.

Felmerülhet a kérdés: miért nem lehet természetes módon kiküszöbölni ezeket a torzulásokat, vagyis például addig folytatni a kutatást és a telefonhívásokat, amíg nem válaszol kellő számú – a népszámlálási adatok arányait pontosan leképező – férfi vagy fiatal?

A válasz egyszerű: a közvélemény-kutatások legnagyobb korlátja az idő.

Ha megnézzük a kutatások módszertanát, azokat általában 3-5 nap alatt végzik a különböző kutatóintézetek – a Medián februári mintavétele öt nap alatt történt. Ahhoz azonban, hogy a népességbeli arányoknak megfelelő nő-férfi vagy fiatal-idős arányokat lehessen elérni természetes módon, sokkal tovább, akár hosszú hetekig is telefonálgatni kellene a kutatóknak. Előfordulhat, hogy már a kutatás első napján összejön az a mennyiségű válasz az 50 év feletti korosztálytól, ami szükséges a reprezentativitáshoz, de a 18-39 évesek megfelelő arányának eléréséhez akár hetekig is interjúzni kellene.

„Ami természetes számokból nem tud felépülni egy közvélemény-kutatás során, azt súlyozással építik fel. Minél jobban sietnek a kutatók, annál nagyobb szorzókkal kell dolgozniuk”

– mondja erről Tóka Gábor.

Ha több a nő

Tóka szerint a legegyszerűbben a nők példáján lehet levezetni, hogyan kell elképzelni a gyakorlatban a súlyozást. A nőket legtöbbször könnyebb elérni a telefonos kutatások során, és nagyobb eséllyel is válaszolnak, mint a férfiak, így általában több nő van egy mintában, mint férfi.

Viszont mivel a KSH 2022-es népszámlálási adatai szerint a magyar népességben 52 százalék a nők aránya, 48 százalék a férfiaké, a reprezentativitáshoz ezeket az arányokat kell leképezni a mintában is.

Ha egy kutatás során egy adott mintában 57,2 százaléknyi nőt sikerül elérni, vagyis egy tizeddel (5,2 százalékponttal) többet, mint amekkora a népességben lévő arányuk (például 520 nő helyett 572 nő szerepel egy ezerfős mintában), akkor azt súlyozással kell kiigazítani, hogy a valós népességbeli arányokat tükrözze a minta.

A példában ezért a nőket nem egy emberként kell számolni, hanem 0,9 emberként. Ezt a szorzót úgy kapjuk meg, hogy a nők valódi népességbeli arányát elosztjuk a nyers mintában létrejött aránnyal, vagyis ebben az esetben az 52-t 57,2-vel. Ha viszont egy csoport alulreprezentált a mintában, mint a példában a 48 százalékos népességbeli arányuk helyett 42,8 százalékkal szereplő férfiak, akkor őket 1-nél nagyobb szorzóval kell számolni (ennél a példánál 1,1 emberként).

A helyzetet bonyolítja, hogy általában négy jellemzőt, szakszóval változót vesznek alapul a közvélemény-kutatók a súlyozásnál: a nemet, az életkort, az iskolai végzettséget és a lakóhely típusát. Így a képlet bonyolultabb lesz, de az elv ugyanaz mindenhol.

A KSH adataihoz viszonyítva kell felszorozni a mintában lévő számokat, hogy az leképezze a felnőtt magyar népesség nemre, életkorra, iskolai végzettségre és lakóhelyre vonatkozó arányait, így pedig reprezentatív legyen a kutatás.

A népszámlálási adatok mellett alapul lehetne venni a mikrocenzusok (két népszámlálás közötti nagymintás népesség-összeírás) adatait vagy más nagymintás statisztikákat is, de a Medián a 2022-es népszámlálási adatokhoz viszonyít a súlyozás során.

Tóka Gábor azt is megjegyezte: más tényezőkre is lehetne súlyozni a már említett négy változón kívül. A 2022-es választás előtt például még nem voltunk messze a Covid-járványtól, voltak nyilvánosan elérhető adatok a magyar népesség átoltottságáról, a Mi Hazánk pedig oltásellenes kampányt folytatott. Akkor releváns lett volna rákérdezni arra, hogy a válaszadók be vannak-e oltva, és az adatokat súlyozni kellett volna az átoltottsági adatokhoz viszonyítva. Ezzel ki lehetett volna kerülni azt, hogy alul- vagy felülreprezentáltak legyenek azok, akik nem akarták beoltatni magukat, és így ne legyenek alá- vagy felülbecsülve a Mi Hazánk támogatói.

Hann Endre, a Medián vezetője
Fotó: botost/444.hu

Hogy alakulnak az adatok súlyozás után?

A Deák Dániel által nyilvánosságra hozott és félrevezetően bemutatott dokumentum első oldalán jól látszik a nyers adatokból, hogy a Medián januári nyers mintájában több volt a férfi (50,3 százalék), mint a nő (49,7 százalék). Itt tehát a véletlenszerű megkérdezések után éppen a nők voltak alulreprezentálva.

A valós társadalmi eloszláshoz képest igazán nagy különbségek az életkori megoszlásban mutatkoztak, ezt megerősítette a Lakmusznak Hann Endre is. A nyers mintában a 18-39 évesek aránya 21 százalék volt, az 50 év felettieké pedig 62,5 százalék.

A KSH 2022-es népszámlálási adatai szerint viszont a felnőtt népességnek az 50 év felettiek a 48,5 százalékát teszik ki, a 18-39 évesek pedig a 32 százalékát.

A népszámlálási adatok és a mintában szereplő arányok közötti különbségeket ezért súlyozással kellett kiigazítani.

Ez a fentebb említett képlet (valódi népességarány/a nyers mintában létrejött arány) alapján konkrétan azt jelenti, hogy az 50 év felettieket 0,78-as szorzóval (48,5/62,5) kellett figyelembe venni, a 18-39 évesek pedig 1,5-ös súlyt kaptak (32/21).

Ugyanígy kellett eljárni a három másik változónál (nem, iskolai végzettség és településtípus) is, így jött ki a 37-36 százalékos Tisza-előnyt mutató nyers adatból a súlyozott, reprezentatív 40-33 százalékos ellenzéki vezetés.

Tóka Gábor kíváncsi volt, hogy a súlyozás tényleg okozhat-e ekkora eltérést a nyers minta és a végeredmény között, ezért a Minerva Intézet számait alapul véve kiszámolta az ő közvélemény-kutatásukban a nyers és a súlyozott számok közötti különbséget. A Minerva Intézet AI-alapú kérdezővel támogatott közvélemény-kutatásokat végez, a felmérések publikálása mellett pedig minden alkalommal megosztják a nyers adatokat is.

Tóka a Minerva novemberi adatait vette alapul, ahol a mintában még kisebb volt a 18-39 évesek aránya, mint a Medián januári mintájában. Így jöhetett ki a nyers adatokból látszó 36-31 arányú Fidesz vezetésből a súlyozás után 36-32 arányú Tisza vezetés. „Ami a Deákot elszörnyesztő 6 százalék helyett egy 8 százalékos változás a két nagy párt közti különbségben, pusztán a súlyozás miatt” – írta akkor Tóka.

1000 fő vagy 1176 fő

Mráz Ágoston Sámuel, a kormányközeli Nézőpont Intézet igazgatója is reagált Deák Dániel bejegyzésére. Ő azt rótta fel a Mediánnak, hogy a nyilvánosságra hozott nyers adatok szerint 1176 interjút készítettek, holott azt publikálták, hogy ezerfős mintán alapul a kutatásuk. Erről megkérdeztük Hann Endrét, aki azt mondta: „súlyozással egységesítjük a fájlokat.”

Ez úgy érhető el, hogy a súlyozásnál már alapesetként azt adják meg, hogy egy ember válasza ne egyet érjen, hanem valamivel kevesebbet, vagy szakszóval egynél kisebb, például 0,8-as legyen a súlyváltozó átlaga. Ezek után azok a csoportok, akik felülreprezentáltak a mintában, például az idősek, 0,8-nál is alacsonyabb súlyt kapnak, azok pedig, akik alulreprezentáltak, például a fiatalok, a 0,8-hoz képest kapnak magasabb súlyt.

Tóka Gábor elmondta, ennek az eljárásnak valójában nincs jelentősége, mert ugyan általában a súlyváltozó átlagát 1-re szokták beállítani (ezerfős nyers mintából így ezerfős reprezentatív minta lesz), de attól, hogy a kutató azt más számra állítja be, a kutatás eredményei nem változnak, csak az esetszám csökken. Ez nem azt jelenti, hogy a mintából kihagynának akár csak egy interjút is.

Csak arról van szó, hogy az 1176 fős mintából matematikai módszerekkel ezerfős mintát kreáltak anélkül, hogy a pártpreferencia arányokon változtattak volna.

Attól még túlbecsülhetik a Tiszát

Mindettől függetlenül felmerülhetnek olyan strukturális tényezők, amiknek lehet torzító hatásuk a közvélemény-kutatások eredményeire, de súlyozással nem lehet őket kiküszöbölni.

Tóka Gábor úgy véli, a mostani választás előtt a Fidesz támogatói azok, akik kevésbé szívesen beszélnek a politikáról közvélemény-kutatókkal, a tiszások pedig érdeklődőbbek és közlékenyebbek is, mert most látnak esélyt a változásra. Erre azonban nyilvánvalóan nem lehet súlyozni.

„Szerintem a közvélemény-kutatások túlbecsülik a Tisza előnyét, pusztán azért, mert a mintákban felülreprezentáltak lehetnek a Tisza támogatói, ők most szívesebben elegyednek beszédbe politikáról egy idegen telefonálóval is”

– magyarázza Tóka.

Címlapi kép: Dezső Annamari

A szerzőről

Fülöp Zsófia

Fülöp Zsófia

2023 májusától a Lakmusz újságírója, korábban 9 évig a Magyar Narancsnál dolgozott, főként egészségügyről, szociális ügyekről és marginalizált csoportokról írt. Az oxfordi Reuters Institute ösztöndíjasaként a romák médiareprezentációját kutatta.

Kövess minket!

Ne maradj le egy anyagunkról sem, kövess minket máshol is!

Iratkozz fel hírlevelünkre!

Kéthetente csütörtökön küldjük neked a legfontosabb cikkeinket, kiegészítve újságíróink személyes ajánlásaival: érdekességek, programok, podcastok, könyvek, filmek. Ha szeretnél képben lenni a legfrissebb dezinformációs trendekkel, iratkozz fel a Lakmusz hírlevelére!

A hírlevélről bármikor leiratkozhatsz.
Bővebb információkért olvasd el adatkezelési szabályzatunkat!